文 | 中国科学院科技战略咨询研究院大数据战略研究中心执行主任、研究员 冯海红 近年来,国家数据局等部门探索制定数据资源统计调查制度,健全数据资源协同调查机制,发布数据资源调查年度报告,初步形成动态监测我国数据资源的调查方法和工作机制。2025年4月29日,《全国数据资源调查报告(2024年)》(以下简称《报告》)在第八届数字中国建设峰会正式发布,对全国数据资源发展态势进行系统性调查分析、综合性评估研判,为纵深推进数据要素市场化价值化提供坚实的基础支撑。 聚焦数据要素价值释放,构建数据资源基础调查制度 准确掌握我国丰富的数据资源情况,是深化数据要素市场化配置改革、构建以数据为关键要素的数字经济的基础性工作,需要兼顾数据资源特征和统计调查规范,探索健全跟踪监测数据资源发展态势的专业性统计调查制度。 (一)紧扣国家数据发展战略导向与重点举措 当前,我国数据领域正以数据要素市场化配置改革为主线,围绕数据产权、收益分配等夯实制度体系,推动数据资源开发利用和数据产业发展,构建统一开放、繁荣活跃的数据市场,着力释放数据要素在各行业各领域的乘数效应,以深化数据领域“改革攻坚”加快数据要素市场化价值化进程。《报告》系统调查全国数据生产、存储、计算、流通和应用等关键环节的基本态势,并结合人工智能等热点领域进行测算评估,旨在摸清全国数据资源底数,及时全面反映我国数据资源全貌,将为研判我国数据领域发展趋势、优化政策措施、强化行业管理提供基础性的调研依据。 (二)遵循国家统计调查政策法规与现行模式 2025年初,国家数据局制定《全国数据资源统计调查制度》(以下简称《制度》),并由国家统计局批准实施,全国数据资源统计调查工作正式迈入制度化规范化新阶段。《制度》基本形成目标清晰、报表合理、实施有力、披露规范、聚焦新经济新领域的部门统计调查项目,既构建覆盖公共数据、科学数据、企业数据3个领域和12张报表的统计调查报表体系,也对调查目的、调查对象和统计范围、调查频率和时间、调查方法、组织实施、质量控制、信息共享等内容进行说明或明确。另外,《制度》根据国家统计基本单位名录库信息,开展名录库信息互惠共享,补充行业管理所需单位名录库信息,探索构建数据领域统计调查基本单位名录库。从调查数据回收情况来看,此次统计调查的有效样本覆盖了除国际组织外的所有国民经济行业门类,初步形成专业性强、覆盖面广的专项统计调查工作。 (三)探索数据资源统计调查方法与工作机制 从建立实施机制、明确调查对象、开展专业培训、确定测算方法等方面,探索形成系统性的调查方案和运行机制。实施机制方面,《制度》由国家数据局统一组织,调查数据以《报告》形式向社会发布。调查对象方面,覆盖合法拥有或控制数据的各类单位,主要包括省级数据管理部门、国家实验室、全国重点实验室、国家科学数据中心、中央企业、重点行业协会商会、数据交易机构、数据服务方和数据应用方企业等。专业培训方面,全国数据资源统计调查工作组针对重点指标、填报流程、平台操作、数据质量控制等内容,分类型分批次组织开展统计调查专题培训工作,有效提升调查对象的理解认识和统计操作。测算方法方面,基于分层抽样统计调查数据,《报告》根据调查企业的不同行业及规模特征,加权推算总体企业的数据生产和存储规模。 展现数据资源总体态势,系统刻画数据资源关键板块 基于统计调查和数据测算,《报告》覆盖数据资源的总量、增速、热点领域、活跃情况、区域分布、行业差异以及算力基础设施等方面内容,立体性、多维度勾勒出全国数据资源的整体情况。 (一)全国数据生产总量加速增长 《报告》从数据生产总量及增长态势、战略性新兴产业数据生产等方面,总结分析了全国数据资源生产情况。《报告》显示,2024年全国数据生产量达41.06泽字节(ZB),同比增长25%,增速提高2.56个百分点,呈现加速增长态势。智能家居、智能网联汽车等智能设备数据生产增速位居前列,在数据总量增长中发挥着强有力的带动作用。战略性新兴产业领域成为数据资源的新增长点,低空经济和机器人数据生产量增速超过30%。同时,《报告》展望认为,无人驾驶、具身智能、低空经济等战略性新兴产业和未来产业的数据资源规模将保持高速增长。 (二)全国数据存储结构持续优化 《报告》从数据存储总量及增长态势、数据存储的结构特征、数据存储空间利用等方面,概括总结了全国数据资源存储情况。《报告》显示,2024年全国数据存储总量、新增数据存储总量分别达到2.09泽字节(ZB)、1.15泽字节(ZB),同比增幅均超过20%。结构化数据存储规模同比增长36%,该增幅远超非结构化数据存储规模增速,表明全国数据资源整体质量及数据治理成效显著提升。另外,数据存储空间利用率达到61%,同比提升2个百分点,反映出全国数据存储与基础设施建设呈现较好的协调联动发展态势。 (三)数据资源区域行业分布不均 《报告》从区域和行业等方面揭示了我国数据资源分布不均衡现状,并研究分析了产生差异性的相关影响因素。《报告》发现,区域数据资源水平和经济发展高度相关,经济大省数据资源集聚效应明显,广东、江苏、山东、浙江、河南和四川6个省份数据生产量占全国比重达57.45%。《报告》认为,行业数据资源开发利用水平与数字化投入密切相关,制造、金融、交通物流行业数据生产总量领先其他行业,金融、采矿、交通物流行业企业平均数据生产量位居前三。 (四)算力基础设施建设提速升级 《报告》从算力规模、区域分布、算力结构、市场化算力供给等方面,总结了算力基础设施建设的基本态势。《报告》指出,国家枢纽节点算力资源持续集聚,2024年全国算力总规模达280EFLOPS(每秒百亿亿次浮点运算),八大国家枢纽节点算力总规模达到175EFLOPS。同时,智能算力布局加速,智能算力规模达90EFLOPS,在算力总规模中占比提升至32%,为海量数据计算提供智能底座。另外,市场对智能算力的需求呈爆发式增长,企业布局智能算力提速。中央企业和数据技术企业的算力规模分别增长近3倍、近1倍,智能算力占比分别达到40.22%、43.63%。 关注数据资源新兴热点,及时反映数据领域前沿动态 结合经济社会发展最新形势和数据要素市场化配置改革重点举措,围绕数据要素价值创造路径及模式,强化数据资源重点工作的统计调查和监测分析,为评估政策实施进展和数据赋能效应提供调研支撑。 (一)公共数据资源开发利用加快推进 《报告》结合公共数据资源相关的政策部署和系列工作,从数据共享、数据开放、授权运营、应用场景等方面形成公共数据资源开发利用的主要进展。数据共享方面,建成全国一体化政务数据共享枢纽,推动国务院部门垂管系统向基层“回流”数据8.2亿条,为“高效办成一件事”等提供有力的数据支撑。数据开放方面,2024年地市级以上公共数据开放平台数量增长7.5%,开放的数据量增长7.1%,公共数据集开放总量稳步增长。授权运营方面,超六成省(自治区、直辖市)、计划单列市启动授权运营工作,地市级公共数据授权运营数据量为省级的2.53倍,公共数据授权运营逐步规范化、有序化。应用场景方面,公共数据服务产品数量同比增长超过40%,涵盖交通、环保、医疗等经济社会各领域,涉及低空经济、多式联运、保险理赔、征信服务等场景,公共数据服务场景日益丰富。 (二)企业数据资源应用活力显著提升 《报告》结合数据要素市场化价值化的基本导向,从数据结构、数据利用、数据赋能、数据流通、直接收益等方面形成企业数据资源应用的基本态势。数据结构方面,活跃数据总量占企业存储数据总量为62.04%,活跃数据总量同比提升22.73%。数据利用方面,企业用数需求旺盛,2024年约66%的行业龙头企业和30%的数据技术企业购买过数据,企业数据与公共数据融合应用场景加速增长。数据赋能方面,企业数据在技术研发、生产协同、产品营销、售后服务等关键环节中发挥重要作用,同时支撑产业链供应链韧性不断提升。数据流通方面,平台企业成为数据流通的关键枢纽,促进企业数据与气象、交通、地理等公共数据加速融合,广泛应用于客户服务、精准营销、研发创新等场景。典型行业方面,交通物流、电力行业数据资源开发利用活跃度远高于全国平均水平,分别为78.24%、75.83%。直接收益方面,2024年利用数据获得直接收益的企业实现小幅提升。同时,《报告》展望认为,企业数据价值挖掘重心从服务自身数字化转型向数据要素化、市场化拓展,数据跨主体流通、跨行业应用、跨场景赋能的乘数效应加速释放。 (三)人工智能发展与数据资源利用深度融合 《报告》结合人工智能大模型发展前沿,调研分析了人工智能与数据资源开发利用相互促进的基本态势。一是数据领域企业积极开展人工智能训练和应用,开发或应用人工智能的企业数量同比增长36%,利用大模型的数据技术企业和数据应用企业数量分别增长57.21%、37.14%。二是智能应用带动数据资源规模加速增长,企业高质量数据集数量增速达27.4%,用于开发、训练和推理的数据量同比增长40.95%,智能家居、智能网联汽车等智能设备数据增速分别达到51.43%、29.28%。《报告》认为,大模型有望帮助企业降低非结构化数据加工成本,推动数据资源开发利用提档加速。 来源(公众号):北京数据
2025-07-22 18:19 159
在数字化转型的时代浪潮中,数据已然跃升为关键生产要素,住房城乡建设部发布的《“数字住建”建设整体布局规划》,强调以“四好”建设为主线,以数据资源为核心,全面推动住房城乡建设领域数字化、智能化转型,提升行业治理能力和服务水平,为城市高质量发展注入新动能。 一、政策内涵:数据驱动住建事业全方位变革 政策层面,“数字住建”的核心目标是通过构建统一、高效的数字基础设施和数据资源体系,打破传统住建领域的信息壁垒,实现数据的全生命周期管理与深度应用。打造部、省、市三级联动的“数字住建”工作平台,推动城市运行管理“一网统管”,这一部署从顶层设计上确立了数据要素在住建领域的核心地位。 从政策导向来看,“数字住建”绝非简单的技术叠加,而是要以数据赋能为关键路径,推动住建领域治理模式从“经验驱动”向“数据驱动”转变,从“分散管理”向“协同治理”升级。通过建立健全数据标准规范、安全保障体系,确保数据的真实性、准确性和可用性,为住建领域的科学决策、精准服务和高效监管提供坚实支撑。 二、重点方向:以数字底座为基石,推动住建领域数智升级 (一)夯实城市数字底座,筑牢数智化根基 数据要素的乘数效应需要技术底座的支撑,城市数字底座整合基础地理信息、建筑物、市政设施等全域空间数据,以及人口、经济、社会等非空间数据,构建统一的时空大数据平台,为数字住房、数字工程等应用提供“数据富矿”。同时,依托人工智能、大数据、区块链技术对底座数据进行深度挖掘,构建城市运行态势感知模型,实时监测城市住建领域的关键指标,为城市治理提供“千里眼”“顺风耳”,提升城市对各类风险的预判和处置能力。 (二)发展数字住房,重塑居住服务新范式 数字住房建设以数据要素为核心,推动住房全生命周期的数字化管理。在住房开发阶段,利用大数据分析市场需求、人口结构变化等因素,精准定位住房供给类型与规模。在建设阶段,通过BIM技术与物联网设备的结合,实现施工过程的数字化管控,保障住房建设品质。在住房交易与管理阶段,搭建数字化住房服务平台,整合房源信息、交易数据、产权登记等数据,实现住房交易全程线上化、透明化。同时,基于住户行为数据提供个性化服务,打造“人、房、服务”深度融合的数字生活场景,提升居民居住体验。 (三)推进数字工程,提升工程建设管理效能 数字工程建设聚焦工程全生命周期的数字化转型,借助大数据、人工智能技术优化工程管理流程。在项目策划阶段,通过分析历史工程数据、政策法规数据,实现项目可行性研究的智能化评估。在设计阶段,利用AI辅助设计工具与BIM技术的协同,提高设计效率和质量,减少设计变更。在施工阶段,部署物联网感知设备采集施工现场的人员、机械、物料等数据,实现对施工安全、进度、质量的实时监管。在运维阶段,建立工程运维数字档案,通过数据分析预测设施故障,实现主动运维、精准运维,延长工程使用寿命。 (四)打造数字城市,提升城市协同管理水平 发挥数据要素的乘数效应,要打破城市“数据孤岛”的壁垒,通过构建统一的数据共享交换平台,将分散在公安、交通、城管等部门的碎片化信息串联成完整的数据链条,这种跨领域的数据融合,让城市管理从“被动响应”转向“主动预判”,协同效率提升的同时,也降低了行政成本。同时,发展数智融合的公共服务,推动政务服务、社区服务等线上线下一体化,通过AI客服、智能审批等提升服务效率,让群众享受更便捷、高效的服务。 (五)赋能数字村镇,推动城乡协同发展 数字村镇建设聚焦乡村住房、基础设施、公共服务等领域的数字化改造。通过采集村镇地理信息、房屋数据、产业数据等,构建村镇数字孪生模型,为村镇规划、建设和管理提供数据支撑。在乡村住房建设方面,推广适合乡村的数字化设计标准,利用大数据指导农房建设,提升农房安全性和舒适性。同时,依托数字技术推动村镇公共服务升级,建立农村产权交易数字平台、乡村治理数字化系统,促进城乡要素双向流动。 三、价值与展望:开启住建数字化新征程 发挥数据要素的乘数效应在城市治理领域赛道的深度应用,正在激活住建领域的发展新动能。从短期来看,通过数据赋能提升了住建领域的管理效率和服务质量,降低了行政成本和社会运行成本。从长期来看,将推动住建领域形成数据驱动的创新生态,为城市可持续发展、城乡协调发展提供有力支撑。 展望未来,随着5G、人工智能、区块链等技术的不断成熟,数据要素在住建领域的应用将更加深入。数字住房将实现“千人千面”的个性化服务,数字工程将迈向全流程智能化管理,数字城市将达成“一屏观全域、一网管全城”的治理愿景。这一过程中,需要持续完善数据安全保障体系、健全数据共享机制,让数据要素在安全可控的前提下充分释放乘数价值,为住建领域高质量发展注入源源不断的动力。 作者:周小平 北京建筑大学智能科学与技术学院教授 来源(公众号):国家数据局
2025-07-18 16:40 99
数据建模听起来像是一个高调的词,你会在高风险的创业公司路演中听到,或者在数据团队会议上虔诚地低声说。但如果你曾经列过购物清单,或者对衣柜进行过分类(没错,袜子总要有个归宿),那么恭喜你——某种程度上来说,你已经在进行数据建模了。 在这篇博客中,我们将深入剖析最近学习到的一些最重要的数据建模方法——所有这些都是在努力平衡过多的标签、大量的咖啡和一个令人困惑的橡皮鸭调试会话的过程中完成的。我们将从数据建模层和范式到星型模式、数据仓库、ETL/ELT,甚至Spark 管道,分解关键概念,并提供真实案例,避免过多的专业术语。 数据建模层:概念层、逻辑层、物理层 数据建模是设计数据系统结构的过程。它通常分为三个层次: ·概念模型——业务实体和关系的高级视图,不包含技术细节。 ·逻辑模型——定义表结构、关系、键和属性。独立于物理存储。 ·物理模型——在特定的数据库引擎中实现逻辑模型,包括索引、分区和数据类型。 想象: 你正在规划一栋房子。 概念=纸上草图(卧室、厨房、浴室) 逻辑=带有测量和布局的蓝图 物理 =用木材、瓷砖和电线实际建造 数据库规范化(1NF-3NF) 规范化可帮助您减少重复并提高数据完整性——通过将大型冗余表拆分为更小、干净相关的表。 前三个范式是: ·1NF:消除重复组和嵌套数据。 ·2NF:消除部分依赖——每一列必须依赖于完整的主键。 ·3NF:删除传递依赖关系——非键列必须仅依赖于键。 想想你的衣柜: 1NF:所有东西都折叠起来,没有嵌套在另一件衬衫里 2NF:每个抽屉只包含一个类别(没有混合的衬衫+裤子) 3NF:配饰(如腰带)与服装分开存放 TL;DR:进行规范化,直到您的查询高效并且您的连接看起来不像谋杀谜题板。 星型模式 星型模式是数据仓库中使用的一种维度建模方法。 ·它以一个中心事实表(销售额或收入等定量数据)为特色,周围环绕着维度表(客户、产品、地区等描述性数据)。 ·此设置可使您的 SQL 速度更快并且仪表板更整洁。 可以将事实表想象成商店的销售登记簿。维度表则是产品目录、客户目录和商店列表。这种结构使分析查询更快、更容易。 事实表与维度表 ·事实表:包含可测量的定量数据(例如销售额、数量、收入),通常非常大(数百万或数十亿行),并具有引用维度表的外键 ·维度表:存储描述性、分类数据(例如,客户名称、产品类型、地区),有助于为事实表中的数字提供背景信息,通常较小且经常被引用 ·Inmon 方法(自上而下):首先使用规范化结构(通常为 3NF)创建一个集中式企业数据仓库 (EDW)。数据经过大量的暂存和转换后加载到仓库中。EDW 完成后,将为特定部门(例如销售、人力资源、财务)创建数据集市。这种方法有利于实现强大的治理、一致性和长期可扩展性。 ·Kimball 方法(自下而上):首先使用非规范化的星型模式,直接从源系统构建数据集市。这些数据集市随后会集成到更大的数据仓库中,或作为独立的数据集市保留。该方法强调速度、访问便捷性和业务友好性。 技术权衡: ·Inmon需要更多的前期规划、更长的时间表和更严格的建模规则,但可以提供高度的数据完整性。 ·Kimball部署速度更快,分析师查询也更方便——但如果管理不善,可能会导致重复和控制松散。 当你需要全局一致性时,请选择Inmon 。当速度和可用性至关重要时, 请选择Kimball 。 现实世界?大多数团队都会两者兼顾。而且会花数周时间去命名表格,却无人能达成一致。 数据仓库建模 Data Vault 是一种混合数据建模方法,旨在实现敏捷、可扩展且可审计的数据仓库。它将数据分为三个核心部分: ·中心——代表唯一的业务实体(例如,客户、产品)。每一行都由一个业务键唯一标识。 ·链接——定义中心之间的多对多关系(例如,客户→订单)。 ·卫星——包含与中心或链接相关的上下文、历史变化和描述性属性。 主要特点: ·支持缓慢变化维度(SCD)的历史跟踪。 - ·专为并行加载而设计——集线器、链路和卫星可以独立加载。 ·鼓励可审计性、沿袭跟踪和易于模式扩展。 可以将 Data Vault 想象成乐高套件——灵活、可扩展,并且您可以在不破坏整个套件的情况下克服错误。 一个大表(OBT):快速,平坦,并且......有缺陷? OBT将事实数据和维度数据合并到单个宽表中。它快速、简单,非常适合仪表板。 但: ·很难维持。 ·模式改变=麻烦。 ·空值?哦,肯定有很多。 例如: 想象一下,你不再为收据、供应商和日期设置单独的文件夹,而是将所有信息都放在一个大电子表格里。阅读速度很快,但维护起来却很困难。 何时使用:优先考虑速度的仪表板或 BI 工具、原型设计或 MVP 分析,以及当模式更改最少且简单性是关键时 ETL 与 ELT 与 ETLT ·ETL:提取→转换→加载——数据在加载到仓库之前进行转换。 ·ELT:提取→加载→转换——将原始数据加载到仓库中,然后进行转换。 ·ETLT:一种混合体,具有轻度处理预载和之后更深层次的转换。 把它想象成烹饪: ETL 是在下锅前把所有食材准备好。ELT 则是把所有食材放入锅中,边煮边调味。ETLT 介于大厨和“冰箱里有什么?”之间。 数据转换工具 常用工具: ·AWS Glue:基于 Apache Spark 构建的无服务器 ETL。配置正确后,可扩展性良好。 ·DBT:云数据仓库内部基于 SQL 的转换。非常适合仓库中的版本控制和 CI/CD。 ·AWS DataBrew:无需代码即可进行数据整理。拖放式转换。非常适合快速探索或非程序员使用。 ·Pandas/Spark——用于转换的自定义脚本。非常适合处理早期混乱的数据或一次性批处理作业。 Hadoop 与 Spark:传统与 Lightning Hadoop: ·批处理。 ·将数据存储在磁盘上 ·适用于大型但速度较慢的数据工作负载,历史上使用较多 Spark: ·内存处理,分布式计算。 ·处理批处理、流处理、ML,甚至 SQL ·为 AWS Glue、Databricks 等现代工具以及一半的面试问题提供支持。 TL;DR:当您的数据管道想要感觉快速和智能时,它就会使用 Spark。 机器学习的特征工程 您并不总是能够构建模型,但您却能够使模型成为可能。 作为数据工程师,您的职责是准备: ·清理并标记的数据集 ·编码类别(标签、独热) ·缩放数值 ·衍生特征(例如“每分钟观看次数”) ·噪声或缺失值最少的数据集 特征工程就像准备饭菜。准备得越干净、越好,厨师(你的机器学习模型)的工作速度就越快。 TL;DR 备忘单 最后的想法 好的建模造就好的数据。那么,好的数据呢?这是每一个伟大的产品、洞察和决策的开端。 因此,无论您是在绘制第一个星型模式还是在生产中设置并行 Spark 作业,请谨慎、清晰地构建数据,并设置适当的混乱度以保持其趣味性 来源(公众号):数据驱动智能
2025-07-17 18:21 141
文 | 武汉大学校长、大数据分析与应用技术国家工程实验室主任 张平文 数据要素是建设数字中国、实现数字化转型升级的战略性资源。摸清我国数据资源的规模、结构与发展趋势等基本盘,剖析数据在生产、存储、计算、流通和应用等各环节的基本面,对于我国进一步推动数据价值释放、形成数据产业具有重要作用。今年是国家数据局第二次组织开展全国数据资源统计调查工作,有效样本数量1.44万个,覆盖除国际组织外的所有国民经济行业门类,调查的科学性、权威性和指导性显著增强。《全国数据资源调查报告(2024年)》(以下简称“报告”)对数据总体情况、区域行业领域分布等进行了系统分析,为我国数据要素市场建设提供了科学量化的评估基础,也为政策制定者和市场主体提供了重要参考。 01 对2024年度我国数据资源调查指标的解读 (一)数据资源规模优势持续扩大,数据资源质量逐步提升报告显示,2024年全国数据生产量41.06 ZB,存储总量2.09 ZB,活跃总量1.3 ZB。我国数据资源规模优势进一步在智能家居、智能网联汽车等智能设备,以及无人机、机器人等战略性新兴产业的快速发展中得到巩固,尤其是计算数据与合成数据增速已超过传统影音视听数据,反映出我国数据资源从“规模扩张”向“质量提升”的转变。 (二)算力基础设施加速布局,智能算力发展潜力巨大2024年我国算力总规模达280 EFLOPS,其中智能算力占比提升至32%,发展潜力巨大。“东数西算”工程推动算力资源跨区域协同。尽管高端算力仍依赖进口,国产芯片在适配性与生态建设上正在突破。值得注意的是,AI大模型尤其是DeepSeek的应用爆发,将进一步加快算力基础设施自主可控进程。 (三)数据与AI形成良性互动,垂直领域应用加速渗透一方面,人工智能与大模型的发展为数据要素市场注入新动能。报告显示,已有约10%的企业开展了大模型应用,同比增长超37%。另一方面,随着人工智能向垂直领域发展,数据产业发展进入快车道。报告显示,高质量数据集增速达27.4%,利用大模型的数据技术企业数量同比增长57.21%,数据应用企业增长37.14%。随着我国数据要素市场的建设完善,数据流通交易方式逐渐发展成熟,去年约有66%的行业龙头企业,以及30%的数据技术企业购买过数据。 (四)数据要素市场建设初显成效,政策框架逐步完善公共数据方面,全国一体化政务数据共享枢纽累计支撑调用超5400亿次,“1+3”政策体系推动授权运营规范化,超六成省(自治区、直辖市)和计划单列市启动了公共数据授权运营工作,公共数据服务产品数量同比增长40%。企业数据方面,数据总量中被至少使用一次的活跃数据占比提升至62.04%,平台企业成为数据流通枢纽,制造业、金融业、交通物流业数据生产总量居行业前列。 02 对我国数据资源发展的未来展望 (一)提升数据资源质量,促进可信数据空间建设一要深化数据质量提升工程。加快建立统一的数据标准体系,重点完善数据资源、流通交易、安全保障等关键标准,增强跨行业、跨领域数据互操作性。推广首席数据官制度,强化数据分类分级管理,通过数据登记、授权运营等机制,激活数据市场价值。鼓励行业龙头企业开放脱敏数据,支持开源社区建设垂直领域数据集,如医疗影像、智能制造等,填补AI训练数据缺口。二要促进可信数据空间建设。国资央企应在可信数据空间建设上发挥主力作用,依托隐私计算、区块链、数据沙箱等技术构建可信管控能力,分类推进企业、行业、城市、个人、跨境五类可信数据空间建设,实现数据“可用不可见”的安全流通,形成可复制的标杆案例。三要谋划跨境可信数据空间建设。积极参与数据跨境流动国际规则和标准制定,推动我国可信数据空间技术标准与认证体系、数据分级分类体系等全球适用。探索自贸试验区负面清单管理,优化数据出境安全评估流程,促进跨境数据有序流动。 (二)加速AI与数据融合,构建良性产业生态一是支持大模型与实体产业紧密结合。聚焦实体产业核心场景需求,以场景驱动为牵引,依托算力支撑、数据赋能、算法模型创新三大基础力量,创建AI与数据融合使用的“无感化”工具,降低中小企业数字化和智能化转型升级门槛。二是支持数据要素商业模式创新。引导市场开展数据保险业务,建立数据安全风险基金,鼓励探索数据安全风险分配方式,以减轻数据持有者未来的数据安全责任,确保其在数据交易、开发和利用中“轻装上阵”。三是支持数据产业生态主体发展。培育数据商、第三方服务机构等生态主体,建立收益分配与风险防控机制。培育数据安全服务型企业,推进数据安全服务行业发展,为数据产业生态保驾护航。 (三)优化数据政策环境,释放各方协同潜力 一要优化数据要素发展环境。出台以发展促安全的系列政策措施。例如,将损害发生作为追责的触发机制,构建“无损害不追责”的底线追责逻辑,保证底线安全的同时,卸下数据持有者的“未来责任”包袱,激励其探索数据开发利用的新模式、新业态。 二要促进数据要素综合试验区建设。鼓励各试验区立足数字生态环境,科学谋划差异化发展定位,构建“基础建设—能力创新—应用落地”的全链条推进体系,打造具有区域辨识度的标志性成果。通过分类指导、动态评估,确保试验区建设既体现地方特色,又符合国家数据要素市场发展总体方向。 三要强化区域协调发展。创建多类数据合作专区。促进京津冀、长三角、成渝、中部城市群探索数据跨省协同机制,构建区域数据合作专区。鼓励粤港澳探索数据跨境协同机制,构建跨境数据合作专区。鼓励垂直领域头部企业数据协同创新,构建跨行业数据合作专区。
2025-07-14 18:28 179
数据专业人员经常谈论将数据作为组织资产进行管理的重要性,但这意味着什么呢?数据的实际商业价值是什么?如何衡量这一价值?我们如何将数据作为资产进行管理? 我们需要问的第一个问题是:“资产”到底是什么?根据财务会计准则委员会的规定,资产具有三个基本特征: –可以单独或与其他资产组合用于为企业谋利。 –特定企业可以获得该资产的利益,并控制其他企业对该资产的使用。 –导致企业控制该资产的权利的交易或事件已经发生;也就是说,投资已经完成,资产可供使用。 《CPA杂志》这样说道:“数据是一种经济资产,可以帮助组织改善运营、增加收入、巩固与利益相关者的关系、创造新的收入来源、提高现有产品的质量、建立竞争差异化、促进创新并降低风险。” 因此,资产可以定义为一种资源,可以通过管理为企业创造某种价值或利益。反过来,所产生的价值可以通过管理为组织带来某种竞争优势的方式进行管理。资产和资产所产生的价值都必须是可管理的,资产的经济效益必须是可衡量的。 数据资产 下面我们将讨论如何将数据作为资产进行管理,因为数据对这种管理的要求相似。然而,它们并不是一回事。当数据被打包成一种能够有具体意义被理解时,它就变成了信息,使数据的接收者能够解决问题、回答问题或利用机会。当人们将数据作为资产时,他们经常说数据是“新石油”或“水”。然而,石油和水都需要经过处理或精炼,使其能够满足特定需求(例如,将水处理成可饮用的形式,或将原油精炼成汽油或取暖油)。一位作者这样说道: 计算机首次被引入商业世界时,它们被用来处理数据。它们是主力……后来很明显,这些主力可以向管理层报告汇总数据,让管理层了解正在发生的事情。计算机报告开始满足用户的操作和信息需求……它们经常问,你想要什么数据,而不是你需要什么信息? 重要的是要明白,数据(原始和未处理形式)不一定是企业的资产。只有当数据经过适当“提炼”并可用于满足组织的信息需求时,它才能被视为资产。正如CPAJournal所说: 如今,注册会计师也面临着类似的挑战。组织在收集数据时没有考虑这样做的后果。实际存储成本不断下降,鼓励组织尽可能多地储存数据,因为他们相信这些数据具有一定的未来经济效益,尽管会计行业仍在努力为具有无形属性的物品赋予财务价值。 将数据转换为信息(将数据转换为有助于决策者做出更有效决策的格式)可以推动数据的最终资产价值,并有助于其创造新商机或减少欺诈、浪费和滥用。 数据的商业价值是什么 数据的商业价值是什么,或者换句话说,为什么数据可以被视为商业资产?首先,数据用于将业务利益相关者聚集到一组共同的事实和信息周围,这些事实和信息可以在整个组织内共享并用于决策。换个比喻,它为社区提供了一个公共水池,每个人都可以饮用。如果我们都能获得一组共同的、一致同意的事实,那么我们就能了解组织的当前状态,并就我们应该做什么和不应该做什么进行明智、理性的讨论。当每个人都生活在基于精心挑选的数据、数据选择偏差、认知偏差和叙述谬误的自我选择的“信息泡沫”中时,这些对话就变得不可能了。每个人都需要对正在发生的事情和没有发生的事情达成共识。这个“公共水池”是许多重要业务功能的关键推动因素,包括跨部门报告、法规遵从性、数据分析和实时决策。 数据的另一个价值是它可用于创建价值生成信息流(虚拟价值流),以创造性和有利可图的方式将组织与其利益相关者联系起来。DavidR.Vincent指出,在新的全球经济中,商业价值是通过与商业利益相关者建立和培养关系来创造的。他进一步指出,有效关系的本质在于赋权,在于赋予人们能力为自己做更多的事情,并在组织的最低层创造价值。 例如,体育用品商店Cabela's会自动向优先客户发送电子邮件,告知他们即将售罄的商品的折扣优惠。AmericanHospitalSupply(AHS)创建了一个在线订阅门户,客户可以使用该门户直接从AHS的供应商处订购。客户每月向AHS支付订阅费即可使用该门户,并享受折扣价格和更快的服务。AHS的供应商获得了更多客户和订单。AHS获得每份订单的一定比例,并且无需维护库存仓库和送货车队,从而节省了开支。他们还获得了更满意的客户! 数据还可用于帮助组织改进和简化其业务流程。例如,六西格玛是许多大公司使用的数据驱动流程改进方法。福特汽车公司使用这种方法简化了他们的订单采购流程,用一个包含订单的数据库取代了涉及三个不同纸质文件和三组人员的手动流程,该数据库可在收货码头进行验证和更新。这种精简将开具订单发票和向供应商付款的过程缩短了数周!福特还实现了从设计到制造的流程自动化,使其能够承担更大的设计风险并生产出更具客户吸引力的汽车设计。 数据可用于扁平化简化企业层级结构并减少中介机构,从而赋予被授权的个人和创业团队更多责任。企业可以通过自动化物料处理和“准时”向装配线上的工人交付零件等方式降低成本。他们可以使用数据为其产品增添智能。例如,当检测到卡车零件故障时,长途卡车的流媒体数据广播可以向调度员发出信号。调度员可以指示卡车司机前往最近的服务中心。公司还可以使用数据来增强其品牌差异化。例如,美国运通为其企业客户开发了差异化的旅行服务,利用信息系统搜索最低的机票、酒店和租车价格,并跟踪每个持卡人的旅行费用。 数据也是重要的颠覆因素。Hammer和Champy指出,客户在与卖家的关系中占据了优势,部分原因是客户现在可以轻松获取大量数据。例如,通过亚马逊在线订购的流行可以通过消费者可以轻松并排比较产品和价格以获得最优惠的价格来解释。美国航空公司利用其SABRE预订系统与旅行社建立了优先且利润丰厚的关系。现在,消费者可以使用Travelocity和Expedia等网站自行预订,完全绕过旅行社! 上文提到的美国医院供应公司(AHS)是一个很好的例子,说明一个组织如何利用数据作为必要的颠覆因素,彻底重塑和重新设计其业务流程。AHS曾经有一个标准的业务模式,即从供应商处购买产品,将其存储在仓库中,然后将其交付给客户。现在,通过其在线门户,客户可以直接从供应商处订购产品,为所有相关人员节省时间、麻烦和费用!这种业务转型使AHS处于更有利的地位,可以与亚马逊等其他在线零售商竞争。 数据用于支持业务分析,使公司能够更有效地管理客户、识别交叉销售和追加销售机会、识别新市场、创造和评估新产品和服务、识别表现不佳的产品和市场,并对实时或近乎实时地变化的市场条件做出反应。 大多数组织都拥有可以打包和货币化即出售给他人的数据。客户和订单数据通常出售给第三方营销人员,并用于相关商品和服务的定向广告。PolkAutomotive(现为S&PGlobal的一部分)出售与大多数汽车和卡车制造商使用的全国车辆登记有关的打包数据。 数据作为流动资产 数据是一种特殊类型的资产,称为流动资产,与建筑物或车辆等固定资产不同。流动资产很容易从一种形式转变为另一种形式(例如,现金可用于购买原材料),并且可以在无需获得债权人等许可的情况下使用和处置。流动资产有很多种类型,例如浮动资产(包括现金和任何其他可以轻松转换为现金的东西)、生产资料(包括一次性用于制造市场商品的原材料和燃料),最后是数据。 但数据是非常特殊的流动资产,具有一些非常特殊的属性,我们需要注意: 数据是不枯竭的——它不会被消耗,因此在其使用寿命结束之前,始终可供重复使用。 数据是可复制的——它可以同时存在于多个地方,并可被多人同时使用。 数据是不可分割的——必须在赋予其意义和商业价值的上下文中使用。例如,数字串“12345”是什么意思?答案是,这取决于具体情况,这取决于这些数字出现的上下文。如果它们出现在汽车里程表上,那么它们就是里程数字。如果它们出现在会计分类账或资产负债表上,那么它们可能是金额值。如果它们出现在信封的地址部分,那么它们可能是邮政编码。 数据具有累积性——它可以与其他数据结合,并随意转化为额外的数据资产。 数据与其他资产之间的另一个关键区别是,数据具有“适合用途”的方面,而其他资产则不存在。当您花费现金或清算股票时,您不必问它们是否适合预期用途。对于数据资产,必须付出努力来确保其质量、及时性和相关性使其符合其使用目的。必须始终提出并回答“这些数据足够好吗?”这个问题。 数据的这些特殊性质使我们对如何管理数据以便为组织创造价值有了一些了解。一方面,这意味着数据资产的价值与其共享和重用直接相关。数据需要动态变化,而不是静态变化。数据需要用于创建信息的“虚拟价值流”,以创造性和引人入胜的方式将组织与其客户和其他利益相关者联系起来。多年前,我曾说过,大多数组织都没有从其数据中获得任何可观的投资回报率(ROI),因为大部分数据都位于特定于应用程序的数据库或Excel电子表格中,并且仅用于支持一个应用程序或业务功能。未在业务部门之间共享和重用的数据不会为组织带来重大价值! 这也意味着必须对数据进行管理,以确保它们“适合”用于任何用途。组织必须能够信任其数据的质量、准确性、及时性和业务相关性。所有资产都必须进行管理;数据的不同之处在于,用户必须对他们正在使用的数据有足够的了解(例如,数据的来源、质量、含义和及时性),以决定如何使用它以及将它用于什么用途。如上所述,数据只有在赋予其意义和价值的环境中使用时才有价值。 这就引出了我们的第三点:由于数据只有在特定背景下才有意义,因此数据的消费者需要元数据来帮助他们决定如何使用它。这是数据与其他资产之间的重要区别。在决定是否花20元的钞票时,您不需要太多元数据,但在尝试决定一组给定的会计数据是否适合用于向股东、监管机构和审计师提交的年终报告,还是仅适合用于每月试算表时,您确实需要元数据。 正是数据管理的这三个方面(管理数据的质量和适用性、为数据分配元数据/上下文、以及管理数据以供重用/重新利用)将数据从单纯的资源转变为实际的数据资产。 关于资产管理的最后一点:一般来说,所管理的不是资产本身,而是利益相关者对该资产的行为。我们管理的不是金钱,而是人们在消费方面的行为以及他们的消费报告。库存经理控制新库存的订购时间和数量。数据经理管理的是获取、评估、增强、配置、使用和(最终)处置数据资产的过程,以确保公司以最低成本获得最大价值。资产管理从来都不是物品的管理——它始终是人员和流程的管理。 在上文中,我们将数据定义为一种特殊的流动资产,并讨论了其特殊特征。我们需要解决的下一个问题是:究竟应该如何管理数据才能最大限度地发挥其价值? 我们如何管理数据资产 数据是组织资产,因此需要在组织层面进行管理。每个业务部门不能拥有自己的“真相”——就像一个国家的每个州或省都有自己的货币一样。但我们如何以创造价值的方式管理它们呢? 在组织中经常发生的情况是,业务人员从任何他们能获取的数据中收集和储存数据,比如Excel电子表格和Access数据库,就像松鼠为过冬采集坚果一样。他们以各种未知的方式操纵和过滤数据以满足个人目的,然后他们经常在整个组织中共享这些数据,而这些数据的使用方式可能不恰当,甚至非常危险。随着时间的推移,这些分散且质量低下的数据可能会削弱组织做出正确决策或有效应对新业务挑战的能力。我有时会用鼹鼠来打比方,它们的活动会对人们的草坪和花园造成很大破坏。鼹鼠并不是故意这样做的;它们只是想建造房屋并养活家人。但它们试图满足自己需求的方式可能会产生毁灭性的后果! 在商业智能书中,经济学的两条基本定律应用于数据管理。大多数人都熟悉的格雷欣定律指出,劣质货币最终会使优质货币退出流通。但格雷欣定律有一个推论,称为蒂尔定律,该定律指出,格雷欣定律仅适用于“法定货币”,即政府(或某些类似机构)规定两种货币具有相同价值的情况。例如,如果政府规定,镀银的铜镍币与纯银币具有相同的价值,人们就会囤积价值更高的硬币,而让价值较低的硬币继续流通。“劣质货币”会将“优质货币”挤出流通。但如果人们被允许对硬币进行自己的估价,他们会更愿意用价值更高的硬币进行交易,因此“优质货币”会将“劣质货币”挤出流通。 我为什么要告诉你这些?因为格雷欣定律和蒂尔定律既适用于货币,也适用于数据!如果坏数据和坏信息被认为不比好数据和好信息好或差,那么虚假信息最终会胜出(原因无他,就是获取和使用坏数据更容易、更快、更便宜)。但如果好数据和好信息被认为更有价值(而且同样容易获取和使用),那么好信息就会驱逐虚假信息。 这意味着我们需要创建比本地控制的Excel和Access数据“坏货币”更有价值、更有用数据资产,并使这些资产在整个组织内快速、轻松地可用。 那么,问题来了,我们如何才能创建一种高质量、业务相关、可重复使用的数据“良性货币”,从而取代Excel和Access数据这种“不良货币”或至少将其控制在可控范围内?以下是一些想法: 首先,在组织中尽可能高的层次上定义(即建模)数据资产。确定哪些数据实体和属性以及哪些业务规则与整个组织有关,哪些是规范的(即它们跨越多个业务领域),哪些只与某些业务领域或子域有关。当前有一种称为数据网格的商业智能方法,其中所有数据都在域(即业务主题领域)级别定义,并且分析结果(称为数据产品)在该级别创建和发布。这种方法的问题在于,组织的大部分数据跨越多个业务领域,需要在整个组织内一致地定义才能发挥作用。[ii]同样,需要知道分析结果是适用于整个组织,还是仅适用于特定的部门或业务部门。 其次,需要对数据进行管理,以确保其质量、及时性、一致性、可重用性和业务相关性。这可能意味着,例如,在主数据管理(MDM)目录中管理企业级数据资产,并在整个组织内发布这些数据。它还可能涉及维护一个通用存储库(例如,企业数据仓库或类似的东西),在其中可以管理组织数据资产和数据产品以供使用和重用。 几十年前,经济学家加勒特·哈丁发表了一篇名为《公地悲剧》的文章,指出任何人都可以使用但无人管理或维护的资产会遭遇什么后果。这些资产会遭到破坏,最终年久失修,无人使用。 第三,确保有一个正式的流程来创建、维护、使用和发布数据资产。这称为数据治理,本质上是企业制定的一套规则,用于管理人们在数据方面的行为方式(记住我之前说过的资产管理!)。数据治理可以在业务领域层面有效实施,并得到业务高层的指导和监督。这非常符合数据网格方法和罗伯特·塞纳(RobertSeiner)的“非侵入式”数据治理方法。 第四,不要忘记元数据!元数据的目的不仅仅是描述数据资产,而是主动回答消费者可能对它们提出的问题。这些数据从何而来?它有多新?它有多可信?哪些业务流程创建了它?哪些业务流程使用它?对这些数据进行了哪些转换或过滤,为什么?这些数据的业务含义是什么?它对业务的价值是什么?这些数据可用于哪些业务目的?这些数据不能用于什么?使用元数据来维护整个组织的数据资产的透明度,并确保可以轻松找到、使用和信任这些资产。 第五,确保数据资产在整个组织内公开并可访问,并确保人们知道在哪里以及如何找到它们。教育用户在哪里以及如何找到好数据、如何区分好数据和坏数据、如何避免常见的数据使用错误、如何确定分析结果何时可能不完整或不正确以及如何报告数据错误和问题以便快速解决。此外,确保识别并弃用不太可靠的数据副本。 最后,采用迭代(即敏捷)方法进行数据管理和BI。不要试图一次性解决所有问题。听从业务部门的指示,了解哪些数据资产对组织最重要,并创建一个可迭代执行的可行流程,以随着时间的推移改进数据和数据治理流程。 接下来我们需要解决的问题是:我们究竟如何衡量数据的商业价值,谁应该负责管理数据资产并衡量其价值? 我们如何衡量数据的价值 我们如何衡量和说明数据资产的价值?例如,我们不能将“65TB的数据”放入会计账簿并为其分配价值!这就是管理数据比管理其他业务资产更困难的原因。正如Gartner副总裁兼杰出分析师DouglasLaney所说“一家大型政府机构的信息战略主管向我宣称,‘我们对大楼内厕所的核算比对信息的核算更准确。’” 但也有办法解决这个问题。如上图所示,Gartner提出了六种不同的方法来衡量数据资产的价值: 信息的内在价值(IVI)。这衡量了组织数据的正确性、完整性和排他性(本质上,如果数据是完美的,则估计数据的经济价值减去当前不良、缺失或可疑数据对业务的经济影响或风险) 信息的商业价值(BVI)。这衡量了数据的特定商业用途所创造的价值;例如,使用特定数据来实现订单履行 信息绩效价值(PVI)。这衡量影响关键业务驱动因素和KPI的数据的价值 信息成本价值(CVI)。这衡量了数据丢失或损坏时组织的成本 信息的市场价值(MVI)。这衡量了通过出售或交易(即货币化)数据可以获得的价值 信息的经济价值(EVI)。这衡量了数据对组织底线的直接贡献 对于每一项措施,问题都是:我们如何衡量数据所贡献的价值?我推荐的一种方法是使用以数据为中心的流程改进计划,如六西格玛。六西格玛使用组织的数据资产来量化业务流程的价值以及流程改进的价值。因此,业务流程的价值决定了支持和实现该流程的数据的价值,而改进业务流程的成本节省决定了实现该改进的数据的价值。我们还可以计算出支持业务流程的数据的业务价值,它等于如果数据以某种方式丢失或损坏,导致流程无法运行,公司将遭受的损失。 对于业务驱动因素和KPI而言,通过实现目标或提高KPI(比如10%)而产生的业务价值就是使组织能够实现该目标或提高该KPI的数据的价值。 对于新的业务计划,例如需要“360度全方位”了解客户的新客户参与计划、市场扩张或新产品或服务的推出,该计划创造的业务价值就是支持和促成该计划的数据的价值。当然,如果数据被打包并营销,那么数据的价值就是它产生的收入。 我提出的另一个建议是利用组织的问题报告和解决流程。大多数公司都有在问题发生时开具“故障单”并追踪该问题的根本原因和最终解决方案的流程。如果业务中断或流程故障可以追溯到数据丢失或不正确,那么这些数据的价值就是中断的业务成本。 谁应该做这项工作 最后一个问题是:谁应该负责衡量和提高数据资产的商业价值?我的答案是:组织的首席数据官(CDO)或其代表。如果您的组织没有CDO以及支持数据管理/治理团队,则应该有一个,并且该人应该向CEO或CFO报告,而不是向CIO报告,尽管CIO的头衔不同,但他们主要负责部署和维护技术基础设施,而不是管理数据。 在我看来,CDO有三个主要职责: 创建、打包、分发并持续改进数据资产的质量和实用性;不断以多种方式利用这些资产来创造和提升商业价值衡量、记录和跟踪这些数据资产产生的商业价值,并将该价值报告给高级管理层CDO的职责包括:确定需要在何处创建或改进数据资产;创建和管理数据治理团队,以确保整个组织都能获得高质量的数据;培训整个组织的员工,让他们知道如何以及如何查找、使用和管理数据;建立程序,以能够产生商业价值的方式使用数据(通过简化业务流程、支持新的业务计划、管理和改善利益相关者关系以及将数据产品和信息服务货币化);以及跟踪和公布这些数据资产所产生的商业价值。 小结 数据的资产价值是人们长期讨论的话题,但在我看来,人们并没有认真考虑过。组织管理层的最高层需要进行认真的对话,而不仅仅是在数据管理组织中。 在创建、修改或转换业务流程时,对数据的认识需要成为每位高管和经理思考的一部分。业务经理需要了解数据对于支持为公司创造收入的产品和服务的流程的重要性。他们还需要了解如果基础数据丢失、损坏、不完整或过时,收入会受到多大的不利影响。 首席数据官需要负责建立有效的数据管理和数据治理流程,以确保始终提供高质量、及时、准确、可用、与业务相关的数据,并且人们知道在哪里可以找到这些数据、如何获取这些数据以及如何使用这些数据。六西格玛等数据驱动的流程改进计划可用于利用数据,从而直接提高业务绩效并创造业务价值。这些业务收入和成本节约可以也应该进行跟踪和衡量,并不断向高级管理层报告数据的业务价值。 我们经常谈论“数据驱动型”组织的重要性,但在组织实现“数据驱动型”之前,它首先需要具备“数据意识”。然后,它需要学习如何管理其拥有的数据,如何使用这些数据创造商业价值,以及如何衡量所产生的价值。衡量的就是管理的,而管理的就是推动商业价值的因素。 我们的组织需要专注于管理数据以创造商业价值,然后衡量、跟踪和报告这一价值。 来源(公众号):数据驱动智能
2025-07-11 14:05 156
数据就像企业的血液,AI就是企业的大脑。如今,每家企业都在谈数字化转型,都在建数据中台,都想实现数据驱动。可面对海量数据,很多企业却深陷"数据泥潭"。 有的企业像"蹲在金山上的穷人",拥有大量数据却无法变现。有的像"站在岔路口的迷途者",不知该如何开展数据治理。还有的则像"守着空仓库的掌柜",数据质量差、标准乱、无法应用。 直到ChatGPT横空出世,AI赋能数据治理的春天已经到来。某世界500强企业引入AI数据治理平台后,3个月完成500万条数据清洗,准确率达99.9%;6个月打通16个业务系统,数据应用覆盖率提升300%;1年创造经济价值超过2亿元。 智能数据治理正在重塑企业数据价值新生态。本文将为大家揭秘AI如何赋能数据治理,解密数据治理各模块协同机制,展望智能数据治理发展趋势。 数据治理与AI的共舞: 重构企业数据价值新生态 传统数据治理遭遇瓶颈。企业数据量呈爆炸式增长,数据类型日趋复杂,传统人工数据治理模式已无力应对。国内某知名电商平台每天产生超过100TB的数据,涵盖用户行为、交易记录、物流信息等多个维度。面对如此庞大的数据体量,纯人工模式难以保证数据质量和一致性。 AI技术为数据治理带来革命性突破。智能化数据治理正在成为行业新趋势。美国高盛银行通过引入AI数据治理平台,将数据标准化处理时间缩短80%,数据质量准确率提升至99.9%。国内某保险集团运用AI技术重构数据治理体系,实现7×24小时数据异常自动预警,为数据资产保驾护航。 打造智能数据治理生态需要8大核心模块协同。数据集成确保数据高效汇聚,数据标准统一口径规范,数据质量守护资产价值,数据安全筑牢防护屏障,数据开发释放创新动力,数据服务激活应用场景,主数据夯实业务基础,数据资产驱动价值创造。这些模块紧密联系,相互支撑,构建起完整的智能数据治理体系。 全球某知名制造企业的数据治理转型之路生动诠释了各模块协同的重要性。该企业引入智能数据治理平台后,通过数据集成模块自动采集生产线数据,AI算法实时监测数据质量,智能数据标准引擎保障数据一致性。数据安全模块结合机器学习技术,构建多层级数据防护网。数据开发团队运用AI工具提升研发效率,数据服务支持柔性生产决策。主数据平台统一产品信息,数据资产管理实现降本增效。最终帮助企业实现生产效率提升35%,产品不良率下降60%,年创造价值超过10亿元。 智能数据治理正在开启数字时代新篇章。AI赋能让数据治理更智慧、更高效、更有价值。未来,随着大模型、联邦学习等前沿技术的应用,智能数据治理将迎来更大发展空间。企业只有构建起科学完备的数据治理体系,才能在数字化浪潮中立于不败之地。 智能协同: AI重塑数据治理新范式 数据集成与标准的智能联动。某跨国零售集团运用AI技术打通数据孤岛,机器学习算法自动识别30多个业务系统的数据结构,智能匹配映射关系。知识图谱技术构建统一数据标准体系,实现全球42个国家的商品主数据自动标准化。AI模型持续学习优化,数据标准符合率从75%提升至98%,为企业数字化转型奠定基础。 数据质量与安全的智联防护。国内头部金融机构基于联邦学习技术,构建"质量+安全"双轮驱动模式。AI实时监测交易数据质量,自动发现异常并追溯根因。隐私计算保障数据安全流通,实现数据可用不可见。深度学习模型分析历史案例,建立风险预警机制,有效防范数据泄露风险。该方案获央行数字金融创新奖,成为行业标杆。 数据开发与服务的智慧升级。全球领先科技公司推出AI驱动的数据开发平台,代码智能补全提升开发效率40%。大模型技术赋能数据服务,自然语言交互让业务人员轻松获取数据洞察。某汽车制造商应用该平台后,新数据服务上线周期从月缩短至周,数据应用覆盖率提升3倍,产品研发决策更快更准。 主数据与资产的智能联动。医疗行业巨头借助AI重构主数据管理体系。图数据库技术梳理药品、器械、病症关系,建立医疗知识图谱。AI算法自动计算数据资产价值,优化数据治理投入产出比。通过知识推理提供智能诊疗建议,创造显著社会价值。该方案获得IEEE创新技术奖,引领行业变革。 八大模块智能协同产生强大合力。美国顶级投行打造数据治理"中枢神经系统",实现数据全生命周期智能管理。新加坡电信巨头基于AI构建数据治理"免疫系统",数据安全事件降低80%。德国工业龙头企业建设数据治理"营养系统",数据价值转化率提升50%。 数据治理正在迈入智能化新时代。AI赋能让各模块协同更高效,数据价值释放更充分。未来已来,企业唯有拥抱变革,构建智能数据治理体系,才能在数字经济时代赢得先机。智能数据治理,让数据成为企业腾飞的翅膀。 智启未来: 数据治理创新实践与趋势展望 大模型引领数据治理新革命。OpenAI、Google等科技巨头纷纷将大模型技术应用于数据治理。ChatGPT助手可快速识别数据异常,提供修复建议。PaLM 2模型支持跨语言数据标准化,准确率达95%。国内某通信企业基于文心一言构建智能数据治理平台,数据处理效率提升10倍,运维成本降低60%。 联邦学习破解数据孤岛难题。全球医疗巨头采用联邦学习技术打通多家医院数据,在保护隐私前提下实现数据价值共享。某大型银行集团基于联邦学习构建风控模型,覆盖15个国家机构,欺诈识别准确率提升30%。工业互联网平台通过联邦学习整合供应链数据,库存周转率提高25%。 知识图谱重塑数据智能体系。互联网领军企业运用知识图谱技术构建数据关系网络,智能发现数据价值。某新能源企业应用知识图谱优化生产工艺,良品率提升15%。零售巨头借助知识图谱分析消费者行为,精准营销转化率提高40%。知识图谱让数据治理更智慧、更精准、更有价值。 智能数据治理落地关键。第一步做好顶层设计,明确治理目标,制定技术路线图。第二步选择合适AI技术,分步骤实施智能化升级。第三步建立效果评估机制,持续优化治理方案。某制造业龙头三年完成数据治理转型,数据价值转化率提升200%,年化收益过亿。 数智融合时代已经到来。随着AIGC、量子计算等前沿技术发展,智能数据治理将迎来更大突破。企业要积极拥抱AI技术,构建智能数据治理能力,在数字化浪潮中抢占先机。让智能数据治理为企业插上腾飞的翅膀,开启数据价值新纪元。 数据治理正在开启智能化新征程。AI技术让数据治理更智慧、更高效、更有价值。企业要把握机遇,以科技创新引领发展,用智能数据治理激发数据价值,在数字经济时代赢得主动权。未来已来,智启非凡。 来源(公众号):大数据AI智能圈
2025-07-10 17:21 260
"老王,你们的DAU数据怎么跟产品那边对不上?" "别提了,产品那边统计的是去重用户,我们统计的是活跃会话..." "那GMV呢?怎么财务说我们的数据又不对?" "emmm...这个..." 这样的对话,在各大互联网公司的数据团队里几乎每天都在上演。数据不一致、指标混乱、重复建设——这些问题就像顽固的牛皮癣,让无数数据人头疼不已。 我在某厂待了五年,从一个数据小白成长为数据架构师,亲眼见证了一个完整的数仓指标体系从无到有的搭建过程。 今天想跟大家聊聊这个话题,不讲虚的,只说实的。 数据乱象背后的真相 你有没有遇到过这样的情况:同一个指标,在不同的报表里数值完全不同? 我记得有一次,CEO在周会上问:"我们的月活用户到底是多少?" 运营同学说是1200万,产品同学说是1000万,数据同学说是1100万。三个人,三个数字,CEO当场就懵了。 这种尴尬的背后,暴露出数据团队的核心问题:缺乏统一的指标体系。 每个团队都有自己的统计口径,就像各自为政的诸侯国,表面上都在为公司服务,实际上却在制造混乱。运营看的是去重用户,产品看的是活跃设备,数据看的是登录次数——名字都叫"月活",本质却天差地别。 更要命的是,这种混乱还在不断加剧。新来的数据同学不知道历史逻辑,往往会重新定义一套指标;老同学离职了,留下的代码没人敢动;业务发展太快,指标定义来不及更新... 就这样,数据团队陷入了一个恶性循环:指标越来越多,但可信度越来越低。 重新定义指标体系的价值 指标体系到底是什么? 很多人把它理解为一堆数据字典,这个理解太浅了。 真正的指标体系,是数据的宪法。它规定了数据世界的基本法则:什么是用户、什么是订单、什么是收入。有了这个宪法,所有数据相关的工作都有了统一的标准。 我们在某厂搭建指标体系时,遇到的第一个问题就是:如何定义"一单"? 听起来很简单,但细想起来复杂得很。 用户下单但没有接单,算一单吗?接单了但用户取消了,算一单吗?送到了但用户没上车,算一单吗? 这些看似细枝末节的问题,却直接影响着公司的核心指标。订单量、完单率、取消率...所有指标都依赖于对"一单"的定义。 我们花了整整三个月时间,跟产品、运营、财务各个部门反复沟通,才最终确定了"一单"的精确定义。 这个定义包含了订单的全生命周期,涵盖了各种边界情况,成为了后续所有指标计算的基础。 这就是指标体系的价值:它不是简单的数据汇总,而是对业务本质的深度思考和精确定义。 从混乱到有序的实战路径 搭建指标体系,不是技术活,是管理活。 我们的做法是"三步走":先统一语言,再规范流程,最后工具支撑。 第一步,统一语言 我们建立了一个"数据词典",把所有核心概念都定义清楚。 不仅仅是指标定义,还包括维度定义、计算口径、统计周期...每一个细节都要标准化。 这个过程很痛苦,因为要打破既有的利益格局。 每个部门都有自己的"历史包袱",都觉得自己的定义是对的。我们组织了无数次跨部门会议,一个指标一个指标地讨论,一个维度一个维度地确认。 第二步,规范流程 有了统一的语言,还要有规范的流程。 我们建立了指标的全生命周期管理机制:从指标定义、开发、测试、上线、监控、下线,每个环节都有明确的责任人和审批流程。 新增指标不能随便加,必须经过业务评估、技术评估、影响评估。 修改指标更不能随便改,必须有充分的理由和完善的影响分析。 第三步,工具支撑 光有制度还不够,还要有工具来保障执行。 我们开发了一套指标管理平台,集成了指标定义、血缘分析、质量监控、使用统计等功能。 这个平台最大的价值不是技术本身,而是强制执行了我们的规范。 想要创建新指标?必须通过平台。想要查看指标定义?必须通过平台。想要修改指标逻辑?必须通过平台。 指标体系的终极目标 很多人认为,指标体系的目标是统一数据。 这个理解还是太浅了。 指标体系的真正目标,是让数据驱动业务决策。 数据的价值不在于多,而在于准。一个准确的核心指标,胜过一千个模糊的边缘指标。 我们在某厂建立了一套"X星指标"体系,把公司的核心目标分解成几个关键指标,每个指标都有明确的定义、计算方法、责任人。这些指标就像X星一样,指引着整个公司的发展方向。 每周的业务会议上,大家讨论的都是这些核心指标的变化:为什么订单量下降了?为什么客单价上升了?为什么用户满意度提高了? 这些讨论不再是数据的罗列,而是对业务本质的深度思考。数据成为了业务决策的有力武器,而不是装饰品。 结语 指标体系搭建是一个长期工程,不是一蹴而就的。它需要技术支撑,更需要业务理解;需要工具平台,更需要组织保障。 最重要的是,它需要一个清晰的目标:让数据真正服务于业务,让决策真正基于数据。 如果你正在经历数据混乱的痛苦,不妨停下来想想:我们到底要解决什么问题?我们的核心目标是什么?我们的指标体系能不能支撑这个目标? 数据的世界很复杂,但道理很简单:先把事情想清楚,再把事情做到位。 指标体系搭建,就是这样一个"想清楚"的过程。 来源(公众号):大数据AI智能圈
2025-07-09 10:24 202
热门文章