行业好文-龙石数据

全部类型 AI+大数据数据中台 AI智能问数 API平台数据交换数据集成数据质量数据标准数据安全

数据的五宗罪，道出了数据治理的真正内涵

数据治理最难的不是技术，而是人。技术问题可以用钱解决，人的问题需要用心解决。成功的数据治理，需要IT部门和业务部门真正坐在一起，用同一种语言思考问题。不是IT说服业务，也不是业务指挥IT，而是双方共同定义什么是好数据

行业好文

2025-07-21 17:28 657

专家解读 | 激活数据要素乘数效应，赋能“数字住建”内涵式发展

在数字化转型的时代浪潮中，数据已然跃升为关键生产要素，住房城乡建设部发布的《“数字住建”建设整体布局规划》，强调以“四好”建设为主线，以数据资源为核心，全面推动住房城乡建设领域数字化、智能化转型，提升行业治理能力和服务水平，为城市高质量发展注入新动能。一、政策内涵：数据驱动住建事业全方位变革政策层面，“数字住建”的核心目标是通过构建统一、高效的数字基础设施和数据资源体系，打破传统住建领域的信息壁垒，实现数据的全生命周期管理与深度应用。打造部、省、市三级联动的“数字住建”工作平台，推动城市运行管理“一网统管”，这一部署从顶层设计上确立了数据要素在住建领域的核心地位。从政策导向来看，“数字住建”绝非简单的技术叠加，而是要以数据赋能为关键路径，推动住建领域治理模式从“经验驱动”向“数据驱动”转变，从“分散管理”向“协同治理”升级。通过建立健全数据标准规范、安全保障体系，确保数据的真实性、准确性和可用性，为住建领域的科学决策、精准服务和高效监管提供坚实支撑。二、重点方向：以数字底座为基石，推动住建领域数智升级（一）夯实城市数字底座，筑牢数智化根基数据要素的乘数效应需要技术底座的支撑，城市数字底座整合基础地理信息、建筑物、市政设施等全域空间数据，以及人口、经济、社会等非空间数据，构建统一的时空大数据平台，为数字住房、数字工程等应用提供“数据富矿”。同时，依托人工智能、大数据、区块链技术对底座数据进行深度挖掘，构建城市运行态势感知模型，实时监测城市住建领域的关键指标，为城市治理提供“千里眼”“顺风耳”，提升城市对各类风险的预判和处置能力。（二）发展数字住房，重塑居住服务新范式数字住房建设以数据要素为核心，推动住房全生命周期的数字化管理。在住房开发阶段，利用大数据分析市场需求、人口结构变化等因素，精准定位住房供给类型与规模。在建设阶段，通过BIM技术与物联网设备的结合，实现施工过程的数字化管控，保障住房建设品质。在住房交易与管理阶段，搭建数字化住房服务平台，整合房源信息、交易数据、产权登记等数据，实现住房交易全程线上化、透明化。同时，基于住户行为数据提供个性化服务，打造“人、房、服务”深度融合的数字生活场景，提升居民居住体验。（三）推进数字工程，提升工程建设管理效能数字工程建设聚焦工程全生命周期的数字化转型，借助大数据、人工智能技术优化工程管理流程。在项目策划阶段，通过分析历史工程数据、政策法规数据，实现项目可行性研究的智能化评估。在设计阶段，利用AI辅助设计工具与BIM技术的协同，提高设计效率和质量，减少设计变更。在施工阶段，部署物联网感知设备采集施工现场的人员、机械、物料等数据，实现对施工安全、进度、质量的实时监管。在运维阶段，建立工程运维数字档案，通过数据分析预测设施故障，实现主动运维、精准运维，延长工程使用寿命。（四）打造数字城市，提升城市协同管理水平发挥数据要素的乘数效应，要打破城市“数据孤岛”的壁垒，通过构建统一的数据共享交换平台，将分散在公安、交通、城管等部门的碎片化信息串联成完整的数据链条，这种跨领域的数据融合，让城市管理从“被动响应”转向“主动预判”，协同效率提升的同时，也降低了行政成本。同时，发展数智融合的公共服务，推动政务服务、社区服务等线上线下一体化，通过AI客服、智能审批等提升服务效率，让群众享受更便捷、高效的服务。（五）赋能数字村镇，推动城乡协同发展数字村镇建设聚焦乡村住房、基础设施、公共服务等领域的数字化改造。通过采集村镇地理信息、房屋数据、产业数据等，构建村镇数字孪生模型，为村镇规划、建设和管理提供数据支撑。在乡村住房建设方面，推广适合乡村的数字化设计标准，利用大数据指导农房建设，提升农房安全性和舒适性。同时，依托数字技术推动村镇公共服务升级，建立农村产权交易数字平台、乡村治理数字化系统，促进城乡要素双向流动。三、价值与展望：开启住建数字化新征程发挥数据要素的乘数效应在城市治理领域赛道的深度应用，正在激活住建领域的发展新动能。从短期来看，通过数据赋能提升了住建领域的管理效率和服务质量，降低了行政成本和社会运行成本。从长期来看，将推动住建领域形成数据驱动的创新生态，为城市可持续发展、城乡协调发展提供有力支撑。展望未来，随着5G、人工智能、区块链等技术的不断成熟，数据要素在住建领域的应用将更加深入。数字住房将实现“千人千面”的个性化服务，数字工程将迈向全流程智能化管理，数字城市将达成“一屏观全域、一网管全城”的治理愿景。这一过程中，需要持续完善数据安全保障体系、健全数据共享机制，让数据要素在安全可控的前提下充分释放乘数价值，为住建领域高质量发展注入源源不断的动力。作者：周小平北京建筑大学智能科学与技术学院教授来源（公众号）：国家数据局

行业好文

2025-07-18 16:40 475

从模型到管道：数据建模、架构和工程工具实用指南

数据建模听起来像是一个高调的词，你会在高风险的创业公司路演中听到，或者在数据团队会议上虔诚地低声说。但如果你曾经列过购物清单，或者对衣柜进行过分类（没错，袜子总要有个归宿），那么恭喜你——某种程度上来说，你已经在进行数据建模了。在这篇博客中，我们将深入剖析最近学习到的一些最重要的数据建模方法——所有这些都是在努力平衡过多的标签、大量的咖啡和一个令人困惑的橡皮鸭调试会话的过程中完成的。我们将从数据建模层和范式到星型模式、数据仓库、ETL/ELT，甚至Spark 管道，分解关键概念，并提供真实案例，避免过多的专业术语。数据建模层：概念层、逻辑层、物理层数据建模是设计数据系统结构的过程。它通常分为三个层次： ·概念模型——业务实体和关系的高级视图，不包含技术细节。 ·逻辑模型——定义表结构、关系、键和属性。独立于物理存储。 ·物理模型——在特定的数据库引擎中实现逻辑模型，包括索引、分区和数据类型。想象：你正在规划一栋房子。概念=纸上草图（卧室、厨房、浴室）逻辑=带有测量和布局的蓝图物理 =用木材、瓷砖和电线实际建造数据库规范化（1NF-3NF）规范化可帮助您减少重复并提高数据完整性——通过将大型冗余表拆分为更小、干净相关的表。前三个范式是： ·1NF：消除重复组和嵌套数据。 ·2NF：消除部分依赖——每一列必须依赖于完整的主键。 ·3NF：删除传递依赖关系——非键列必须仅依赖于键。想想你的衣柜： 1NF：所有东西都折叠起来，没有嵌套在另一件衬衫里 2NF：每个抽屉只包含一个类别（没有混合的衬衫+裤子） 3NF：配饰（如腰带）与服装分开存放 TL;DR：进行规范化，直到您的查询高效并且您的连接看起来不像谋杀谜题板。星型模式星型模式是数据仓库中使用的一种维度建模方法。 ·它以一个中心事实表（销售额或收入等定量数据）为特色，周围环绕着维度表（客户、产品、地区等描述性数据）。 ·此设置可使您的 SQL 速度更快并且仪表板更整洁。可以将事实表想象成商店的销售登记簿。维度表则是产品目录、客户目录和商店列表。这种结构使分析查询更快、更容易。事实表与维度表 ·事实表：包含可测量的定量数据（例如销售额、数量、收入），通常非常大（数百万或数十亿行），并具有引用维度表的外键 ·维度表：存储描述性、分类数据（例如，客户名称、产品类型、地区），有助于为事实表中的数字提供背景信息，通常较小且经常被引用 ·Inmon 方法（自上而下）：首先使用规范化结构（通常为 3NF）创建一个集中式企业数据仓库 (EDW)。数据经过大量的暂存和转换后加载到仓库中。EDW 完成后，将为特定部门（例如销售、人力资源、财务）创建数据集市。这种方法有利于实现强大的治理、一致性和长期可扩展性。 ·Kimball 方法（自下而上）：首先使用非规范化的星型模式，直接从源系统构建数据集市。这些数据集市随后会集成到更大的数据仓库中，或作为独立的数据集市保留。该方法强调速度、访问便捷性和业务友好性。技术权衡： ·Inmon需要更多的前期规划、更长的时间表和更严格的建模规则，但可以提供高度的数据完整性。 ·Kimball部署速度更快，分析师查询也更方便——但如果管理不善，可能会导致重复和控制松散。当你需要全局一致性时，请选择Inmon 。当速度和可用性至关重要时，请选择Kimball 。现实世界？大多数团队都会两者兼顾。而且会花数周时间去命名表格，却无人能达成一致。数据仓库建模 Data Vault 是一种混合数据建模方法，旨在实现敏捷、可扩展且可审计的数据仓库。它将数据分为三个核心部分： ·中心——代表唯一的业务实体（例如，客户、产品）。每一行都由一个业务键唯一标识。 ·链接——定义中心之间的多对多关系（例如，客户→订单）。 ·卫星——包含与中心或链接相关的上下文、历史变化和描述性属性。主要特点： ·支持缓慢变化维度（SCD）的历史跟踪。 - ·专为并行加载而设计——集线器、链路和卫星可以独立加载。 ·鼓励可审计性、沿袭跟踪和易于模式扩展。可以将 Data Vault 想象成乐高套件——灵活、可扩展，并且您可以在不破坏整个套件的情况下克服错误。一个大表（OBT）：快速，平坦，并且......有缺陷？ OBT将事实数据和维度数据合并到单个宽表中。它快速、简单，非常适合仪表板。但： ·很难维持。 ·模式改变=麻烦。 ·空值？哦，肯定有很多。例如：想象一下，你不再为收据、供应商和日期设置单独的文件夹，而是将所有信息都放在一个大电子表格里。阅读速度很快，但维护起来却很困难。何时使用：优先考虑速度的仪表板或 BI 工具、原型设计或 MVP 分析，以及当模式更改最少且简单性是关键时 ETL 与 ELT 与 ETLT ·ETL：提取→转换→加载——数据在加载到仓库之前进行转换。 ·ELT：提取→加载→转换——将原始数据加载到仓库中，然后进行转换。 ·ETLT：一种混合体，具有轻度处理预载和之后更深层次的转换。把它想象成烹饪： ETL 是在下锅前把所有食材准备好。ELT 则是把所有食材放入锅中，边煮边调味。ETLT 介于大厨和“冰箱里有什么？”之间。数据转换工具常用工具： ·AWS Glue：基于 Apache Spark 构建的无服务器 ETL。配置正确后，可扩展性良好。 ·DBT：云数据仓库内部基于 SQL 的转换。非常适合仓库中的版本控制和 CI/CD。 ·AWS DataBrew：无需代码即可进行数据整理。拖放式转换。非常适合快速探索或非程序员使用。 ·Pandas/Spark——用于转换的自定义脚本。非常适合处理早期混乱的数据或一次性批处理作业。 Hadoop 与 Spark：传统与 Lightning Hadoop： ·批处理。 ·将数据存储在磁盘上 ·适用于大型但速度较慢的数据工作负载，历史上使用较多 Spark： ·内存处理，分布式计算。 ·处理批处理、流处理、ML，甚至 SQL ·为 AWS Glue、Databricks 等现代工具以及一半的面试问题提供支持。 TL;DR：当您的数据管道想要感觉快速和智能时，它就会使用 Spark。机器学习的特征工程您并不总是能够构建模型，但您却能够使模型成为可能。作为数据工程师，您的职责是准备： ·清理并标记的数据集 ·编码类别（标签、独热） ·缩放数值 ·衍生特征（例如“每分钟观看次数”） ·噪声或缺失值最少的数据集特征工程就像准备饭菜。准备得越干净、越好，厨师（你的机器学习模型）的工作速度就越快。 TL;DR 备忘单最后的想法好的建模造就好的数据。那么，好的数据呢？这是每一个伟大的产品、洞察和决策的开端。因此，无论您是在绘制第一个星型模式还是在生产中设置并行 Spark 作业，请谨慎、清晰地构建数据，并设置适当的混乱度以保持其趣味性来源（公众号）：数据驱动智能

行业好文

2025-07-17 18:21 881

数据资产治理：以业务价值为驱动

一切数据治理的起因都应有业务侧的痛点，如在成熟阶段关注业务效益与成本均衡，在规模阶段注重灵活便捷与风险管控，在应用阶段重视数据可用性与易用性，在起步阶段确保数据量与稳定性。建立一套全链路治理平台，结合组织文化和方法论，在数据稳定可用、业务使用和成本效能等方面取得了显著成效，为企业数据价值的释放提供了有力支持。

行业好文

2025-07-16 17:55 994

专家解读 | 构建可信数据生态体系激活我国数据资源价值

文 | 武汉大学校长、大数据分析与应用技术国家工程实验室主任张平文数据要素是建设数字中国、实现数字化转型升级的战略性资源。摸清我国数据资源的规模、结构与发展趋势等基本盘，剖析数据在生产、存储、计算、流通和应用等各环节的基本面，对于我国进一步推动数据价值释放、形成数据产业具有重要作用。今年是国家数据局第二次组织开展全国数据资源统计调查工作，有效样本数量1.44万个，覆盖除国际组织外的所有国民经济行业门类，调查的科学性、权威性和指导性显著增强。《全国数据资源调查报告（2024年）》（以下简称“报告”）对数据总体情况、区域行业领域分布等进行了系统分析，为我国数据要素市场建设提供了科学量化的评估基础，也为政策制定者和市场主体提供了重要参考。 01 对2024年度我国数据资源调查指标的解读（一）数据资源规模优势持续扩大，数据资源质量逐步提升报告显示，2024年全国数据生产量41.06 ZB，存储总量2.09 ZB，活跃总量1.3 ZB。我国数据资源规模优势进一步在智能家居、智能网联汽车等智能设备，以及无人机、机器人等战略性新兴产业的快速发展中得到巩固，尤其是计算数据与合成数据增速已超过传统影音视听数据，反映出我国数据资源从“规模扩张”向“质量提升”的转变。（二）算力基础设施加速布局，智能算力发展潜力巨大2024年我国算力总规模达280 EFLOPS，其中智能算力占比提升至32%，发展潜力巨大。“东数西算”工程推动算力资源跨区域协同。尽管高端算力仍依赖进口，国产芯片在适配性与生态建设上正在突破。值得注意的是，AI大模型尤其是DeepSeek的应用爆发，将进一步加快算力基础设施自主可控进程。（三）数据与AI形成良性互动，垂直领域应用加速渗透一方面，人工智能与大模型的发展为数据要素市场注入新动能。报告显示，已有约10%的企业开展了大模型应用，同比增长超37%。另一方面，随着人工智能向垂直领域发展，数据产业发展进入快车道。报告显示，高质量数据集增速达27.4%，利用大模型的数据技术企业数量同比增长57.21%，数据应用企业增长37.14%。随着我国数据要素市场的建设完善，数据流通交易方式逐渐发展成熟，去年约有66%的行业龙头企业，以及30%的数据技术企业购买过数据。（四）数据要素市场建设初显成效，政策框架逐步完善公共数据方面，全国一体化政务数据共享枢纽累计支撑调用超5400亿次，“1+3”政策体系推动授权运营规范化，超六成省（自治区、直辖市）和计划单列市启动了公共数据授权运营工作，公共数据服务产品数量同比增长40%。企业数据方面，数据总量中被至少使用一次的活跃数据占比提升至62.04%，平台企业成为数据流通枢纽，制造业、金融业、交通物流业数据生产总量居行业前列。 02 对我国数据资源发展的未来展望（一）提升数据资源质量，促进可信数据空间建设一要深化数据质量提升工程。加快建立统一的数据标准体系，重点完善数据资源、流通交易、安全保障等关键标准，增强跨行业、跨领域数据互操作性。推广首席数据官制度，强化数据分类分级管理，通过数据登记、授权运营等机制，激活数据市场价值。鼓励行业龙头企业开放脱敏数据，支持开源社区建设垂直领域数据集，如医疗影像、智能制造等，填补AI训练数据缺口。二要促进可信数据空间建设。国资央企应在可信数据空间建设上发挥主力作用，依托隐私计算、区块链、数据沙箱等技术构建可信管控能力，分类推进企业、行业、城市、个人、跨境五类可信数据空间建设，实现数据“可用不可见”的安全流通，形成可复制的标杆案例。三要谋划跨境可信数据空间建设。积极参与数据跨境流动国际规则和标准制定，推动我国可信数据空间技术标准与认证体系、数据分级分类体系等全球适用。探索自贸试验区负面清单管理，优化数据出境安全评估流程，促进跨境数据有序流动。（二）加速AI与数据融合，构建良性产业生态一是支持大模型与实体产业紧密结合。聚焦实体产业核心场景需求，以场景驱动为牵引，依托算力支撑、数据赋能、算法模型创新三大基础力量，创建AI与数据融合使用的“无感化”工具，降低中小企业数字化和智能化转型升级门槛。二是支持数据要素商业模式创新。引导市场开展数据保险业务，建立数据安全风险基金，鼓励探索数据安全风险分配方式，以减轻数据持有者未来的数据安全责任，确保其在数据交易、开发和利用中“轻装上阵”。三是支持数据产业生态主体发展。培育数据商、第三方服务机构等生态主体，建立收益分配与风险防控机制。培育数据安全服务型企业，推进数据安全服务行业发展，为数据产业生态保驾护航。（三）优化数据政策环境，释放各方协同潜力一要优化数据要素发展环境。出台以发展促安全的系列政策措施。例如，将损害发生作为追责的触发机制，构建“无损害不追责”的底线追责逻辑，保证底线安全的同时，卸下数据持有者的“未来责任”包袱，激励其探索数据开发利用的新模式、新业态。二要促进数据要素综合试验区建设。鼓励各试验区立足数字生态环境，科学谋划差异化发展定位，构建“基础建设—能力创新—应用落地”的全链条推进体系，打造具有区域辨识度的标志性成果。通过分类指导、动态评估，确保试验区建设既体现地方特色，又符合国家数据要素市场发展总体方向。三要强化区域协调发展。创建多类数据合作专区。促进京津冀、长三角、成渝、中部城市群探索数据跨省协同机制，构建区域数据合作专区。鼓励粤港澳探索数据跨境协同机制，构建跨境数据合作专区。鼓励垂直领域头部企业数据协同创新，构建跨行业数据合作专区。

行业好文

2025-07-14 18:28 808

一文读懂数据成为资产实现商业价值的内在逻辑

数据专业人员经常谈论将数据作为组织资产进行管理的重要性，但这意味着什么呢？数据的实际商业价值是什么？如何衡量这一价值？我们如何将数据作为资产进行管理？我们需要问的第一个问题是：“资产”到底是什么？根据财务会计准则委员会的规定，资产具有三个基本特征： –可以单独或与其他资产组合用于为企业谋利。 –特定企业可以获得该资产的利益，并控制其他企业对该资产的使用。 –导致企业控制该资产的权利的交易或事件已经发生；也就是说，投资已经完成，资产可供使用。《CPA杂志》这样说道：“数据是一种经济资产，可以帮助组织改善运营、增加收入、巩固与利益相关者的关系、创造新的收入来源、提高现有产品的质量、建立竞争差异化、促进创新并降低风险。” 因此，资产可以定义为一种资源，可以通过管理为企业创造某种价值或利益。反过来，所产生的价值可以通过管理为组织带来某种竞争优势的方式进行管理。资产和资产所产生的价值都必须是可管理的，资产的经济效益必须是可衡量的。数据资产下面我们将讨论如何将数据作为资产进行管理，因为数据对这种管理的要求相似。然而，它们并不是一回事。当数据被打包成一种能够有具体意义被理解时，它就变成了信息，使数据的接收者能够解决问题、回答问题或利用机会。当人们将数据作为资产时，他们经常说数据是“新石油”或“水”。然而，石油和水都需要经过处理或精炼，使其能够满足特定需求（例如，将水处理成可饮用的形式，或将原油精炼成汽油或取暖油）。一位作者这样说道：计算机首次被引入商业世界时，它们被用来处理数据。它们是主力……后来很明显，这些主力可以向管理层报告汇总数据，让管理层了解正在发生的事情。计算机报告开始满足用户的操作和信息需求……它们经常问，你想要什么数据，而不是你需要什么信息？重要的是要明白，数据（原始和未处理形式）不一定是企业的资产。只有当数据经过适当“提炼”并可用于满足组织的信息需求时，它才能被视为资产。正如CPAJournal所说：如今，注册会计师也面临着类似的挑战。组织在收集数据时没有考虑这样做的后果。实际存储成本不断下降，鼓励组织尽可能多地储存数据，因为他们相信这些数据具有一定的未来经济效益，尽管会计行业仍在努力为具有无形属性的物品赋予财务价值。将数据转换为信息（将数据转换为有助于决策者做出更有效决策的格式）可以推动数据的最终资产价值，并有助于其创造新商机或减少欺诈、浪费和滥用。数据的商业价值是什么数据的商业价值是什么，或者换句话说，为什么数据可以被视为商业资产？首先，数据用于将业务利益相关者聚集到一组共同的事实和信息周围，这些事实和信息可以在整个组织内共享并用于决策。换个比喻，它为社区提供了一个公共水池，每个人都可以饮用。如果我们都能获得一组共同的、一致同意的事实，那么我们就能了解组织的当前状态，并就我们应该做什么和不应该做什么进行明智、理性的讨论。当每个人都生活在基于精心挑选的数据、数据选择偏差、认知偏差和叙述谬误的自我选择的“信息泡沫”中时，这些对话就变得不可能了。每个人都需要对正在发生的事情和没有发生的事情达成共识。这个“公共水池”是许多重要业务功能的关键推动因素，包括跨部门报告、法规遵从性、数据分析和实时决策。数据的另一个价值是它可用于创建价值生成信息流（虚拟价值流），以创造性和有利可图的方式将组织与其利益相关者联系起来。DavidR.Vincent指出，在新的全球经济中，商业价值是通过与商业利益相关者建立和培养关系来创造的。他进一步指出，有效关系的本质在于赋权，在于赋予人们能力为自己做更多的事情，并在组织的最低层创造价值。例如，体育用品商店Cabela's会自动向优先客户发送电子邮件，告知他们即将售罄的商品的折扣优惠。AmericanHospitalSupply(AHS)创建了一个在线订阅门户，客户可以使用该门户直接从AHS的供应商处订购。客户每月向AHS支付订阅费即可使用该门户，并享受折扣价格和更快的服务。AHS的供应商获得了更多客户和订单。AHS获得每份订单的一定比例，并且无需维护库存仓库和送货车队，从而节省了开支。他们还获得了更满意的客户！数据还可用于帮助组织改进和简化其业务流程。例如，六西格玛是许多大公司使用的数据驱动流程改进方法。福特汽车公司使用这种方法简化了他们的订单采购流程，用一个包含订单的数据库取代了涉及三个不同纸质文件和三组人员的手动流程，该数据库可在收货码头进行验证和更新。这种精简将开具订单发票和向供应商付款的过程缩短了数周！福特还实现了从设计到制造的流程自动化，使其能够承担更大的设计风险并生产出更具客户吸引力的汽车设计。数据可用于扁平化简化企业层级结构并减少中介机构，从而赋予被授权的个人和创业团队更多责任。企业可以通过自动化物料处理和“准时”向装配线上的工人交付零件等方式降低成本。他们可以使用数据为其产品增添智能。例如，当检测到卡车零件故障时，长途卡车的流媒体数据广播可以向调度员发出信号。调度员可以指示卡车司机前往最近的服务中心。公司还可以使用数据来增强其品牌差异化。例如，美国运通为其企业客户开发了差异化的旅行服务，利用信息系统搜索最低的机票、酒店和租车价格，并跟踪每个持卡人的旅行费用。数据也是重要的颠覆因素。Hammer和Champy指出，客户在与卖家的关系中占据了优势，部分原因是客户现在可以轻松获取大量数据。例如，通过亚马逊在线订购的流行可以通过消费者可以轻松并排比较产品和价格以获得最优惠的价格来解释。美国航空公司利用其SABRE预订系统与旅行社建立了优先且利润丰厚的关系。现在，消费者可以使用Travelocity和Expedia等网站自行预订，完全绕过旅行社！上文提到的美国医院供应公司(AHS)是一个很好的例子，说明一个组织如何利用数据作为必要的颠覆因素，彻底重塑和重新设计其业务流程。AHS曾经有一个标准的业务模式，即从供应商处购买产品，将其存储在仓库中，然后将其交付给客户。现在，通过其在线门户，客户可以直接从供应商处订购产品，为所有相关人员节省时间、麻烦和费用！这种业务转型使AHS处于更有利的地位，可以与亚马逊等其他在线零售商竞争。数据用于支持业务分析，使公司能够更有效地管理客户、识别交叉销售和追加销售机会、识别新市场、创造和评估新产品和服务、识别表现不佳的产品和市场，并对实时或近乎实时地变化的市场条件做出反应。大多数组织都拥有可以打包和货币化即出售给他人的数据。客户和订单数据通常出售给第三方营销人员，并用于相关商品和服务的定向广告。PolkAutomotive（现为S&PGlobal的一部分）出售与大多数汽车和卡车制造商使用的全国车辆登记有关的打包数据。数据作为流动资产数据是一种特殊类型的资产，称为流动资产，与建筑物或车辆等固定资产不同。流动资产很容易从一种形式转变为另一种形式（例如，现金可用于购买原材料），并且可以在无需获得债权人等许可的情况下使用和处置。流动资产有很多种类型，例如浮动资产（包括现金和任何其他可以轻松转换为现金的东西）、生产资料（包括一次性用于制造市场商品的原材料和燃料），最后是数据。但数据是非常特殊的流动资产，具有一些非常特殊的属性，我们需要注意：数据是不枯竭的——它不会被消耗，因此在其使用寿命结束之前，始终可供重复使用。数据是可复制的——它可以同时存在于多个地方，并可被多人同时使用。数据是不可分割的——必须在赋予其意义和商业价值的上下文中使用。例如，数字串“12345”是什么意思？答案是，这取决于具体情况，这取决于这些数字出现的上下文。如果它们出现在汽车里程表上，那么它们就是里程数字。如果它们出现在会计分类账或资产负债表上，那么它们可能是金额值。如果它们出现在信封的地址部分，那么它们可能是邮政编码。数据具有累积性——它可以与其他数据结合，并随意转化为额外的数据资产。数据与其他资产之间的另一个关键区别是，数据具有“适合用途”的方面，而其他资产则不存在。当您花费现金或清算股票时，您不必问它们是否适合预期用途。对于数据资产，必须付出努力来确保其质量、及时性和相关性使其符合其使用目的。必须始终提出并回答“这些数据足够好吗？”这个问题。数据的这些特殊性质使我们对如何管理数据以便为组织创造价值有了一些了解。一方面，这意味着数据资产的价值与其共享和重用直接相关。数据需要动态变化，而不是静态变化。数据需要用于创建信息的“虚拟价值流”，以创造性和引人入胜的方式将组织与其客户和其他利益相关者联系起来。多年前，我曾说过，大多数组织都没有从其数据中获得任何可观的投资回报率(ROI)，因为大部分数据都位于特定于应用程序的数据库或Excel电子表格中，并且仅用于支持一个应用程序或业务功能。未在业务部门之间共享和重用的数据不会为组织带来重大价值！这也意味着必须对数据进行管理，以确保它们“适合”用于任何用途。组织必须能够信任其数据的质量、准确性、及时性和业务相关性。所有资产都必须进行管理；数据的不同之处在于，用户必须对他们正在使用的数据有足够的了解（例如，数据的来源、质量、含义和及时性），以决定如何使用它以及将它用于什么用途。如上所述，数据只有在赋予其意义和价值的环境中使用时才有价值。这就引出了我们的第三点：由于数据只有在特定背景下才有意义，因此数据的消费者需要元数据来帮助他们决定如何使用它。这是数据与其他资产之间的重要区别。在决定是否花20元的钞票时，您不需要太多元数据，但在尝试决定一组给定的会计数据是否适合用于向股东、监管机构和审计师提交的年终报告，还是仅适合用于每月试算表时，您确实需要元数据。正是数据管理的这三个方面（管理数据的质量和适用性、为数据分配元数据/上下文、以及管理数据以供重用/重新利用）将数据从单纯的资源转变为实际的数据资产。关于资产管理的最后一点：一般来说，所管理的不是资产本身，而是利益相关者对该资产的行为。我们管理的不是金钱，而是人们在消费方面的行为以及他们的消费报告。库存经理控制新库存的订购时间和数量。数据经理管理的是获取、评估、增强、配置、使用和（最终）处置数据资产的过程，以确保公司以最低成本获得最大价值。资产管理从来都不是物品的管理——它始终是人员和流程的管理。在上文中，我们将数据定义为一种特殊的流动资产，并讨论了其特殊特征。我们需要解决的下一个问题是：究竟应该如何管理数据才能最大限度地发挥其价值？我们如何管理数据资产数据是组织资产，因此需要在组织层面进行管理。每个业务部门不能拥有自己的“真相”——就像一个国家的每个州或省都有自己的货币一样。但我们如何以创造价值的方式管理它们呢？在组织中经常发生的情况是，业务人员从任何他们能获取的数据中收集和储存数据，比如Excel电子表格和Access数据库，就像松鼠为过冬采集坚果一样。他们以各种未知的方式操纵和过滤数据以满足个人目的，然后他们经常在整个组织中共享这些数据，而这些数据的使用方式可能不恰当，甚至非常危险。随着时间的推移，这些分散且质量低下的数据可能会削弱组织做出正确决策或有效应对新业务挑战的能力。我有时会用鼹鼠来打比方，它们的活动会对人们的草坪和花园造成很大破坏。鼹鼠并不是故意这样做的；它们只是想建造房屋并养活家人。但它们试图满足自己需求的方式可能会产生毁灭性的后果！在商业智能书中，经济学的两条基本定律应用于数据管理。大多数人都熟悉的格雷欣定律指出，劣质货币最终会使优质货币退出流通。但格雷欣定律有一个推论，称为蒂尔定律，该定律指出，格雷欣定律仅适用于“法定货币”，即政府（或某些类似机构）规定两种货币具有相同价值的情况。例如，如果政府规定，镀银的铜镍币与纯银币具有相同的价值，人们就会囤积价值更高的硬币，而让价值较低的硬币继续流通。“劣质货币”会将“优质货币”挤出流通。但如果人们被允许对硬币进行自己的估价，他们会更愿意用价值更高的硬币进行交易，因此“优质货币”会将“劣质货币”挤出流通。我为什么要告诉你这些？因为格雷欣定律和蒂尔定律既适用于货币，也适用于数据！如果坏数据和坏信息被认为不比好数据和好信息好或差，那么虚假信息最终会胜出（原因无他，就是获取和使用坏数据更容易、更快、更便宜）。但如果好数据和好信息被认为更有价值（而且同样容易获取和使用），那么好信息就会驱逐虚假信息。这意味着我们需要创建比本地控制的Excel和Access数据“坏货币”更有价值、更有用数据资产，并使这些资产在整个组织内快速、轻松地可用。那么，问题来了，我们如何才能创建一种高质量、业务相关、可重复使用的数据“良性货币”，从而取代Excel和Access数据这种“不良货币”或至少将其控制在可控范围内？以下是一些想法：首先，在组织中尽可能高的层次上定义（即建模）数据资产。确定哪些数据实体和属性以及哪些业务规则与整个组织有关，哪些是规范的（即它们跨越多个业务领域），哪些只与某些业务领域或子域有关。当前有一种称为数据网格的商业智能方法，其中所有数据都在域（即业务主题领域）级别定义，并且分析结果（称为数据产品）在该级别创建和发布。这种方法的问题在于，组织的大部分数据跨越多个业务领域，需要在整个组织内一致地定义才能发挥作用。[ii]同样，需要知道分析结果是适用于整个组织，还是仅适用于特定的部门或业务部门。其次，需要对数据进行管理，以确保其质量、及时性、一致性、可重用性和业务相关性。这可能意味着，例如，在主数据管理(MDM)目录中管理企业级数据资产，并在整个组织内发布这些数据。它还可能涉及维护一个通用存储库（例如，企业数据仓库或类似的东西），在其中可以管理组织数据资产和数据产品以供使用和重用。几十年前，经济学家加勒特·哈丁发表了一篇名为《公地悲剧》的文章，指出任何人都可以使用但无人管理或维护的资产会遭遇什么后果。这些资产会遭到破坏，最终年久失修，无人使用。第三，确保有一个正式的流程来创建、维护、使用和发布数据资产。这称为数据治理，本质上是企业制定的一套规则，用于管理人们在数据方面的行为方式（记住我之前说过的资产管理！）。数据治理可以在业务领域层面有效实施，并得到业务高层的指导和监督。这非常符合数据网格方法和罗伯特·塞纳(RobertSeiner)的“非侵入式”数据治理方法。第四，不要忘记元数据！元数据的目的不仅仅是描述数据资产，而是主动回答消费者可能对它们提出的问题。这些数据从何而来？它有多新？它有多可信？哪些业务流程创建了它？哪些业务流程使用它？对这些数据进行了哪些转换或过滤，为什么？这些数据的业务含义是什么？它对业务的价值是什么？这些数据可用于哪些业务目的？这些数据不能用于什么？使用元数据来维护整个组织的数据资产的透明度，并确保可以轻松找到、使用和信任这些资产。第五，确保数据资产在整个组织内公开并可访问，并确保人们知道在哪里以及如何找到它们。教育用户在哪里以及如何找到好数据、如何区分好数据和坏数据、如何避免常见的数据使用错误、如何确定分析结果何时可能不完整或不正确以及如何报告数据错误和问题以便快速解决。此外，确保识别并弃用不太可靠的数据副本。最后，采用迭代（即敏捷）方法进行数据管理和BI。不要试图一次性解决所有问题。听从业务部门的指示，了解哪些数据资产对组织最重要，并创建一个可迭代执行的可行流程，以随着时间的推移改进数据和数据治理流程。接下来我们需要解决的问题是：我们究竟如何衡量数据的商业价值，谁应该负责管理数据资产并衡量其价值？我们如何衡量数据的价值我们如何衡量和说明数据资产的价值？例如，我们不能将“65TB的数据”放入会计账簿并为其分配价值！这就是管理数据比管理其他业务资产更困难的原因。正如Gartner副总裁兼杰出分析师DouglasLaney所说“一家大型政府机构的信息战略主管向我宣称，‘我们对大楼内厕所的核算比对信息的核算更准确。’” 但也有办法解决这个问题。如上图所示，Gartner提出了六种不同的方法来衡量数据资产的价值：信息的内在价值(IVI)。这衡量了组织数据的正确性、完整性和排他性（本质上，如果数据是完美的，则估计数据的经济价值减去当前不良、缺失或可疑数据对业务的经济影响或风险）信息的商业价值(BVI)。这衡量了数据的特定商业用途所创造的价值；例如，使用特定数据来实现订单履行信息绩效价值(PVI)。这衡量影响关键业务驱动因素和KPI的数据的价值信息成本价值(CVI)。这衡量了数据丢失或损坏时组织的成本信息的市场价值(MVI)。这衡量了通过出售或交易（即货币化）数据可以获得的价值信息的经济价值(EVI)。这衡量了数据对组织底线的直接贡献对于每一项措施，问题都是：我们如何衡量数据所贡献的价值？我推荐的一种方法是使用以数据为中心的流程改进计划，如六西格玛。六西格玛使用组织的数据资产来量化业务流程的价值以及流程改进的价值。因此，业务流程的价值决定了支持和实现该流程的数据的价值，而改进业务流程的成本节省决定了实现该改进的数据的价值。我们还可以计算出支持业务流程的数据的业务价值，它等于如果数据以某种方式丢失或损坏，导致流程无法运行，公司将遭受的损失。对于业务驱动因素和KPI而言，通过实现目标或提高KPI（比如10%）而产生的业务价值就是使组织能够实现该目标或提高该KPI的数据的价值。对于新的业务计划，例如需要“360度全方位”了解客户的新客户参与计划、市场扩张或新产品或服务的推出，该计划创造的业务价值就是支持和促成该计划的数据的价值。当然，如果数据被打包并营销，那么数据的价值就是它产生的收入。我提出的另一个建议是利用组织的问题报告和解决流程。大多数公司都有在问题发生时开具“故障单”并追踪该问题的根本原因和最终解决方案的流程。如果业务中断或流程故障可以追溯到数据丢失或不正确，那么这些数据的价值就是中断的业务成本。谁应该做这项工作最后一个问题是：谁应该负责衡量和提高数据资产的商业价值？我的答案是：组织的首席数据官(CDO)或其代表。如果您的组织没有CDO以及支持数据管理/治理团队，则应该有一个，并且该人应该向CEO或CFO报告，而不是向CIO报告，尽管CIO的头衔不同，但他们主要负责部署和维护技术基础设施，而不是管理数据。在我看来，CDO有三个主要职责：创建、打包、分发并持续改进数据资产的质量和实用性；不断以多种方式利用这些资产来创造和提升商业价值衡量、记录和跟踪这些数据资产产生的商业价值，并将该价值报告给高级管理层CDO的职责包括：确定需要在何处创建或改进数据资产；创建和管理数据治理团队，以确保整个组织都能获得高质量的数据；培训整个组织的员工，让他们知道如何以及如何查找、使用和管理数据；建立程序，以能够产生商业价值的方式使用数据（通过简化业务流程、支持新的业务计划、管理和改善利益相关者关系以及将数据产品和信息服务货币化）；以及跟踪和公布这些数据资产所产生的商业价值。小结数据的资产价值是人们长期讨论的话题，但在我看来，人们并没有认真考虑过。组织管理层的最高层需要进行认真的对话，而不仅仅是在数据管理组织中。在创建、修改或转换业务流程时，对数据的认识需要成为每位高管和经理思考的一部分。业务经理需要了解数据对于支持为公司创造收入的产品和服务的流程的重要性。他们还需要了解如果基础数据丢失、损坏、不完整或过时，收入会受到多大的不利影响。首席数据官需要负责建立有效的数据管理和数据治理流程，以确保始终提供高质量、及时、准确、可用、与业务相关的数据，并且人们知道在哪里可以找到这些数据、如何获取这些数据以及如何使用这些数据。六西格玛等数据驱动的流程改进计划可用于利用数据，从而直接提高业务绩效并创造业务价值。这些业务收入和成本节约可以也应该进行跟踪和衡量，并不断向高级管理层报告数据的业务价值。我们经常谈论“数据驱动型”组织的重要性，但在组织实现“数据驱动型”之前，它首先需要具备“数据意识”。然后，它需要学习如何管理其拥有的数据，如何使用这些数据创造商业价值，以及如何衡量所产生的价值。衡量的就是管理的，而管理的就是推动商业价值的因素。我们的组织需要专注于管理数据以创造商业价值，然后衡量、跟踪和报告这一价值。来源（公众号）：数据驱动智能

行业好文

2025-07-11 14:05 853

一文读懂数据治理新范式：8大模块AI协同,让数据价值飙升

数据就像企业的血液,AI就是企业的大脑。如今,每家企业都在谈数字化转型,都在建数据中台,都想实现数据驱动。可面对海量数据,很多企业却深陷"数据泥潭"。有的企业像"蹲在金山上的穷人",拥有大量数据却无法变现。有的像"站在岔路口的迷途者",不知该如何开展数据治理。还有的则像"守着空仓库的掌柜",数据质量差、标准乱、无法应用。直到ChatGPT横空出世,AI赋能数据治理的春天已经到来。某世界500强企业引入AI数据治理平台后,3个月完成500万条数据清洗,准确率达99.9%;6个月打通16个业务系统,数据应用覆盖率提升300%;1年创造经济价值超过2亿元。智能数据治理正在重塑企业数据价值新生态。本文将为大家揭秘AI如何赋能数据治理,解密数据治理各模块协同机制,展望智能数据治理发展趋势。数据治理与AI的共舞: 重构企业数据价值新生态传统数据治理遭遇瓶颈。企业数据量呈爆炸式增长,数据类型日趋复杂,传统人工数据治理模式已无力应对。国内某知名电商平台每天产生超过100TB的数据,涵盖用户行为、交易记录、物流信息等多个维度。面对如此庞大的数据体量,纯人工模式难以保证数据质量和一致性。 AI技术为数据治理带来革命性突破。智能化数据治理正在成为行业新趋势。美国高盛银行通过引入AI数据治理平台,将数据标准化处理时间缩短80%,数据质量准确率提升至99.9%。国内某保险集团运用AI技术重构数据治理体系,实现7×24小时数据异常自动预警,为数据资产保驾护航。打造智能数据治理生态需要8大核心模块协同。数据集成确保数据高效汇聚,数据标准统一口径规范,数据质量守护资产价值,数据安全筑牢防护屏障,数据开发释放创新动力,数据服务激活应用场景,主数据夯实业务基础,数据资产驱动价值创造。这些模块紧密联系,相互支撑,构建起完整的智能数据治理体系。全球某知名制造企业的数据治理转型之路生动诠释了各模块协同的重要性。该企业引入智能数据治理平台后,通过数据集成模块自动采集生产线数据,AI算法实时监测数据质量,智能数据标准引擎保障数据一致性。数据安全模块结合机器学习技术,构建多层级数据防护网。数据开发团队运用AI工具提升研发效率,数据服务支持柔性生产决策。主数据平台统一产品信息,数据资产管理实现降本增效。最终帮助企业实现生产效率提升35%,产品不良率下降60%,年创造价值超过10亿元。智能数据治理正在开启数字时代新篇章。AI赋能让数据治理更智慧、更高效、更有价值。未来,随着大模型、联邦学习等前沿技术的应用,智能数据治理将迎来更大发展空间。企业只有构建起科学完备的数据治理体系,才能在数字化浪潮中立于不败之地。智能协同: AI重塑数据治理新范式数据集成与标准的智能联动。某跨国零售集团运用AI技术打通数据孤岛,机器学习算法自动识别30多个业务系统的数据结构,智能匹配映射关系。知识图谱技术构建统一数据标准体系,实现全球42个国家的商品主数据自动标准化。AI模型持续学习优化,数据标准符合率从75%提升至98%,为企业数字化转型奠定基础。数据质量与安全的智联防护。国内头部金融机构基于联邦学习技术,构建"质量+安全"双轮驱动模式。AI实时监测交易数据质量,自动发现异常并追溯根因。隐私计算保障数据安全流通,实现数据可用不可见。深度学习模型分析历史案例,建立风险预警机制,有效防范数据泄露风险。该方案获央行数字金融创新奖,成为行业标杆。数据开发与服务的智慧升级。全球领先科技公司推出AI驱动的数据开发平台,代码智能补全提升开发效率40%。大模型技术赋能数据服务,自然语言交互让业务人员轻松获取数据洞察。某汽车制造商应用该平台后,新数据服务上线周期从月缩短至周,数据应用覆盖率提升3倍,产品研发决策更快更准。主数据与资产的智能联动。医疗行业巨头借助AI重构主数据管理体系。图数据库技术梳理药品、器械、病症关系,建立医疗知识图谱。AI算法自动计算数据资产价值,优化数据治理投入产出比。通过知识推理提供智能诊疗建议,创造显著社会价值。该方案获得IEEE创新技术奖,引领行业变革。八大模块智能协同产生强大合力。美国顶级投行打造数据治理"中枢神经系统",实现数据全生命周期智能管理。新加坡电信巨头基于AI构建数据治理"免疫系统",数据安全事件降低80%。德国工业龙头企业建设数据治理"营养系统",数据价值转化率提升50%。数据治理正在迈入智能化新时代。AI赋能让各模块协同更高效,数据价值释放更充分。未来已来,企业唯有拥抱变革,构建智能数据治理体系,才能在数字经济时代赢得先机。智能数据治理,让数据成为企业腾飞的翅膀。智启未来: 数据治理创新实践与趋势展望大模型引领数据治理新革命。OpenAI、Google等科技巨头纷纷将大模型技术应用于数据治理。ChatGPT助手可快速识别数据异常,提供修复建议。PaLM 2模型支持跨语言数据标准化,准确率达95%。国内某通信企业基于文心一言构建智能数据治理平台,数据处理效率提升10倍,运维成本降低60%。联邦学习破解数据孤岛难题。全球医疗巨头采用联邦学习技术打通多家医院数据,在保护隐私前提下实现数据价值共享。某大型银行集团基于联邦学习构建风控模型,覆盖15个国家机构,欺诈识别准确率提升30%。工业互联网平台通过联邦学习整合供应链数据,库存周转率提高25%。知识图谱重塑数据智能体系。互联网领军企业运用知识图谱技术构建数据关系网络,智能发现数据价值。某新能源企业应用知识图谱优化生产工艺,良品率提升15%。零售巨头借助知识图谱分析消费者行为,精准营销转化率提高40%。知识图谱让数据治理更智慧、更精准、更有价值。智能数据治理落地关键。第一步做好顶层设计,明确治理目标,制定技术路线图。第二步选择合适AI技术,分步骤实施智能化升级。第三步建立效果评估机制,持续优化治理方案。某制造业龙头三年完成数据治理转型,数据价值转化率提升200%,年化收益过亿。数智融合时代已经到来。随着AIGC、量子计算等前沿技术发展,智能数据治理将迎来更大突破。企业要积极拥抱AI技术,构建智能数据治理能力,在数字化浪潮中抢占先机。让智能数据治理为企业插上腾飞的翅膀,开启数据价值新纪元。数据治理正在开启智能化新征程。AI技术让数据治理更智慧、更高效、更有价值。企业要把握机遇,以科技创新引领发展,用智能数据治理激发数据价值,在数字经济时代赢得主动权。未来已来,智启非凡。来源（公众号）：大数据AI智能圈

行业好文

2025-07-10 17:21 1549

关于数仓指标体系，那些年我们踩过的坑和悟出的道

"老王，你们的DAU数据怎么跟产品那边对不上？" "别提了，产品那边统计的是去重用户，我们统计的是活跃会话..." "那GMV呢？怎么财务说我们的数据又不对？" "emmm...这个..." 这样的对话，在各大互联网公司的数据团队里几乎每天都在上演。数据不一致、指标混乱、重复建设——这些问题就像顽固的牛皮癣，让无数数据人头疼不已。我在某厂待了五年，从一个数据小白成长为数据架构师，亲眼见证了一个完整的数仓指标体系从无到有的搭建过程。今天想跟大家聊聊这个话题，不讲虚的，只说实的。数据乱象背后的真相你有没有遇到过这样的情况：同一个指标，在不同的报表里数值完全不同？我记得有一次，CEO在周会上问："我们的月活用户到底是多少？" 运营同学说是1200万，产品同学说是1000万，数据同学说是1100万。三个人，三个数字，CEO当场就懵了。这种尴尬的背后，暴露出数据团队的核心问题：缺乏统一的指标体系。每个团队都有自己的统计口径，就像各自为政的诸侯国，表面上都在为公司服务，实际上却在制造混乱。运营看的是去重用户，产品看的是活跃设备，数据看的是登录次数——名字都叫"月活"，本质却天差地别。更要命的是，这种混乱还在不断加剧。新来的数据同学不知道历史逻辑，往往会重新定义一套指标；老同学离职了，留下的代码没人敢动；业务发展太快，指标定义来不及更新... 就这样，数据团队陷入了一个恶性循环：指标越来越多，但可信度越来越低。重新定义指标体系的价值指标体系到底是什么？很多人把它理解为一堆数据字典，这个理解太浅了。真正的指标体系，是数据的宪法。它规定了数据世界的基本法则：什么是用户、什么是订单、什么是收入。有了这个宪法，所有数据相关的工作都有了统一的标准。我们在某厂搭建指标体系时，遇到的第一个问题就是：如何定义"一单"？听起来很简单，但细想起来复杂得很。用户下单但没有接单，算一单吗？接单了但用户取消了，算一单吗？送到了但用户没上车，算一单吗？这些看似细枝末节的问题，却直接影响着公司的核心指标。订单量、完单率、取消率...所有指标都依赖于对"一单"的定义。我们花了整整三个月时间，跟产品、运营、财务各个部门反复沟通，才最终确定了"一单"的精确定义。这个定义包含了订单的全生命周期，涵盖了各种边界情况，成为了后续所有指标计算的基础。这就是指标体系的价值：它不是简单的数据汇总，而是对业务本质的深度思考和精确定义。从混乱到有序的实战路径搭建指标体系，不是技术活，是管理活。我们的做法是"三步走"：先统一语言，再规范流程，最后工具支撑。第一步，统一语言我们建立了一个"数据词典"，把所有核心概念都定义清楚。不仅仅是指标定义，还包括维度定义、计算口径、统计周期...每一个细节都要标准化。这个过程很痛苦，因为要打破既有的利益格局。每个部门都有自己的"历史包袱"，都觉得自己的定义是对的。我们组织了无数次跨部门会议，一个指标一个指标地讨论，一个维度一个维度地确认。第二步，规范流程有了统一的语言，还要有规范的流程。我们建立了指标的全生命周期管理机制：从指标定义、开发、测试、上线、监控、下线，每个环节都有明确的责任人和审批流程。新增指标不能随便加，必须经过业务评估、技术评估、影响评估。修改指标更不能随便改，必须有充分的理由和完善的影响分析。第三步，工具支撑光有制度还不够，还要有工具来保障执行。我们开发了一套指标管理平台，集成了指标定义、血缘分析、质量监控、使用统计等功能。这个平台最大的价值不是技术本身，而是强制执行了我们的规范。想要创建新指标？必须通过平台。想要查看指标定义？必须通过平台。想要修改指标逻辑？必须通过平台。指标体系的终极目标很多人认为，指标体系的目标是统一数据。这个理解还是太浅了。指标体系的真正目标，是让数据驱动业务决策。数据的价值不在于多，而在于准。一个准确的核心指标，胜过一千个模糊的边缘指标。我们在某厂建立了一套"X星指标"体系，把公司的核心目标分解成几个关键指标，每个指标都有明确的定义、计算方法、责任人。这些指标就像X星一样，指引着整个公司的发展方向。每周的业务会议上，大家讨论的都是这些核心指标的变化：为什么订单量下降了？为什么客单价上升了？为什么用户满意度提高了？这些讨论不再是数据的罗列，而是对业务本质的深度思考。数据成为了业务决策的有力武器，而不是装饰品。结语指标体系搭建是一个长期工程，不是一蹴而就的。它需要技术支撑，更需要业务理解；需要工具平台，更需要组织保障。最重要的是，它需要一个清晰的目标：让数据真正服务于业务，让决策真正基于数据。如果你正在经历数据混乱的痛苦，不妨停下来想想：我们到底要解决什么问题？我们的核心目标是什么？我们的指标体系能不能支撑这个目标？数据的世界很复杂，但道理很简单：先把事情想清楚，再把事情做到位。指标体系搭建，就是这样一个"想清楚"的过程。来源（公众号）：大数据AI智能圈

行业好文

2025-07-09 10:24 925

2025年你应该知道，数据质量才是AI真正的生命线

你知道ChatGPT和国内的DeepSeek为什么能迅速崛起吗？技术？架构？算法？都不是。这些模型真正的秘密武器是——数据治理。当所有人都在谈论"参数规模"时，少有人意识到，数据质量才是AI真正的生命线。从"算法为王"到"数据为王" 我不止一次听到AI工程师们说："给我相同的数据，我可以用更好的算法获得更好的结果。" 多么自信的断言！可惜，这种思维已经过时了。 GPT-1到GPT-4o的演进历程证明了一个关键事实：在模型架构相对稳定的情况下，高质量数据是提升性能的决定性因素。 GPT-1使用了4629MB文本数据，性能平平。 GPT-2增加到40GB，表现提升。 GPT-3采用570GB经严格筛选的数据（从45TB原始数据中仅选取1.27%），性能飞跃。 ChatGPT引入人类反馈数据，彻底改变了游戏规则。这已然不仅仅是数据量的增加，更是数据治理质量的飞跃。而国内的DeepSeek同样验证了这一点！数据治理，正是AI成功的隐形之手。六维数据治理框架那么，怎样才能实现高效的AI数据治理？我为你总结了2025年面向AI的六维数据治理框架： 1. 源数据治理这是AI模型的"源头活水"。南方电网的"大瓦特"大语言模型从源头解决了电力行业专业数据的质量问题，使其在输电巡检等特定领域表现出色。优质的源数据治理就像农民精选种子，决定了未来收获的上限。 2. 预训练数据治理这是AI模型的"养分供给"。它包含数据收集、准备、浓缩和增强四个环节。 GPT-3团队从45TB数据中仅选取了1.27%作为训练数据，这种严苛的筛选标准确保了每一条数据都具有营养价值。 3. 评测数据治理这是AI模型的"体检报告"。评测数据必须与训练数据保持独立，同时具备多样性与代表性。好比医生需要全面的检查才能准确诊断，AI模型也需要全面而客观的评测数据来验证其真实能力。 4. 微调数据治理这是AI模型的"专业训练"。国家能源集团的能源通道大语言模型通过融合煤炭、电力、铁路等专业领域数据，实现了从通用模型到行业专家的转变。精心设计的微调数据集就像量身定制的训练计划，让模型在特定领域达到专业水准。 5. 推理数据治理这是AI模型的"思维引导"。提示工程(Prompt Engineering)、检索增强生成(RAG)和思维链都是提升推理能力的关键技术。热电云平台模型通过精确的推理数据输入，实现了热电生产的智能调控，提升了发电效率，减少了碳排放。 6. 运维数据治理这是AI模型的"健康管理"。国网山东电力公司的AI中台通过标准化的数据管理，实现了模型的持续优化和迭代升级。运维数据治理就像定期体检和保养，确保模型在长期运行中保持最佳状态。结语数据治理不是理论概念，而是实践智慧。以ChatGPT为例，其数据治理经历了三个阶段的演进：从较低质量、较小规模的数据集，到更高质量、更大规模的数据集，再到引入人类反馈的标注数据集。在此过程中，模型算法结构几乎没有重大调整，真正变化的是数据治理的深度和广度。未来，数据治理将越来越成为AI发展的核心驱动力。当模型架构趋于稳定，数据质量的提升将成为性能突破的主要途径。面向人工智能的数据治理框架，正成为推动AI进步的关键支撑！来源（公众号）：大数据AI智能圈

行业好文

2025-07-08 13:15 1198

如何利用企业架构构建可扩展的数据和人工智能战略

概述随着数据和人工智能的爆炸式增长，以及通用人工智能（GenAI）的持续发展势头，企业正竞相确定自身的战略基点。制定稳健的战略、治理模式和任责结构的压力空前巨大。这不仅关乎数据和人工智能战略应该是什么，更关乎如何制定战略、由谁来领导，以及如何在整个企业范围内进行治理。遗憾的是，制定数据或人工智能战略的参考资料通常要么过于笼统，要么不够完整，很少适用于构建稳健的企业级战略。在光鲜亮丽、快速发展的人工智能领域，许多利益相关者忽视了成熟的方法，转而依赖肤浅的白皮书或零散的部门计划。本文基于航空业的近期经验，阐述企业架构管理 (EAM) 在制定和实施数据与人工智能战略方面提供的关键功能。我们并非提供包罗万象的数据与人工智能战略指南，而是着重探讨此类战略中一个具体且关键的部分。事实证明，EAM 能够有效解决这一问题。为了将用例置于上下文中，我们以 EAM 能力模型作为框架。一什么是企业架构管理简而言之：EAM 管理并持续优化企业级数字生态系统的架构。它与特定企业的业务模式和运营模式相一致，以满足其业务需求。企业架构通常被比喻为城市建设愿景或规划：要么让城市有机地发展（“新兴景观”），要么为城市设定一个目标，并系统地朝着这个目标努力。延续这个比喻：城市中也有专门负责各个区域的建筑师，也有专注于跨领域技术领域（例如交通、排水系统、电力）的建筑师，当然，还有负责城市住宅、工厂或机场的建筑师。与此比喻相对应的IT架构师可以是特定业务部门（例如销售、生产、人力资源）的架构师，也可以是跨领域（例如IT基础设施、数据、人工智能）的架构师，以及平台和解决方案架构师。所有这些角色都需要紧密协作，才能构建一个协调一致的整体系统。如同城市规划一样，企业架构并非一次性工作，而是一个持续适应不断变化的环境的过程。 EAM 是一门成熟的学科，用于构建企业范围的数字化目标蓝图。数十年来，实践者和学者一直致力于构建一个共同的知识体系。在这一领域，最著名的框架或许是 Open Group 的 TOGAF。它包含一个用于设计、实施和管理复杂架构的详细流程模型。同一枚硬币的两面：数字化战略与企业架构战略，其传统意义是指为实现总体目标而制定的高层长期计划。正如钱德勒在1962年出版的《战略与架构》一书中所定义，战略是“确定企业的基本长期目标，并采取行动方案和分配实现这些目标所需的资源”。同样，《牛津词典》将战略定义为“为实现主要或总体目标而制定的行动计划或政策”。另一词典将其定义为“公司及其相关子行业为实现长期目标而对其环境采取的基本、长期行为（措施组合）” 战略与“架构”不仅在自然界中密切相关本质上，战略将愿景与路线图相结合——基于“为什么”，它回答了组织发展方向的“是什么”和“如何”。或者，更具体地说，在我们的语境中：数字化战略包含以下几个步骤： 1. 制定愿景； 2. 评估数字化的现状； 3. 明确数字化的目标蓝图； 4. 制定实现目标蓝图的路线图。这正是 EAM 核心流程的定义，即所谓的目标蓝图流程；它在企业层面指定了数字化蓝图（或其中的特定维度）应呈现的样子。目标蓝图不仅包含业务能力和相应的应用程序或平台，还包含目标蓝图中架构工作的原则和指南。 “战略”和企业架构都是关于高层次、全面、长期的发展二如何确定数据和人工智能战略的范围任何大型项目，例如制定企业级战略，在开始之前都必须明确界定其范围。而这正是许多数据战略尝试失败之处。确定企业架构项目范围的核心维度包括：时间范围，即目标蓝图在未来多久才会实现？横向广度，即我们的战略是否针对整个企业，还是仅仅针对“飞行运营”业务领域？深度，即目标蓝图的细节程度和粒度如何？是停留在高抽象层次，还是具体到每一个模块和数据产品？对于定义数据策略的范围，这些维度也很有用：数字化维度。企业全面数字化通常涵盖人员、流程和技术三个维度。在数据战略的背景下，除了人员之外，还应考虑文化。需要注意的是，在我们的语境中，技术指的是企业范围内的数字生态系统。技术维度，也称为架构维度（参见 EAM 能力立方体）。在高层次上，这里通常指“应用程序”、“数据”和“IT 基础架构”。如下图所示，在数据和 AI 战略的背景下，数据和（基于 AI 的）应用程序维度通常是重点关注的。但我们绝不能忽视与之相关的技术维度。因此，Gartner 的《人工智能成熟度曲线》（2025）将“AI 就绪数据”和“AI TRiSM”（信任、风险和安全管理）置于首位。实施数据和人工智能的最大障碍之一是无法获得最新的 GPT 模型——它面临着数据质量、系统集成、风险和访问管理等挑战，以及缺乏大规模构建和部署新用例的有效流程。为了确定数据和人工智能战略的范围，我们还必须区分这些战略所针对的主要应用和数据类型：运营/交易应用程序是执行核心业务流程的主力。例如 CRM 系统、零售平台或用于管理航空公司地面和航班运营的应用程序。这些应用程序负责运营、客户下单或机组人员被分配到航班。这些系统中的运营数据必须准确且实时。由于数据质量对于相应的事务应用程序至关重要，因此应用程序所有者通常也“拥有”这些数据。此处的数据以应用程序特定的格式存储；其语法和语义与企业范围的数据标准仅松散耦合。需要注意的是，传统上，中间件团队（而不是数据分析部门）负责处理在运营应用程序之间交换的数据。例如，包括通过企业范围的集成数据模型进行数据标准化的主题。通常，源自数据分析领域的数据策略存在未充分处理运营系统中数据的风险，例如，仅将其视为分析系统的来源分析应用程序的传统作用是分析运营系统中运行的核心业务流程，并对其进行优化。典型的例子是数据仓库，它从运营应用程序接收数据，将其转换为企业范围内统一的格式，并将这些数据记录成历史。因此，分析数据可以集中供不同类型的消费者和分析用例使用。通常，数据格式与企业范围一致。对于基于人工智能的用例，则更倾向于未经处理的原始数据，也可能是特定于应用程序的“原始”数据格式。与交易数据不同，分析数据通常不必是实时的，但必须足够及时，以支持战略决策。三 EAM 及相关战略数据和 AI 功能总而言之，一个有效的数字企业依赖于几个相互关联、有时也相互重叠的战略功能：数字化战略为管理整个企业（包括组织）的所有数字化能力提供了总体愿景。企业架构管理 (EAM) 指定了企业级数字生态系统的高层结构，包括应用程序、数据和基础设施。在我们的案例中，EAM 专注于数据和人工智能领域。换句话说，EAM 交付数据技术战略。数据治理在维护数据质量和确保法规遵从性方面发挥着至关重要的作用。数据战略为数据作为企业资产的管理设定了方向——传统上强调集中式、分析型数据用例。与 EAM 不同，全面的数据战略还关注人员和文化层面。IT 或数字化策略也是如此，与 EAM 不同，它们不仅关注企业范围内的数字生态系统，还关注 IT 组织（人员、文化、流程）。最后，在我们的语境中，当今的人工智能战略与数字化战略的范围相似：人员、流程和技术，其中技术主要包括人工智能应用程序和平台，但也包括与人工智能相关的数据。数据对人工智能的重要性显而易见：金进金出。然而，近期人工智能战略领域的招聘广告仍然侧重于应用程序和平台（见下表）。请注意，本文主要讨论的是能力，而非部门名称。“集团数据和人工智能部”是否负责制定企业范围的集成数据和人工智能战略，或者该部门是否被称为“集团企业架构部”都无关紧要：制定可持续的、全企业范围的、全方位集成的数据和人工智能（技术）战略的部门名称并不重要；重要的是该部门是否具备所需的能力。无论如何，EAM 所熟知的综合方法必须与数据和 AI 领域、平台和解决方案架构师的专业知识相结合。实践证明，一个有效的方案是，来自集团 EAM 部门的数据分析（企业）架构师与专注于数据和 AI 平台及交付的集团和下属企业团队紧密合作。无论如何，要制定真正全面的数据和人工智能战略，需要辅以塑造人才、文化和流程的能力。这些能力也可能由完全不同的部门负责——例如，由首席信息官（CIO，中央IT战略）或首席数据官（CDO）负责。四 EAM 的核心能力是什么如上所述，企业架构管理的目标是优化整个企业的数字生态系统。EAM 生命周期表明，“管理”可以分解为“设想-指定-实施-评估”的活动。显然，这种粒度不足以描述企业架构师的工作。在大型企业的现实中，你会发现一个高度复杂的数字生态系统，例如由3000个业务应用程序以及数据管理、安全和基础设施等多个层面组成。为了管理这种复杂性，我们需要进一步细分，将EAM活动分解。让我们从企业架构管理的核心能力入手。在顶层，我们处理企业范围内的主题。正如“架构领域”维度所建议的，我们通过分别处理每个架构领域来进一步细分企业范围内的数字生态系统：（企业范围内的）数据架构、AI 架构、安全架构等等。在大型企业的实践中，通常会有一名架构师专门负责每个领域。例如，一个企业的数据与洞察架构就由一名架构师负责。在细分领域层面，我们关注企业的不同业务领域，例如市场营销、销售和航班运营。与企业层面类似，每个领域都需要一个连贯的数字化格局。例如，该格局由合理的领域业务架构和连贯的安全格局组成。在数据和人工智能战略的背景下，我们专注于构建连贯的、特定领域的数据和人工智能生态系统，例如“航班运营”领域。在解决方案层面，数字化企业森林的各个树形结构都是经过架构设计的：例如，复杂的业务应用程序、数据中心或基础设施平台。这属于解决方案和平台架构师的职责范围。例如，EAM 必须确保基于 GenAI 的新应用程序的架构能够融入整个企业的整体架构。另一个例子是明确中央数据分析平台的作用及其具体功能。 EAM 的支持功能有哪些 “计划-指定-实施-评估”的生命周期现已在各个层面实施：企业范围、每个业务领域以及每个大型数字化解决方案。为什么 EAM 关注“企业范围”以下的两个层面？因为所有层面都相互交织，使得 EAM 成为一项高度协作的任务。为了成功应对这一挑战，EAM 依赖于一系列成熟的赋能能力。例如：IT资产管理使数字化领域的解决方案透明化。其核心工具是解决方案目录，以及（可能作为独立工具）数据产品目录。它也是投资组合管理的基础。例如， EAM 内容管理指的是原则、指南、标准、架构决策记录 (ADR) 的管理。在 GenAI 的语境下，这可以是一个标准，例如“我们基于 LLM 的解决方案的主要标准是 OpenAI”，或者在数据语境下：“航空集团的所有数据仓库用例都必须在中央数据分析平台中实现”。 EAM 委员会提供了一种专业可靠的决策制定和发布方式。EAM协作和利益相关者管理如同连接纽带，使众多参与数据和人工智能的参与者和“快艇”保持同步，从而提高当今高能量、高动力的数据和人工智能用例汇聚成一个连贯的、覆盖整个企业的目标蓝图的可能性。在快速发展的 GenAI 领域，社区工作尤为重要。目前，EAM 更注重企业范围的透明度、交流和共同学习，而非预先提供详细的标准。 EAM 和数据策略——大型航空集团的示例五 EAM 功能实现的数据（技术）战略要素定义数据技术战略最重要的 EAM 流程是目标蓝图流程，它决定了哪些数据相关功能应该通过哪些解决方案来实现。这些功能包括数据仓库、原始数据存储、操作数据存储、数据目录、语义层、可视化和报告、数据提取以及高级数据分析。这张目标图解答了以下问题：对于一项特定能力，应该使用哪种解决方案？在哪个业务部门？因此，它隐含地回答了以下问题：在多大程度上会使用中央解决方案？在多大程度上会使用特定于业务部门的解决方案？这张目标图的创建同样遵循看似简单的顺序： 1. 愿景和高级业务需求； 2. 现状分析； 3. 未来蓝图规范； 4. 路线图创建。然而，即使目标蓝图已经明确并正式达成一致，在拥有众多业务部门的大型企业中，要在数据分析这样一个高度动态的领域保持领先地位，仍然如同放牧猫群。因此，为了实现目标蓝图，企业范围内的透明决策机制以及对正在进行和计划中的项目（即改变数据和洞察格局的战略和战术项目）的频繁协调至关重要。在数据分析时代，数据产品通常是目标蓝图的一部分，用于支持企业范围内数据的可查找性、可访问性、互操作性和重用性 (FAIR)，以及系统模块化、技术独立性和高效的数据所有权。在这里，EAM 在定义数据产品的需求和标准方面发挥着重要作用，当然，这需要与数据治理和数据平台架构师协同工作。六 EAM 和（Gen）AI 战略——大型航空集团的案例 EAM 功能实现的 AI（技术）战略要素上文在数据战略背景下描述的机制也适用于（Gen）AI 战略。此处，上述目标图流程也定义了企业范围的标准，例如，用于创建基于 GenAI 的解决方案：哪个平台应该用于哪些用例，例如，普遍用例还是复杂用例？那么，对于这项快速发展的技术，最佳的集中化和标准化程度是多少？大型企业应该在多大程度上协调各大业务部门和业务领域推动的 GenAI 机器人开发？例如，企业的 GenAI 产品组合真的需要五个不同的聊天机器人实例，每个实例基本上都是 ChatGPT 的前端吗？显然，在企业范围内构建基于 GenAI 的新解决方案时，统一的流程和模板大有裨益。此外，合规性也至关重要：企业范围的 IT 资产清单和应用程序目录应明确列出应用程序使用的 AI 类型，并将应用程序的用例与风险类别关联起来。七小结企业架构管理并非万能药。然而，它是一种经过验证、易于理解且定义明确的工具，可用于解决数据和人工智能战略以及数字化战略中“技术”部分。它为创建、实施和维护此类战略提供了结构框架。更具体地说，它有助于消除碎片化，并在各个维度上协调企业范围内的发展：首先，它提供了一个详细的、经过实践检验的流程，用于在企业层面定义数据和人工智能技术战略，其抽象程度和广度与相关的数字化战略相同。这本身就是一项不小的成就，尤其是如果你亲眼见证了围绕此类战略制定所付出的巨大努力和讨论。其次，EAM 确保跨业务领域和架构层的一致性。如果没有这一点，数字化就有可能沦为一堆孤立解决方案的拼凑物。这不仅仅是一个理论问题——它在实践中表现为投资分散、能力重叠以及治理模式不一致。最后，它确保通过一套完善的能力将战略从战略意图转化为可持续的运营现实。事实证明，EAM 非常适合利用 GenAI 等新兴、高度动态的技术来塑造整个企业的格局。总而言之：当企业调整其数据和 AI 战略时，必须明确 EAM 在其中的重要作用。来源（公众号）：数据驱动智能

行业好文

2025-07-03 09:52 598