《全国数据资源调查报告(2025年)》在第九届数字中国建设峰会上如约而至。翻开这份沉甸甸的报告,在满篇数据图表中,有三组数据特别亮眼,突出反映了我国数据要素化和人工智能发展取得的巨大进步。 52.26ZB VS 90%—企业成为数据生产的主力 报告显示:“2025年全国数据生产总量达52.26ZB,同比增长27.28%”“数据生产增量约九成来自企业数据”。 数据分析:相较于2024年41.06ZB的全国数据生产总量,2025年增长了11.2ZB,其中,企业数据生产量增长近10ZB。表明企业已成为数据生产的主力。 背后原因:企业大规模生产数据的背后,是过去一年来我国数据赋能千行百业和企业数智化转型取得重大进展的必然结果: 一是企业数据生产能力大幅提高。服务业、工业和农业的数据生产量分别为22.85ZB、8.53ZB和1.49ZB,占企业数据生产总量比例分别为68.13%、25.43%和4.44%。一方面表明数智化转型已在各行各业全面展开并加速推进,另一方面也表明各行各业的数智化发展水平不一,服务业的数智化程度最高,工业数智化程度次之,最后是农业数智化。 二是企业数智化转型速度明显提升。数据开发率是直接反映各行业数据开发利用程度的指标,数据开发率越高,表明数据治理加工、挖掘分析、融合应用的能力越强。国民经济行业大类中,软件和信息技术、科学技术、金融、制造、交通运输等5个行业数据开发率超30%,分别为34.36%、32.88%、32.61%、32.21%和31%,跨行业、跨领域数据融合应用不断深入。采矿、水电燃气、居民服务、批发零售业和教育等行业数据开发率紧随其后,分别为27.71%、22.7%、17.52%、16.35%和15.44%,数智化场景密集落地。住宿和餐饮、卫生和社会工作、农业、文体娱业、房地产、建筑业、水利环境公共设施业、租赁和商务服务等行业数据开发率低于15%,需求牵引作用日益凸显。 30% VS 31.71% VS 53.96%——公共数据资源开发利用成绩斐然 报告显示:“2025年全国一体化政务数据共享枢纽累计支撑调用超5500亿次,申请共享的数据集数量同比增长近30%”“全国公共数据开放数据量同比增长31.71%”“全国公共数据授权运营数据量同比增长53.96%”。 数据分析:相较于2024年全国一体化政务数据共享枢纽累计支撑调用超5400亿次,2025年已超5500亿次,对数据集的共享需求快速提升;2024年全国地市级以上开放数据量增长7.1%,2025年全国公共数据开放数据量爆发性增长31.71%;2024年公共数据授权运营刚刚起步,市级政府部门公共数据授权运营数据量是省级部门的2.53倍。2025年全国公共数据授权运营数据量同比增长53.96%,省级公共数据授权运营数据量同比增长54.17%。 背后原因:共享、开放和授权运营是公共数据开发利用的三种主要途径。2025年三种途径都出现了30%以上的爆发性增长,是制度供给端和市场需求端双向发力、相向而行的必然结果: 一是充沛的制度供给极大激发了公共数据供数动力。国家公共数据资源开发利用“1+3”政策文件的落地实施,《政务数据共享条例》《政务领域人工智能大模型部署应用指引》等政策法规出台,以及公共数据资源登记工作稳步推进等,在公共数据安全流通、产权、定价、交易等方面提供了实践指引,并支持鼓励政务领域推广使用政务大模型和智能体,极大激发了公共数据的供数动力,让更多的公共数据以共享、开放、授权运营等多种方式供出来。 二是繁荣的应用市场极大释放了公共数据用数活力。越来越多的金融、交通、医疗和教育机构利用公共数据开展业务。2025年,大多数银行、保险等金融机构充分利用社保、公安、工商、税务、海关等部门的公共数据,为个人和企业画像,构建用于银行、保险业务的个人和企业风控模型,极大提高业务的精准率。许多城市的公交公司通过整合公交车的实时GPS位置、站点客流刷卡数据、路况拥堵等公共数据,不仅可以向市民提供精准的到站时间预测,有效减少市民平均候车时间,还可以根据这些数据动态调整发车班次,降低车辆空驶率,实现智能调度公交和精准预测。许多城市基层疾病预防机构通过汇聚区域内医院的电子病历、社区卫生中心的慢病档案以及疾控中心的传染病报告数据,并融合就诊症状分析、药品销售等数据,自动挖掘异常聚集性病例,实现传染病早期预警,并指导医疗资源的精准投放。许多地方的教育管理部门通过综合运用公安部门的适龄儿童户籍数据、不动产登记中心的房产交易与居住信息,以及学校的教室和师资等承载能力,开展入学需求预警,不仅能辅助教育部门提前预警学位缺口、规划新校建设,同时为家长提供透明的入学风险参考。 199.48EB VS 101.34EB——人工智能应用到了奇点时刻 报告显示:“2025年,用于人工智能的数据量为199.48EB,同比增长42.86%,推理数据量达101.34EB,首超训练数据量。” 数据分析:相比于2024年企业用于人工智能的数据量占数据存储量约为7%,高质量数据集增速达27.4%,2025年用于人工智能的数据增长率达42.86%,高质量数据集数量及其数据量分别增长61.13%和142.58%,特别是推理数据量达101.34EB,首次超过训练数据量,表明我国人工智能发展迅猛,标志着我国人工智能正在跨越从技术突破到规模应用的奇点,人工智能在各行各业的应用正在大规模展开。 背后原因:我国人工智能正在跨越从技术突破到规模应用的奇点的背后,是全社会人工智能应用程度普遍提高、高质量数据集供给规模显著增大、企业数据技术投入持续加大、智能计算的数据生产能力大幅提升的必然结果。 一是全社会人工智能应用程度普遍提高。2025年,全国日均词元(Token)调用量从年初的超万亿增长到年末的100万亿,全年词元(Token)调用量约21100万亿。农业企业数据技术投入同比增长26%,用于人工智能的数据量同比增长14.51%。用于人工智能训练分析的科学数据占数据总量的13.43%,同比增长50.32%。 二是高质量数据集供给规模显著增大。2024年,高质量数据集增速达27.4%,企业用于人工智能的数据量占数据存储量约为7%。2025年,全国高质量数据集数量超11万个,高质量数据集数据量超908PB,同比分别增长61.13%和142.58%。高质量数据集的规模化供给为人工智能发展奠定了坚实数据底座。 三是企业数据技术投入持续加大。2025年,企业数据技术投入同比增长17.37%,其中,头部平台企业和中央企业数据技术投入分别增长25.79%和24.49%。 四是智能计算的数据生产能力大幅提升。2024年,智能家居、智能网联汽车等智能设备的数据增速位居前列,分别为51.43%和29.28%。2025年,系统软件和人工智能产生的数据量为26.92ZB,首次超过物联感知设施产生的25.34ZB数据量,成为数据生产的主要方式。 可以预计,在未来“十五五”的五年内,企业作为数据生产主力的地位将进一步巩固,更大规模的公共数据将以共享、开放和授权运营的方式供出来、用起来,人工智能技术还将快速迭代、应用范围将加速拓展。 作者:数据专家咨询委员会委员 北京交通大学教授 张向宏 来源:通信产业网
静态目录记录数据资产,而主动元数据则驱动数据资产的运行。 多年来,企业数据目录一直被宣传为通往数据的门户。它承诺提供搜索、所有权、血缘关系、定义和信任等功能。在许多组织中,它确实实现了部分价值——但往往只是静态的清单,几乎在填充数据后不久就过时了。问题不在于目录本身毫无用处,而在于现代数据环境的变化速度远超文档更新速度。管道会故障,模式会漂移,人工智能代理会提出问题,策略会变更,业务用户希望在管理员更新描述之前就能得到答案。这就是主动元数据至关重要的原因。它不仅仅是描述数据环境,还能帮助管理数据环境。 数据目录并未消亡,但它的旧功能已不复存在。 数据管理领域存在一种根深蒂固的误区:元数据的主要挑战在于文档编制。定义术语、指定所有者、绘制沿袭关系、发布目录,治理自然水到渠成。这种观念催生了编目工具、术语表研讨会和数据管理项目等一系列产业——它们都很有价值,也都很必要,但单靠这些手段却越来越捉襟见肘。 问题不在于文档,而在于延迟。季度更新的目录无法检测到今天下午导致监管报告出错的模式变更。手动维护的术语表无法在人工智能代理生成响应之前告知其某一列是否包含个人数据。六个月前绘制的血缘关系图无法反映上周在生产环境中运行的三条新管道。 数据环境已变得过于动态、过于分散且影响深远,仅靠被动的文档记录已无法承担治理重任。如今,企业需要的不仅是存储的元数据,更是能够动态更新的元数据。 元数据过去的含义 传统元数据主要用于描述数据。它帮助人们了解数据的存在:表名、列描述、业务术语、数据所有者、分类、血缘关系图、质量评分、刷新计划和访问策略。这些信息有助于数据发现。它们使数据分析师能够找到数据集,理解其含义,并确定其是否符合预期用途。 当数据规模较小、变化速度较慢,以及元数据的主要使用者是有时间阅读文档的人时,这种模型的效果相当不错。 主动元数据则有所不同。它是可操作的。它帮助系统根据正在发生的事情采取行动,而不是根据上个季度记录的内容。 静态元数据告诉你数据原本应该是什么。主动元数据告诉你的生态系统现在正在发生什么,以及下一步该做什么。 为什么元数据正在成为控制平面 最重要的概念转变是:元数据正在从数据资产的文档层转移到控制层。 想想这在实践中意味着什么。源模式发生了变化。与其等到下游仪表板崩溃并提交支持工单,不如让主动元数据层检测到变化,将其与相关的数据契约进行比较,暂停管道,通知数据产品负责人,识别受影响的报告和使用者,并启动修复工作流——所有这些都在人为发现问题之前完成。 再以访问控制为例。假设生产表中新增了一列,该列看似包含个人数据。此时,活跃的元数据系统会对该字段进行分类,应用相应的访问策略,更新目录记录,触发管理员审核,并记录控制操作。原本需要人工审核和召开管理会议才能完成的操作,现在只需系统自动处理即可。 主动式元数据将治理从一次会议转变为一种系统行为。这一转变彻底改变了数据管理的经济模式。 主动元数据在实践中的作用 以下是一些主动元数据为企业带来的具体示例。 自动停止故障管道。上游源系统中的某个必需列的类型发生更改。活动元数据层检测到此偏差,将其与数据契约进行比较,在损坏的数据到达任何黄金层或认证层之前停止管道,并向所有者发出警报,同时追踪所有受影响的下游资产。 数据产品的动态信任评分。如果某个数据产品的新鲜度服务级别协议 (SLA) 在一夜之间失效,系统不会允许下游用户(包括人工智能代理)在未收到警告的情况下查询过期数据,而是会更新信任评分,将该产品从认证工作流程中移除,并通知订阅用户。用户可以实时了解数据市场的最新动态。 利用实时上下文信息赋能人工智能代理。例如,人工智能代理会收到这样一个问题:“上个季度各客户群的净流出额是多少?”在生成 SQL 查询语句或文字描述之前,它会检查实时业务定义、已认证的数据产品状态、当前质量评分、数据沿袭、授权规则、语义模型映射以及数据新鲜度指标。如果没有这些上下文信息,代理可能会使用理解不透彻或未经授权的数据给出自信的答案。有了这些上下文信息,回答就会更加可靠、可审计且具有说服力。 自动对敏感数据进行分类。数据工程师向数据管道添加一个新字段。模式匹配和分类模型检测到该字段可能包含国民身份证号码。元数据层会标记该字段,应用临时敏感度标签,限制只有授权角色才能访问,并将其放入队列等待管理员确认。另一种方法——每季度手动执行一次数据映射——速度更慢、成本更高且可靠性更低。 为什么这件事现在很重要 多方面因素正在汇聚,使得主动元数据不再是愿景,而是迫在眉睫的现实。 复杂性已经远远超过了人工治理的能力。现代组织运营涉及云数据平台、湖仓、流式处理系统、SaaS 应用、BI 工具、笔记本、反向 ETL 工具、机器学习特征存储、数据产品、语义层和 AI 代理。没有任何管理团队能够以如此快的速度,手动编目和管理如此庞大环境中的元数据。 人工智能极大地提高了风险。人工智能代理和副驾驶需要的不仅仅是数据访问权限,它们还需要上下文信息:这些数据意味着什么?谁拥有这些数据?这些数据可以用于此目的吗?它们是最新的吗?它们可信吗?它们是否敏感?以及后续哪些决策依赖于这些数据?如果没有有效的元数据,人工智能系统就有可能基于理解不足的输入生成看似可靠的输出。在受监管的行业中,这不仅仅是质量问题,更是风险管理的失败。 监管要求可证明的控制措施。尤其是在金融服务领域,机构必须提供数据沿袭、访问权限、数据保留、隐私控制、关键数据元素管理、模型输入和报告逻辑等方面的证据。静态文档无法满足审计人员和监管机构日益提出的问题:告诉我发生了哪些变化,哪些人受到了影响,以及触发了哪些控制措施。主动元数据通过设计而非重建的方式提供了这种审计追踪。 市场已经注意到这一点。尽管市场预测的精确度不尽相同,但都指向同一个方向:元数据管理正在成为企业软件的一个重要类别。Research and Markets估计,到 2026 年,企业元数据管理市场规模将达到 128.9 亿美元,而 Mordor Intelligence 则估计同年将达到 158.6 亿美元。Dataversity 在其 2025 年技术、数据和人工智能调查报告中指出,只有 11% 的组织实现了较高的元数据管理成熟度。市场规模与组织准备程度之间的差距正是机遇所在。 主动元数据和数据产品 这与数据产品思维直接相关,且至关重要。数据产品不应仅仅是发布数据,还应公开所有权、用途、目标用户、业务含义、数据管理协议、服务级别预期、数据沿袭、质量规则、隐私分类、使用历史、已知限制和认证状态等元数据。 如果没有活跃的元数据,数据产品就无法被大规模地观察、信任或管理。其质量可能会悄无声息地下降,访问控制可能会失效,合同义务也可能在不被察觉的情况下遭到违反。 没有有效元数据的数据产品,只不过是一个包装更精美的数据集。 主动元数据将已发布的数据集转化为可管理、可观察、可信赖的产品。它使数据产品所有者能够实时了解其产品是否履行了义务、谁在使用它、其质量是否在可接受的范围内,以及是否存在任何需要他们关注的下游影响事件。 成熟度差距以及组织应该怎么做 根据Dataversity的统计,仅有11%的组织拥有较高的元数据管理成熟度。原因不言而喻:元数据所有权不明确、目录的实施沦为合规性手段而非实际运营服务、业务术语表与工程实际情况脱节、质量规则与业务影响脱节,以及工具分散导致无法构建统一的元数据图谱。 弥合这一差距需要改变运营模式,而不仅仅是更换工具。 重新构建目录。目录仍然是一个有用的界面,但它应该成为更广泛的元数据生态系统中的一个节点,而不是其核心。元数据应该在目录内外流动,而不是仅仅停留在目录内部。 识别高价值元数据事件。并非所有元数据事件都同等重要。应优先处理那些对业务或风险有直接影响的事件,例如:模式变更、质量规则失效、服务级别协议 (SLA) 违约、访问策略违规、关键数据元素变更、合同违约以及在受监管环境下未经认证的数据使用。 将元数据与工作流程连接起来。如果生成的警报无人处理,则元数据只是装饰性的,而非实际的。只有当元数据事件触发数据工程、治理、安全、风险、合规和产品所有权团队的行动时,其价值才能真正体现出来。 逐步构建元数据图谱。将业务术语、领域、数据产品、数据集、表、列、报告、管道、所有者、策略、质量规则、合同、消费者和 AI 代理关联起来。首先从对关键工作流程最重要的连接入手。 安全地向人工智能代理公开元数据。人工智能代理在查询数据之前,应先查询经过认证的元数据和受监管的语义上下文。这不仅仅是质量方面的考虑,更是治理和风险管理方面的要求,尤其是在输出结果会影响受监管决策的情况下。 风险与反模式 任何新兴能力都存在这样的风险:它往往会先吸引对工具的投资,然后才吸引对运营模式的投资。主动元数据也不例外。 常见错误包括: 购买一个主动元数据平台,而不改变元数据所有权的分配和执行方式。 将自动化视为问责制的替代品,而不是问责制的推动因素。 产生的警报数量过多,令团队不堪重负,最终导致警报被忽略。 将谱系图与谱系驱动的影响管理混淆; 假设人工智能代理能够仅从原始模式推断业务上下文。 主动式元数据并不会免除治理责任;它只是让责任得以执行。 元数据作为基础设施 发展方向已然明确。未来的数据平台将不再把元数据视为目录功能,而是将其视为运行时基础设施:策略执行层、AI 上下文层、信任机制、自动化触发器、产品接口和治理控制平面。元数据将成为管道、代理和产品声明和使用的依赖项,而不是团队并行维护的文档。 这场悄然发生的变革并非元数据变得更加重要——它一直都很重要。变革的关键在于元数据正变得主动起来:它与流程、策略、产品、人工智能代理、质量规则和运营工作流程紧密相连。那些及早理解这一转变的组织将不再仅仅关注目录采用率指标,而是开始提出一个更重要的问题:不是“我们的元数据存储在哪里?”,而是“我们的元数据能够促成哪些决策和行动?” 来源(公众号):数据驱动智能
当前的生成式人工智能并非仅仅是又一层软件;它能残酷地揭示你信息资产的现状。如果你在2026年还在试图构建一个集中式的“单一数据源”,那你做的不是架构设计,而是IT考古。残酷的现实是:企业中大多数生成式人工智能的失败并非源于大型语言模型(LLM)的选择,而是源于注入其中的数据结构平庸。停止那些脆弱的概念验证(POC),它们只会哗众取宠;现在是时候构建基于严谨知识管理(KM)的工业级平台了。 1. 引言:缺乏知识管理(KM)的人工智能的程序性失败 我们必须摆脱人工智能能够通过某种算法魔法来理解信息混乱的危险错觉。“垃圾进,垃圾出”这句老话已经演变成一种更加阴险的版本:“垃圾进,垃圾放大”。与仅仅返回用户可以忽略的错误文档的传统搜索引擎不同,大语言模型(LLM)会吸收这些低质量数据,用欺骗性的语言权威将其合成,然后将其作为合成的“真理”输出。人工智能不仅重复错误,还会对其进行改进,并将其伪装在流畅的文本背后,从而彻底摧毁用户的批判性思维。 混乱的内网是工业人工智能面临的首要障碍。将检索增强生成(RAG)管道连接到杂乱无章的SharePoint服务器上,而这些服务器充斥着过时的HR政策或相互矛盾的技术指南,这无异于专业失职。当人工智能对关键维护流程或法律权利给出错误答案时,信任危机将立即爆发,而且往往是永久性的。作为架构师,我们必须认识到,知识库不再是被动的存档库,而是企业的语义计算引擎。如果没有严格的管理和元数据结构,你的人工智能只不过是一个昂贵且风险极高的玩具。 2. 知识管理基本框架:4C 和 4 大支柱 要实现人工智能的产业化,我们必须重新采用知识管理的基本原理,但要具备机器的速度和精度。知识生命周期必须围绕以下4个核心要素(4C)进行协调: 隐性:知识最初存在于隐性交流中。人工智能不仅要用于回答问题,还要用于捕捉互动(支持工单、会议、Slack 讨论串)的实质内容,从而将非正式信息转化为结构化资产。 捕获:捕获并非指“保存为 PDF 文件”。它指的是在创建瞬间提取实体、关系和意图。如果信息在源头没有结构化,之后重新处理的成本将非常高昂。 内容审核:这是90%的组织机构都面临的难题。内容审核是指由领域专家(SME)进行验证的过程。未经验证的内容会造成技术债务,最终只能由人工智能的臆想来偿还。 流通:人工智能改变了分销方式,从“拉动”(关键词搜索)转变为情境化的“推送”(对即时需求的精确响应)。 然而,技术仅占总工作的20%。一个强大的平台建立在四大支柱之上:人员(必须激励专家贡献知识)、流程(数据治理工作流)、技术(RAG 和图谱基础)以及治理(信息的法律和道德责任)。投资回报率并非遥不可及:成熟的知识库能够显著缩短技术支持的平均解决时间 (MTTR),其原因并非在于搜索速度更快,而在于提供明确无误的权威解决方案。 3.打破单体架构:联邦架构和数据网格 单一的“信息源”模式注定失败,这是历史的必然结果。试图将所有信息集中化必然导致过时和业务部门权力被削弱。我们倡导的架构是基于数据网格原则的联邦制架构。知识必须始终归其创造者——业务部门(法务、人力资源、研发)所有。 每个领域都管理着自己的“记录系统”,并遵循各自的数据新鲜度规则。我们的任务是在其上叠加一个全局索引和语义中介层。这使得 RAG 流程能够在各个数据孤岛之间无缝切换,而无需进行大规模迁移。我们从一个静态的数据仓库转变为一个互联互通的知识生态系统。这个语义网络使 AI 能够理解,尽管名称不同,销售手册中提到的“产品 X”和缺陷单中提到的“项目 X-104”指的是同一个实体。 4. 内容标准和元数据基础 为了让人工智能高效运行,它必须能够获取“人工智能就绪”的内容。这需要近乎外科手术般的严谨写作规范。黄金法则是:“一篇文章对应一个问题”。如果你的文档是长达50页、涵盖多个主题的“文字墙”,那么在RAG流程中进行分块处理后,就会产生脱离上下文、缺乏连贯性的碎片。每个部分都必须简短(最多200字),并且结构清晰,便于机器提取。 但真正的动力源泉是元数据。人工智能并不会减少对元数据的需求,反而会加剧这种需求。如果没有明确的信号,人工智能就无法判断文档是否过时、是否仅限管理员访问,或者是否仅适用于特定司法管辖区。以下是基于最严格标准构建的元数据策略支柱: 表 1:描述性元数据(搜索的核心) 表 2:管理元数据(新鲜度保证) 表3:定性元数据(反馈回路) AI赋能特定元数据 这就是我们区分架构师和修修补补者的地方。这些要素使人工智能能够解读内容,而不仅仅是找到内容。 表 4:AI 赋能的特定元数据 5. 语义层和知识图谱 人工智能在面对内部术语和上下文同义词时常常会遇到困难。例如,用户寻求解决“故障”的方案,但官方文档中使用的却是“服务中断”。在纯粹的向量空间中,这两个术语虽然接近但不完全相同。解决方案是实现一个语义层,并通过知识图谱(KG)来具体化。 与存储数学近似值的向量数据库不同,知识图谱使用RDF(资源描述框架)和OWL(Web本体语言)等标准定义实体(产品、系统、事件)及其显式关系。通过构建最小可行模型(MVM),我们对业务含义进行编码。OperationalIncident实体成为连接实体Outage、ServiceDisruption系统和事件的枢纽ResponseProcedure。 这种结构支持多跳推理。如果用户提出的问题需要将安全策略与特定区域的特定软件版本关联起来,该图谱允许人工智能沿着逻辑链接(“语义路径”)进行推理,而不是猜测统计上的接近程度。默克公司的例子就是一个标杆:他们使用LLM生成的SPARQL查询来查询其临床数据图谱,从而强制人工智能仅在授权的结构化数据范围内工作,消除了想象空间。知识图谱就像一道逻辑护栏,限制了LLM的无限想象力。 6. RAG(检索增强生成)管道工程 RAG 的技术实现必须像工业生产线一样对待,而不是像拼凑起来的 Python 脚本。 文本分块过程:文本分块是一门科学。我提倡递归文本分割,它尊重逻辑结构(段落、列表),而不是随意地按词元数量分割。重叠部分必须经过精细调整(10-15%),以保持两个片段之间的语义联系。更高级的做法是父文档检索,它允许对较小的片段进行搜索(更精确),同时将完整的父文档提供给逻辑逻辑模型(LLM),以确保完整的上下文信息。 向量嵌入与数学极限:向量嵌入虽然功能强大,但却受到“维度灾难”的影响。余弦相似度在某些非常具体的技术术语或数值错误代码下可能会失效。 混合架构(向量搜索 + GraphRAG):目前业界标准是 GraphRAG。我将向量搜索的语义灵活性与知识图谱的逻辑严谨性相结合。上下文压缩等技术可以过滤检索到的片段,仅将信息“精华”传输到 LLM,从而降低噪声和分词成本。 邦飞利公司的经验表明,通过将技术文档与强大的业务本体相结合,他们的答案准确率提高了 40%。他们使用一个协调代理,该代理根据问题决定是查询图(用于结构化数据)还是向量数据库(用于文本解释)。 7. 小结:治理、指标和自主学习 要驾驭这个平台,你必须放弃虚荣的指标(例如文章数量),转而关注人工智能就绪度关键绩效指标 (KPI)。成功的衡量标准是: 可查找性:首次搜索成功率。 停留时间和跳出率:如果用户在一个复杂的流程上花费 2 秒钟,则说明内容要么无用,要么索引不佳。 RAG 精确度:由主题专家 (SME) 验证的回复准确性。 我们还必须通过四种人工智能就绪数据模式来整合数据成熟度评估: AI POC:风险管理依赖于个人技能和稀疏的元数据。 多情境:跨多个场景的数据验证,结构化的开始。 实施:过渡到自动化准备工作的工具和平台。 生产:系统治理、偏差监控和自动纠正。 未来属于自学习知识库。通过分析搜索日志和响应失败情况,人工智能可以自行检测“知识缺口”。它可以主动建议创建文章或根据已解决的支持工单撰写初步版本,并将所有内容提交给人工进行简化的验证。 来源(公众号):数据驱动智能
近日,龙石数据创始人兼总经理练海荣走进上海东华大学信息与智能科学学院,结合一线行业实践,围绕数字化转型与数据治理核心价值,系统分享了AI时代下的数据治理发展趋势与实践路径。 AI驱动下,数据治理价值再提升 随着AI技术的快速发展,企业生产与运营效率正在被显著重塑。以实际案例来看,过去需要多人多天完成的工作,如今借助AI工具,单人即可在较短时间内高效完成。 效率提升的同时,也对企业能力结构提出了新的要求:在基础性、重复性工作被逐步替代的背景下,如何构建更高价值的能力体系,成为组织必须面对的问题。 在这一过程中,数据的重要性进一步凸显 —— 只有具备高质量、可治理、可流通的数据基础,AI能力才能真正落地并持续产生价值。 全球视角下的数据治理发展趋势 为帮助同学们更好理解一线行业格局,练总结合Palantir、Collibra、Informatica、华为等头部企业的实践路径,对其数据治理逻辑进行了归纳总结,呈现了当前全球数据治理的发展方向与典型模式。这些变化表明,数据治理正在从支撑性能力,转变为组织数字化与智能化转型的基础设施。 此次校企授课,是龙石数据推动产教融合、助力数字人才培育的重要实践。未来,龙石数据将持续深耕数据治理赛道,围绕组织在数字化与智能化转型过程中的实际需求,推动技术能力与人才培养的协同发展,助力行业高质量发展。
一、从算力竞赛到数据基建 2026年,大模型应用正从技术验证走向规模化落地。但一个现实问题日益凸显:模型迭代速度远超高质量数据供给能力。 据行业观察,当前大模型训练对数据的需求呈指数级增长,而合规、多样、结构化的高质量数据已成为稀缺资源。正如2026未来数商大会所指出:“AI下半场,数据决定AI上限。” 在此背景下,传统以报表为核心的数据仓库正在经历一场静默而深刻的升级——它不再只是BI的后端支撑,更成为大模型训练与推理的“中央厨房”。这场升级,不是简单堆砌存储,而是围绕AI就绪(AI-Ready) 目标重构数据架构、治理流程与服务能力。 这一趋势与国家数据局将2026年定为“数据价值释放年”的战略方向高度一致,旨在通过高质量数据集建设,赋能人工智能与实体经济深度融合。 二、AI就绪型数仓的三大核心任务 1. 构建高吞吐、低延迟的数据供给管道 大模型训练需TB/PB级文本、图像、日志等多模态数据。数据仓库需支持: 批量高效摄入:通过Spark/Flink等引擎,每日处理亿级记录; 实时特征流:为在线推理提供毫秒级响应的特征数据; 统一元数据管理:确保数据来源、格式、时效可追溯。 例如,某金融企业构建“客户行为湖仓”,将APP点击流、交易日志、客服录音等异构数据统一入湖,并通过Iceberg表格式实现ACID事务,保障训练数据一致性。 2. 支撑向量数据与语义检索 大模型常需结合向量数据库实现RAG(检索增强生成)。新型数仓需: 原生存储向量:支持FAISS、HNSW等索引格式; 融合标量与向量查询:如“近30天高价值客户中,相似咨询问题的解决方案”; 与向量库协同:通过CDC或API实现向量更新同步。 这要求数据平台具备多模态数据处理能力,打破传统仅处理结构化数据的局限。 3. 嵌入全生命周期数据治理 根据《数据安全法》第27条,重要数据处理者应“明确数据安全负责人和管理机构,落实数据安全保护责任”。AI数仓必须内置: 数据分类分级:识别训练数据中的个人信息、敏感信息; 匿名化/去标识化:对含个人信息的数据进行技术处理,符合《个人信息保护法》第73条要求; 血缘与审计:记录数据从采集到使用的完整链路,满足《生成式人工智能服务管理暂行办法》第12条关于“训练数据合法性”的备案要求。 三、三大常见误区 1.把“数据湖”当万能解药 盲目将所有原始数据倒入对象存储,缺乏治理,导致“数据沼泽”。结果:模型训练用不到有效数据,反而增加清洗成本。 正确做法:采用湖仓一体架构,在开放格式(如Delta Lake)上叠加治理层,实现“存算分离+治理统一”。 2.忽视数据合规边界 直接使用用户评论、客服对话等含个人信息的数据训练模型,未履行告知同意或匿名化义务。 正确做法:建立数据合规审查机制,训练前完成: 数据来源合法性评估; 个人信息识别与脱敏; 必要时取得用户单独同意(《个保法》第14条)。 3.追求“全自动”,放弃人工干预 完全依赖自动化管道,一旦数据异常(如字段突变、分布漂移),模型效果骤降却无法定位。 正确做法:关键节点设置质量门禁与人工复核,确保数据可用性。这既是工程最佳实践,也符合《网络数据安全管理条例》关于“风险监测与处置”的要求。 四、从“仓库”到“智能数据中枢” 服务化数据产品 将特征库、标签体系、向量集封装为API服务,供算法团队按需调用,提升复用率。 拥抱AI原生架构 参考中国移动与中国信通院联合发布的《AI原生基础设施实践指南(2026)》,将大模型推理、智能调度、向量计算作为平台原生组件,而非外挂模块。 强化跨团队协同 数据工程师需与法务、算法、业务共同制定数据使用规范,确保技术方案与合规要求对齐。 五、数仓的“AI原生”演进 随着国务院《关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号)推进,数据仓库将加速向AI原生数据平台演进: 架构层面:从“存储为中心”转向“智能服务为中心”,内嵌向量引擎、特征计算、合规检查等能力; 治理层面:数据资产目录将包含“AI适用性”标签,如“可用于NLP训练”“已脱敏”; 生态层面:通过DCMM(数据管理能力成熟度)3级及以上认证,将成为企业参与政府/国企AI项目的基本门槛。 这场升级战没有硝烟,却决定了AI能否真正扎根于业务土壤。那些默默升级管道、加固治理、打通多模态数据的人,正是大模型时代最坚实的“喂养者”。 来源(公众号):数据仓库与Python大数据
大多数数据战略失败并非因为方向错误,而是因为组织无法始终如一地执行。架构正是避免这种情况的关键,它并非通过控制来实现,而是通过一套精简的共同决策,使数百个独立的选择指向同一方向。 1884年,威廉·温彻斯特的遗孀、温彻斯特连发步枪公司继承人莎拉·温彻斯特开始在加利福尼亚州圣何塞建造房屋。一位通灵师告诉她,温彻斯特家族受到死于温彻斯特步枪之手的亡灵诅咒,唯一能驱散亡灵的方法就是不停地建造房屋。如果工程停工,她就会死去。 她对此事非常认真。在接下来的三十八年里,她雇佣木匠们日夜不停地工作,一周七天无休。到1922年她去世时,这座房子已经扩建成约160个房间、2000扇门、10000扇窗户,楼梯直通天花板,门打开后直接通向陡峭的悬崖,烟囱几乎顶到屋顶却没有壁炉。这里没有总体规划。每天早上,她都会和工头碰面,把当天的指示草草画在纸片上。没有清晰的愿景,也没有除了继续下去之外的任何意图。 我认为这是技术领域最贴切的比喻。并非因为企业IT系统真的像某些人感觉的那样“闹鬼”,而是因为其模式千篇一律。每个迭代周期、每个项目,团队都会做出看似合理的决策:这里新增一个集成,那里搭建一个定制数据存储,再添加一个微服务,再添加一条管道。每个决策本身似乎都没有错。但没有人问架构所要求的关键问题:这些组件如何协同工作?我们最终会后悔锁定哪些组件?结果就是软件工程师所说的“一团乱麻”——结构混乱却缺乏连贯性。修改成本高昂,难以解释,而且完全依赖于每个组件的构建者的记忆。 架构的作用在于约束设计 与温彻斯特神秘屋截然相反的是集装箱。20世纪50年代,全球贸易面临的问题并非船舶本身,而是货物交接。海运、铁路和公路之间的每一次转运都缓慢、繁琐且难以预测。集装箱的出现解决了这个问题,并非因为它本身性能更优,而是因为它本身就是一种约束:标准尺寸、标准锁扣点、标准装卸设备。正是这一设计决策使得所有运输方式之间的货物交接都变得可预测。一旦接口标准化,其他一切都可以围绕它展开。 这就是架构的作用:并非设计一切,而是约束那些若不一致就会破坏整体的决策。一套共享的边界、真理来源和交互模式,能够确保跨团队、系统和项目之间的交接可预测。它不是蓝图,而是一套允许其他一切在不导致分裂的情况下演进的决策。 架构是图纸背后的思考 问大多数人什么是架构,他们会指着一张图。方框和线条。系统上下文视图。技术栈。但架构并非图纸,而是图纸背后的思考。 架构的核心在于一系列有意识的、影响深远的决策,这些决策决定了系统的结构、压力下的运行方式、可扩展性和演化方式。正如格雷戈尔·霍普所定义的那样:架构必须包含重要的决策,这些决策必须有完善的文档记录,并基于清晰的逻辑。文档本身并非架构,决策及其背后的逻辑才是。 架构与单纯的建造之间的区别在于意图。架构始于目的,在限制条件下运作,并将权衡取舍明确化。它会问:哪些品质是不可妥协的?两年后我们需要做出哪些改变,而现在又无法锁定?哪些值得付费,哪些我们只需消费即可?如果没有这些问题,你建造的只是房间;有了这些问题,你建造的才是真正有效的建筑。 每个架构设计决策都是一种权衡。 为了准备诺曼底登陆,英国工兵面临着一个棘手的问题:如何在敌军炮火下安全穿越布满地雷的海滩?标准坦克无法胜任。于是,珀西·霍巴特少将的团队打造了一系列经过大幅改装的车辆,被称为“霍巴特的奇葩车”,每一辆都旨在解决战场上的特定难题。 其中最著名的当属连枷坦克。一个装有重型链条的旋转滚筒会敲击坦克前方的地面,在地雷被坦克自身重量触发之前将其引爆。这套装置确实有效。但其缺点是经过深思熟虑的:连枷会遮挡驾驶员的视线,降低速度,并且意味着在排雷作业期间无法开火。生存能力的提升是以牺牲进攻能力为代价的。 连枷坦克的关键架构特征——每一次改进都是一种经过深思熟虑的权衡。 这些并非表面功夫,而是意义重大的架构决策,决策者对放弃什么以及为何放弃有着清晰的认识。这种精准性——明白自己放弃了什么,而不仅仅是得到了什么——正是架构与空想之间的区别。 我在实践中反复看到过同样的情况。在旅游行业,架构师始终面临着数据新鲜度和系统性能之间的矛盾。预订复杂度假套餐的客户期望获得快速、准确的结果。但是,跨数十个供应商系统进行实时价格核查会造成延迟和不稳定。缓存数据可能会显示过时的价格,而实时获取数据则可能导致缓慢且令人沮丧的用户体验。 没有放之四海而皆准的答案,只有取决于具体情况的权衡取舍。无论你选择哪种方式,这个决定都会在未来数年内影响你的基础设施设计、团队所有权模式、服务级别协议 (SLA) 承诺以及成本结构。这就是架构的本质。 架构既是技术性的,也是社会技术的 关于数据架构,最重要也最常被忽视的一点是,它并非纯粹的技术性架构,而是社会技术性的架构:它融合了系统本身以及构建和运营这些系统的人员、团队和工作方式。 康威定律指出,任何组织在设计系统时,其系统结构都会反映出自身的沟通结构。换句话说:如果你的团队各自为政、支离破碎,那么无论技术图看起来多么精美,你的系统也必然如此。关于平台和集成模式的架构决策,与关于团队所有权、治理和交付实践的决策密不可分。 数据架构既是技术性的,也是组织技术性的——两者必须共同发展。 其实际意义重大:如果你想要不同的架构,可能就需要组建不同的团队。反向康威策略,即有意识地调整团队结构以构建所需的架构,是IT领导者可用的最有效工具之一,也是最少被使用的工具之一。 团队拓扑结构(Team Topologies)是由 Matthew Skelton 和 Manuel Pais 创建的框架。它将康威定律的社会技术洞见转化为一种实用的设计语言:负责端到端成果的流程导向型团队、降低认知负荷的平台型团队、构建能力的赋能型团队,以及需要真正专业深度的复杂子系统团队。团队边界和交互模式并非无关紧要,而是影响流程、风险和速度的结构性设计决策。 将战略意图转化为架构指导 大多数数据战略都只阐明了意图,却将架构的构建寄托于随机应变。团队根据每个项目、每个供应商的情况来解读战略的“含义”,结果可想而知:偏离方向、重复劳动、交接不畅,以及不到18个月,数据架构就与最初的意图大相径庭。 架构指导通过在交付开始前尽早发布一套不可协商的决策来避免这种情况。它不是蓝图,也不是购物清单,而是一种准则:团队不得在局部范围内重新决定少数几个结构性真理,因为在这些方面出现不一致会破坏整体策略。 得出此指导原则的过程遵循清晰的逻辑链,如下图所示。 定义架构指导原则的过程——从战略意图到可发布的指导原则包。 首先,要明确战略意图以及该行动所支持的具体价值流或客户旅程。然后,要编写关键场景,即必须奏效的几种情况:正常流程、高峰负载、异常情况和变更。这些并非边缘案例;它们是压力测试,旨在揭示如果任由本地解读,交付过程中哪些环节会出现歧义。 接下来需要考虑能力限制,包括架构必须克服的遗留系统、数据孤岛和基础设施限制。这确保了你的设计是基于实际环境,而不是基于一个全新的理想框架。 从场景和约束条件中提炼出目标架构特性:这些特性是定义架构必须具备的不可妥协属性的真理陈述,是策略成功的关键。至关重要的是,每个特性都与证据、合同、服务级别目标 (SLO) 和一致性仪表板相匹配。没有证据,特性就只是愿景;有了证据,特性才能得到有效管理。 运用沃德利映射法制定建议 目标架构特征告诉你哪些是必然存在的,但它们并没有告诉你如何实现这些特征,需要构建什么,需要购买什么,需要标准化什么,以及应该将哪些作为竞争优势。而这正是沃德利映射法(Wardley Mapping)发挥作用的地方。 沃德利图是一种可视化模型,它展现了组织如何为用户创造价值。该模型以特定的用户需求为核心,展示了满足该需求所需的一系列责任,并将每个组成部分定位在从创新到工业化的演进轴上。这种定位决定了组织的姿态:通用型责任应该标准化并被消费;而差异化的定制能力则应该进行投资和设计,以适应变化。 设想一家零售商正在构建线上订购线下取货(click and collect)服务。沃德利地图(Wardley map)立即揭示了一个有用的区别:定义“准备就绪”、“延迟”和“已取货”含义的编排层,即每个渠道、门店和客服人员所依赖的规范状态模型,牢牢地位于定制开发区域。客户的确定性要么在此得到保障,要么在此受到损害。它应该作为一项持续的产品功能进行投资,而不是一个项目。 在沃德利演化轴上绘制责任价值链——姿态跟随位置。 相比之下,订单管理和库存管理虽然至关重要,但在演化轴上却更偏右,更接近产品或商品。正确的做法是限制变异:实现无缝集成,避免局部重复发明,并将这些功能作为一个平台提供给所有消费者。 这张地图清晰地揭示了企业何时在错误的地方无意中实现了差异化:例如定制的集成架构、专属的通知机制以及在各个渠道重复复制的业务逻辑。这些并非竞争优势,而是会增加复杂性的成本,从而消耗掉真正实现差异化所需的预算。 架构与组织密不可分 一旦沃德利地图绘制完成,就必须明确责任归属。哪个团队负责哪项职责?正确的路径在哪里?当标准需要更新时,谁拥有决策权? 沃德利演化轴不仅决定技术姿态,还决定每个领域的最佳运营模式。职责会根据其演化方式以及变革带来的关联程度,自然而然地归入不同的所有权群体。 职责按团队所有权分组——与沃德利的发展战略保持一致。 定制开发领域的差异化能力应由拥有领域决策权、持续投入且目标一致的团队负责,并以产品而非项目的形式进行投资,因为这关系到企业能否实现或削弱自身的竞争优势。这些团队人员变动频繁,需要拥有自主响应的能力。 平台区域的职责,即其他所有团队所依赖的权威信息,例如库存数据、订单状态或身份信息,应该由独立的团队负责,并作为产品功能提供给消费者,同时设定清晰的服务级别。如果这些信息分散在各个客户旅程团队中,组织内的其他部门就会各自独立地重复执行相同的规则。将它们放在平台区域可以防止重复信息在整个组织内扩散。 产品区域的功能受限于既定的变体、打包的工具、标准的工作流程引擎和托管的基础设施,其管理职责应有所不同:标准化、最大限度减少定制化变更,并与上述平台标准无缝集成。这里的风险不在于投资不足,而在于过度定制:即构建与标准模型已提供的功能重复的定制逻辑。 团队拓扑类型和互动模式——团队的参与方式决定了组织内部的摩擦。 团队间的交互模式与团队类型同等重要。通过“X即服务”这种低摩擦、以合同为先的关系,流式团队从平台团队获取资源,避免了持续协作带来的额外开销。协作仅限于真正需要共同解决歧义的阶段;一旦接口稳定且易于理解,自助服务模式才是最佳选择。这种高带宽协作与低摩擦消费之间的区别,是IT领导者可以做出的最重要的设计决策之一。 最终成果:指导手册,而非蓝图 此流程的输出并非未来状态架构图,而是一套指导手册:一套精心设计的约束条件和默认设置,旨在确保交付的一致性,避免陷入解决方案设计的窠臼。 一套完整的指导方案包含四部分。首先,提供目标架构特征及其证据,明确架构必须具备的不可协商属性,每项属性都对应一份合同、服务级别目标 (SLO) 或一致性检查,以确保其可控性。其次,提供一份沃德利图,清晰地阐明所有权归属、边界划分以及必须保持一致的接口。第三,提供以权衡取舍的方式提出的建议,明确行动步骤、停止事项、标准化流程和行动顺序,并清晰地列出每项行动的成本和收益。第四,提供一份运营模式概览,明确责任人、团队类型、交互模式以及一致性管理方式。 架构的作用在于影响,而非控制 思考架构时,要牢记的关键词是“影响”。架构指导的作用在于塑造团队无论如何都会做出的决策,而不是取代这些决策。其目标是构建足够的共享结构,使战略在与交付的互动中得以延续。这并非一个包罗万象的设计,而是一套针对那些若不一致就会破坏整体的事项的决策。 来源(公众号):数据驱动智能
2025年开始,AI中台这把火越烧越旺。 赛意信息刚签下近5000万的AI中台订单,万达信息带着AI中台亮相世界人工智能大会,软通动力、众安信科各路玩家纷纷登场。有人喊出AI中台是企业数字化转型的标配,有人高呼再不布局就晚了。 熟悉的配方,熟悉的味道——这跟当年数据中台的剧本几乎一模一样。 但我想泼盆冷水:上套AI中台,距离企业真正用好AI,还差着十万八千里。 什么是AI中台 AI中台本质上是企业级AI能力的中枢神经系统。 简单来说,它解决的是重复造轮子的问题——把语音识别、自然语言处理、计算机视觉这些通用能力封装成可复用的组件,企业不用每个业务线都养一个算法团队。 同时,它还覆盖模型设计、训练、部署、监控的全生命周期,让算法工程师专注调参而不是天天搬砖。 听起来很美,对吧? 但问题来了。 很多企业连数据分析师都没几个,更别说算法工程师了。 工具再好,没人用得了,这不是白搭吗? Gartner早就给数据中台判了死刑,说它即将消亡,取而代之的是数智基建。 数据中台的失败率高达60%以上,动辄几百万上千万的投入,最后沦为"PPT工程"。 AI中台会好到哪里去吗? 从架构上看,AI中台通常分为三层。 技术服务层提供通用AI能力和行业专用服务;研发平台层包含数据标注、特征工程、AutoML这些工具;管理运行层负责算力调度、权限控制、模型版本管理。 这套东西好不好? 当然好。但它需要的前提条件太苛刻了——企业得有足够的算法人才、有清晰的数据治理体系、有持续投入的预算。 缺了任何一环,中台就变成了摆设。 AI中台会重蹈覆辙吗 这两个东西解决的根本不是同一个问题。 数据中台负责把数据管好、用活,AI中台负责把AI能力输出、复用。 谁也取代不了谁,但边界确实在加速融合。 现在有个明显的趋势:数据中台开始主动往AI方向靠,提供特征平台、训练样本这些能力;AI中台则越来越依赖数据中台喂过来的高质量数据。 数据问题不解决,AI能力就是空中楼阁。 我见过太多企业砸钱上AI中台,结果发现数据质量一塌糊涂——口径不一致、更新不及时、口径没人说得清。 AI模型跑出来的结果业务方不认,说数据不对。最后变成算法团队和业务团队互相甩锅,项目不了了之。 有些企业已经在搞融合中台,把数据中台和AI中台合成一个更广义的概念。 这条路走得通,但前提是企业得想清楚自己要什么,而不是跟风上系统。 数据中台当年什么下场,大家都知道。 定位模糊、闭环能力不足、价值交付周期太长,最后被很多企业束之高阁。 AI中台会步其后尘吗? 未必,但有几个问题必须想清楚。 第一,AI是不是你企业的核心能力? 如果是算法驱动型公司,比如智能风控、AI应用服务商,中台确实能沉淀资产、提升迭代效率。 但如果你只是把AI当工具用,完全没必要搞这么大阵仗。一个API调用能解决的事,为什么要养一个中台团队? 第二,有没有更轻量的替代方案? 数据中台加大模型加企业知识库,这套组合拳跑得通。 算力成本高企、数据孤岛严重、落地场景模糊,这些问题制约着大模型的规模化应用。 与其砸钱上中台,不如先把RAG跑通。 第三,AI中台比数据中台更难落地。 因为它需要的不只是数据治理能力,还需要持续的算法研发投入、模型迭代优化。 数据中台失败了还能说"数据质量问题",AI中台失败了连借口都没有——模型效果不好,是数据问题、算法问题、还是算力问题? 说不清楚。 中国企业有个毛病,喜欢追风口而不是打地基。 看到别人上中台,自己也要上;看到别人吹AI,自己也要蹭。 结果呢?系统上了一堆,真正用起来的没几个。 结语 市场永远不缺焦虑感。 十年前是云计算,五年前是大数据,三年前是元宇宙,现在是AI。 每波浪潮都有人喊再不入场就晚了,但真正活下来的从来不是追风口的,而是把根扎深的。 巴菲特说过一句话:"我会专注于那些美好的事情,而不是糟糕的事情。" 在AI时代,美好的事情不是追风口、凑概念、为了KPI硬上AI项目。 而是让组织真正理解AI的能力边界,让数据资产真正可信可用,让技术在业务场景里产生实际价值。 一句话:技术服务于价值,而不是成为新的内卷。 数据中台踩过的坑,AI中台未必能躲过。与其急着上系统,不如先想清楚:我的企业真的需要AI中台吗?还是只需要一个会调API的工程师? 技术浪潮来了又去,但地基稳不稳,只有自己知道。 来源(公众号):臻成AI大模型
本文系统阐述AI时代组织意图的实现结构。面对个体与组织意图的内在冲突,构建以“一心为公、行不逾正、履职尽责”十二字总则为根本遵循,以实体、数据、语义、意图四层网络为载体,以小模型高效执行、大模型深度纠偏为技术路径,以长期运营、小切口迭代为实施方略的完整治理体系。同时坚持理性批判:AI赋能组织治理是“九分变革、一分技术”,须警惕唯技术论与过度设计,始终立足于人、扎根实践、形成新文化;必须以商业闭环为支撑,从大安全、大运维、集约运维等高价值场景切入,实现开源节流。最终形成技术可落地、价值可量化、治理可进化的完整体系,让个体行为锚定组织大道,让初心使命转化为可执行、可管控、可持续的数字现实。 在人工智能深度重构组织治理与运行逻辑的当下,组织的核心命题已不再是简单弥补信息不对称与协同低效,而是如何让离散、多变、带有自利倾向的个体行为,始终稳定锚定组织的整体意图。个体受潜意识惯性、集体无意识盲从与个人目的差异驱动,行为天然易偏、易私、易失序;而组织以使命、方向、底线为根本,追求整体、长期、公义的秩序。二者的内在冲突,是管理成本高、治理风险大、制度落地难的根源。 AI时代的组织治理,并非用技术替代人,而是构建一套从顶层初心到底层执行、从规则约束到智能进化、从理论设计到工程落地的完整实现结构,让组织意图可落地、可度量、可守护、可迭代。这套结构以极简总则为纲、以四层网络为体、以大小模型协同为用、以长期运营为径,形成闭环可控、可持续进化的数字治理体系。 一、立本: 以极简总则,定组织之“道” 复杂细则无法约束人心,唯有极简、刚性、可全员共识的根本规则,才能成为组织不可动摇的行为标尺。组织意图的落地,首要在于确立约法三章,以十二字立心、立界、立责: 一心为公:坚守组织整体利益,不以公权谋私利,个人意图服从组织意图; 行不逾正:恪守底线边界,不妄为、不越规、不隐匿,行为全程合规可溯; 履职尽责:主动担当作为,不推诿、不躺平、不敷衍,以价值结果为导向。 总则是组织的“骨”,定方向、守底线、明初心,解决“何为对错、为何而做”的根本问题;在此之上延伸的制度、流程、规范是“肉”,覆盖具体场景、明确操作标准,解决“如何做、做到位”的执行问题。一骨一肉、刚柔并济,构成AI时代组织治理的规则基石。 二、筑基: 以四层网络,构运行之“体” 规则的生命力在于执行,执行的关键在于行为可感知、数据可贯通、语义可理解、意图可判断。脱离数字化载体的规则,终将流于形式;唯有构建实体、数据、语义、意图四层贯通的平台网络体系,才能让抽象的组织意图,转化为可计算、可管控、可校验的数字秩序。 (一)实体网络:治理的物理基底 锚定“谁在做事、用什么做事、在什么边界做事”,涵盖组织、人员、角色、设备、终端、权限等全要素,实现分类分级、精准授权、边界清晰、权责对等的资源化配置,明确治理对象与管理范围。 (二)数据网络:行为的全域留痕 实现“凡行为必留痕、凡操作必记录”,所有线上线下行为、流程节点、交互指令均转化为标准化数据,全链路、全周期沉淀,形成真实、完整、不可篡改的行为档案,为规则判断提供客观依据。 (三)语义网络:信息的可理解层 对海量数据做标准化定义、本体化建模、关系化打通,消除字段歧义、数据壁垒与逻辑脱钩,让机器可读、可解、可分析行为内涵与关联,实现从“数据碎片”到“行为全貌”的提炼。 (四)意图网络:初心的校准中枢 以组织总则与细则为标尺,通过行为链还原与深度解析,判断行为是否符合公心、正道、担当的根本要求,识别偏离、越界、不作为等隐性风险,完成从“行为记录”到“价值判断”的最终升维。 四层网络层层递进、环环相扣:实体定边界,数据留轨迹,语义解内涵,意图判是非,构成组织意图落地的完整数字载体。 三、赋能: 以大小模型协同,实现工程可落地 理念的价值最终取决于工程可实现性。组织治理的AI化,并非一味依赖大模型,而是坚持小模型保效率、大模型做深度的协同架构,在安全、成本、性能、落地性之间实现最优平衡。 (一)小模型:规则高效执行,守住运行底线 小模型轻量化、低功耗、快响应,内嵌既有规则与固定策略,承担日常高频、标准化、确定性场景的判断与执行。对简单行为、常规权限、标准流程进行实时校验、快速放行、刚性拦截,保证系统稳定、运行高效、成本可控,实现“基础问题即时处置、常规行为不过度管理”。 (二)大模型:深度分析纠偏,完善规则体系 大模型专注复杂、模糊、隐蔽场景,基于历史行为数据、规则运行结果、风险事件复盘,进行相关全量日志深度挖掘、行为特征学习、风险逻辑推理,精准发现既有规则的缺漏、错误与盲区,输出可落地的新规则、新策略、新阈值,反向迭代、补全、校正规则体系,实现治理能力持续升级。 (三)大小模型协同:效率与精准的动态平衡 小模型管面、保效率;大模型管点、提精度。日常运行由小模型低成本支撑,复杂问题由大模型深度介入并优化规则,再由小模型承接执行,形成规则执行—问题发现—深度研判—规则迭代的工程化闭环,真正做到可落地、可推广、可规模化。 四、长效: 以长期运营,实现与时俱进 AI时代的组织意图治理,不是一次性项目,而是持续运营、渐进迭代、滚雪球式成长的长期工程,必须坚持科学路径与专业能力双保障。 (一)小切口切入,大场景滚雪球 再宏大的治理愿景,也需从最小可用场景起步:先聚焦高频、关键、易见成效的小切口,建立标准、验证模式、树立标杆,再逐步向全域、全场景、全层级扩展,由点及面、稳步扩容,避免大而全、急而乱的落地陷阱。 (二)专业化队伍,保障运营质量 治理体系的生命力,来自懂业务、懂技术、懂治理的复合型专业运营团队。既深刻理解组织使命、底线与业务逻辑,又掌握平台架构、数据治理、AI模型能力,实现日常运维、规则优化、风险处置、模型迭代闭环推进,确保平台不僵化、规则不老化、治理不过时。 (三)持续迭代进化,紧跟时代演进 技术在变、场景在变、行为模式在变,组织意图的实现体系必须保持动态进化。以运营数据为“feed”,以大小模型协同为引擎,不断完善四层网络、优化规则体系、提升意图识别精度,让治理能力与AI技术、业务发展同频共振。 五、理性批判与大胆实践: “九分变革,一分技术” 结构体系再完整、逻辑再自洽,也必须清醒认识到:AI+组织治理,本质是“九分变革、一分技术”。脱离人的变革、思想的变革、文化的变革,再精巧的技术架构也只是空中楼阁;陷入唯技术论、唯模型论,更是理性的自负与实践的陷阱。 其一,必须警惕过度设计、复杂至上。架构越完美,越容易脱离现实、推高成本、难以落地。真正长久的治理,一定是简单、稳定、低成本、可规模化的,不能把治理做成纸上谈兵的智力游戏,而要做成人人可理解、人人可执行、人人可监督的务实体系。 其二,必须承认技术管得了行为、管不了人心,能记录意图、不能替代初心。人性的私、惰、怯、畏,不是算法可以消除的。治理的根本,始终是立场、信念、作风与斗争,要敢于向人性的弱点亮剑,技术只是强化秩序的工具,绝非灵魂本身。 其三,必须坚持从人中来、到人中去,从实践中来、到实践中去。所有规则、模型、平台、细则,都必须扎根业务、服务一线、解决真问题。脱离用户痛点、脱离实际需求,再高级的数字化也只是形式主义、表面文章。 其四,必须实现从旧思想中来、到新文化中去。AI治理不只是技术升级,更是一场思想越迁、行为越迁和文化越迁。要把“一心为公、行不逾正、履职尽责”的根本准则,从纸面要求变成集体习惯、文化自觉、行为本能。 其五,必须坚守商业闭环、价值导向、场景先行。没有商业支撑、没有价值回报、没有开源节流实效的变革,都是悬空的理想主义。我们已从复杂系统开发、大安全、大运维、集约运维等普惠性场景切入,其核心价值正是:用极少的人,做成过去做不到的事,既开源、又节流。没有价值闭环,平台不可持续;没有大胆变革,新商业模式无从诞生。理想与现实必须统一,技术与商业必须同频,长期主义与价值创造必须一体推进。 六、结语 AI时代组织意图的实现,最终形成一套完整、自洽、可工程化的逻辑:以十二字总则立初心,以四层网络筑载体,以大小模型协同保效能,以长期运营促进化,以九分变革引领一分技术。 简单场景靠规则与小模型高效执行,复杂场景靠大模型深度纠偏,全局行为留痕可溯、语义可读、意图可判;立足实践、服务于人、价值为先、商业闭环,使个体行为始终归顺组织大道,让抽象使命转化为稳定、可控、可持续、能创造真实价值的数字现实。这既是人工智能赋能组织治理的核心结构,也是数字时代实现高质量治理、现代化运营、长期稳健发展的根本路径。 来源(公众号):数字浙江DZJ
引言:为什么数据管理比以往任何时候都更加重要 现代组织产生和使用数据的速度是几年前任何人都无法想象的。从日常报告到利用人工智能推动创新,团队都依赖于可靠、易于访问且及时的数据。事实上,每天产生的数据量高达25亿亿字节。 Statista最近报告称,2025 年,全球数据总量达到 182 泽字节,到 2028 年将达到 394 泽字节。 但现实却截然相反,而且是任何企业都不愿看到的。他们饱受系统碎片化、信息可见性有限和数据质量差的困扰,导致决策迟缓和运营风险增加。 因此,成熟的数据管理不再是可有可无的环节,而是一项能够直接影响人工智能准备度和业务绩效的战略能力。在本文中,我们将探讨团队务必遵循的一些数据管理最佳实践。 什么是数据管理? 数据管理是指企业用于有效收集、组织、存储、保护和使用数据的一系列流程、活动和技术。其目标是确保从日常运营到分析和人工智能等各个环节的数据可靠性、准确性、可用性和可访问性。 顶级数据管理最佳实践 让我们来探讨以下一些最具影响力的数据管理实践: 1. 明确目标,并使数据战略与目标保持一致 在投资数据平台和工具之前,团队需要明确他们寻求数据管理改进的原因。一个稳健的策略需要有清晰、可衡量的目标,并与业务成果挂钩。这些目标可以是减少运营低效、提高合规性,或者加快人工智能模型的开发。 正式评估当前数据的成熟度有助于确定差距所在,以便团队能够制定可以不断发展的动态路线图。 2. 构建稳健的数据治理框架 强大的数据治理是有效数据管理的基础。它制定政策、标准、问责机制和角色结构,以确保整个组织的数据高质量、一致性和可信度。良好的治理还能促进工程、业务和分析团队之间更顺畅的协作。 与治理相一致的安全框架将包含以下要素: ➡ 基于角色的访问控制、匿名化和掩码,以确保数据始终对正确的利益相关者可见。 ➡ 传输中和静态加密,以保护敏感信息免受未经授权的访问。 ➡ 在整个数据生命周期中,指导数据及其转化为可操作情报的流程的隐私设计原则。 ➡ 符合 个保法、数据安全法、GDPR、ISO 标准和其他行业特定要求等各种法规的完善合规流程。 ➡ 持续审计和监控,并在出现异常模式、违反策略或数据泄露尝试时发出自动警报。 3. 实现数据可观测性并优先考虑数据质量 就报告、分析和人工智能应用而言,数据质量差是最大的障碍之一。确保数据的完整性、准确性、一致性和及时性是任何以数据为中心的组织最基本的要求之一。 确保这一点的几个关键步骤包括: ➡ 为关键数据集建立质量标准。 ➡ 跟踪模式一致性、空值百分比或新鲜度等指标。 ➡ 在摄取和转换等不同阶段实现质量检查的自动化。 ➡ 通过集中式工作流程对问题进行分类。 数据管理中的可观测性在上述所有步骤的基础上更进一步,提供了对整体数据健康状况的实时可见性。借助这种可见性,团队可以轻松检测并应对异常情况,甚至在异常情况出现在仪表板之前即可进行响应,从而实现模式更改,甚至在管道故障发生之前也能及时发现问题。这有助于减少数据停机时间,并帮助企业维护信任。 4. 加强元数据管理和数据沿袭 元数据的上下文层赋予信息意义和可发现性。如果没有上下文层,团队将很难理解数据的来源、用途,甚至数据所代表的含义。 完善的元数据实践包括: ➡ 维护数据 目录,以便轻松发现定义、数据集、分类和所有者。 ➡ 记录数据沿袭,以清晰地描述数据如何在系统和管道中移动、转换和使用。 ➡ 捕获业务、技术和运营元数据,以支持审计、分析和故障排除。 通过丰富的血缘关系和元数据,团队可以加快新用户入职速度,减少歧义,并有效地支持合规性和治理。 5. 实现数据生命周期自动化并支持自助服务 数据生命周期管理确保信息从创建到删除都得到负责任的管理。领域团队应清晰定义生命周期阶段,并在整个企业范围内一致地执行相关策略。 这种清晰的阐述将包括: ➡ 自动归档、保留和删除规则。 ➡ 明确的数据脱敏和处理指南。 ➡ 实现有效数据共享的访问控制和审批工作流程。 ➡ 版本控制和变更管理流程。 自助访问也发挥着至关重要的作用。用户无需依赖中央团队处理每个数据集请求或查询,而是能够通过基于角色的独立访问权限来探索受管控的数据集。这既能减少瓶颈,加快决策速度,又能确保合规性。 6. 加强数据分析能力 数据管理只有在能够提供有意义的洞察时才有价值,而强大的数据分析在其中发挥着至关重要的作用。数据分析能够将管理良好的原始数据转化为趋势、模式和预测,从而为运营和战略决策提供支持。 以下几点可以提升分析能力: ➡ 建立一致的流程来探索、清理、解释和验证数据。这可以减少见解上的不一致,并确保所有分析结果都能在多个团队之间复现。 高质量且管理良好的数据应顺畅地流入仪表盘、BI 工具、AI 模型和笔记本。这种减少摩擦的做法可以提高工作效率并加快决策速度。 ➡ 运用恰当的分析技术,例如描述性分析、预测性分析、诊断性分析和规范性分析。将这些技术有效结合,能够帮助企业从被动决策转变为主动决策。 ➡ 推动跨领域协作,帮助分析师理解结果背景和需求。 ➡ 优先考虑通过图表和仪表板进行数据可视化,使复杂的见解更容易理解,即使是对于非技术利益相关者也是如此。 7. 培养问责制和数据驱动文化 仅靠技术和流程是不够的,数据文化在数据管理 中扮演着重要角色。团队需要共同努力,将数据本身视为一种战略资产。 提升数据文化的一些方法包括: ➡ 为关键数据集建立明确的问责制和所有权。 ➡ 对员工进行负责任的数据使用和数据素养培训。 ➡ 提高数据质量和指标的可见性。 ➡ 奖励采用数据问题解决方法的团队。 当组织中的每个人都对数据的可靠性和质量负责时,组织的成熟度和信任度就会得到显著提高。 数据产品和数据开发平台如何增强数据管理 传统的数据管理方法通常依赖于单体系统和中心化团队,导致所有权不明确、交付周期长、数据质量难以预测。如今,各组织正在向数据开发平台和数据产品转型,从而带来新的架构、责任机制和敏捷性。 ➡数据即产品 数据 产品不仅仅是数据集,它还包括清晰的文档、所有权、可观测性、服务级别协议 (SLA) 和内置的反馈机制。这种理念确保数据始终被视为一种资产,服务于可衡量的目标。 ➡数据开发平台 数据开发平台提供标准化的工具、自动化以及自助式基础设施,以大规模管理数据产品,从部署到监控。 这对数据管理有何帮助? 数据开发平台等平台通过标准化跨领域的质量和可观测性,同时通过预定义的模板、策略和访问控制嵌入治理,从而改进数据管理。 联合所有权模式确保团队责任明确,避免了集中式系统的瓶颈;精简的血缘关系、元数据和目录集成使数据更易于追踪和使用。自动化工作流程和可重用组件进一步降低了运营成本,并保持了平台的可扩展性。 这如何帮助提升整体业务影响力? 采用完善的数据产品战略和数据开发者平台的企业可以获得以下益处: ➡ 更高质量的数据 ➡ 更快实现价值 ➡ 降低合规性和运营风险 ➡ 增强团队间的信任 ➡ 与分析和现代人工智能需求成熟契合。 最后想说的话 数据管理不再局限于信息的存储和传输,更重要的是确保数据的安全、准确、可发现,并能支持人工智能驱动的创新。通过加强质量、治理、安全、架构和文化建设,企业可以显著提升数据使用效率。 随着数据生态系统日益复杂,将数据视为产品并采用数据开发平台,能够提供一种面向未来且可扩展的方法。这些实践能够帮助团队更有信心地开展工作。 来源(公众号):数据驱动智能
随着人工智能系统快速发展并开始影响社会几乎所有领域,关于治理的讨论主要集中在模型及其输出上:它们的透明度、公平性、问责制和一致性。然而,这种关注虽然必要,却并不全面。人工智能系统的可靠性、公平性和有效性完全取决于其训练和运行所依据的数据。 数据治理并非人工智能治理的边缘部分,而是其基石。 与此同时,人工智能的兴起不仅对数据治理提出了新的要求,更从根本上改变了数据治理。为了应对人工智能的能力和风险,数据的定义、管理方式、使用权限以及监管机制等都在被重新定义。 本文探讨了数据治理正在重塑的 10 个关键领域或转变——这些转变既是为了适应人工智能,也是人工智能的直接结果。 1. 重新定义数据的含义 从历史上看,数据治理的重点在于结构化的表格数据集。如今,重心已转移到非结构化数据:文本、图像、音频、视频和多模态内容,这些数据为大规模模型提供了支持。 大型语言模型(LLM)尤其依赖于从网络上抓取的大量语料库,这引发了关于出处、同意、版权和代表性等方面的新治理挑战。 与此同时,人工智能不再仅仅是数据的消费者,它也是数据的生产者。人工智能系统生成的合成文本、图像和信息越来越多地被反馈到训练流程中,这引发了模型崩溃的担忧,也使得对机器生成数据本身的治理框架变得尤为必要。 2. 从 FAIR 到 FAIR-R FAIR原则——可查找性、可访问性、可互操作性和可重用性——长期以来一直是数据管理的指导原则,并且仍然是实现负责任地访问和重用数据的基础。但人工智能系统需要更多。新增的“R”(面向人工智能的准备)则意在将 FAIR 原则的适用范围从可访问性和互操作性扩展到数据必须能够被算法使用的世界。 这意味着不仅要考虑技术特性,还要考虑治理、质量和伦理。FAIR-R 邀请各机构提出以下问题: ·数据是否已充分标注、平衡和记录,足以满足机器学习的需求? ·代理机构、来源和目的是否明确定义? ·谁来决定什么才算“负责任的再利用”? ·我们看到,需要将FAIR 扩展到 FAIR-R(Ready-for-AI),以包含以下内容: ·用于机器可解释的结构化元数据; ·更好地记录血统和出处; ·偏见和代表性评估; ·符合负责任的人工智能实践。 简而言之,数据现在不仅必须可重复使用,而且必须能够以安全、可审计且符合社会价值观的方式被机器重复使用。 3. 情境作为基础设施的兴起 缺乏上下文的数据在人工智能系统中越来越难以使用。模型不仅需要原始输入,还需要关于含义、关系和预期用途的结构化信息。 这促使人们开发出新的协议,例如模型上下文协议 (MCP),该协议旨在规范上下文(例如工具、记忆和环境信息)的结构,并将其与数据一起传输到人工智能系统。 上下文正在成为一种基础设施——受到管理、管理和标准化——塑造着人工智能系统如何解释数据和处理数据。 4. 从数据管理到战略数据管理 传统的数据管理侧重于合规性、标准管理和质量控制。但在人工智能时代,这远远不够。 战略性数据管理的需求日益增长——这是一种积极主动、目标明确的方法,它: ·使数据使用与业务价值保持一致 ·预计下游人工智能应用 ·跨行业的代理应用关系 ·实现大规模的负责任再利用 数据管理员的角色正在从数据保管者转变为数据生态系统的协调者。 5. 人工智能时代的新型许可制度 现有的数据许可框架(例如知识共享)在设计之初并没有考虑到人工智能训练。 对此,出现了新的方法,包括专门针对人工智能的许可证和信号机制(例如“ cc-signal ”),这些机制指示数据是否以及如何用于模型训练。 这些发展反映了更广泛的转变:从静态许可转向偏好信号和更动态、机器可读的数据权利治理。 6. 社会许可与参与式治理 仅靠法律合规和获得用户同意已不足以使人工智能系统中的数据使用合法化。公众信任越来越依赖于更广泛的社会许可概念。 我们看到参与式机制(公民大会、利益相关者咨询、社区治理模式)的兴起,这些机制使受影响群体能够影响有关如何使用其数据的决策。 这标志着同意从一种交易转变为一种过程。 7. 新的制度形式:数据共享及其他 为了应对数据提取和集中带来的风险,新的制度安排正在涌现,包括数据共享、合作社和信托机构。 ·这些模型旨在: ·融入集体治理; ·使数据使用与社区偏好和共同目标保持一致; ·重新分配数据生成的价值。 在人工智能领域,此类安排对于确保数据不仅被提取,而且被调动起来用于集体行动和公共利益至关重要。 8. 合成数据作为一种治理工具 合成数据——即人工生成的、模仿现实世界模式的数据集——已逐渐成为解决隐私、访问和稀缺性挑战的一种方法。 如果以负责任的方式实施,其治理意义包括: ·它可以实现安全的数据共享,而不会泄露敏感信息; ·它可以填补代表性不足数据集中的空白; ·它引发了关于保真度、偏差放大和滥用等方面的问题。 因此,合成数据不仅仅是一种技术解决方案,它本身就是一个新的治理对象。 9. 人工智能在数据治理中的应用 人工智能不仅受数据治理的约束,而且越来越多地被用于执行数据治理。应用领域包括: ·自动化数据发现与分类; ·质量评估和异常检测; ·监控合规性和使用模式; ·对数据集和模型进行偏差和风险审核。 这既带来了效率的提升,也带来了新的风险,因为治理本身也实现了部分自动化。 10. 人工智能代理在数据治理中的兴起 最后,人工智能代理(能够自主进行多步骤决策的系统)的兴起,标志着数据管理和治理领域进入了一个新阶段。这些代理已被用于: ·协商数据访问权限 ·执行治理规则 ·动态管理数据管道 ·作为用户和数据生态系统之间的中介 这引发了关于治理系统中授权、问责和控制的根本性问题,在这种系统中,机器代表人类行事。 小结:数据治理是一种动态实践 数据治理是人工智能系统赖以构建的基础。但在人工智能时代,它不再是静态的基础,而是一个动态的、不断发展的实践和系统,并受到其所支持的技术的塑造。 我们正迈向这样一个世界: ·数据治理塑造人工智能; ·人工智能重塑数据治理; 两者在一个持续的反馈循环中共同演化。 未来的挑战不仅仅是调整现有框架,而是要将数据治理重新构想为一种鲜活的实践和系统——能够确保人工智能不仅服务于效率和创新,而且服务于公平、问责制和公共利益。 来源(公众号):数据驱动智能