大语言模型为何说谎?幻觉问题探析 大型语言模型(LLMs)已展现出令人惊叹的能力,但其在医疗、金融和法律等高风险领域的广泛应用仍受制于一个关键缺陷:幻觉现象。即模型倾向于生成听起来合理且自信、但事实错误的陈述。我们都曾见过此类现象——LLM 引用不存在的法律案例,或言之凿凿地编造历史事件。 但为何会出现这种情况?最新研究表明,幻觉并非随机错误,而是模型训练方式可预测的统计结果。当前微调LLM的标准方法,特别是基于人类反馈的强化学习(RLHF),通常采用简单的二元奖励机制:回答要么正确(+1分),要么错误(-1分)。 在此范式下,以最大化预期得分为目标的模型,只要其内部正确概率大于零,就会被激励进行猜测。而选择弃权或承认不确定性则会受到惩罚。这会将模型训练成“应试高手”——始终为最大化得分而提供确定性答案,而非成为承认认知边界的“诚实交流者”。训练目标与认知诚实之间的根本性错位,是幻觉现象持续存在的根源。 培养诚实性:行为校准的新方法 要构建真正可信的ç,我们需要将范式从单纯奖励正确性转向奖励诚实性。本文引入名为行为校准的框架来实现这一目标。其核心思想简洁而有力:一个可信的模型应能根据用户的风险承受能力,动态调整其回答意愿。 试想您可以告知模型:“仅当正确把握超过95%时才作答。”行为校准后的模型应能理解该指令,在其置信度低于该阈值时保持沉默。这一概念通过风险阈值(记为 )进行形式化。理想模型仅当其内部置信度 大于指定风险阈值 时,才提供实质性答案;否则应通过输出特殊标记(如 <IDK> 表示“我不知道”)来弃权。 此方法不仅防止错误答案,更使模型外部行为与其内部知识状态保持一致。通过训练模型做到要么自信正确地回答、要么弃权,我们可以教会它们“知所不知”这一宝贵能力。 运作原理:基于校准奖励的强化学习 实现行为校准的关键在于重新设计强化学习中的奖励函数。本文系统探讨了三种策略,以超越简单二元奖励并激励诚实的置信度报告。 显式风险阈值设定 直接方法是在训练时向模型告知风险阈值 。模型接收评分规则提示,并根据其行动获得奖励。奖励函数定义为: 若若若 此处,ANS 表示作答,ABS 表示弃权,valid(y) 检查回答是否正确。尽管理论合理,实验显示此方法不稳定。如 Figure 1 所示,模型难以学习适应不同 值的连贯策略,常变得过度保守。 语言化置信度 更有效的策略是让模型通过输出标量分数 及其答案来“语言化”其置信度。训练目标随后通过对可能风险阈值的先验分布积分来转换。这一优雅的数学步骤将训练目标转化为优化严格适当评分规则,激励模型报告真实反映其实际正确概率的置信度 ,即 。 基于此原理推导出两种奖励函数: 均匀先验(类Brier奖励): 假设所有风险阈值等可能,得到类似Brier分数的奖励函数:。这直观地同时奖励正确性( 项)和校准性(通过最小化平方误差 )。 Beta先验(类交叉熵奖励): 使用强调风险谱极端值( 和 )的Beta分布,产生类似交叉熵的奖励函数,对错误答案的过度自信施加重罚。 评论家价值函数 第三种策略巧妙利用了PPO等行动者-评论家RL算法中的现有组件。评论家网络经训练以估计预期未来奖励。由于主要奖励基于正确性,评论家的价值函数自然学会预测成功概率。本文证明,评论家的最终标记价值可直接用作校准置信度分数,无需模型生成显式置信度标记。此方法被证明是非常强大且高效的基线。 理论付诸实践:复杂数学问题上的实证 为测试这些方法,研究人员使用 BeyondAIME 基准数据集——包含100道抗简单记忆的“超难”数学问题。实验在相对较小的 Qwen3-4B-Instruct 模型上运行。Table 1 所示结果引人注目。 经校准奖励训练的模型在所有校准指标上均显著优于基线模型乃至更大规模的前沿模型。关键指标信噪比增益衡量模型随风险容忍度增加而降低幻觉率的能力。 在数学推理任务上训练后,本文的4B模型在准确率-幻觉比上的对数尺度增益(0.806)超过了GPT-5(0.207)。 此外,Figure 4 中的校准图显示,校准模型的陈述置信度与实际准确率之间存在清晰、单调的关系。相反,大多数前沿模型的准确率与其陈述置信度几乎无关联,表明校准性差。这证明通过恰当训练,即使较小模型也能学会准确报告其置信度。 可迁移技能:跨领域校准的泛化能力 诚实性是仅能针对特定任务学习的技能,还是可泛化的“元技能”?为解答此问题,研究人员进行了零样本跨领域评估。仅在数学领域训练的模型在 SimpleQA(一个长尾事实问答基准)上接受测试。 Table 4 呈现的结果令人瞩目。尽管在新领域的事实准确率很低(对于小型专用模型属预期之内),其校准性能却异常出色。Qwen3-4B-Instruct-confidence-brier 模型的校准错误率(smECE、Brier 分数)与Grok-4、Gemini-2.5-Pro等巨型前沿模型相当甚至更优。 这一发现意义深远。它证明校准是一种可学习的“元技能”,可与原始预测准确率解耦,并能跨领域泛化。 我们可以教会模型在某一领域如何保持诚实,而面对完全不同领域的问题时,它仍能保持这种认知谦逊。本文还成功将该框架扩展至声明级校准,如 Table 3 所示,允许模型在较长思维链中标记个别不确定步骤。 校准的未来:构建可信AI 本研究为缓解现代AI最重大风险之一提供了清晰实用的路径。它挑战了“模型越大越好”的单一思路,表明针对诚实性的定向训练能产生非凡效果。 核心结论明确: 诚实性是可教技能: 幻觉并非必然。通过使用基于适当评分规则的校准奖励进行强化学习,我们可以训练模型诚实面对不确定性。 小模型可更诚实: 经过恰当校准的40亿参数小模型,对自身局限性的认知能力可远超参数规模数百倍的前沿模型。 校准是可泛化元技能: “知所不知”的能力可跨领域迁移,为即使在核心训练数据外操作仍更安全可靠的模型铺平道路。 通过将焦点从培养“应试高手”转向塑造“诚实交流者”,我们有望培育出不仅强大且值得信赖的新一代LLM。AI的未来不仅关乎获得正确答案,更关乎知晓何时无法做到并勇于承认的诚信。 来源(公众号):AI Signal 前瞻
2026-04-17 18:51 37
企业开展数据分类分级管理是数据治理的核心环节,是保障数据安全、促进数据高效利用的基础。其核心目标是 “认清数据、管好数据” ,即识别出哪些数据是最重要、最敏感的,从而采取与之相匹配的安全和管理策略。 以下是开展数据分类分级管理的主要步骤和方法: 一、 主要步骤 企业数据分类分级工作可遵循“定标准、盘资产、识数据、打标签、制策略、常态化”的六步闭环流程。 第一步:确立组织与制度(定标准) 成立工作组: 组建一个跨部门的工作团队,成员应来自信息安全、法务合规、业务部门、IT部门等。 制定制度标准: 发布《数据分类分级管理办法》作为总纲,并配套制定《数据分类分级标准指南》。该指南需明确定义数据的类别和级别,以及每个级别对应的安全管控要求。 第二步:数据资产盘点(盘资产) 识别数据资产: 全面梳理企业拥有的数据资产,包括业务数据库、数据仓库、文件服务器、云存储、应用程序等中的数据。 形成资产清单: 建立数据资产目录,明确数据的业务来源、系统来源、管理者(Data Owner)、使用者等元信息。 第三步:数据识别与判定(识数据) 应用标准: 根据第一步制定的《标准指南》,对盘点出的数据资产进行逐一分析和判定。 分类: 确定数据属于哪个业务主题域(如:客户数据、财务数据、人力资源数据、研发数据等)。 分级: 根据数据的敏感程度和泄露后可能造成的影响,确定数据等级。 第四步:数据标记(打标签) 添加标签: 将分类和分级的结果以元数据(Metadata) 的形式标记到对应的数据资产上。例如,在数据库表、文件或字段级别添加“分类:客户信息,分级:4级(高度敏感)”的标签。 技术实现: 可通过手动、自动化扫描工具或数据资产管理平台(Data Catalog)来实现。 第五步:制定与实施安全策略(制策略) 差异化管控: 根据数据级别,制定并执行不同的安全管理策略。 高度敏感数据(如4级): 加密存储、严格访问控制、操作审计、脱敏后使用、禁止出境。 一般敏感数据(如3级): 重要访问控制、日志记录。 公开数据(如1级): 常规管理。 技术落地: 将策略集成到数据安全技术中,如数据库防火墙、数据脱敏系统、数据泄露防护(DLP)等。 第六步:持续运营与审计(常态化) 动态调整: 业务和法规会变化,数据分类分级结果也需要定期复审和更新。 监控审计: 持续监控数据的使用情况,审计安全策略的执行效果,确保合规性。 二、 主要方法 1. 分类方法: 参考国家标准: 优先参考国标《GB/T 38667-2020 信息技术 大数据 数据分类指南》等。 业务视角分类: 从业务角度出发,按数据描述的主题或业务领域划分(如:客户、产品、交易、资源等)。 系统视角分类: 按数据产生的源头系统或功能模块划分(如:CRM数据、ERP数据、OA数据等)。 2. 分级方法: 基于合规的分级: 严格依据《网络安全法》、《数据安全法》、《个人信息保护法》等法律法规要求,识别出法律明确规定的敏感数据(如个人信息、重要数据)。 基于影响的分级: 从安全性影响(对国家安全、公共利益、企业安全的影响)和实用性影响(数据价值、完整性、可用性)两个维度进行综合评估。通常分为4-5级: 4级/严重敏感: 核心商业秘密、绝密数据,泄露会导致灾难性影响。 3级/高度敏感: 重要数据、大量个人信息,泄露会导致严重影响。 2级/一般敏感: 内部一般经营数据,泄露会导致一定影响。 1级/公开数据: 可公开信息,无需保护。 实操工具: 调研访谈: 与业务专家访谈,了解数据业务含义和重要性。 自动化扫描工具: 使用专业工具对数据库进行敏感数据发现和模式识别(如:识别身份证号、银行卡号等)。 机器学习: 利用ML模型对非结构化数据(文档、图片)进行智能识别和分类分级。 总结 数据分类分级是一项管理先行、技术支撑、持续运营的系统性工程。成功的关键在于: 高层的重视与支持; 业务部门的深度参与(数据所有者必须负责); 制度标准与技术工具的紧密结合。 通过有效的分类分级,企业可以真正实现数据安全的“精装修”,而非“毛坯房”式的粗放管理,在满足合规要求的同时,最大化释放数据要素的价值。
2026-04-17 18:48 37
一、从算力竞赛到数据基建 2026年,大模型应用正从技术验证走向规模化落地。但一个现实问题日益凸显:模型迭代速度远超高质量数据供给能力。 据行业观察,当前大模型训练对数据的需求呈指数级增长,而合规、多样、结构化的高质量数据已成为稀缺资源。正如2026未来数商大会所指出:“AI下半场,数据决定AI上限。” 在此背景下,传统以报表为核心的数据仓库正在经历一场静默而深刻的升级——它不再只是BI的后端支撑,更成为大模型训练与推理的“中央厨房”。这场升级,不是简单堆砌存储,而是围绕AI就绪(AI-Ready) 目标重构数据架构、治理流程与服务能力。 这一趋势与国家数据局将2026年定为“数据价值释放年”的战略方向高度一致,旨在通过高质量数据集建设,赋能人工智能与实体经济深度融合。 二、AI就绪型数仓的三大核心任务 1. 构建高吞吐、低延迟的数据供给管道 大模型训练需TB/PB级文本、图像、日志等多模态数据。数据仓库需支持: 批量高效摄入:通过Spark/Flink等引擎,每日处理亿级记录; 实时特征流:为在线推理提供毫秒级响应的特征数据; 统一元数据管理:确保数据来源、格式、时效可追溯。 例如,某金融企业构建“客户行为湖仓”,将APP点击流、交易日志、客服录音等异构数据统一入湖,并通过Iceberg表格式实现ACID事务,保障训练数据一致性。 2. 支撑向量数据与语义检索 大模型常需结合向量数据库实现RAG(检索增强生成)。新型数仓需: 原生存储向量:支持FAISS、HNSW等索引格式; 融合标量与向量查询:如“近30天高价值客户中,相似咨询问题的解决方案”; 与向量库协同:通过CDC或API实现向量更新同步。 这要求数据平台具备多模态数据处理能力,打破传统仅处理结构化数据的局限。 3. 嵌入全生命周期数据治理 根据《数据安全法》第27条,重要数据处理者应“明确数据安全负责人和管理机构,落实数据安全保护责任”。AI数仓必须内置: 数据分类分级:识别训练数据中的个人信息、敏感信息; 匿名化/去标识化:对含个人信息的数据进行技术处理,符合《个人信息保护法》第73条要求; 血缘与审计:记录数据从采集到使用的完整链路,满足《生成式人工智能服务管理暂行办法》第12条关于“训练数据合法性”的备案要求。 三、三大常见误区 1.把“数据湖”当万能解药 盲目将所有原始数据倒入对象存储,缺乏治理,导致“数据沼泽”。结果:模型训练用不到有效数据,反而增加清洗成本。 正确做法:采用湖仓一体架构,在开放格式(如Delta Lake)上叠加治理层,实现“存算分离+治理统一”。 2.忽视数据合规边界 直接使用用户评论、客服对话等含个人信息的数据训练模型,未履行告知同意或匿名化义务。 正确做法:建立数据合规审查机制,训练前完成: 数据来源合法性评估; 个人信息识别与脱敏; 必要时取得用户单独同意(《个保法》第14条)。 3.追求“全自动”,放弃人工干预 完全依赖自动化管道,一旦数据异常(如字段突变、分布漂移),模型效果骤降却无法定位。 正确做法:关键节点设置质量门禁与人工复核,确保数据可用性。这既是工程最佳实践,也符合《网络数据安全管理条例》关于“风险监测与处置”的要求。 四、从“仓库”到“智能数据中枢” 服务化数据产品 将特征库、标签体系、向量集封装为API服务,供算法团队按需调用,提升复用率。 拥抱AI原生架构 参考中国移动与中国信通院联合发布的《AI原生基础设施实践指南(2026)》,将大模型推理、智能调度、向量计算作为平台原生组件,而非外挂模块。 强化跨团队协同 数据工程师需与法务、算法、业务共同制定数据使用规范,确保技术方案与合规要求对齐。 五、数仓的“AI原生”演进 随着国务院《关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号)推进,数据仓库将加速向AI原生数据平台演进: 架构层面:从“存储为中心”转向“智能服务为中心”,内嵌向量引擎、特征计算、合规检查等能力; 治理层面:数据资产目录将包含“AI适用性”标签,如“可用于NLP训练”“已脱敏”; 生态层面:通过DCMM(数据管理能力成熟度)3级及以上认证,将成为企业参与政府/国企AI项目的基本门槛。 这场升级战没有硝烟,却决定了AI能否真正扎根于业务土壤。那些默默升级管道、加固治理、打通多模态数据的人,正是大模型时代最坚实的“喂养者”。 来源(公众号):数据仓库与Python大数据
2026-04-15 17:25 67
大多数数据战略失败并非因为方向错误,而是因为组织无法始终如一地执行。架构正是避免这种情况的关键,它并非通过控制来实现,而是通过一套精简的共同决策,使数百个独立的选择指向同一方向。 1884年,威廉·温彻斯特的遗孀、温彻斯特连发步枪公司继承人莎拉·温彻斯特开始在加利福尼亚州圣何塞建造房屋。一位通灵师告诉她,温彻斯特家族受到死于温彻斯特步枪之手的亡灵诅咒,唯一能驱散亡灵的方法就是不停地建造房屋。如果工程停工,她就会死去。 她对此事非常认真。在接下来的三十八年里,她雇佣木匠们日夜不停地工作,一周七天无休。到1922年她去世时,这座房子已经扩建成约160个房间、2000扇门、10000扇窗户,楼梯直通天花板,门打开后直接通向陡峭的悬崖,烟囱几乎顶到屋顶却没有壁炉。这里没有总体规划。每天早上,她都会和工头碰面,把当天的指示草草画在纸片上。没有清晰的愿景,也没有除了继续下去之外的任何意图。 我认为这是技术领域最贴切的比喻。并非因为企业IT系统真的像某些人感觉的那样“闹鬼”,而是因为其模式千篇一律。每个迭代周期、每个项目,团队都会做出看似合理的决策:这里新增一个集成,那里搭建一个定制数据存储,再添加一个微服务,再添加一条管道。每个决策本身似乎都没有错。但没有人问架构所要求的关键问题:这些组件如何协同工作?我们最终会后悔锁定哪些组件?结果就是软件工程师所说的“一团乱麻”——结构混乱却缺乏连贯性。修改成本高昂,难以解释,而且完全依赖于每个组件的构建者的记忆。 架构的作用在于约束设计 与温彻斯特神秘屋截然相反的是集装箱。20世纪50年代,全球贸易面临的问题并非船舶本身,而是货物交接。海运、铁路和公路之间的每一次转运都缓慢、繁琐且难以预测。集装箱的出现解决了这个问题,并非因为它本身性能更优,而是因为它本身就是一种约束:标准尺寸、标准锁扣点、标准装卸设备。正是这一设计决策使得所有运输方式之间的货物交接都变得可预测。一旦接口标准化,其他一切都可以围绕它展开。 这就是架构的作用:并非设计一切,而是约束那些若不一致就会破坏整体的决策。一套共享的边界、真理来源和交互模式,能够确保跨团队、系统和项目之间的交接可预测。它不是蓝图,而是一套允许其他一切在不导致分裂的情况下演进的决策。 架构是图纸背后的思考 问大多数人什么是架构,他们会指着一张图。方框和线条。系统上下文视图。技术栈。但架构并非图纸,而是图纸背后的思考。 架构的核心在于一系列有意识的、影响深远的决策,这些决策决定了系统的结构、压力下的运行方式、可扩展性和演化方式。正如格雷戈尔·霍普所定义的那样:架构必须包含重要的决策,这些决策必须有完善的文档记录,并基于清晰的逻辑。文档本身并非架构,决策及其背后的逻辑才是。 架构与单纯的建造之间的区别在于意图。架构始于目的,在限制条件下运作,并将权衡取舍明确化。它会问:哪些品质是不可妥协的?两年后我们需要做出哪些改变,而现在又无法锁定?哪些值得付费,哪些我们只需消费即可?如果没有这些问题,你建造的只是房间;有了这些问题,你建造的才是真正有效的建筑。 每个架构设计决策都是一种权衡。 为了准备诺曼底登陆,英国工兵面临着一个棘手的问题:如何在敌军炮火下安全穿越布满地雷的海滩?标准坦克无法胜任。于是,珀西·霍巴特少将的团队打造了一系列经过大幅改装的车辆,被称为“霍巴特的奇葩车”,每一辆都旨在解决战场上的特定难题。 其中最著名的当属连枷坦克。一个装有重型链条的旋转滚筒会敲击坦克前方的地面,在地雷被坦克自身重量触发之前将其引爆。这套装置确实有效。但其缺点是经过深思熟虑的:连枷会遮挡驾驶员的视线,降低速度,并且意味着在排雷作业期间无法开火。生存能力的提升是以牺牲进攻能力为代价的。 连枷坦克的关键架构特征——每一次改进都是一种经过深思熟虑的权衡。 这些并非表面功夫,而是意义重大的架构决策,决策者对放弃什么以及为何放弃有着清晰的认识。这种精准性——明白自己放弃了什么,而不仅仅是得到了什么——正是架构与空想之间的区别。 我在实践中反复看到过同样的情况。在旅游行业,架构师始终面临着数据新鲜度和系统性能之间的矛盾。预订复杂度假套餐的客户期望获得快速、准确的结果。但是,跨数十个供应商系统进行实时价格核查会造成延迟和不稳定。缓存数据可能会显示过时的价格,而实时获取数据则可能导致缓慢且令人沮丧的用户体验。 没有放之四海而皆准的答案,只有取决于具体情况的权衡取舍。无论你选择哪种方式,这个决定都会在未来数年内影响你的基础设施设计、团队所有权模式、服务级别协议 (SLA) 承诺以及成本结构。这就是架构的本质。 架构既是技术性的,也是社会技术的 关于数据架构,最重要也最常被忽视的一点是,它并非纯粹的技术性架构,而是社会技术性的架构:它融合了系统本身以及构建和运营这些系统的人员、团队和工作方式。 康威定律指出,任何组织在设计系统时,其系统结构都会反映出自身的沟通结构。换句话说:如果你的团队各自为政、支离破碎,那么无论技术图看起来多么精美,你的系统也必然如此。关于平台和集成模式的架构决策,与关于团队所有权、治理和交付实践的决策密不可分。 数据架构既是技术性的,也是组织技术性的——两者必须共同发展。 其实际意义重大:如果你想要不同的架构,可能就需要组建不同的团队。反向康威策略,即有意识地调整团队结构以构建所需的架构,是IT领导者可用的最有效工具之一,也是最少被使用的工具之一。 团队拓扑结构(Team Topologies)是由 Matthew Skelton 和 Manuel Pais 创建的框架。它将康威定律的社会技术洞见转化为一种实用的设计语言:负责端到端成果的流程导向型团队、降低认知负荷的平台型团队、构建能力的赋能型团队,以及需要真正专业深度的复杂子系统团队。团队边界和交互模式并非无关紧要,而是影响流程、风险和速度的结构性设计决策。 将战略意图转化为架构指导 大多数数据战略都只阐明了意图,却将架构的构建寄托于随机应变。团队根据每个项目、每个供应商的情况来解读战略的“含义”,结果可想而知:偏离方向、重复劳动、交接不畅,以及不到18个月,数据架构就与最初的意图大相径庭。 架构指导通过在交付开始前尽早发布一套不可协商的决策来避免这种情况。它不是蓝图,也不是购物清单,而是一种准则:团队不得在局部范围内重新决定少数几个结构性真理,因为在这些方面出现不一致会破坏整体策略。 得出此指导原则的过程遵循清晰的逻辑链,如下图所示。 定义架构指导原则的过程——从战略意图到可发布的指导原则包。 首先,要明确战略意图以及该行动所支持的具体价值流或客户旅程。然后,要编写关键场景,即必须奏效的几种情况:正常流程、高峰负载、异常情况和变更。这些并非边缘案例;它们是压力测试,旨在揭示如果任由本地解读,交付过程中哪些环节会出现歧义。 接下来需要考虑能力限制,包括架构必须克服的遗留系统、数据孤岛和基础设施限制。这确保了你的设计是基于实际环境,而不是基于一个全新的理想框架。 从场景和约束条件中提炼出目标架构特性:这些特性是定义架构必须具备的不可妥协属性的真理陈述,是策略成功的关键。至关重要的是,每个特性都与证据、合同、服务级别目标 (SLO) 和一致性仪表板相匹配。没有证据,特性就只是愿景;有了证据,特性才能得到有效管理。 运用沃德利映射法制定建议 目标架构特征告诉你哪些是必然存在的,但它们并没有告诉你如何实现这些特征,需要构建什么,需要购买什么,需要标准化什么,以及应该将哪些作为竞争优势。而这正是沃德利映射法(Wardley Mapping)发挥作用的地方。 沃德利图是一种可视化模型,它展现了组织如何为用户创造价值。该模型以特定的用户需求为核心,展示了满足该需求所需的一系列责任,并将每个组成部分定位在从创新到工业化的演进轴上。这种定位决定了组织的姿态:通用型责任应该标准化并被消费;而差异化的定制能力则应该进行投资和设计,以适应变化。 设想一家零售商正在构建线上订购线下取货(click and collect)服务。沃德利地图(Wardley map)立即揭示了一个有用的区别:定义“准备就绪”、“延迟”和“已取货”含义的编排层,即每个渠道、门店和客服人员所依赖的规范状态模型,牢牢地位于定制开发区域。客户的确定性要么在此得到保障,要么在此受到损害。它应该作为一项持续的产品功能进行投资,而不是一个项目。 在沃德利演化轴上绘制责任价值链——姿态跟随位置。 相比之下,订单管理和库存管理虽然至关重要,但在演化轴上却更偏右,更接近产品或商品。正确的做法是限制变异:实现无缝集成,避免局部重复发明,并将这些功能作为一个平台提供给所有消费者。 这张地图清晰地揭示了企业何时在错误的地方无意中实现了差异化:例如定制的集成架构、专属的通知机制以及在各个渠道重复复制的业务逻辑。这些并非竞争优势,而是会增加复杂性的成本,从而消耗掉真正实现差异化所需的预算。 架构与组织密不可分 一旦沃德利地图绘制完成,就必须明确责任归属。哪个团队负责哪项职责?正确的路径在哪里?当标准需要更新时,谁拥有决策权? 沃德利演化轴不仅决定技术姿态,还决定每个领域的最佳运营模式。职责会根据其演化方式以及变革带来的关联程度,自然而然地归入不同的所有权群体。 职责按团队所有权分组——与沃德利的发展战略保持一致。 定制开发领域的差异化能力应由拥有领域决策权、持续投入且目标一致的团队负责,并以产品而非项目的形式进行投资,因为这关系到企业能否实现或削弱自身的竞争优势。这些团队人员变动频繁,需要拥有自主响应的能力。 平台区域的职责,即其他所有团队所依赖的权威信息,例如库存数据、订单状态或身份信息,应该由独立的团队负责,并作为产品功能提供给消费者,同时设定清晰的服务级别。如果这些信息分散在各个客户旅程团队中,组织内的其他部门就会各自独立地重复执行相同的规则。将它们放在平台区域可以防止重复信息在整个组织内扩散。 产品区域的功能受限于既定的变体、打包的工具、标准的工作流程引擎和托管的基础设施,其管理职责应有所不同:标准化、最大限度减少定制化变更,并与上述平台标准无缝集成。这里的风险不在于投资不足,而在于过度定制:即构建与标准模型已提供的功能重复的定制逻辑。 团队拓扑类型和互动模式——团队的参与方式决定了组织内部的摩擦。 团队间的交互模式与团队类型同等重要。通过“X即服务”这种低摩擦、以合同为先的关系,流式团队从平台团队获取资源,避免了持续协作带来的额外开销。协作仅限于真正需要共同解决歧义的阶段;一旦接口稳定且易于理解,自助服务模式才是最佳选择。这种高带宽协作与低摩擦消费之间的区别,是IT领导者可以做出的最重要的设计决策之一。 最终成果:指导手册,而非蓝图 此流程的输出并非未来状态架构图,而是一套指导手册:一套精心设计的约束条件和默认设置,旨在确保交付的一致性,避免陷入解决方案设计的窠臼。 一套完整的指导方案包含四部分。首先,提供目标架构特征及其证据,明确架构必须具备的不可协商属性,每项属性都对应一份合同、服务级别目标 (SLO) 或一致性检查,以确保其可控性。其次,提供一份沃德利图,清晰地阐明所有权归属、边界划分以及必须保持一致的接口。第三,提供以权衡取舍的方式提出的建议,明确行动步骤、停止事项、标准化流程和行动顺序,并清晰地列出每项行动的成本和收益。第四,提供一份运营模式概览,明确责任人、团队类型、交互模式以及一致性管理方式。 架构的作用在于影响,而非控制 思考架构时,要牢记的关键词是“影响”。架构指导的作用在于塑造团队无论如何都会做出的决策,而不是取代这些决策。其目标是构建足够的共享结构,使战略在与交付的互动中得以延续。这并非一个包罗万象的设计,而是一套针对那些若不一致就会破坏整体的事项的决策。 来源(公众号):数据驱动智能
2026-04-14 14:53 32
2025年开始,AI中台这把火越烧越旺。 赛意信息刚签下近5000万的AI中台订单,万达信息带着AI中台亮相世界人工智能大会,软通动力、众安信科各路玩家纷纷登场。有人喊出AI中台是企业数字化转型的标配,有人高呼再不布局就晚了。 熟悉的配方,熟悉的味道——这跟当年数据中台的剧本几乎一模一样。 但我想泼盆冷水:上套AI中台,距离企业真正用好AI,还差着十万八千里。 什么是AI中台 AI中台本质上是企业级AI能力的中枢神经系统。 简单来说,它解决的是重复造轮子的问题——把语音识别、自然语言处理、计算机视觉这些通用能力封装成可复用的组件,企业不用每个业务线都养一个算法团队。 同时,它还覆盖模型设计、训练、部署、监控的全生命周期,让算法工程师专注调参而不是天天搬砖。 听起来很美,对吧? 但问题来了。 很多企业连数据分析师都没几个,更别说算法工程师了。 工具再好,没人用得了,这不是白搭吗? Gartner早就给数据中台判了死刑,说它即将消亡,取而代之的是数智基建。 数据中台的失败率高达60%以上,动辄几百万上千万的投入,最后沦为"PPT工程"。 AI中台会好到哪里去吗? 从架构上看,AI中台通常分为三层。 技术服务层提供通用AI能力和行业专用服务;研发平台层包含数据标注、特征工程、AutoML这些工具;管理运行层负责算力调度、权限控制、模型版本管理。 这套东西好不好? 当然好。但它需要的前提条件太苛刻了——企业得有足够的算法人才、有清晰的数据治理体系、有持续投入的预算。 缺了任何一环,中台就变成了摆设。 AI中台会重蹈覆辙吗 这两个东西解决的根本不是同一个问题。 数据中台负责把数据管好、用活,AI中台负责把AI能力输出、复用。 谁也取代不了谁,但边界确实在加速融合。 现在有个明显的趋势:数据中台开始主动往AI方向靠,提供特征平台、训练样本这些能力;AI中台则越来越依赖数据中台喂过来的高质量数据。 数据问题不解决,AI能力就是空中楼阁。 我见过太多企业砸钱上AI中台,结果发现数据质量一塌糊涂——口径不一致、更新不及时、口径没人说得清。 AI模型跑出来的结果业务方不认,说数据不对。最后变成算法团队和业务团队互相甩锅,项目不了了之。 有些企业已经在搞融合中台,把数据中台和AI中台合成一个更广义的概念。 这条路走得通,但前提是企业得想清楚自己要什么,而不是跟风上系统。 数据中台当年什么下场,大家都知道。 定位模糊、闭环能力不足、价值交付周期太长,最后被很多企业束之高阁。 AI中台会步其后尘吗? 未必,但有几个问题必须想清楚。 第一,AI是不是你企业的核心能力? 如果是算法驱动型公司,比如智能风控、AI应用服务商,中台确实能沉淀资产、提升迭代效率。 但如果你只是把AI当工具用,完全没必要搞这么大阵仗。一个API调用能解决的事,为什么要养一个中台团队? 第二,有没有更轻量的替代方案? 数据中台加大模型加企业知识库,这套组合拳跑得通。 算力成本高企、数据孤岛严重、落地场景模糊,这些问题制约着大模型的规模化应用。 与其砸钱上中台,不如先把RAG跑通。 第三,AI中台比数据中台更难落地。 因为它需要的不只是数据治理能力,还需要持续的算法研发投入、模型迭代优化。 数据中台失败了还能说"数据质量问题",AI中台失败了连借口都没有——模型效果不好,是数据问题、算法问题、还是算力问题? 说不清楚。 中国企业有个毛病,喜欢追风口而不是打地基。 看到别人上中台,自己也要上;看到别人吹AI,自己也要蹭。 结果呢?系统上了一堆,真正用起来的没几个。 结语 市场永远不缺焦虑感。 十年前是云计算,五年前是大数据,三年前是元宇宙,现在是AI。 每波浪潮都有人喊再不入场就晚了,但真正活下来的从来不是追风口的,而是把根扎深的。 巴菲特说过一句话:"我会专注于那些美好的事情,而不是糟糕的事情。" 在AI时代,美好的事情不是追风口、凑概念、为了KPI硬上AI项目。 而是让组织真正理解AI的能力边界,让数据资产真正可信可用,让技术在业务场景里产生实际价值。 一句话:技术服务于价值,而不是成为新的内卷。 数据中台踩过的坑,AI中台未必能躲过。与其急着上系统,不如先想清楚:我的企业真的需要AI中台吗?还是只需要一个会调API的工程师? 技术浪潮来了又去,但地基稳不稳,只有自己知道。 来源(公众号):臻成AI大模型
2026-04-13 16:24 48
本文系统阐述AI时代组织意图的实现结构。面对个体与组织意图的内在冲突,构建以“一心为公、行不逾正、履职尽责”十二字总则为根本遵循,以实体、数据、语义、意图四层网络为载体,以小模型高效执行、大模型深度纠偏为技术路径,以长期运营、小切口迭代为实施方略的完整治理体系。同时坚持理性批判:AI赋能组织治理是“九分变革、一分技术”,须警惕唯技术论与过度设计,始终立足于人、扎根实践、形成新文化;必须以商业闭环为支撑,从大安全、大运维、集约运维等高价值场景切入,实现开源节流。最终形成技术可落地、价值可量化、治理可进化的完整体系,让个体行为锚定组织大道,让初心使命转化为可执行、可管控、可持续的数字现实。 在人工智能深度重构组织治理与运行逻辑的当下,组织的核心命题已不再是简单弥补信息不对称与协同低效,而是如何让离散、多变、带有自利倾向的个体行为,始终稳定锚定组织的整体意图。个体受潜意识惯性、集体无意识盲从与个人目的差异驱动,行为天然易偏、易私、易失序;而组织以使命、方向、底线为根本,追求整体、长期、公义的秩序。二者的内在冲突,是管理成本高、治理风险大、制度落地难的根源。 AI时代的组织治理,并非用技术替代人,而是构建一套从顶层初心到底层执行、从规则约束到智能进化、从理论设计到工程落地的完整实现结构,让组织意图可落地、可度量、可守护、可迭代。这套结构以极简总则为纲、以四层网络为体、以大小模型协同为用、以长期运营为径,形成闭环可控、可持续进化的数字治理体系。 一、立本: 以极简总则,定组织之“道” 复杂细则无法约束人心,唯有极简、刚性、可全员共识的根本规则,才能成为组织不可动摇的行为标尺。组织意图的落地,首要在于确立约法三章,以十二字立心、立界、立责: 一心为公:坚守组织整体利益,不以公权谋私利,个人意图服从组织意图; 行不逾正:恪守底线边界,不妄为、不越规、不隐匿,行为全程合规可溯; 履职尽责:主动担当作为,不推诿、不躺平、不敷衍,以价值结果为导向。 总则是组织的“骨”,定方向、守底线、明初心,解决“何为对错、为何而做”的根本问题;在此之上延伸的制度、流程、规范是“肉”,覆盖具体场景、明确操作标准,解决“如何做、做到位”的执行问题。一骨一肉、刚柔并济,构成AI时代组织治理的规则基石。 二、筑基: 以四层网络,构运行之“体” 规则的生命力在于执行,执行的关键在于行为可感知、数据可贯通、语义可理解、意图可判断。脱离数字化载体的规则,终将流于形式;唯有构建实体、数据、语义、意图四层贯通的平台网络体系,才能让抽象的组织意图,转化为可计算、可管控、可校验的数字秩序。 (一)实体网络:治理的物理基底 锚定“谁在做事、用什么做事、在什么边界做事”,涵盖组织、人员、角色、设备、终端、权限等全要素,实现分类分级、精准授权、边界清晰、权责对等的资源化配置,明确治理对象与管理范围。 (二)数据网络:行为的全域留痕 实现“凡行为必留痕、凡操作必记录”,所有线上线下行为、流程节点、交互指令均转化为标准化数据,全链路、全周期沉淀,形成真实、完整、不可篡改的行为档案,为规则判断提供客观依据。 (三)语义网络:信息的可理解层 对海量数据做标准化定义、本体化建模、关系化打通,消除字段歧义、数据壁垒与逻辑脱钩,让机器可读、可解、可分析行为内涵与关联,实现从“数据碎片”到“行为全貌”的提炼。 (四)意图网络:初心的校准中枢 以组织总则与细则为标尺,通过行为链还原与深度解析,判断行为是否符合公心、正道、担当的根本要求,识别偏离、越界、不作为等隐性风险,完成从“行为记录”到“价值判断”的最终升维。 四层网络层层递进、环环相扣:实体定边界,数据留轨迹,语义解内涵,意图判是非,构成组织意图落地的完整数字载体。 三、赋能: 以大小模型协同,实现工程可落地 理念的价值最终取决于工程可实现性。组织治理的AI化,并非一味依赖大模型,而是坚持小模型保效率、大模型做深度的协同架构,在安全、成本、性能、落地性之间实现最优平衡。 (一)小模型:规则高效执行,守住运行底线 小模型轻量化、低功耗、快响应,内嵌既有规则与固定策略,承担日常高频、标准化、确定性场景的判断与执行。对简单行为、常规权限、标准流程进行实时校验、快速放行、刚性拦截,保证系统稳定、运行高效、成本可控,实现“基础问题即时处置、常规行为不过度管理”。 (二)大模型:深度分析纠偏,完善规则体系 大模型专注复杂、模糊、隐蔽场景,基于历史行为数据、规则运行结果、风险事件复盘,进行相关全量日志深度挖掘、行为特征学习、风险逻辑推理,精准发现既有规则的缺漏、错误与盲区,输出可落地的新规则、新策略、新阈值,反向迭代、补全、校正规则体系,实现治理能力持续升级。 (三)大小模型协同:效率与精准的动态平衡 小模型管面、保效率;大模型管点、提精度。日常运行由小模型低成本支撑,复杂问题由大模型深度介入并优化规则,再由小模型承接执行,形成规则执行—问题发现—深度研判—规则迭代的工程化闭环,真正做到可落地、可推广、可规模化。 四、长效: 以长期运营,实现与时俱进 AI时代的组织意图治理,不是一次性项目,而是持续运营、渐进迭代、滚雪球式成长的长期工程,必须坚持科学路径与专业能力双保障。 (一)小切口切入,大场景滚雪球 再宏大的治理愿景,也需从最小可用场景起步:先聚焦高频、关键、易见成效的小切口,建立标准、验证模式、树立标杆,再逐步向全域、全场景、全层级扩展,由点及面、稳步扩容,避免大而全、急而乱的落地陷阱。 (二)专业化队伍,保障运营质量 治理体系的生命力,来自懂业务、懂技术、懂治理的复合型专业运营团队。既深刻理解组织使命、底线与业务逻辑,又掌握平台架构、数据治理、AI模型能力,实现日常运维、规则优化、风险处置、模型迭代闭环推进,确保平台不僵化、规则不老化、治理不过时。 (三)持续迭代进化,紧跟时代演进 技术在变、场景在变、行为模式在变,组织意图的实现体系必须保持动态进化。以运营数据为“feed”,以大小模型协同为引擎,不断完善四层网络、优化规则体系、提升意图识别精度,让治理能力与AI技术、业务发展同频共振。 五、理性批判与大胆实践: “九分变革,一分技术” 结构体系再完整、逻辑再自洽,也必须清醒认识到:AI+组织治理,本质是“九分变革、一分技术”。脱离人的变革、思想的变革、文化的变革,再精巧的技术架构也只是空中楼阁;陷入唯技术论、唯模型论,更是理性的自负与实践的陷阱。 其一,必须警惕过度设计、复杂至上。架构越完美,越容易脱离现实、推高成本、难以落地。真正长久的治理,一定是简单、稳定、低成本、可规模化的,不能把治理做成纸上谈兵的智力游戏,而要做成人人可理解、人人可执行、人人可监督的务实体系。 其二,必须承认技术管得了行为、管不了人心,能记录意图、不能替代初心。人性的私、惰、怯、畏,不是算法可以消除的。治理的根本,始终是立场、信念、作风与斗争,要敢于向人性的弱点亮剑,技术只是强化秩序的工具,绝非灵魂本身。 其三,必须坚持从人中来、到人中去,从实践中来、到实践中去。所有规则、模型、平台、细则,都必须扎根业务、服务一线、解决真问题。脱离用户痛点、脱离实际需求,再高级的数字化也只是形式主义、表面文章。 其四,必须实现从旧思想中来、到新文化中去。AI治理不只是技术升级,更是一场思想越迁、行为越迁和文化越迁。要把“一心为公、行不逾正、履职尽责”的根本准则,从纸面要求变成集体习惯、文化自觉、行为本能。 其五,必须坚守商业闭环、价值导向、场景先行。没有商业支撑、没有价值回报、没有开源节流实效的变革,都是悬空的理想主义。我们已从复杂系统开发、大安全、大运维、集约运维等普惠性场景切入,其核心价值正是:用极少的人,做成过去做不到的事,既开源、又节流。没有价值闭环,平台不可持续;没有大胆变革,新商业模式无从诞生。理想与现实必须统一,技术与商业必须同频,长期主义与价值创造必须一体推进。 六、结语 AI时代组织意图的实现,最终形成一套完整、自洽、可工程化的逻辑:以十二字总则立初心,以四层网络筑载体,以大小模型协同保效能,以长期运营促进化,以九分变革引领一分技术。 简单场景靠规则与小模型高效执行,复杂场景靠大模型深度纠偏,全局行为留痕可溯、语义可读、意图可判;立足实践、服务于人、价值为先、商业闭环,使个体行为始终归顺组织大道,让抽象使命转化为稳定、可控、可持续、能创造真实价值的数字现实。这既是人工智能赋能组织治理的核心结构,也是数字时代实现高质量治理、现代化运营、长期稳健发展的根本路径。 来源(公众号):数字浙江DZJ
2026-04-10 19:31 60
引言:为什么数据管理比以往任何时候都更加重要 现代组织产生和使用数据的速度是几年前任何人都无法想象的。从日常报告到利用人工智能推动创新,团队都依赖于可靠、易于访问且及时的数据。事实上,每天产生的数据量高达25亿亿字节。 Statista最近报告称,2025 年,全球数据总量达到 182 泽字节,到 2028 年将达到 394 泽字节。 但现实却截然相反,而且是任何企业都不愿看到的。他们饱受系统碎片化、信息可见性有限和数据质量差的困扰,导致决策迟缓和运营风险增加。 因此,成熟的数据管理不再是可有可无的环节,而是一项能够直接影响人工智能准备度和业务绩效的战略能力。在本文中,我们将探讨团队务必遵循的一些数据管理最佳实践。 什么是数据管理? 数据管理是指企业用于有效收集、组织、存储、保护和使用数据的一系列流程、活动和技术。其目标是确保从日常运营到分析和人工智能等各个环节的数据可靠性、准确性、可用性和可访问性。 顶级数据管理最佳实践 让我们来探讨以下一些最具影响力的数据管理实践: 1. 明确目标,并使数据战略与目标保持一致 在投资数据平台和工具之前,团队需要明确他们寻求数据管理改进的原因。一个稳健的策略需要有清晰、可衡量的目标,并与业务成果挂钩。这些目标可以是减少运营低效、提高合规性,或者加快人工智能模型的开发。 正式评估当前数据的成熟度有助于确定差距所在,以便团队能够制定可以不断发展的动态路线图。 2. 构建稳健的数据治理框架 强大的数据治理是有效数据管理的基础。它制定政策、标准、问责机制和角色结构,以确保整个组织的数据高质量、一致性和可信度。良好的治理还能促进工程、业务和分析团队之间更顺畅的协作。 与治理相一致的安全框架将包含以下要素: ➡ 基于角色的访问控制、匿名化和掩码,以确保数据始终对正确的利益相关者可见。 ➡ 传输中和静态加密,以保护敏感信息免受未经授权的访问。 ➡ 在整个数据生命周期中,指导数据及其转化为可操作情报的流程的隐私设计原则。 ➡ 符合 个保法、数据安全法、GDPR、ISO 标准和其他行业特定要求等各种法规的完善合规流程。 ➡ 持续审计和监控,并在出现异常模式、违反策略或数据泄露尝试时发出自动警报。 3. 实现数据可观测性并优先考虑数据质量 就报告、分析和人工智能应用而言,数据质量差是最大的障碍之一。确保数据的完整性、准确性、一致性和及时性是任何以数据为中心的组织最基本的要求之一。 确保这一点的几个关键步骤包括: ➡ 为关键数据集建立质量标准。 ➡ 跟踪模式一致性、空值百分比或新鲜度等指标。 ➡ 在摄取和转换等不同阶段实现质量检查的自动化。 ➡ 通过集中式工作流程对问题进行分类。 数据管理中的可观测性在上述所有步骤的基础上更进一步,提供了对整体数据健康状况的实时可见性。借助这种可见性,团队可以轻松检测并应对异常情况,甚至在异常情况出现在仪表板之前即可进行响应,从而实现模式更改,甚至在管道故障发生之前也能及时发现问题。这有助于减少数据停机时间,并帮助企业维护信任。 4. 加强元数据管理和数据沿袭 元数据的上下文层赋予信息意义和可发现性。如果没有上下文层,团队将很难理解数据的来源、用途,甚至数据所代表的含义。 完善的元数据实践包括: ➡ 维护数据 目录,以便轻松发现定义、数据集、分类和所有者。 ➡ 记录数据沿袭,以清晰地描述数据如何在系统和管道中移动、转换和使用。 ➡ 捕获业务、技术和运营元数据,以支持审计、分析和故障排除。 通过丰富的血缘关系和元数据,团队可以加快新用户入职速度,减少歧义,并有效地支持合规性和治理。 5. 实现数据生命周期自动化并支持自助服务 数据生命周期管理确保信息从创建到删除都得到负责任的管理。领域团队应清晰定义生命周期阶段,并在整个企业范围内一致地执行相关策略。 这种清晰的阐述将包括: ➡ 自动归档、保留和删除规则。 ➡ 明确的数据脱敏和处理指南。 ➡ 实现有效数据共享的访问控制和审批工作流程。 ➡ 版本控制和变更管理流程。 自助访问也发挥着至关重要的作用。用户无需依赖中央团队处理每个数据集请求或查询,而是能够通过基于角色的独立访问权限来探索受管控的数据集。这既能减少瓶颈,加快决策速度,又能确保合规性。 6. 加强数据分析能力 数据管理只有在能够提供有意义的洞察时才有价值,而强大的数据分析在其中发挥着至关重要的作用。数据分析能够将管理良好的原始数据转化为趋势、模式和预测,从而为运营和战略决策提供支持。 以下几点可以提升分析能力: ➡ 建立一致的流程来探索、清理、解释和验证数据。这可以减少见解上的不一致,并确保所有分析结果都能在多个团队之间复现。 高质量且管理良好的数据应顺畅地流入仪表盘、BI 工具、AI 模型和笔记本。这种减少摩擦的做法可以提高工作效率并加快决策速度。 ➡ 运用恰当的分析技术,例如描述性分析、预测性分析、诊断性分析和规范性分析。将这些技术有效结合,能够帮助企业从被动决策转变为主动决策。 ➡ 推动跨领域协作,帮助分析师理解结果背景和需求。 ➡ 优先考虑通过图表和仪表板进行数据可视化,使复杂的见解更容易理解,即使是对于非技术利益相关者也是如此。 7. 培养问责制和数据驱动文化 仅靠技术和流程是不够的,数据文化在数据管理 中扮演着重要角色。团队需要共同努力,将数据本身视为一种战略资产。 提升数据文化的一些方法包括: ➡ 为关键数据集建立明确的问责制和所有权。 ➡ 对员工进行负责任的数据使用和数据素养培训。 ➡ 提高数据质量和指标的可见性。 ➡ 奖励采用数据问题解决方法的团队。 当组织中的每个人都对数据的可靠性和质量负责时,组织的成熟度和信任度就会得到显著提高。 数据产品和数据开发平台如何增强数据管理 传统的数据管理方法通常依赖于单体系统和中心化团队,导致所有权不明确、交付周期长、数据质量难以预测。如今,各组织正在向数据开发平台和数据产品转型,从而带来新的架构、责任机制和敏捷性。 ➡数据即产品 数据 产品不仅仅是数据集,它还包括清晰的文档、所有权、可观测性、服务级别协议 (SLA) 和内置的反馈机制。这种理念确保数据始终被视为一种资产,服务于可衡量的目标。 ➡数据开发平台 数据开发平台提供标准化的工具、自动化以及自助式基础设施,以大规模管理数据产品,从部署到监控。 这对数据管理有何帮助? 数据开发平台等平台通过标准化跨领域的质量和可观测性,同时通过预定义的模板、策略和访问控制嵌入治理,从而改进数据管理。 联合所有权模式确保团队责任明确,避免了集中式系统的瓶颈;精简的血缘关系、元数据和目录集成使数据更易于追踪和使用。自动化工作流程和可重用组件进一步降低了运营成本,并保持了平台的可扩展性。 这如何帮助提升整体业务影响力? 采用完善的数据产品战略和数据开发者平台的企业可以获得以下益处: ➡ 更高质量的数据 ➡ 更快实现价值 ➡ 降低合规性和运营风险 ➡ 增强团队间的信任 ➡ 与分析和现代人工智能需求成熟契合。 最后想说的话 数据管理不再局限于信息的存储和传输,更重要的是确保数据的安全、准确、可发现,并能支持人工智能驱动的创新。通过加强质量、治理、安全、架构和文化建设,企业可以显著提升数据使用效率。 随着数据生态系统日益复杂,将数据视为产品并采用数据开发平台,能够提供一种面向未来且可扩展的方法。这些实践能够帮助团队更有信心地开展工作。 来源(公众号):数据驱动智能
2026-04-10 18:22 62
随着人工智能系统快速发展并开始影响社会几乎所有领域,关于治理的讨论主要集中在模型及其输出上:它们的透明度、公平性、问责制和一致性。然而,这种关注虽然必要,却并不全面。人工智能系统的可靠性、公平性和有效性完全取决于其训练和运行所依据的数据。 数据治理并非人工智能治理的边缘部分,而是其基石。 与此同时,人工智能的兴起不仅对数据治理提出了新的要求,更从根本上改变了数据治理。为了应对人工智能的能力和风险,数据的定义、管理方式、使用权限以及监管机制等都在被重新定义。 本文探讨了数据治理正在重塑的 10 个关键领域或转变——这些转变既是为了适应人工智能,也是人工智能的直接结果。 1. 重新定义数据的含义 从历史上看,数据治理的重点在于结构化的表格数据集。如今,重心已转移到非结构化数据:文本、图像、音频、视频和多模态内容,这些数据为大规模模型提供了支持。 大型语言模型(LLM)尤其依赖于从网络上抓取的大量语料库,这引发了关于出处、同意、版权和代表性等方面的新治理挑战。 与此同时,人工智能不再仅仅是数据的消费者,它也是数据的生产者。人工智能系统生成的合成文本、图像和信息越来越多地被反馈到训练流程中,这引发了模型崩溃的担忧,也使得对机器生成数据本身的治理框架变得尤为必要。 2. 从 FAIR 到 FAIR-R FAIR原则——可查找性、可访问性、可互操作性和可重用性——长期以来一直是数据管理的指导原则,并且仍然是实现负责任地访问和重用数据的基础。但人工智能系统需要更多。新增的“R”(面向人工智能的准备)则意在将 FAIR 原则的适用范围从可访问性和互操作性扩展到数据必须能够被算法使用的世界。 这意味着不仅要考虑技术特性,还要考虑治理、质量和伦理。FAIR-R 邀请各机构提出以下问题: ·数据是否已充分标注、平衡和记录,足以满足机器学习的需求? ·代理机构、来源和目的是否明确定义? ·谁来决定什么才算“负责任的再利用”? ·我们看到,需要将FAIR 扩展到 FAIR-R(Ready-for-AI),以包含以下内容: ·用于机器可解释的结构化元数据; ·更好地记录血统和出处; ·偏见和代表性评估; ·符合负责任的人工智能实践。 简而言之,数据现在不仅必须可重复使用,而且必须能够以安全、可审计且符合社会价值观的方式被机器重复使用。 3. 情境作为基础设施的兴起 缺乏上下文的数据在人工智能系统中越来越难以使用。模型不仅需要原始输入,还需要关于含义、关系和预期用途的结构化信息。 这促使人们开发出新的协议,例如模型上下文协议 (MCP),该协议旨在规范上下文(例如工具、记忆和环境信息)的结构,并将其与数据一起传输到人工智能系统。 上下文正在成为一种基础设施——受到管理、管理和标准化——塑造着人工智能系统如何解释数据和处理数据。 4. 从数据管理到战略数据管理 传统的数据管理侧重于合规性、标准管理和质量控制。但在人工智能时代,这远远不够。 战略性数据管理的需求日益增长——这是一种积极主动、目标明确的方法,它: ·使数据使用与业务价值保持一致 ·预计下游人工智能应用 ·跨行业的代理应用关系 ·实现大规模的负责任再利用 数据管理员的角色正在从数据保管者转变为数据生态系统的协调者。 5. 人工智能时代的新型许可制度 现有的数据许可框架(例如知识共享)在设计之初并没有考虑到人工智能训练。 对此,出现了新的方法,包括专门针对人工智能的许可证和信号机制(例如“ cc-signal ”),这些机制指示数据是否以及如何用于模型训练。 这些发展反映了更广泛的转变:从静态许可转向偏好信号和更动态、机器可读的数据权利治理。 6. 社会许可与参与式治理 仅靠法律合规和获得用户同意已不足以使人工智能系统中的数据使用合法化。公众信任越来越依赖于更广泛的社会许可概念。 我们看到参与式机制(公民大会、利益相关者咨询、社区治理模式)的兴起,这些机制使受影响群体能够影响有关如何使用其数据的决策。 这标志着同意从一种交易转变为一种过程。 7. 新的制度形式:数据共享及其他 为了应对数据提取和集中带来的风险,新的制度安排正在涌现,包括数据共享、合作社和信托机构。 ·这些模型旨在: ·融入集体治理; ·使数据使用与社区偏好和共同目标保持一致; ·重新分配数据生成的价值。 在人工智能领域,此类安排对于确保数据不仅被提取,而且被调动起来用于集体行动和公共利益至关重要。 8. 合成数据作为一种治理工具 合成数据——即人工生成的、模仿现实世界模式的数据集——已逐渐成为解决隐私、访问和稀缺性挑战的一种方法。 如果以负责任的方式实施,其治理意义包括: ·它可以实现安全的数据共享,而不会泄露敏感信息; ·它可以填补代表性不足数据集中的空白; ·它引发了关于保真度、偏差放大和滥用等方面的问题。 因此,合成数据不仅仅是一种技术解决方案,它本身就是一个新的治理对象。 9. 人工智能在数据治理中的应用 人工智能不仅受数据治理的约束,而且越来越多地被用于执行数据治理。应用领域包括: ·自动化数据发现与分类; ·质量评估和异常检测; ·监控合规性和使用模式; ·对数据集和模型进行偏差和风险审核。 这既带来了效率的提升,也带来了新的风险,因为治理本身也实现了部分自动化。 10. 人工智能代理在数据治理中的兴起 最后,人工智能代理(能够自主进行多步骤决策的系统)的兴起,标志着数据管理和治理领域进入了一个新阶段。这些代理已被用于: ·协商数据访问权限 ·执行治理规则 ·动态管理数据管道 ·作为用户和数据生态系统之间的中介 这引发了关于治理系统中授权、问责和控制的根本性问题,在这种系统中,机器代表人类行事。 小结:数据治理是一种动态实践 数据治理是人工智能系统赖以构建的基础。但在人工智能时代,它不再是静态的基础,而是一个动态的、不断发展的实践和系统,并受到其所支持的技术的塑造。 我们正迈向这样一个世界: ·数据治理塑造人工智能; ·人工智能重塑数据治理; 两者在一个持续的反馈循环中共同演化。 未来的挑战不仅仅是调整现有框架,而是要将数据治理重新构想为一种鲜活的实践和系统——能够确保人工智能不仅服务于效率和创新,而且服务于公平、问责制和公共利益。 来源(公众号):数据驱动智能
2026-04-08 18:58 77
文 | 国家数据发展研究院院长 胡坚波 近日,国家数据局《数据产权登记工作指引(试行)》(以下简称《指引》)向社会公开征求意见。《指引》重点围绕登记机构管理、登记流程规则、登记凭证应用等方面,对数据产权登记活动的开展提出了全面、系统、科学的指导方案。《指引》构建起全国统一的数据产权登记体系,是落实数据产权制度的重要抓手,有助于降低数据流通交易成本,激发各主体供数用数活力,推动建立全国一体化数据市场。 一、把握政策目标:满足市场登记需求,建立市场信任机制 从数据市场实践来看,各类经营主体对数据登记的需求,往往集中在明晰产权归属、佐证来源合规、界定权责边界三方面。例如,登记凭证在数据资产入表、融资信贷场景中,可作为企业合法持有数据的证明;在数据流通交易场景中,可作为卖方合规尽责、买方善意取得的证明;在数据权属纠纷处置中,是厘清责任、界定权利的重要佐证。数据产权登记由可信登记机构,对数据描述准确性、来源合规性、产权明确性进行合理审慎审查并出具凭证,满足市场登记需求。 当前数据登记领域存在碎片化、多头化、不兼容等突出问题,制约数据高效流通使用。目前市场上存在多种数据登记类型,分属不同机构办理,登记对象、流程、审查标准及效力均不统一、互不通用,形成登记壁垒。经营主体为规避风险,不得不重复办理多类登记,承担了高昂的证明成本,影响数据流通积极性,阻碍数据要素价值释放。 构建全国统一的数据产权登记体系,是破解分散登记难题、构筑市场信任机制、降低数据流通成本的重要举措。数据产权登记通过统一登记流程等,降低重复登记成本,同时依托国家数据产权登记服务平台,实现统一公示、查询核验,以及“一次登记、全国通用”,降低数据市场信任机制的建设成本,为数据高效流通、深度开发利用夯实信任基础。 二、理解政策重点:健全登记规则设计,助力数据流通使用 (一)登记机构管理:择优遴选机构,平衡效率效力 相较于不动产登记、专利登记等传统领域以政府部门或事业单位为单一登记主体的模式,《指引》明确数据产权登记机构可涵盖事业单位与企业两类主体,兼顾公信力保障与市场活力激发。事业单位基于公共服务属性,能快速提升登记的社会认可度,全力保障登记业务的连续性与公信力。引入企业主体参与登记业务,既能盘活现有市场资源、快速推开登记工作,又能依托市场机制灵活适配需求、动态调整机构规模,优化数据全流程配套服务,为数据的价值挖掘提供支撑。 为保证登记效力与业务稳定性,《指引》通过三项重要制度设计构建起登记机构管理机制。一是登记机构遴选,考察申报机构的审查专业能力、风险赔付能力、流通服务能力等关键维度,通过择优遴选后,接入全国数据产权登记服务平台。二是明确管理规范,细化登记机构业务运营和监管要求,同步明晰机构信息变更、业务退出的全流程处置规则,确保全程可管可控。三是建设统一平台,将遴选确定的登记机构纳入全国数据产权登记机构目录、接入全国数据产权登记服务平台,若出现重大过失且拒不整改,则移出目录。 (二)登记流程规则:厘清登记边界范畴,规范全链操作流程 1.明确登记对象:锚定可流通数据,划定禁限边界 《指引》紧扣数据流通开发利用需求,将登记对象限定在可进入市场化流通的数据,同时针对公共数据、涉密数据等特殊情形作出清晰界定,兼顾合规性与实操性。针对公共数据资源,《指引》第十五条明确三类细化规则:党政机关履职中收集产生的数据,或基于履职需要委托授权第三方代收集的数据,不进行产权登记;公共数据资源授权运营后开发形成的产品与服务,在完成公共数据资源登记后,可依规办理数据产权登记;水气热电、公共交通等公用企事业单位提供服务产生的数据,除另有规定外,可办理数据产权登记。针对不予登记情形,《指引》第二十二条列明负面清单,涉及国家安全、国家秘密,来源违反法律法规,以及权属纠纷尚未解决的数据,不予登记,从源头守住数据产权登记的合规底线。 2.规范登记程序:搭建标准框架,明确审查要点 《指引》系统搭建了全流程登记程序和标准化分类登记的完整制度框架,明晰了登记实操规则,为登记活动提供了操作方案。在登记程序上,明确按照申请、受理、审查、公示、异议处理、信息存证、凭证核发七大环节规范推进,同时设定严格办理时限和补正告知要求,全程保障登记流程可追溯、结果不可篡改,兼顾合规严谨与服务效率。审查环节紧扣三大关键维度,明晰审查标准并细化实操要求。数据描述准确性方面,重点核查数据描述是否准确无歧义;数据来源合规性方面,审慎把好数据来源合规关,针对采集生成、协议取得、通过自动化程序收集公开数据、衍生创造等各类来源场景明确具体审查内容,同时强调须严守个人信息保护、数据安全等相关法律要求;数据产权明确性方面,准确界定数据持有权、使用权、经营权归属,明晰委托处理数据、复用公开数据、合作开发数据、衍生创造数据等场景的产权配置规则,确保产权界定清晰。在登记类型上,划分初次、转让、变更、续期、注销五大登记类型,明确初次登记为其他各类登记的前置基础,配套制定不同类型登记的申请表模板作为附件,供各登记机构参考使用;同时规范凭证有效期、跨部门互认、异议处置、资料查询等配套规则,实现登记流程、审查标准、文书格式的统一规范,保障登记工作高效落地。 3.优化登记收费:降低登记成本,保障可持续运营 为避免数据产权登记成为数据流通的隐性门槛,最大限度降低经营主体负担,《指引》不仅明确指出登记活动要遵循平等自愿原则,由各类主体自主自愿申请登记,同时也针对性制定两项收费规则:一方面引导登记机构主动降低登记收费,严禁登记业务强制绑定额外收费项目,切实减轻经营主体登记成本;另一方面允许登记机构针对经登记的数据提供价值延伸服务,以获取合理收益,反哺基础登记业务,既坚持普惠导向,又保障登记机构长期稳定运营,实现公益属性与可持续发展的有机统筹、协同兼顾。 (三)登记凭证应用:强化权属证明效力,实现全国互认通用 数据产权登记凭证的重要价值在于发挥权属证明效力,为数据市场化流转提供信任依据,是推动数据价值转化的重要基础。《指引》从制度层面筑牢凭证公信力,要求登记机构履行合理审慎审查义务,同时明确登记机构需因故意或重大过失登记错误承担相应赔偿责任,以责任压实倒逼登记质量提升,切实强化登记凭证效力。 《指引》还提出了鼓励凭证使用的部分场景:一是在数据流通交易环节,作为产权归属的证明,明晰交易双方权责,防范交易风险;二是在数据资产入表、融资信贷、作价入股等价值化场景中,作为市场主体合法持有、控制数据的重要依据,助力数据资源实现资产化转化;三是在数据权属纠纷、权益争议处置中,作为司法裁判、纠纷调解的证明;四是在数据企业培育认定等支持政策中,作为判断企业数据情况的参考。 (四)相关主体责任:明晰各方责任边界,筑牢登记合规底线 《指引》在第五章构建了权责清晰、过错归责的责任体系,明确登记机构、申请人、数据管理部门工作人员三类主体责任。其中,登记机构对登记结果准确性负责,存在登记错误、篡改信息、泄露资料等违规行为的,视情节采取限期整改、暂停接入数据产权登记服务平台、移出登记机构目录等措施,造成损害的依法赔偿;登记申请人需恪守诚信义务,严禁提供虚假材料或通过重复登记牟利等,违者依法承担民事赔偿责任,涉及违法犯罪的同步追责,从源头杜绝虚假登记;数据管理部门工作人员在管理数据产权登记活动中若存在滥用职权、玩忽职守等行为,要依法依规承担处罚或处分,构成犯罪的,要依法承担刑事责任。 (五)各类登记衔接:统筹多元登记业务,畅通互认协同机制 针对当前数据登记多头分散、互不兼容的痛点,《指引》明确了与其他数据登记的衔接规则,建立健全由数据管理部门统筹管理、协调统一的数据产权登记制度。一是与公共数据资源登记的衔接。《指引》明确除了政务数据不能进行数据产权登记,公用企事业单位公共服务产生的数据,除特殊规定外既能进行公共数据资源登记,也能进行数据产权登记,同时公共数据授权运营后形成的产品和服务,完成资源登记后也可办理产权登记。二是与其他类型数据登记的衔接。《指引》明确了衔接规则,此前已完成的其他类型数据登记,若有关审查事项与数据产权登记要求一致,可简化数据产权登记审查流程。 《指引》是推动数据产权制度走深走实的有力抓手,是我国数据基础制度建设历程中的又一件大事。《指引》的发布将激发各方参与数据产权登记的积极性,引导数据产权登记机构不断提升专业能力,壮大数据产权登记服务生态,促进数据价值释放,加快开放共享安全的全国一体化数据市场建设,为深入推进数字中国建设夯实制度根基。 来源(公众号):北京数据
2026-04-07 20:49 49
前言 “数据驱动业务”是几乎所有企业数字化转型的口号。然而,现实却很骨感:不少公司建了庞大的数据中台,买了昂贵的BI工具,组建了专业的数据团队,但最终产出的报表和模型,要么被束之高阁,要么对业务决策影响甚微。为什么?因为大家不约而同地掉进了以下三个看似不起眼、实则致命的落地陷阱。 陷阱一,指标满天飞,口径无人管——“数据驱动”沦为“数据打架” 这是最普遍也最基础的问题。市场部说的“活跃用户”和产品部统计的不是一个数;销售团队汇报的“季度业绩”和财务系统里的对不上。当核心指标的定义、计算逻辑、数据来源都不统一时,所谓的“用数据说话”就成了一句空话,甚至会引发部门间的信任危机。 实践真知,我们曾服务过一家快速扩张的电商公司,其内部有超过5个不同版本的“GMV”定义。每次开经营分析会,各部门都要先花半小时解释自己用的是哪个口径,效率极低,结论也互相矛盾。 我们的解法是回归根本:建立企业级的指标管理体系。这不是简单地建一个指标字典,而是要完成三步走: 1. 业务对齐,召集所有关键干系人,共同确认哪些是公司的“北极星指标”和核心过程指标。 2. 技术固化,将达成共识的指标口径,以原子指标+派生指标的方式,在数据开发平台中进行标准化封装,确保“一处定义,处处使用”。 3. 持续运营,设立指标Owner,负责指标的解释、变更管理和问题答疑。这个过程需要极大的耐心和跨部门协调能力,但它是一切数据驱动的基石。没有可信、一致的数据,后续所有分析都是空中楼阁。 避坑指南 不要追求大而全,初期聚焦最关键的10-20个核心指标,打透做透,比维护几百个无人问津的指标更有价值。 不要只靠文档,指标口径必须通过技术手段固化到数据生产流程中,而不是躺在Confluence里吃灰。 优化方向,将指标管理与数据血缘深度结合,任何指标的变动都能自动追溯到上游影响范围,并通知到所有相关方,实现真正的闭环治理。 陷阱二,技术很先进,业务看不懂——“数据驱动”变成“数据自嗨” 很多数据团队容易陷入技术优越感,热衷于追逐最新的算法、最复杂的架构。结果是,辛辛苦苦做出的用户画像、智能推荐模型,业务部门却表示“看不懂、不会用、不敢信”。 实践真知,在一个零售客户的项目中,我们的算法团队开发了一个非常精妙的销量预测模型,准确率高达95%。但门店店长们却更愿意相信自己的经验。后来我们才明白,模型给出的只是一个冰冷的数字,而店长需要知道“为什么是这个数”,比如“因为天气预报说周末有雨,所以雨具销量会上升”。 于是,我们调整了策略,不再只交付一个预测结果,而是提供可解释的洞察。我们将模型的关键因子(如天气、促销、历史趋势)可视化,并用业务语言描述出来。这样一来,模型从一个“黑盒”变成了一个“参谋”,真正融入了店长的日常决策流程。 避坑指南 不要闭门造车,在项目启动之初,就必须让业务方深度参与,明确他们的真实痛点和期望的交付形式。 不要忽视“最后一公里”,再好的分析结果,如果不能无缝嵌入业务人员的工作流(比如CRM、ERP系统),就很难产生实际价值。 优化方向,培养“翻译型”人才,即既懂数据又懂业务的桥梁角色。同时,推动建设低代码/无代码的数据应用平台,让业务人员也能自助地探索和消费数据。 陷阱三,重建设轻运营,项目结束即终点——“数据驱动”无法形成正向循环 很多企业把数据项目当作一次性工程来对待。项目验收后,数据资产便无人维护,模型效果随时间衰减,用户活跃度日渐低迷。这导致数据驱动无法形成“应用-反馈-优化”的正向循环,最终项目成果被废弃。 实践真知,我们见过太多漂亮的BI看板,在上线三个月后就再也没人点开过。原因很简单:看板内容一成不变,无法响应业务的新问题;数据偶尔中断,也没人修复,久而久之大家就失去了信任。 真正的解决方案是建立数据产品的运营思维。这意味着: 设立专职的“数据产品经理”或“数据运营”角色,负责持续收集用户反馈,迭代优化数据产品。 建立数据健康度监控体系,对数据的时效性、完整性、准确性进行常态化监控,并设置告警机制。 将数据使用情况纳入考核,鼓励业务部门主动使用数据,并分享成功案例,形成组织内的数据文化。 避坑指南 不要把预算全花在建设期:务必为项目的长期运营预留资源和人力。 不要只关注技术指标:除了系统稳定性,更要关注业务指标,如DAU(日活用户)、报表采纳率、由数据驱动产生的业务收益等。 未来展望 跨越这三个陷阱,数据驱动才能从一句口号变为企业的核心能力。未来的竞争,不再是看谁拥有更多的数据,而是看谁能更高效、更敏捷地将数据转化为行动和价值。这条路没有捷径,唯有脚踏实地,从业务中来,到业务中去,才能让数据真正成为驱动企业增长的澎湃引擎。 来源(公众号):数据仓库与python大数据
2026-04-03 17:12 75
热门文章