Palantir Ontology Palantir 的软件为全球众多关键的企业和政府领域提供实时、人工智能驱动的决策支持。从公共卫生到电池生产,客户依靠 Palantir AIP 安全、可靠、高效地在其企业中利用人工智能,并推动运营成果。 Ontology旨在表示企业中的决策,而不仅仅是数据。世界上所有组织的首要任务都是在不断变化的内外部环境中,实时做出最佳决策。传统的数据架构无法捕捉决策背后的推理过程或最终的行动,因此限制了学习和人工智能的集成。传统的分析架构无法将计算置于实际环境中,因此与运营脱节。为了在当今世界取得成功,现代企业需要以决策为中心的软件架构。 为了理解Ontology的价值,让我们首先考虑任何决策的三个要素: 数据,用于做出决定的信息。 逻辑,评估决策的过程 行动,决策的执行。 从根本上讲,每个决策都由数据(用于做出决策的信息)、逻辑(评估决策的过程)和行动(决策的执行)组成。Ontology将决策的这三个组成要素整合到一个可扩展、动态、协作的基础中,从而反映出组织随着时间推移而不断变化的情况和目标。 数据 如今,企业面临着前所未有的海量数据。数据源的数量、种类和更新速度不仅在不断增长,而且随着时间的推移还在加速发展。尽管人们已经对数据清洗和统一的益处进行了大量讨论,但在人工智能时代,首要问题是数据的相关性。相关数据当然包括企业的所有数据源——结构化数据、流式和边缘数据源、非结构化存储库、图像数据等等——但也包括最终用户在决策过程中生成的数据。这种“决策数据”包含了特定决策的背景信息、评估的不同选项以及最终选择可能带来的后续影响。生成式人工智能提供了一种突破性的能力,能够从海量的决策数据中综合学习,并持续丰富人工和人工智能驱动的工作流程。当然,将所有企业数据与不断变化的决策数据环境相集成,需要一种与针对报告和分析优化的传统数据库管理解决方案截然不同的架构。 Ontology将所有数据模态整合到一个全面、高保真度的企业语义表示中。各种运营数据源(ERP、MES、WMS 等)可以与来自物联网和边缘系统的数据流、非结构化数据存储库的相关部分、地理空间数据存储等进行同步和上下文关联。Ontology整合并激活这些分散的数据池,并以企业语言呈现它们。它不再使用将丰富运营信息扁平化为狭隘模式的“黄金表”,而是以对象、属性和链接的形式展现企业的完整面貌,这些对象、属性和链接实时演化,并可直接嵌入到决策工作流程中。至关重要的是,Ontology旨在安全地捕获运营用户在日常工作中产生的决策数据(例如,在供应链、医院系统、客户服务中心等)。决策的端到端“决策谱系”,包括决策的做出时间、所依据的企业数据版本以及所使用的应用程序,都会被自动捕获并安全地提供给人类开发人员和生成式人工智能。这为大规模人工智能驱动学习提供了必要的全面基础。 Ontology将所有模态的数据整合到一个全面、全保真度的语义表示中,捕捉企业不断变化的现实,并作为强大的 AI 驱动工作流程的基础。 逻辑 数据固然是基础,但它只是决策过程的一个维度;它必须与推理或逻辑相辅相成,后者决定了何时以及如何做出特定决策。支撑决策的逻辑可以是核心业务系统中的简单业务逻辑,也可以是使用云数据科学工作台维护的预测模型,或是利用多个数据源生成运营计划的优化模型——等等,不胜枚举。在现实世界中,人类的推理能力往往决定着在特定工作流程的不同阶段使用哪些逻辑资源,以及如何将它们串联起来,形成更复杂的流程。随着生成式人工智能的出现,人工智能驱动的推理必须能够像人类历史上那样利用所有这些逻辑资源,这一点至关重要。确定性函数、算法和传统统计过程必须作为“工具”出现,以补充大型语言模型(LLM)和多模态模型的非确定性推理。 Ontology 能够将所有逻辑资产(即决定决策方式的计算和流程)连接起来,并为人类用户和人工智能用户提供上下文关联。这包括客户交互相关的业务逻辑(常见于客户关系管理系统和企业资源计划系统中);驱动传统机器学习的建模逻辑(分布于各种数据科学环境中);以及通常与特定领域工具紧密结合的规划、优化和仿真算法。Ontology灵活的“逻辑绑定”范式提供了一个一致的接口,用于构建能够无缝集成和组合异构逻辑资产的工作流——这些资产可能存在于截然不同的环境中(例如,本地数据中心、企业云环境、SaaS 环境、Palantir 平台)。最终,这意味着人工智能驱动的推理可以顺利地引入到利用各种逻辑集且传统上完全由人类用户主导的决策环境中。 Ontology使用户能够构建整合并组合异构逻辑资产的工作流。最终,这意味着可以将人工智能驱动的推理安全地引入日益复杂的决策环境中。 行动 信息(数据)和推理(逻辑)都融入到共享表示中之后,剩下的建模工作就是决策本身(行动)的执行和协调。实时决策过程中行动闭环的闭合,正是运营系统与分析系统的区别所在。自 Palantir 创立以来,决策的执行与数据综合或分析的整合同等重要。这需要设计和实现一系列广泛的功能,包括如何安全地捕获可能同时发生且潜在冲突的决策;一个协作模型,将能够探索可能决策的人员、能够暂存决策以供审查的人员以及能够最终执行决策的人员进行划分;以及一个用于将决策同步到现有数据库、边缘平台和加固型资产的完善框架。 Ontology以企业决策为中心,构建了一个统一的模型,并对其中的操作进行原生建模。如果Ontology中的数据元素是企业的“名词”(语义化的、现实世界的对象和链接),那么操作就可以被视为“动词”(动态的、现实世界的执行)。在每个本体驱动的工作流中,名词和动词通过人工和/或人工智能驱动的推理组合成完整的句子,其中融合了各种逻辑。虽然将数据整合到语义模型中本身就很有价值,而且整合评估各种可能决策所需的逻辑也至关重要,但除非执行的决策与运营系统同步,否则这一切最终都意义有限。Ontology能够将人工和人工智能驱动的操作安全地部署为场景,并使用与数据和逻辑原语相同的细粒度访问控制进行管理,同时安全地写回企业的每个底层架构——事务系统、边缘设备、自定义应用程序等等。 Ontology以企业决策为中心,在统一的模型中对操作进行原生建模,使人类和人工智能驱动的操作能够安全地作为场景进行安排,并采用与数据和逻辑原语相同的访问控制进行管理,然后安全地写回每个企业底层。简而言之,Ontology将数据、逻辑和行动整合到一个以决策为中心的企业模型中,该模型可供人类和人工智能共同使用。从数据集成到应用程序构建,再到最终用户工作流程,所有环节都通过久经考验的模块化架构驱动——使人类用户和人工智能驱动的辅助系统及自动化流程能够在共享的运营基础上进行查询、推理和行动。 让我们通过一个例子来分析Ontology是如何帮助 50 多个行业的组织在几天内激活 AI 驱动的工作流程的。 操作示例 虚构的医疗设备制造商泰坦工业公司生产一系列成品,从注射器到外科口罩,每一种产品都需要一套精确的原材料经过相应的生产流程。公司拥有一支多元化的团队,负责管理从供应商关系、仓储运营、成品生产到最终客户分销的方方面面;所有决策相互关联,并不断根据不断变化的情况进行调整。简而言之,运营这家公司每天都面临着独特的挑战。 在这个例子中,泰坦工业公司(Titan Industries)的一家主要供应商遭遇了意料之外的供货中断,该供应商提供生产医用口罩所需的关键原材料。鉴于泰坦各制造工厂的生产计划都非常紧凑,而客户对医用口罩的需求却在不断攀升,此次供货中断势必会对完成未完成的客户订单造成严重影响。幸运的是,泰坦的运营管理团队已将各种数据源、逻辑资产和行动系统整合到其企业本体中,因此能够迅速做出响应。 Titan 的Ontology汇集了应对此次原材料短缺所需的所有决策要素:它提供了对每次短缺所涉收入的全面可见性,从而为优先级排序提供信息;它允许人工智能驱动的建议和最终解决方案,这些建议和解决方案都考虑到了企业的运营实际情况;它还推动回写和持续学习,不仅使系统保持最新状态,而且还优化未来的决策。 Titan 将首先评估供应商短缺的直接影响,然后利用人工智能评估生产线上可能的重新分配策略,最后将他们的决定转化为一系列相互关联的行动,这些行动将同时更新仓库流程、生产计划和配送路线。 Titan 的Ontology提供对企业各个相互依存环节运营情况的实时、端到端可视性,使管理层和一线团队都能快速了解供应商中断情况。与供应商管理、仓库运营、工厂生产活动、配送中心处理和客户订单履行相关的关键数据系统都被整合为语义对象和链接,以反映企业的语言。运营负责人只需点击几下,即可精确定位因原材料短缺而面临风险的外科口罩生产线,并通过Ontology中的关联,找到所有同样面临风险的未完成客户订单。Ontology的细粒度安全模型确保随着响应范围扩大到企业内更多团队,更敏感的数据元素(例如财务指标)默认会被自动隐藏。 虽然操作用户可以通过直观的Workshop和SDK驱动的应用程序轻松浏览本体,但大型语言模型 (LLM) 的引入对 Titan Industries 而言却是一次倍增器。利用开源和专有 LLM 的 AI 助手能够流畅地浏览组织本体中包含的供应商信息、库存水平、实时生产指标、发货清单和客户反馈。至关重要的是,所有 AI 活动都受到与人类用户相同的安全策略的控制——确保 Titan 工程师始终能够精确控制 LLM 可以查询、推荐和执行的内容。每个构建和部署的 AI 助手都可以被视为一位新的团队成员,随着 Titan 团队成员对其性能的信心增强,其权限也会逐步扩大。 Titan 的本体整合了来自组织重要系统的数据,将其综合成语义对象和链接,从而提供对运营的实时、端到端可见性,并使领导层和一线用户都能快速评估中断的全面影响。 态势感知只是Ontology冰山一角;泰坦工业公司需要迅速找到应对供应商中断的解决方案,并探索每项可能决策的利弊权衡。幸运的是,泰坦公司已将各种预测模型、分配模型、生产优化器和其他逻辑资产以及上述数据源连接到其Ontology中。这使得供应链分析师能够快速运行一系列模拟,详细分析不同材料替代方案的后果。Ontology的互联性和实时性在此阶段至关重要,因为原材料替代可能会对使用相同材料生产的其他产品(例如注射器、手套)产生下游影响。模拟运行过程中,模拟输出会以Ontology场景的形式呈现,将拟议的变更安全地打包到Ontology的沙盒子集中——使团队能够在做出决策之前安全地探索和分析其影响。 对 Titan 团队而言,真正的变革在于 AI 驱动的辅助驾驶和自动化流程能够安全地利用所有逻辑资产以及相同的场景框架。Ontology使 LLM 能够突破以数据为中心的检索增强生成模式的局限性,并通过可扩展的工具范式与Ontology中相互关联的数据、逻辑和动作原语进行交互。这意味着,当 Titan 的分析和数据科学团队在其云工作台中创建新的机器学习模型、在企业系统中调整优化算法以及使用 Palantir 的开放模型构建框架微调 LLM 时,Ontology会将所有这些逻辑资产安全地呈现为 AI 就绪的工具。在本例中,Titan 创建了一个经过调优的 AI 辅助驾驶“Disruption Bot”,它能够使用一套Ontology驱动的工具来扫描所有企业数据源、先前类似情况下采取的行动的后续报告以及可能适用的物料重新分配模型。由于Ontology提供了丰富而密集的上下文信息,Disruption Bot 能够提出一种全新的资源重新分配方案,该方案采用了一种供应链分析师尚未考虑过的新模型。在模拟场景中安全地呈现了该方案的后果后,人工智能提出的决策将移交给人工分析师进行最终审核。 Ontology安全地将 Titan 的逻辑资产(从机器学习到优化模型)呈现为 AI 就绪工具,为人类和 AI 驱动的工作流程提供丰富、密集的上下文。 泰坦工业公司已制定出切实可行的物料短缺解决方案,需要迅速且安全地将决策下达至运行相关流程的运营系统。鉴于该公司通过收购不断发展壮大,其关键运营系统种类繁多且错综复杂,泰坦的IT团队密切关注哪些流程可以向这些系统回写,以及在何种条件下可以回写。Ontology对操作应用了与数据和逻辑相同的严格控制和验证;这实现了对特定操作执行权限的精细控制、用于发布变更的测试驱动框架、批量暂存和审查变更的能力,以及对每个事件的详细日志记录。在本例中,物料重新分配计划的执行会自动协调一系列回写例程,每个例程都针对接收系统进行了优化:仓库管理系统接收API驱动的更新;三个ERP系统分别通过原生本体驱动的连接器接收更新,这些连接器遵循各自系统中的安全机制;生产计划系统接收一个整合的平面文件,并以异步方式导入。在执行操作的过程中,Titan IT 团队可以监控系统响应,并且始终有权审核过去的活动。 Ontology为人工智能在允许的范围内安全执行操作提供了必要的保障。除了数据和逻辑之外,操作还可以自动呈现为人工智能驱动的辅助驾驶和自动化工具。操作的范围可以仅限于在Ontology本身中反映给定的更改(例如,编辑对象或创建新对象);也可以写回单个或多个系统。在 Titan 的案例中,他们授予了 Disruption Bot 和其他几个生产环境中的人工智能辅助驾驶工具有限的操作权限。默认情况下,这些操作(例如,更改工单状态或推送重新分配计划)只能由人工智能执行,然后交给人工进行最终审核。然而,借助本体(以及更广泛的 Palantir 平台)提供的细粒度日志记录和操作工具,Titan 能够精准地选择哪些值得信赖且成熟的人工智能流程可以自动完成操作闭环,而无需人工审核。随着情况的变化,人工智能的权限可以扩大或缩小,并且会立即反映在所有本体驱动的工作流程中。 Ontology使 Titan 能够自动将操作呈现为 AI 驱动的副驾驶和自动化工具,同时为 AI 提供必要的防护措施,使其能够在预定的范围内安全地采取行动。 危机之后会怎样?Titan 将数据、逻辑和行动整合到其本体中,从而能够开展强大的以决策为中心的学习。在应对物资短缺的特定解决方案中,人机协作也揭示了可推广的工作流程,Titan 希望将这些工作流程记录下来,并在未来加以利用。每个数据元素、逻辑资产和评估的行动都会被记录在端到端的决策谱系中——这为优化 AI 的性能提供了丰富的上下文信息。本体中数千名用户做出的汇总决策可以安全地用作模型微调的训练数据,并可以提炼成在 LLM 提示过程中调用的目标原则。以往隐藏在工作流程缝隙中的“经验知识”可以通过 AI 得到发掘,从而改进 AI 的应用。 Ontology会捕获每个数据元素、逻辑资产和操作在决策过程中的更新——这为随着时间的推移优化 AI 的性能提供了丰富的上下文信息。 小结 最终,Ontology使每个组织都能将人工智能直接融入其核心运营,并精确控制在当前一线环境中如何以及何时使用人工智能驱动的推荐、增强和自动化功能。这之所以成为可能,是因为Ontology以决策为中心,而不仅仅是以数据为中心;它将决策的组成要素——数据、逻辑和行动——整合到一个单一的软件系统中。新数据可以快速集成到高保真语义表示中;新的算法和业务逻辑可以无缝地呈现给人类用户和人工智能用户;通过与所有运营系统的实时连接,可以实现强大的行动集成。每个组织的Ontology都能实时反映各个团队不断变化的情况、目标和决策,从而确保人工智能始终扎根于企业的实际情况之中。 本文仅对Ontology底层以决策为中心的架构、系统原生仿真和场景构建功能、Ontology SDK提供的可扩展性、将商业和开源生成式AI模型连接到安全的数据、逻辑和操作子集的各种方法,以及在整个企业范围内扩展人机协作的方法进行了初步介绍。 来源(公众号):数据驱动智能
2026-03-02 16:18 29
我们常听到“人工智能应该以透明的方式运行才能赢得信任”。但就人类信任而言,这真的就足够了吗?仅仅解释人工智能代理的内部运作机制或推理过程就能保证用户留存吗?如果产品的目标用户群体不仅限于早期用户,我们就需要更深入地研究:人工智能的心理模型。 虽然可解释的人工智能方法,包括内部运作机制、推理过程和决策树的透明度,在建立用户信任方面发挥着重要作用,但它们并不能保证用户信任。理解一项功能的工作原理并不等同于认同它,对吗? 我当时正在开发一款生成式引擎优化工具,旨在帮助营销团队了解人工智能如何描述他们的品牌。在开发过程中,我发现了一个不匹配之处:我们展示的是他们的内容策略如何涵盖各种提示,而他们却试图找到内容策略如何涵盖提示中包含的“关键词或主题”。我们讨论的是“提示”,而营销人员的思维模式是“关键词”。这就是我们意识到应该突出关键词的原因。同样的数据,不同的思维模式。 问题在于?你的 AI 功能或许能够完美地执行任务并做出解释,但如果流程、标准或方法与人类用户无关,那么协作就会中断,随之而来的是,该功能最终会束之高阁。 “‘解释性’这一属性并非陈述的属性,而是一种互动。何为解释性取决于学习者/用户的需求、用户已有的知识,尤其是用户的目标。” Robert R. Hoffman 即使是功能最完善、最精准的AI功能,即便提供了所有必要的解释说明模型的工作原理、决策过程和推荐方法,最终也可能沦为产品中“无关紧要”的功能。原因往往比我们想象的要简单得多:用户已经习惯了特定的任务处理方式!如果AI替代方案没有考虑到这些习惯、想法和信念,那么即使设计精良的新用户引导流程再好,也无法说服用户改变他们的工作方式。 因此,在回答“我们如何向用户解释这项人工智能功能?”这个问题之前,我们应该先问一个更根本的问题: “这项新功能与用户现有的心理模型有何关联?” 设计师回答这个问题时常用的指导原则是“在用户所在的地方满足他们的需求”,例如,如果用户在错误的地方寻找某个东西,就把它移到他们正在寻找的地方。然而,随着新的AI用户体验模式层出不穷,并且大多朝着基于意图的对话式交互或生成式用户界面发展,问题不再是“在哪里”,而是“如何做”。 在人际协作方面,研究早已证明,共享的思维模式是高效协作的基础。团队拥有共享的思维模式能够促进创造力,因为它强化了与工作相关的冲突和创新之间的积极关系,尤其是在团队就其价值观、工作方式和规范达成共识的情况下。 共享心智模型会影响决策过程,因为它基于对其他团队成员的行为或观点的理解。因此,它们对于理解团队的活动、动态和功能至关重要。 鉴于人工智能将以如此广泛的深度渗透到我们生活的方方面面,假设人类与人工智能之间共享的思维模型对于实现有意义、高效且值得信赖的人机协作也至关重要,这并非异想天开。事实上,一些研究人员已经验证了这一假设,结果不出所料,它是正确的! 有效的人机协作需要具备形成相互心理模型的能力,这有助于人工智能系统和人类用户理解如何相互补充。 我想分 4 个步骤来解释这个问题,所有这些都围绕着“共享的思维模型”展开。 技术舒适区和任务风险 人类对任务或协作的心理模型 人类对人工智能特征的心理模型 人类认知能力与人工智能速度的比较 1. 技术舒适区和任务风险 想象一下,一位资深的公共服务人员,精通复杂的数字仪表盘操作,突然接触到工具上的一个新功能:一个人工智能助手,只需和它聊天就能帮你完成工作。“聊天”——这让她想起自己19岁的儿子和朋友们计划周末聚会——与专业工作完全不搭边。因此,她尽可能地忽略了这个功能。或许尝试过几次,但最终还是觉得“这不适合她”! 无论身处哪个行业或领域,人们日常使用的技术水平都各不相同。这种技术使用行为不仅会影响用户如何定义技术在其个人或职业生活中的角色,还会影响他们对新技术的接受程度和信任度。如果一款产品只面向早期用户,而没有考虑到其他用户的舒适度,那么要说服大多数人信任它就相当困难了,不是吗? 在这种情况下,一个解决办法是寻找“外包安全候选人”。我们每个人都有一些自己讨厌做、不习惯做或者觉得无聊的任务或活动,因此我们很乐意将它们外包出去。这些任务非常适合用人工智能来处理。 举个例子。假设你正在为一位起重机操作员设计系统,他最重要的任务是在搬运重物时确保货物和工作场所的安全。操作员对人工智能助手独立搬运重型昂贵货物的信任度,远低于他对人工智能推荐的最短路线的信任度。这表明,在开发自动驾驶功能之前,应该先着手开发路线推荐功能。 2. 人类对任务或协作设置的心理模型 我们每个人对事情的完成方式都有自己的看法,从寻找咖啡馆或给电子邮件贴标签这样的小事,到工作中的具体任务,莫不如此。现在,想象一下,如果你把这项任务外包给一个遵循完全不同逻辑的人工智能,你会不会感到困惑,甚至心存疑虑? 为了解决这个问题,我们需要首先思考用户目前是如何解决我们将要用人工智能解决的问题的。他们目前的解决方案应该成为我们设计新方案的指南针。 设计师通常最好顺应人们现有的思维模式,而不是试图强迫他们接受新的模式。以拟物化设计为例,这种设计方法借鉴了物理世界的线索,帮助用户掌握新的交互方式。通过利用人们已经熟悉的事物,设计师可以使新的、不熟悉的体验更容易理解(也更少令人沮丧)。 3. 人类对人工智能特征的心理模型 在设计新的可用性模式时,真正的挑战在于:我们如何确保用户对功能的理解是有效的?这需要综合考虑预期管理、清晰的价值沟通和可解释性。 棘手之处在于,对于像 ChatGPT 这样的通用型对话式人工智能,用户很难分辨代理的功能范围。几乎不可能仅凭外观就准确判断对话式人工智能的功能。因此,各种提示信息逐渐消失,最终只能由用户自行摸索使用流程或功能。 Max Stepanov 在他的文章中探讨了用户围绕对话式人工智能功能形成的一些常见心理模型,例如“魔法盒子”或“师生”心理模型。观察用户与人工智能功能交互时的行为、进行“边想边说”的可用性测试以及评估用户对价值理解的准确率,都是我们更好地理解用户围绕人工智能产品形成的心理模型的方法。 4. 人类认知能力与人工智能速度的比较 随着科技发展速度的加快,我们的注意力持续时间却越来越短。注意力持续时间的缩短,也导致我们难以抽出时间进行需要高度认知能力的决策和判断,最终迷失在人工智能推荐和输出的海洋中,忘记了自己的决定和行动。 我用 Lovable 重建作品集的时候就遇到过这种情况。迭代速度太快,以至于做到一半的时候,我才意识到自己忘记了当初为什么做了某些修改或决定。是的,我不得不从头开始,这次要系统地构建,而不是像以前那样只是迭代。 研究表明,在充分了解用户局限性的基础上设计人工智能,往往比简单地向用户解释人工智能自身的局限性更为有效,尤其是在任务速度至关重要的情况下。换句话说,与其向用户提供额外的解释,不如构建一个能够适应人们认知状态的人工智能系统。 尼尔森是这样说的:“别让我思考得更快。”换句话说,不要强迫用户以机器的速度操作。相反,我们应该衡量并改进产品造成的认知延迟:人们需要多长时间才能注意到变化、弄清楚变化的含义、决定下一步该做什么,以及在被打断后重新接上思路。 Google 设计库的框架是理解如何合理利用用户认知能力的绝佳指南。例如,如果需要学习大量新的 UI 操作(图 B),则应确保主要用例基于用户熟悉的事物。如果产品的行为特别动态(图 C),则应使用大量可识别的模式,以免用户感觉像是在摸索前进。 总结 所以,下次当你想要通过为你的AI功能添加更多解释、工具提示或引导流程来解决信任问题时,请先停下来想一想。问题可能不在于用户不理解功能的工作原理,而在于功能不理解用户的使用习惯、逻辑、节奏和舒适区。可解释性固然重要,但这只是第二步。第一步是目标一致性。因为无论你把门后的东西解释得多么清楚,如果你敲错了门,那就没人会应门! 来源(公众号):数据驱动智能
2026-02-27 19:07 36
技术管理的复杂度正在指数级增长。当我们同时管理着几十个项目、协调着不同时区的团队、应对着不断变化的业务需求时,传统的项目管理方式已经捉襟见肘。据PMI最新发布的《项目管理现状报告》显示,采用自动化工具的IT项目成功率比传统管理方式高出42%,这个数字背后隐藏着什么秘密? IT项目管理的现实困境 让我们先直面一个残酷的现实:约70%的IT项目都会出现延期或预算超支。在我接触的众多企业中,项目经理们普遍面临着三大痛点: 信息孤岛严重。开发团队用Jira跟踪任务,测试团队用TestRail管理用例,运维团队用自己的监控系统,而管理层却只能通过Excel表格获得项目进展。这种割裂的信息流导致决策滞后,问题发现往往为时已晚。 重复性工作占比过高。据Atlassian的调研数据,IT项目经理平均有35%的时间花在状态同步、进度汇报、数据整理等重复性工作上。这些本该用于战略思考和团队协调的宝贵时间,被大量机械性任务消耗。 风险预警机制缺失。传统的周报、月报往往是滞后指标,当问题暴露时,项目可能已经偏离轨道数周。缺乏实时的风险识别和预警机制,让管理者总是处于被动应对状态。 自动化工具的核心价值 自动化工具之所以能够显著提升IT项目管理效率,关键在于它们解决了管理过程中的三个根本性问题: 1. 实时数据整合与可视化 现代自动化工具最大的价值在于打破信息孤岛。以DevOps工具链为例,通过API集成,可以将代码提交、构建状态、测试结果、部署进度等信息实时汇聚到统一的仪表板上。 这种整合带来的效果是立竿见影的。项目经理不再需要逐个询问各团队进展,而是通过一个界面就能掌握项目全貌。更重要的是,这些数据是实时更新的,任何异常都能第一时间被发现。 2. 智能化风险预警 自动化工具的另一个核心优势是基于历史数据和实时指标的智能预警。比如,当代码提交频率突然下降、测试用例通过率持续走低、或者某个关键路径上的任务出现延期时,系统会自动触发预警。 据Microsoft的内部数据显示,使用Azure DevOps的项目团队,风险识别的平均提前量从传统方式的1-2周提升到了3-5天。这个时间差往往决定了项目的成败。 3. 流程标准化与自动执行 自动化工具还能将最佳实践固化为标准流程。代码审查、自动化测试、部署流程等关键环节,都可以通过工具链自动触发和执行。这不仅减少了人为错误,还确保了流程的一致性。 自动化工具的实施策略 基于多年的实践经验,我总结出了一套渐进式的自动化工具实施策略: 第一阶段:核心流程自动化 优先从项目管理的核心流程入手,包括任务分配、进度跟踪、状态同步等。选择一个成熟的项目管理平台(如Jira、Azure DevOps或GitLab),建立标准化的工作流程。 这个阶段的关键是建立数据收集的习惯。所有的任务创建、状态更新、时间记录都要通过工具完成,为后续的数据分析打下基础。 第二阶段:工具链集成 在第一阶段稳定运行后,开始整合开发、测试、部署等环节的工具。通过API或第三方集成平台,将不同工具的数据打通,形成完整的项目视图。 这个阶段要特别注意数据质量。不同工具之间的数据格式、更新频率可能存在差异,需要建立统一的数据标准和同步机制。 第三阶段:智能化分析 当数据积累到一定程度后,可以引入更高级的分析功能。利用机器学习算法分析历史项目数据,识别风险模式,预测项目走势。 一些先进的企业已经开始使用AI驱动的项目管理助手,能够自动识别项目瓶颈、推荐资源调配方案、甚至预测项目成功概率。 常见挑战与应对策略 在推进自动化工具的过程中,我们经常会遇到以下挑战: 团队抗拒是最常见的问题。很多技术人员习惯了现有的工作方式,对新工具存在抵触情绪。解决这个问题的关键是展示价值,而不是强制推行。可以先在小范围试点,让团队亲身体验到效率提升,再逐步推广。 工具选择困难也是一个普遍现象。市面上的项目管理工具数以百计,如何选择合适的工具?我的建议是先明确需求,再评估工具。不要被功能列表迷惑,重点关注工具是否能解决你的核心痛点。 数据安全考虑在企业级应用中尤为重要。选择工具时要充分评估其安全性,包括数据加密、访问控制、审计日志等方面。对于敏感项目,可以考虑私有化部署。 效果评估与持续优化 自动化工具的价值需要通过量化指标来衡量。我建议重点关注以下几个维度: 效率指标:项目交付周期、任务完成率、缺陷修复时间等。这些是最直观的效率体现。 质量指标:代码质量、测试覆盖率、线上故障率等。自动化工具应该在提升效率的同时保证质量。 团队满意度:通过定期调研了解团队对工具的满意度和改进建议。工具最终是为人服务的,团队的反馈至关重要。 值得注意的是,自动化工具的优化是一个持续过程。随着项目复杂度的增加和团队规模的扩大,工具配置也需要相应调整。建议每季度进行一次全面评估,根据实际使用情况优化工具配置。 未来发展趋势 从技术发展趋势来看,AI和机器学习将在项目管理自动化中发挥越来越重要的作用。未来的自动化工具不仅能够收集和展示数据,还能主动分析问题、提出建议、甚至自动执行某些管理决策。 同时,随着远程办公的普及,协作型自动化工具的需求会进一步增长。如何在分布式团队中保持高效协作,将是自动化工具发展的重要方向。 自动化工具正在重新定义IT项目管理的边界。那些能够及早拥抱这一变化的团队,必将在激烈的市场竞争中占据先机。毕竟,在这个快速变化的时代,效率就是竞争力,而自动化工具正是提升效率的最佳途径。 来源(公众号):IT管理知识库
2026-02-24 18:01 59
主数据管理 (MDM) 是组织运营的核心。它为客户、产品、供应商、服务提供商和其他核心实体提供共享定义,从而支持运营、报告和分析。 在实践中,主数据管理 (MDM) 很少能达到预期效果。许多实施方案运行缓慢、高度依赖人工操作,并且严重依赖于少数专家团队。长期保持主数据的准确性需要持续的努力、深入的背景信息以及大量的管理工作。随着数据量的增长和业务变化的加速,这些模型开始失效。 生成式人工智能将改变这种情况。它将上下文、模式识别和自动化引入到以往依赖规则和人工操作的领域。这使得匹配更加智能、数据更加丰富、管理决策更加一致,问题解决速度也更快。主数据管理(MDM)开始从僵化的控制功能转向更具适应性和可扩展性的模式。 本文从实践角度阐述了如何将人工智能应用于当今的主数据管理(MDM)。我们将探讨传统MDM为何需要变革,生成式人工智能的真正价值所在,它如何融入现有的MDM架构,并通过具体案例展示其在实践中的应用。 为什么主数据管理需要演进 多年来,主数据管理 (MDM) 一直是数据驱动型组织的核心能力。但它最初设计的环境已不复存在。数据量更大,数据源更多样化,变化速度也更快。传统的 MDM 难以跟上时代的步伐。 有些挑战反复出现(见图 1): 数据质量与一致性:确保数据的准确性、一致性和可靠性一直是主数据管理 (MDM) 的基石。但在一个必须与更多样化的数据源和更大数据量交互的生态系统中,大规模地维护数据质量变得愈发困难。 手动工作量:数据管理、去重、规则调优和异常处理仍然主要依赖人工。这拖慢了所有工作的速度,并将可扩展性直接与人力挂钩。 可扩展性:随着数据量的增长,许多 MDM 平台难以在保持性能的同时,有效执行治理和完整性。 主数据管理广泛化:主数据的访问权限通常仅限于专家。这限制了协作,并使业务团队与他们赖以生存的数据保持距离。 数据丰富:利用第三方或外部来源丰富主数据可以创造真正的价值,但通常成本高昂、速度缓慢,而且难以大规模实施。 复杂的数据关系:现实世界中的实体之间存在着深层次的联系。客户可能涉及多个账户,产品存在于多个层级结构中,组织也可能跨地域运营。传统的主数据管理 (MDM) 模型难以清晰地表示和维护这些关系。 如果主数据管理(MDM)想要保持其相关性,就必须从根本上解决这些局限性。这正是生成式人工智能(Gen AI)的价值发挥之处。 增强核心 MDM 功能 人工智能时代并不会取代核心主数据管理(MDM)功能,而是通过引入上下文关联、学习和自动化,改变这些功能的执行方式,而目前这些功能主要依赖于人工操作和僵化的逻辑。 Gen AI 可以增强 MDM 的核心功能(如图 2 所示),具体如下: 智能管理。在传统的主数据管理 (MDM) 中,管理队列需要人工审核,管理员逐条检查记录并应用预定义的规则。而 Gen AI 则通过自动对队列进行优先级排序、提出解决方案并解释建议特定操作的原因来辅助这一过程。这减少了人工工作量,缩短了解决周期,同时确保最终决策权仍然掌握在人手中。 基于上下文的标准化。传统的标准化通常依赖于固定的规则、参考表和模式匹配。Gen AI 通过使用大型语言模型和检索增强生成 (RAG) 技术来添加上下文信息。在 RAG 中,模型从可信的内部或外部来源检索信息,并利用这些信息来指导标准化。这使得名称、地址或分类等值能够基于其含义和真实世界的上下文进行规范化,而不仅仅是基于预定义的逻辑。 无需固定阈值的智能匹配。传统匹配依赖于评分模型和阈值,难以应对数据变化和极端情况。Gen AI 利用语言模型进行语义比较,允许基于语义相似性而非精确匹配或数值阈值来评估记录。这提高了匹配准确率,尤其适用于缩写、不完整或不一致的数据。 更智能的生存决策。传统主数据管理 (MDM) 中的生存决策依赖于静态的源排名或属性级规则。Gen AI 引入了上下文评估,根据数据质量信号、使用上下文和佐证信息来判断哪个值最可靠或最合适。这最终会生成更一致、更可靠的黄金记录。 上下文感知数据质量管理。基于规则的数据质量检查侧重于格式和完整性,但往往会忽略语义错误。Gen AI 能够结合上下文评估数据,识别出只有在考虑语义时才会显现的问题,例如不合理的属性组合或错误的分类。这使得我们能够更早地检测到质量问题,而无需编写大量的硬编码规则。 AI在 MDM 的三个核心功能 Gen AI 通过变革数据质量、数据管理和数据管控这三大基础组件,强化了主数据管理 (MDM)。让我们更深入地了解它如何在各个领域产生影响。以下示例说明了 Gen AI 如何在不改变 MDM 基本职责的前提下,改进日常 MDM 执行流程。 1.数据质量和验证 数据质量一直是主数据管理 (MDM) 的一项基础性职责。传统的 MDM 擅长强制执行格式和标记明显的错误,但在需要上下文信息或推断才能解决问题时却力不从心。这往往导致管理员需要进行大量的手动调查工作。 由于缩写、本地命名规则和数据不完整等人为因素,医疗保健数据本身就十分混乱。虽然传统的主数据管理 (MDM) 系统可以标准化数据格式并标记明显的错误,但它难以推断出正确的解决方案,这使得数据管理员不得不进行繁琐的手动调查工作。 以以下医院系统数据为例: 传统主数据管理: 标记记录 A 缺少邮政编码,但无法自动填充,需要手动输入。 它可以根据匹配的名称和地址成功地将记录 A(部门)和记录 B(总医院)关联起来。 然而,系统常常忽略记录 C 与记录 C 是同一实体。电话号码和缩写名称(“圣约翰医院”)的一位数差异足以阻止自动匹配,迫使数据管理员手动调查差异。 传统主数据管理 (MDM) 经常难以理解语义,将缩写名称视为全新的实体,或者错误地合并相关记录。 人工智能辅助主数据管理: Gen AI 的语义逻辑通过分析位置相同的匹配地址(记录 B 和 C),推断并建议为记录 A 填写缺失的邮政编码 62704。 它智能地将记录 A、B 和 C 归为同一实体。 它突出显示了记录 C 的电话号码,将一位数的差异识别为可能的拼写错误,并建议进行更正。 至关重要的是,所有更正和推断都附带可审计的解释说明(例如,“与聚类锚点相差一位”),从而将数据管理员的角色从调查者转变为审核者。事实上,Gen AI 将数据质量从错误检测提升到推断、更正和可解释性层面。 2.核心实体识别和黄金记录创建 实体管理是主数据管理 (MDM) 的核心。其目标是正确识别重复项、理解关联关系并创建可靠的黄金记录。Gen AI 利用自然语言处理 (NLP) 和模式识别技术,改进了身份和关联关系的解析方式,尤其是在名称、结构或分类存在差异的情况下。 假设有三份医疗机构的记录: 传统主数据管理: 由于缩写(“Gen. Hosp.”),记录 D 和 E 最终可能被视为两家不同的医院,而不是同一机构的重复记录,从而导致数据碎片化。 此外,记录 F 显然是一个部门,可能会被错误地合并到医院主记录中,或者完全单独保留,从而扰乱准确的汇总报告。 人工智能辅助主数据管理: Gen AI 执行语义实体解析。它正确识别出记录 D 和 E 尽管缩写不同,但指的是同一家医院,并将它们合并成一条标准化的记录。 然后,它将记录 F 识别为相关的子实体(部门),而不是重复记录。它将记录 F 链接到主医院记录下,从而确保运营汇总和部门特定报告的准确性。 3.管理和治理执行 主数据通常包含敏感信息、受限信息或受规则约束的信息。某些记录仅限内部使用,而其他记录只有在满足特定条件(例如获得同意、符合合同条款或监管要求)的情况下才能共享。由于主数据管理 (MDM) 处于主数据标准化和分发的关键节点,因此它在控制数据流向方面发挥着至关重要的作用。 主数据管理 (MDM) 本身并不决定是否存在用户同意或是否存在适用法规。这些决定通常由隐私系统、同意平台或源应用程序做出。MDM 的作用是在主数据发布或向下游共享时强制执行这些决定。传统的 MDM 只能在信号明确且基于规则的情况下才能做到这一点。Gen AI 通过帮助 MDM 理解上下文来改进这一点,即使信号不完整、隐含或嵌入在文本中,也能强制执行策略。 请考虑以下两个治理挑战: 传统主数据管理: 它可能会错过客户记录中的“内部合作伙伴”等语义线索,或者患者指标数据流中缺少“同意标签”。 因此,不合规的数据可能会向下游流动,造成治理和合规风险。 人工智能辅助主数据管理: Gen AI会根据上下文应用策略。它能够识别客户记录的内部状态,并将其从面向外部的列表中屏蔽。 在满足同意要求之前,它会阻止设备流的导出。 它以通俗易懂的英语向数据管理员解释了问题,并明确了后续步骤,从而使补救措施更快、更一致。 在这个例子中,Gen AI 帮助主数据管理 (MDM) 系统理解何时不应共享数据,即使这些信息隐藏在文本中或结构化字段中缺失。MDM 系统随后会在发布点阻止数据流向下游,而不是让数据继续向下流动。 基于人工智能的MDM用例 在前一节中,我们探讨了Gen AI在主数据管理(MDM)中实现的三大核心功能:提升数据质量、强化匹配和黄金记录创建,以及提高数据管理和治理效率。您可以将这三点视为Gen AI为MDM带来的三种“力量”。它们本身就很有用,但只有将它们应用于团队试图解决的具体问题时,才能真正体现其价值。 这就需要更具体的用例了。下图 3 展示了 11 个基于人工智能的 Gen AI 赋能的 MDM 实际用例。其中一些用例可能与之前的示例类似,而另一些则是全新的。 让我们更详细地了解一下它们: 智能增强。Gen AI 可从网络等可信外部来源查找信息,自动为主数据添加缺失或有用的信息。这减少了人工查找工作,并使记录更加完整。例如,如果客户记录缺少地址,Gen AI 可以自动查找并添加。 业务规则/数据验证。Gen AI 会检查重要数据值在上下文中是否合理,而不仅仅是检查字段是否已填写。例如,它可以标记出主要地址明显不是医疗机构的医疗保健专业人员。 上下文感知标准化和增强。Gen AI 理解不同的词语可以指代相同的事物,并据此进行标准化。例如,它知道“Mike”和“Michael”通常指同一个人。 自动化参考数据管理。Gen AI 将源系统中混乱或不一致的值映射到公司使用的清晰、标准值。这取代了手动查找表,并减少了后续维护工作。例如,它可以将“心脏科”、“心脏病学”和“心脏专科医生”映射到单一的标准专科。 监管合规性监控。Gen AI 通过将主数据与已知列表或条件进行比对,帮助检测其是否违反监管规则。例如,它可以标记因监管限制而不应使用的实体(例如,因为某公司出现在 FDA 的禁入名单上)。 关联关系验证与管理。Gen AI 可以理解实体之间的关联方式。例如,即使之前没有明确存储这种关联关系,它也能识别出诊所属于某个医院网络。 数据异常检测与解决。Gen AI 能够识别与类似记录相比异常或错误的数据值。它不仅可以标记问题,还能提出修复建议。例如,它可以标记一位被列为 92 岁的儿科专家,并建议进行更正。 基于上下文的匹配。Gen AI 通过比较含义而非精确值来判断两条记录是否代表同一个现实世界的实体。即使数据不完整或不一致,这也有助于匹配记录。 基于上下文的生存策略。当记录合并时,Gen AI 会根据可靠性和使用情况来决定应该保留哪些值。这超越了简单的来源优先级规则。例如,它可以保留最近使用和验证过的电话号码,而不仅仅是排名最高的系统中的号码。 自动化元数据整理和编目。Gen AI 可自动描述和标记数据,以便人们了解数据的内容及其用途。例如,它可以将数据集标记为“客户主数据——仅供内部使用”。 自动化管理队列解析。Gen AI 可自行解决简单的数据问题,仅将复杂案例发送给人工处理,从而减少管理员需要手动审核的项目数量。 Gen AI 如何集成到 MDM 中 在前几节中,我们探讨了Gen AI赋能的具体功能及其在主数据管理(MDM)中的应用方式。这些方法本身就能带来价值。在本节中,我们将了解如何将这些功能连接起来,并在整个MDM流程中端到端地应用,从而实现相互促进,发挥最大的整体效益。 如图 4 所示,Gen AI 可以贯穿整个 MDM 生命周期: 数据采集与导入。当数据从源系统到达时,Gen AI 能够及早发现明显问题、补充缺失的上下文信息,并将数值与已知标准进行比对,从而帮助清理数据。这减少了后续的返工,并提高了进入母带制作阶段的数据质量。 主数据管理。在主数据管理的核心步骤中,Gen AI 支持匹配、存续管理和数据管理。它有助于更准确地识别重复项,在决定保留哪些值时提供上下文信息,并通过提出带有解释的清晰操作建议来减少人工队列工作。 数据发布与使用。在共享主数据时,Gen AI 可确保将正确的数据传递给正确的用户。由于质量和治理在数据流的早期阶段就得到了处理,下游系统能够接收到更清晰、更可靠的数据。在某些情况下,这也会改变人们访问主数据的方式。例如,销售代表等用户无需浏览报告或编写查询,只需提出诸如“Acme MedTech 的最新联系方式是什么?”或“芝加哥哪些医院上个季度购买了这款设备?”之类的问题,即可直接从经过验证的黄金记录中提取答案。 图 5 缩小了视图,展示了其技术实现方式。Gen AI 依赖于现有的数据存储、元数据和主数据管理 (MDM) 引擎,并在此基础上添加了智能功能。它利用元数据、参考数据和历史决策来提供更优的建议和检查,而传统的 MDM 组件则继续执行核心流程。 关键在于,Gen AI并非与MDM并行运行的独立系统,而是一个附加层,旨在改进MDM的日常运作,使流程更快、更具可扩展性且更易于操作,同时又不改变MDM本身的基本原理。 从追赶到引领 MDM 的发展 如果我们观察当今市场的发展趋势,就会发现一些规律。大多数组织都在向前发展,但速度和方式各不相同。有些组织采取的是渐进式改进,而只有少数组织采取了更为审慎的措施,从根本上改变了主数据管理(MDM)的运作方式。 许多公司正在以专注且务实的方式应用 Gen AI,而且大多是在现有的 MDM 基础架构之上: Gen AI 实用工具和试点项目。团队会开展小型试点项目,用于数据丰富、验证或管理自动化,以证明其价值并建立信任,然后再进一步扩大规模。 团队中更广泛地采用主数据管理 (MDM)。MDM的功能范围不断扩展,通常与客户关系管理 (CRM)、电子邮件或分析工具等数字渠道相结合。 现代技术基础。各组织正从点对点集成转向 API、模块化服务和微服务,以使 MDM 更易于扩展和重用。 更智能的管理和目录。通过自动化减少人工管理,用更动态、可搜索的数据目录取代静态元数据存储库。 探索数据架构和数据网格。一些组织开始跨域联合主数据,同时保持共享标准和集中治理。 这些步骤很重要。它们提高了效率和灵活性,但通常是对现有移动设备管理 (MDM) 系统进行改进,而不是从根本上改变它们。 那些取得更大飞跃的公司,会将这些理念融入到更有针对性的主数据管理(MDM)设计中: 以人工智能为核心重新设计主数据管理 (MDM)。这些组织并非仅仅在现有工具上添加人工智能功能,而是重新设计 MDM,使人工智能系统能够协调匹配、数据丰富、管理和验证等核心活动,并越来越多地将这些平台作为传统 MDM 解决方案的长期替代方案。 利用人工智能助手和自然语言界面赋能团队。人工智能助手可支持数据验证、血缘关系检查和策略执行等任务。自然语言和对话式界面使业务用户无需深厚的技术知识即可与主数据进行交互。 实现合规性和政策监控自动化。系统会自动监控内部政策和外部法规(例如 个人信息保护法、GDPR 和 HIPAA)的合规情况。这既减少了人工干预,又提高了合规一致性,同时降低了风险。 构建互联互通的数据生态系统。主数据旨在跨更广泛的生态系统运行,连接医疗服务提供者、支付方、制造商和患者。这些连接能够带来生态系统层面的洞察和新的商机。 采用图谱和知识技术。知识图谱用于表示主数据实体之间复杂的关联关系。为了支持互操作性和更丰富的数据交换,我们采用了行业标准,例如医疗保健领域的 IDMP 和 HL7、消费品和零售领域的 GS1、银行和支付领域的 ISO 20022、保险领域的 ACORD 以及供应链和物流领域的 EDIFACT 或 ISO 标准。 小结 主数据管理一直至关重要……但它却鲜少令人感到轻松愉快。其基本要素始终未变:干净的数据、一致的定义和强有力的治理。而人工智能时代改变的是主数据管理的体验。 对于大部分主数据管理 (MDM) 工作而言,Gen AI 可以帮助更高效地完成相同的任务。数据质量、匹配和管理依然存在,但速度更快、自动化程度更高,并且减少了对无休止的人工审核的依赖。团队可以将更多时间用于解决显而易见的问题,从而专注于更有价值的决策。 但生成式人工智能(Gen AI)也提升了主数据管理(MDM)的优势。它为决策提供背景信息,使复杂数据更易于理解,并通过自然语言和更简单的交互方式改变人们使用主数据的方式。当MDM变得更快捷、更易用、更直观时,它不再像是一个控制功能,而更像是一种人们真正想要使用的能力。这种体验的转变正是真正令人兴奋的地方所在。 来源(公众号):数据驱动智能
2026-02-11 18:09 93
随着信息技术的飞速发展,全球数字经济规模正以惊人的速度持续扩张。数据正作为一种新型生产要素深度融入各领域,并成为企业创新发展与效率提升的核心驱动力。数据好比是一种新的“石油”,在不断提升企业洞察市场、优化流程、精准决策能力的同时,重塑着商业竞争格局。然而,在这场数字化浪潮中,建筑行业作为典型的传统产业,却面临诸多挑战,其数字化转型进程明显滞后于其他行业。早在2016年,麦肯锡全球研究院发布的报告便揭示了一个严峻事实:在全球众多行业中,建筑业的数字化水平仅高于农业,位居倒数第二位。德勤咨询2019年开展的“数字化成熟度”调查也再次印证了这一状况,建筑业在该调查中得分仅为4.50,在众多被调研行业中排名垫底。这一系列数据无不表明,建筑行业的数字化转型之路任重道远,亟待加快步伐以适应数字经济时代的发展潮流。 在此背景下,如何系统性构建建筑业企业级数据管理体系,实现从“数据孤岛”到“数据资产化”的转变,成为亟待解决的课题。本文以DCMM国家标准为基准,结合企业的实践案例,提炼出一套具备可操作性的数据管理体系建设方法,旨在为行业提供理论与实践经验借鉴。 本文采用理论分析与案例研究相结合的方法开展分析研究。①理论框架:基于DCMM标准的8大能力域和5级成熟度模型,构建数据管理体系的理论基础;②案例研究:以某建筑行业信息化企业为对象,分析其在数据战略、治理、技术落地等方面的实践经验;③量化分析:通过具体项目数据(如效率提升率等)验证方法论的有效性。 1 对DCMM标准的学习和理解 DCMM是GB/T 36073-2018《数据管理能力成熟度评估模型》国家标准,英文简称:Data management Capability Maturity Model,是我国首个数据管理领域正式发布的国家标准,旨在帮助企业利用先进的数据管理理念和方法,建立和评价自身数据管理能力,持续完善数据管理组织、程序和制度,充分发挥数据在促进企业向信息化、数字化、智能化发展方面的价值。 DCMM标准为企业提供了体系化框架,明确了数据管理维度。其定义了8大核心能力域(数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准和数据生命周期)、28个能力项和5级成熟度(初始级、受管理级、稳健级、量化管理级和优化级),覆盖从战略规划到技术落地的全链条管理需求。例如,数据治理域要求企业建立制度体系、组织架构和沟通机制,而数据安全域则需制定安全策略、审计和管理措施。这一框架帮助企业避免“头痛医头、脚痛医脚”的碎片化管理,指导企业形成覆盖数据全生命周期的闭环体系。DCMM标准能指导企业战略规划与业务协同,其强调数据战略与企业整体战略的匹配性,要求企业将数据视为核心资产,明确数据管理目标与业务发展的关联性,确保数据管理能力提升与企业数字化转型目标同步推进。DCMM标准规范了企业治理机制,提出了流程标准化要求。其制定了445项具体的指标,倡导跨部门协同,通过DCMM标准的数据集成共享能力项逐步打破数据孤岛。DCMM标准能指导企业促进技术与业务融合创新,其不仅关注技术实施,更强调数据应用价值,其数据应用能力域要求企业通过数据分析支持业务决策,并探索数据开放共享的变现模式。 通过对DCMM标准的深入学习,在充分理解的基础上对其核心逻辑加以总结并提炼为:①战略对齐。数据管理需服务于企业业务目标。②治理先行。通过制度与组织保障数据管理的规范性。③技术支撑。以集成架构与工具链实现数据流通与应用。④价值闭环。通过数据服务反哺业务创新。DCMM框架图如图1所示。 图 1 DCMM 框架图 2 建筑行业数据管理痛点分析 在建筑行业的数字化转型进程中,数据管理面临多重挑战,具体表现为以下核心痛点。 其一,数据孤岛壁垒森严,协同效率低下。企业内部项目管理、财务核算、供应链等系统往往由不同供应商独立开发。这种分散式的开发模式,使得各系统在数据定义、格式、编码规则等方面缺乏统一标准,也没有规范的接口协议,系统之间如同一个个信息“孤岛”彼此孤立,数据跨系统流通严重依赖人工导出Excel表格或纸质文件。例如,项目进度、成本等相关数据往往需由工程部门手动同步至财务系统进行成本核算,不仅效率低,还易因数据版本混乱引发决策偏差。 其二,数据质量失控,业务成本陡增。从数据采集环节来看,施工现场仍大量依赖人工填报数据,缺乏自动化采集手段。施工人员在填写材料验收记录、施工日志等信息时,不仅容易因疲劳、疏忽导致数据遗漏、重复录入,而且不同人员的填写习惯和标准不统一,造成格式错误频出。在数据传输环节,由于缺乏统一的数据标准和高效的传输渠道,大量数据在系统间流转时面临兼容性问题,进一步加剧了数据质量的恶化。以混凝土强度检测数据为例,手工录入失误可能导致质量验收延迟,甚至触发返工风险,直接推高工期与成本。 其三,安全防护薄弱,合规风险高企。施工现场部署的工控系统、物联网设备,如塔吊传感器、环境监测仪等,出于便捷管理和数据传输的考虑,常直接暴露于公网环境。但企业往往忽视网络安全建设,未及时配置基础防火墙或采取数据加密措施,使得这些设备如同“裸奔”在网络空间中。一旦遭受黑客攻击或恶意软件入侵,施工图纸、工程进度等核心数据以及人员身份信息等敏感数据极易泄露。这些数据一旦外泄,不仅会使企业面临监管部门的高额罚款,也会损害企业的品牌形象,给企业带来难以估量的损失。 其四,数据价值沉睡,决策支撑缺位。建筑企业海量历史项目数据(如施工工艺参数、供应商履约记录)分散存储于本地服务器或个人终端,缺乏结构化归档和标签化管理,难以通过数据分析挖掘规律。例如,企业无法利用历史项目工期延误数据构建预测模型,导致无法预先识别工期风险;企业也无法将优秀项目的管理经验转化为知识库,使得“经验复利”效应近乎为零。 这些痛点长期存在且相互交织,不仅制约了企业降本增效的空间,更是削弱了其可持续创新的能力。因此,如何构建适合自身管理要求的数据管理体系,成为了众多企业的研究目标。 3 企业数据管理体系建设五步法 以DCMM为理论指导,结合建立企业级数据管理体系实践经验总结,提出“战略规划-组织治理-架构设计-技术实施-价值应用”的企业数据管理体系五步法模型。 3.1 步骤一:数据战略规划--明确方向与优先级 数据战略规划是企业发展战略规划在数据领域的延伸与细化,是企业发展战略落地的数据支撑路径。数据战略规划的整体目标是制定与企业战略匹配的数据管理愿景,识别核心业务场景需求,设计分阶段实施路线图。 数据战略规划的实施策略可以分为3个环节:一是开展需求调研;二是进行成熟度评估;三是规划路线图设计。 按上述方法,公司组建专项工作组,通过“自上而下”与“自下而上”相结合的调研方式,首先对战略决策层开展深度访谈,聚焦企业战略目标与数据赋能的结合点。同时深入各业务部门进行流程测试,梳理出涵盖经营、生产、供应链等各业务域的32个核心数据场景与业务流程图谱。经DCMM数据战略维度对标评估,发现存在数据战略与业务战略匹配度不足、跨部门数据协同机制缺失、数据应用价值挖掘深度不够等关键问题。针对评估结果,公司制定出分阶段推进的“三年三步走”行动路线图,如下:①筑基期(2024-2025年)。完成数据底座建设,整合核心业务系统。②深化期(2025-2026年)。实现数据服务标准化,支撑内部数据共享利用。③赋能期(2026-2027年)。输出数据能力至外部市场,形成新增长点。数据战略实施路线图示例如图2所示。 图2 数据战略实施路线图示例 3.2 步骤二:数据治理组织与制度--构建管理闭环 数据治理组织与制度的核心目标是构建权责清晰、高效协同的治理体系,建立跨部门协作机制,制定覆盖数据全生命周期的制度体系,推动数据要素价值释放,最终形成“制度管流程、平台控操作、考核促执行”的闭环治理模式。 数据治理组织与制度的实施策略可以分为3个方面:一是在组织设计方面,成立独立的数据管理组织并由高管担任负责人;二是在制度制定方面,制定并发布数据管理体系相关制度;三是在考核机制方面,针对数据管理成效制定专门的考核指标。 按上述方法,公司成立由首席数据官(CDO)牵头的跨部门数据管理委员会,统筹协调经营、生成研发、合规等相关部门,下设数据标准组、质量管控组与安全审计组,明确各业务单元数据专员的协同职责,形成“横向联动、纵向贯通”的矩阵式管理架构。由数据管理委员会牵头,围绕数据全生命周期制定《数据分类分级管理办法》《数据质量评价标准》《数据安全实施细则》等12项核心制度,覆盖数据采集、存储、加工、共享和销毁等关键环节。公司在建立数据管理组织体系和制度系统后,设计了适应本公司的“数据认责矩阵”。通过运用“数据认责矩阵”,明确了各部门在数据管理体系中的职责和定位。 数据所有者(业务部门):负责数据录入、质量初审。 数据管理者(IT部门):负责技术平台维护与安全防护 数据消费者(管理层):提出数据应用需求。 对“数据认责矩阵”运用开展了3个月的成效跟踪,发现数据质量问题平均解决时间从7d缩短至3d,跨部门数据共享率提升至85%。 3.3 步骤三:数据架构与集成--打破孤岛实现互通 数据架构与集成的核心目标是构建企业级数据底座,打破系统孤岛整合多源数据,在支撑业务协同的同时实现数据的标准化、服务化与价值化。 数据架构与集成的实施策略可以分为3个方面。 一是模型设计,以业务流程为主线,构建主题域模型。通过梳理关键业务流程(如项目从立项到实施再到验收的全生命周期),设计出契合业务需求的高层次数据模型。这一过程确保了数据架构与业务目标的高度一致性,为后续的数据集成与分析奠定坚实基础。 二是技术选型,在技术实现层面,采用Apache Kafka作为实时数据流的核心中间件,确保数据的高吞吐、低延迟传输;同时,利用Flink作为流批一体的计算引擎,支持实时流处理与批量处理的统一框架,提升数据处理的灵活性与效率。 三是元数据管理,引入元数据管理平台,构建数据血缘图谱,实现数据流转过程的全链路可视化管理。通过元数据的集中化管理与追踪,增强数据的可观测性与可治理性,为数据质量和数据安全提供有力保障。 公司在用供应链管理系统一直存在与ERP、财务系统数据割裂的问题。为解决数据集成问题,公司决定开发数据底座重塑数据架构。先是定义了200+数据接口规范,支持API、文件传输多模式集成,实现了接口的标准化;然后运用Trifacta等工具清洗历史数据,使历史数据错误率从12%降至3%,进一步实现数据的标准化并提高数据一致性。通过数据底座实现标准数据关联共享后,线上业务处理时间平均缩短至8min以内,工作协同效率大大提升。数据底座-数字员工示意图如图3所示。 图3 数据底座-数字员工示意图 3.4 步骤四:数据安全与质量控制--夯实管理基础 数据安全与质量控制的目标是建立分层防护体系,实现数据质量闭环管理。 数据安全与质量控制的实施策略可以分为3个方面:一是安全防护,基于“零信任”架构,部署微隔离技术,划分数据安全域;二是质量管控,在数据中台或数据管理平台内置质量规则引擎(如唯一性、完整性校验);三是合规审计,每季度开展数据安全演练,模拟勒索软件攻击、内部泄密等场景。 公司实施多因素认证(MFA)与动态权限管理,所有用户/设备访问数据前需通过持续身份验证。制定包含完整性、准确性、一致性等6大维度18项数据质量指标并在数据底座中嵌入质量校验模块,支持自定义规则配置。每季度开展红蓝对抗演练,模拟勒索攻击、内部泄密、数据篡改等场景,极大提高了全员数据安全意识。 3.5 步骤五:数据应用与价值挖掘--释放数据潜能 数据应用与价值挖掘的核心目标是构建数据资产运营体系,通过技术创新与生态协同释放数据要素价值。 基于DCMM数据应用域要求,数据应用与价值挖掘的实施策略可以分为3个阶段:一阶段是自动化工具的开发和应用,开发RPA机器人,实现数据跨系统自动填报;二阶段是实现知识管理,构建基于NLP的企业知识库,支持历史项目文档语义检索;三阶段是商业化探索,将数据资产打包为各类服务型产品。 按上述方法,公司通过开发物资RPA、进度RPA等自动填报机器人,实现了只在项目现场管理系统进行一次人工填报,其他管理系统通过RPA自动填报,达到了人工成本和填报错误率双降的效果。公司还搭建了智能体平台并利用自有数据资产训练“数字员工”,如利用财务系统现有的采购申请、报销申请数据训练“流程助手”,帮助员工快速生成公司制式单据。利用现有合同评审数据训练“合规审计助手”,自动扫描合同条款风险,帮助员工完成合同逐步检验,帮助识别合同中的法律风险。利用公司现行的制度规范数据训练,方便员工快速获悉最新的制度变化与制度核心内容。 “数字员工”的上线使用,极大程度提高了员工的工作效率。后续公司将逐步建立数据资产入表机制,完成高价值数据的资产确权与价值评估,通过“技术+场景+生态”的立体化价值挖掘模式,逐步提升企业数据资产利用率,驱动数字化转型从效率提升向价值创造跃升。 4 实施挑战与对策 企业数据管理体系五步法模型在实际贯彻实施过程中,往往会面临组织协同与技术实施层面的双重挑战,需要针对性地设计解决方案。例如在组织协同层面,当业务部门因权责归属问题对数据共享产生抵触时,就需要构建“制度牵引+价值驱动”的双重保障机制。首先,由数据管理委员会牵头以数据认责矩阵为依据,明确原始数据所有权、加工数据使用权与共享数据收益权的划分标准,通过数据资产价值评估模型量化各部门贡献度,消除权责模糊隐患。其次,建立“数据积分激励机制”,将数据资源贡献量、API调用次数等指标纳入部门绩效考核,对排名前20%的部门给予资源倾斜或数字化转型专项资金奖励来提高共享积极性。在技术实施层面可能会面临历史遗留系统改造难度大,数据模型兼容性差的问题,这时可采用“渐进式迁移”策略,优先集成高价值系统,每年按业务优先级滚动更新20%系统接口标准,确保技术演进与业务发展同步。 5 结束语 综上所述,以DCMM为理论基础的“战略规划-组织治理-架构设计-技术实施-价值应用”企业数据管理体系五步法模型,能帮助企业实现数据战略对齐和资源聚焦,明确数据管理权责,提高数据质量和数据安全性,最终帮助企业构建起完整的数据管理体系实现数据全生命周期管理。 来源(公众号):数据治理体系 作者:中铁建网络信息科技有限公司 李飞鸿
2026-02-05 18:13 145
埃隆·马斯克和黄仁勋除了都运营着尖端科技公司之外,还有一个共同点:他们都非常重视从第一性原理出发思考问题。马斯克曾解释道:“我倾向于从物理学的角度来思考问题……物理学教会我们从第一性原理出发进行推理,而不是通过类比。第一性原理方法曾被许多伟大的思想家运用,包括发明家约翰内斯·古腾堡、军事战略家约翰·博伊德和古代哲学家亚里士多德,但没有人比企业家埃隆·马斯克更能有效地体现第一性原理思维的哲学。 2002 年,马斯克开始了将第一枚火箭送上火星的征程——这个想法最终发展成为航天公司 SpaceX。 他一开始就遇到了巨大的挑战。在走访了世界各地的多家航空航天制造商后,马斯克发现购买一枚火箭的成本高得惊人——高达6500万美元。鉴于如此高昂的价格,他开始重新思考这个问题。 “我倾向于从物理学的角度来思考问题,”马斯克在一次采访中说道。“物理学教导我们从基本原理出发进行推理,而不是通过类比。所以我说,好吧,让我们来看看基本原理。火箭是由什么制成的?航空级铝合金,再加上一些钛、铜和碳纤维。然后我问,这些材料在商品市场上的价值是多少?结果发现,火箭的材料成本大约只占其典型价格的百分之二。” 马斯克没有选择花费数千万美元购买成品火箭,而是决定创建自己的公司,以低价购买原材料,并自行制造火箭。SpaceX由此诞生。 短短几年内,SpaceX 就将火箭发射成本降低了近十倍,同时还能盈利。马斯克运用第一性原理思维,将问题分解到最基本层面,绕过航空航天业的高昂成本,创造出更高效的解决方案。 ”英伟达首席执行官黄仁勋也身体力行地实践着这一点。他敦促团队“回归第一性原理”,并扪心自问:“在今天的情况下……我会如何重做这件事?我会如何彻底重塑它?”听到火箭和人工智能芯片领域的领导者谈论如何将问题简化到本质,我不禁思考:同样的方法能否改变数据治理这样传统且往往进展缓慢的领域呢? 作为一名顾问,我见过许多精心设计的治理框架——精美的幻灯片、组织严密的委员会、详尽的目录。它们在纸面上看起来完美无缺,但在实践中却往往不堪一击。数据治理的理论与实践之间存在着巨大的鸿沟。解决方案可能过于精雕细琢,却缺乏在现实世界中的检验。因此,我开始思考:如果我们运用第一性原理思维来审视数据治理,会怎样?我们能否摒弃那些陈规陋习和繁文缛节,从根本上重建治理体系,使其真正有效? 1.什么是第一性原理思维 第一性原理思维意味着从基本原理出发。它不接受既有的假设或类比,而是将问题分解为无可辩驳的真理,并以此为基础向上推导。本质上,它是将问题简化为基本组成部分,并从这些基本要素出发进行推理。这个概念并不新鲜——两千多年前,亚里士多德就将第一性原理定义为“事物被认知的首要基础”。在现代,这种思维方式被工程师和企业家广泛采用,他们希望避免简单地复制“最佳实践”。他们像科学家一样,质疑每一个假设:我们真正确定的是什么? 我们究竟想要解决什么问题?通过这种方式,他们往往能找到比传统观点更优的解决方案。 毫不奇怪,这种方法几乎成了科技界的口头禅。马斯克和黄仁勋经常谈到“第一性原理”,以至于这个词听起来都像是一句口号。但抛开这些流行语,第一性原理思维的力量在于它的清晰性。它迫使我们专注于本质——将目标与无关紧要的细节区分开来。与其在旧模型上迭代,不如问问自己:如果我们今天从零开始解决这个问题,我们会怎么做? 2.为什么数据治理是理想之选 如果说哪个领域最需要从根本上进行反思,那非数据治理莫属。许多现有的治理实践都是由遗留习惯、过时的“最佳实践”和沿用已久的模板拼凑而成。多年来,组织机构不断叠加政策和流程,却往往从未质疑这些规则是否仍然合理。惯性是一种强大的力量:一旦治理委员会、报告或规则出台,它们往往会长期存在,远远超过其应有的使用寿命。其结果是,数据治理领域充斥着复杂性和模糊的价值。人们遵循旧的清单,仅仅因为“我们一直都是这么做的”,即使没有人能够清楚地解释为什么某个步骤或文件是真正必要的。 裂痕开始显现。正如一位 Gartner 分析师所言,“传统的数据治理方法正在过时”。事实上,根据Gartner 的报告,2025 年80% 试图扩展数字化项目的组织将会失败,原因在于它们未能对其数据治理方法进行现代化改造。这是一个令人警醒的信号:我们现有的治理方式不仅有些笨拙,而且在很大程度上根本行不通。治理项目往往过分强调文书工作、为了控制而控制以及一刀切的解决方案,而忽略了清晰度和业务成果。这使得数据治理成为运用第一性原理思维的理想对象。通过将治理简化到其核心目标——确保数据的可信度、可用性和安全性——我们可以从根本上重建一种更精简、更高效的方法。 3.常见的数据治理习惯和假设 让我们来审视一下现状。以下是一些数据治理中常见的习惯和假设。您很可能已经遇到过其中一些: •在开始进行数据管理之前,您需要一个专门的工具或平台。 •数据治理必须由集中化的团队或委员会负责才能有效运作。 •无论重要性如何,每一条数据都需要以同样的严格标准进行管理。 •治理的第一步是预先制定详尽的政策和文件。 •适当的数据治理必然会减慢项目进度(而这正是做好数据治理的代价)。 •数据治理主要是一项IT举措——业务人员只是最终的成果。 •所有重大数据决策都应经过正式的治理委员会批准。 •在进行任何其他操作之前,我们应该对企业范围内的所有数据资产进行编目和分类。 •只有当所有系统的数据质量都接近完美时,人们才能信任或使用数据。 •直接采用行业最佳实践框架或模型将保证治理成功。 •如果某种治理方案对其他公司(或您上一个客户)有效,那么它在这里也同样有效,无需任何改动。 •数据治理主要关乎合规性和满足审计人员的要求。 •购买合适的数据治理工具将解决我们的数据问题(人员和流程随后都会迎刃而解)。 •数据治理可以视为一次性项目——一旦推出,就大功告成了。 •我们添加的规则和控制措施越多,我们的数据就越好。 •一个好的数据治理方案应该从一开始就覆盖整个组织。 •在任何领域实施治理之前,最好等到我们有了完善的定义和完全的共识之后再进行。 •只有高管或首席数据官才能最终“拥有”和推动数据治理(其他人只是辅助人员)。 这真是一长串假设……其中一些听起来可能似曾相识。它们经常出现在演示文稿、项目章程以及关于治理的闲聊中。但其中有多少是真正正确或必要的呢?是时候运用第一性原理思维来检验它们了。 4.将第一性原理应用于数据治理假设 让我们来分析这些假设。我们将探究每项假设存在的原因(是什么样的思维模式或历史背景使其得以延续),然后提出一个问题:从第一性原理出发,我们会提出什么样的替代方案?我们的目标是找出哪些习惯是真正必要的,哪些只是历史遗留的噪音。请参见下表: 假设 为何存在这种假设 第一性原则建议做什么 在开始治理数据之前,需要一个大型工具 购买工具显得具体且能显示进展。供应商将工具宣传为“银色子弹”。技术也感觉比解决人员和流程问题更容易。 从基本原则开始。定义所有权、标准和质量检查,使用简单的工具即可。投资于仅在你确切知道自己需要什么时才使用的工具。 治理必须集中在一个团队下 中央化似乎安全,并承诺一致性和控制。组织害怕决策分散。 遵循集中原则,但不执行。设定通用标准,但允许领域团队管理自己的数据。保持决策闭环与数据所在位置一致。 所有数据都必须平等治理 没有清晰优先级,团队会把所有事情都当作同等重要来对待。担心错过任何事情会导致全盘皆输的项目。 并非所有数据都一样。聚焦高价值和高风险数据。对低关键性数据应用更轻量级的治理方法。 我们必须提前编写所有政策和文档 传统的项目规划和合规文化将政策和文档视为控制和合规性的标志。 政策应以指导行为为主。从最小、实用的指南开始,逐步根据经验塑造政策。治理应通过防止返工和冲突来加快进度。将其嵌入现有工作流并自动化,如果它导致延迟,那就是设计不当。 良好的治理自然会减慢项目进度 治理历来依赖委员会和审批流程,这会带来摩擦,因此延迟被视为不可避免。 治理属于业务,因为业务定义了数据的意义和价值。IT支持技术方面,但业务拥有定义、质量及用途。 数据治理是IT的责任 数据长期被视为技术资产,所有权默认归属于IT。业务部门保持距离。 明确决策权。推动常规决策由数据所有者和利益相关方做出。仅在真正战略性或冲突性问题上保留委员会决策。 每个数据决策都需要理事会批准 委员会感到安全,并分散责任,尤其是在跨职能决策中。 确定何时需要决策。关注使重要数据可查找和可理解。首先基于现实情况有机地构建元数据。 我们必须分类和标记所有数据 库存看起来逻辑且全面,尤其是出于风险和合规角度考虑。 关注适用性。在必要时改进质量,在不影响使用的情况下记录局限性。当数据用于改善时,持续优化。 数据必须完美才能使用 过去糟糕的经历造成了恐惧。监管环境强化了零容忍思维。 专注于目的。在有意义的地方改进质量和记录局限性。只要数据可用于改进,就持续优化。 遵循标准框架就能保证成功 框架看起来安全可信,尤其对高管而言。它们减少了原创思考的需求。 框架是参考而非规则。只使用适合你上下文的部分。适应并简化而不是盲目遵循。 别处有效的方法在这里也会有效 复制比从头设计更容易,且失败时可以掩盖问题。 上下文很重要。借鉴理念,但重建解决方案,基于你自己的问题、文化和约束条件。 治理主要是为了合规 合规性通过监管获得牵引力,使其更容易通过“怕罚款”来争取资金支持。 合规性很重要,但业务决策同样重要。治理应满足决策、效率和信任需求,而不仅仅是审计要求。 正确的工具将解决我们的数据问题 现代工具承诺自动化和智能,促使人们相信“技术优先”的解决方案。 工具能实现良好的治理,但无法替代它。先修复所有权、标准和流程,然后扩展工具。 治理可以设置后遗忘 治理常被当作一次性项目资助,造成完成的错觉。 治理是持续的。数据和业务需求不断变化,因此治理必须随着明确的长期所有权持续进化。 更多规则意味着更好的治理 控制性强的文化将安全等同于更多规则和流程。 太多规则会产生摩擦和变通。使用少量精选原则和控制。 我们必须在整个企业中统一实施治理 大型项目计划周密且公平,吸引高层领导支持。 从影响最大的地方开始。在一个领域治理或使用案例中启动,然后基于成功扩展。 必须等待完美的共识才能行动 害怕做错和强烈的共识文化导致瘫痪。 从合理的版本1.0开始。行动、学习、精炼。实践使用表面接口,避免无休止的争论。 只有高管才能真正拥有数据治理 权威与高级领导层相关联,因此所有权被向上推。 治理发生在日常决策中。所有权应与最接近数据的人共存,并由高管支持。 逐一分析这些假设,一个清晰的模式浮现出来:许多数据治理的“规则”并非基于基本原则,而是沿袭下来的选择。事实上,某些做法之所以存在,仅仅是因为它们曾经解决了某个具体问题或缓解了某种担忧,然后逐渐固化为教条。随着时间的推移,最初的背景被遗忘,但习惯却保留了下来。(换句话说,地图变成了疆域。) 通常,所谓的“最佳实践”其实只是某种被广泛接受的做法。正如黄建生所观察到的,权宜之计可能会僵化成长期规则,因为你曾经奉为圭臬的那些东西,往往最初只是仓促妥协的结果。我们的调查显示,许多数据治理习惯都是这样产生的——一种权宜之计或假设,却长期未受到质疑。 通过这项练习,我们也看到了常识与实际操作之间存在的巨大差距。人们常说,你需要一个强大的工具和一份长达50页的政策文件才能启动治理,但实际上,成功的治理举措往往是从零开始的:一个积极进取的团队、几项关键协议、一份简单的条款表格,以及解决一个紧迫的问题。我们列出的许多假设似乎已经过时。鉴于当今的技术和敏捷的工作方式,这些假设不再成立或者至少并非普遍适用。有些假设纯粹是理论性的,只有那些缺乏治理成功或失败经验的人才会遵循。 简而言之,应用基本原则会发现,许多数据治理的“必备要素”其实是锦上添花,甚至是分散注意力的因素。当我们把治理简化到其核心——确保合适的人在合适的时间信任并使用合适的数据——一个更简单、更清晰的图景就会浮现出来。 5.数据治理本身就是一个假设 到目前为止,我们已经挑战了数据治理内部的一些假设和习惯。但让我们更进一步……或许有点疯狂……如果数据治理本身根本就不是首要原则呢?或者,如果数据治理不是首要原则,那么什么才是? 从最基本的层面来说,真正的第一原则是: 数据是决策和行动的运营投入,滥用数据会造成实际危害。 就是这样。其他一切都是衍生品。 你不需要“数据治理”。你需要做的是防止损害,同时确保正确使用那些会对结果产生实质性影响的事物。 这与以下情况并无不同: •之所以要实行财务管制,是因为资金可能被滥用。 •制定医疗规程是因为患者可能受到伤害 •之所以存在安全系统,是因为可能会发生物理损坏。 没有人会出于哲学原因来管理“金钱”或“医疗”。他们管理的是与影响相关的风险。 因此,与其问“我们如何管理数据?”,不如从根本上思考“数据可以在哪些方面以对结果产生实质性影响的方式使用,以及为了确保这种使用方式的安全性和正确性,必须满足哪些条件?” 从这个角度来看,我们称之为“治理”的许多东西都可能消失。让我们再次审视一下是什么让数据“可用”、“可信”和“受保护”。这些都是一个事实的副产品:数据在其设计用途的语境中得到应用。 让我们来详细分析一下: •可用数据意味着使用者能够理解数据所支持的决策或行动。数据与决策意图相符。如果这种一致性是明确的,可用性自然就具备了。否则,任何目录或所有者都无济于事。可用性失败并非因为缺少元数据,而是因为缺乏明确的意图。 •可信的数据意味着,在决策过程中,出错的风险是可以接受的。信任并非绝对,而是取决于具体情况。用于指导营销支出的数据不需要像用于财务报告的数据那样严格的保证。当数据被用于其原本设计用途之外的决策时,信任就会瓦解。 •受保护数据意味着数据不能以违反其预期用途的方式使用。这并非指数据未被分类或标记,而是指数据不能在允许的上下文之外使用。如果数据无法被访问、合并、导出或在其允许用途之外重复使用,那么数据保护就已经实现了。 这种框架的根本含义是:你不需要所有权,你不需要分类,你不需要委员会,你不需要目录。 你需要明确且强制执行的使用意图。其他一切都只是实现细节。 如果我们仅仅止步于这种理论推测,或许会令人失望……所以,让我们尝试将其付诸实践。那么,究竟什么可以取代数据治理呢? 使用限制。 换句话说: •数据的产生有其既定目的 •系统仅允许以兼容的方式使用它。 •当意图发生变化时,数据需要重新设计或重新审批。 如果你认真对待这个框架并想将其付诸实践,我想到了两种模式:API和数据产品。这两种模式之所以有效,正是因为它们强制明确意图、约束和责任,而无需单独的治理层: •API之所以强大,是因为它们明确地编码了意图。API为特定目的公开了特定的功能。它定义了可以访问哪些数据、以何种形式、以何种频率以及在何种条件下可以访问。你不可能随意地重新利用API而不被察觉。如果用例发生变化,约定也必须随之改变。仅此一点就解决了可用性、信任度和安全性方面的大部分问题。数据可用是因为其用途清晰。数据值得信赖是因为预期明确。数据受到保护是因为滥用受到设计的限制,而不是由策略限制。 •数据产品的作用类似,但层次更高。数据产品的存在是因为有人需要数据来支持既定的决策或运营流程。它将数据、逻辑、质量预期和使用边界整合到一个专门设计用于消费的产品中。当数据被视为产品时,所有权或分类等问题就变得次要了。重要的是产品是否实现了其预期目标,以及是否能防止有害或意外的使用。从这个意义上讲,数据产品并非一种治理结构,而是一种使正确使用数据成为默认行为的方式。 如今治理的存在并非因为组织热爱流程,而是因为某些根本性的缺失。数据创建时缺乏明确的用途,系统允许数据被无限且默默地重复使用,决策的后果也难以预见。随着时间的推移,治理逐渐发展成为一种事后弥补这些缺陷的补偿机制。委员会、政策、审查和控制措施的出现,旨在重新引入那些最初设计中从未包含的意图、界限和问责制。然而,当意图明确、约束内置于系统、后果在使用时清晰可见时,治理便不再需要凌驾于一切之上。它会融入日常运营,成为数据生产和使用方式的一部分,而非试图控制数据的独立职能。 6.让这一切成为现实 在继续之前,我们先暂停一下。如果你读到这里,心里想的是:“好吧,他是不是说我们应该取消数据治理?”……那么你可以放心了。并非如此。数据治理的存在有其非常现实的原因,而且在许多组织中,它将继续发挥越来越重要的作用。法规仍然重要。风险仍然重要。问责制仍然重要。 这项基于第一性原理的目的并非否定数据治理,而是停止将其视为出发点。一旦你不再假定治理是万能的,你就能更加审慎地思考它在哪些方面真正发挥作用,以及它在哪些方面仅仅是弥补了意图不明确或设计缺陷。基于此,以下是一些将这种理念应用于当下的实用方法。 (1)首先要明确每项治理实践的“为什么”:选择一项你正在进行或计划进行的治理活动,问问自己:“这项活动旨在解决什么根本问题?”如果你无法清晰回答,请考虑暂停该活动。例如,如果你每周召开一次数据委员会会议,无休止地审查数据定义,那么请明确其目的:是为了解决冲突?还是为了进行教育?如果它没有达到预期目的,那就取消或调整它。通过重新聚焦核心目标,你可以确保每一项治理工作都有其存在的理由而不仅仅是“我们一直都是这么做的”。这可以立即减少繁琐的工作,并腾出时间来完成更有意义的任务。 (2)在完善流程之前,先解决实际问题:与其抽象地设计理想的治理框架,不如找出迫切需要的数据痛点,并以务实的方式解决它。例如,如果不同地区的销售报告不一致,那就召集关键人员,在本周内为每个指标制定一个统一的定义。将其记录在一个简单的共享文档中。无需复杂的数据目录,也无需数月的委员会审查。通过解决具体问题,您不仅可以快速创造价值,还可以创建一个其他人都能接受的治理模板。这种“问题优先”的方法确保治理植根于实际需求,并建立信誉——人们看到的是好处,而不仅仅是负担。 (3)赋能一线员工并不断迭代:选择一个团队或领域,让他们尝试一个轻量级的数据治理实验。例如,从客服部门挑选一位精通数据的员工,让他担任客户数据的“数据管理员”一个月。给他/她一两项简单的职责:比如确保新客户数据字段得到记录,并处理该领域的数据质量问题。观察他遇到的困难以及改进之处,从中学习。也许他回来后会说:“我们真的需要一个地址标准,因为我们浪费了很多时间清理地址。” 太好了——现在你有了需要解决的具体的第一性需求,例如,创建一个地址标准格式。这里的关键在于,以一种可控的方式,将决策权和责任下放给日常处理数据的人员,并从他们的反馈中学习。随着时间的推移,你可以将哪些方法有效(以及哪些无效)正式化。这种自下而上的实验,以第一性原则(例如,“从源头明确数据”)为指导,可以取代庞大的前期项目。这是敏捷治理:分小块实施,迭代,扩展。 (4)利用 API 和数据产品进行意图导向型设计。如果您想认真应用第一性原理,就不要事后试图用治理机制解决所有问题。相反,应该在设计数据时就明确其预期用途并加以强制执行。API 通过定义清晰的访问和使用契约来实现这一点。数据产品则通过围绕一组特定的决策或操作,将数据、逻辑、质量预期和使用边界捆绑在一起来实现这一点。当意图清晰且约束内置时,可用性、信任和安全性自然而然就会随之而来。治理之所以变得轻便,并非因为您移除了它,而是因为最棘手的问题已经在设计中得到了解决。 它们无需企业数据目录、新预算或高管批准即可启动。它们真正需要的是一种思维方式的转变:重视简洁性、直接问题解决和反馈,而不是详尽的计划。 小结 数据治理的核心在于关注真正对数据可信度和实用性至关重要的因素。第一性原理思维是找到这一核心的有效途径。通过质疑长期存在的假设,并将问题简化到最基本的层面,我们可以重新设计出更简洁高效的治理方法。我们不再盲目遵循传统或流行的框架,而是深入探究每个要素存在的意义,并剔除那些不再发挥作用的要素。 这里要传达的信息并非是所有传统的治理方式都是不好的——而是我们应该基于基本原则有意识地选择它们,而不是仅仅出于惯性。有时,繁琐的流程是必要的(例如,某些监管合规步骤可能是不可协商的)。但很多时候,当我们从基本原则出发时,会发现更轻松、更明智的替代方案。 第一性原理思维帮助马斯克重新构想了火箭,也帮助黄仁勋重新构想了计算架构。它同样可以帮助我们重新构想数据治理,将其从繁琐的官僚程序转变为组织数据运营中精简而鲜活的一部分。基于第一性原理重建的数据治理应该更易于接受,也更具赋能性。它不再是监管,而是通过可靠的数据赋能于人。 所以,不妨从你的治理体系中挑选一头神圣不可侵犯的“圣牛”,然后把它“请”出去……你或许会惊讶地发现,它带来的不便微乎其微。毕竟,进步往往始于对我们习以为常的事物提出质疑。尊重数据以及数据用户的最佳方式,是目标明确、视角全新,并且有勇气摒弃那些不再适用的惯例。 来源(公众号):数据驱动智能
2026-02-03 18:56 206
文 | 北京邮电大学经济管理学院院长、教授 闫强 北京邮电大学经济管理学院教授 赵晨 中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》中强调要激活数据要素潜能,充分实现数据要素价值。我国虽具备海量数据资源和丰富应用场景的优势,但数据要素价值释放仍不充分。其深层次原因在于数字人才队伍支撑能力不足,缺乏具备数据要素化思维、跨界整合能力和创新引领精神的高素质数字人才。因此,必须从战略高度系统性加强数据要素学科专业建设。近日,国家发展改革委、国家数据局、教育部等五部门联合印发了《关于加强数据要素学科专业建设和数字人才队伍建设的意见》,按照“思维重塑—模式创新—生态构建”的培养思路,通过强化师资队伍建设、完善实践教学条件、构建多元人才培养渠道等关键举措,打破传统学科壁垒,创新数字人才培养模式。这份重要文件的出台,标志着我国对数字人才的培养已从宏观倡导进入系统化、制度化推进的新阶段,是响应数据要素市场化配置改革、夯实数字中国建设人才基石的关键一步,对于抢占全球数字经济竞争制高点具有重要意义。 一、把握数字人才培养定位 数字人才是指以数据为关键生产要素,以数字创新为核心能力,依托数字技术开展生产活动,实现价值创造、扩散与倍增,并支撑数字经济高质量发展的关键实践者。数字人才的特殊性体现在以下三个维度。 第一,具备数据要素化的价值认知与系统思维。相较于以提供技术实现能力为核心的ICT人才和以数字技术应用能力为核心的数字化转型人才,数字人才的核心特质在于从根本上将数据视为可循环增值的新型生产要素,能够深刻洞察其从原始资源到资产化、资本化的价值演进路径。他们不仅掌握多学科知识,更能以系统思维识别和设计数据要素价值化的整体框架,为数据进入经济循环奠定认知基础。这种思维模式的转变是根本性的,要求人才不仅要懂数据“怎么用”,更要懂数据“为什么具有价值”以及“如何让价值充分释放”,能够从经济学、管理学、法学等多维度审视数据的内在价值及其实现条件。 第二,拥有全生命周期的技术实现与协同能力。在认知思维基础上,数字人才能够具体融入数据采集汇聚、计算存储、流通交易、开发利用、安全治理和基础设施建设的每一环节,承担技术工程师、产品经理、合规安全专家等角色,通过技术落地和流程协同,打通数据要素价值转化的关键堵点,实现数据在产业层面的可信流转与深度利用。特别是在当前人工智能技术迅猛发展的背景下,高质量数据已成为驱动AI模型迭代创新的核心燃料。数字人才必须精通如何为AI应用高效、合规地供给、处理、标注和管理数据,理解数据质量、规模、多样性对AI性能的决定性影响,成为连接数据要素与AI创新的桥梁。 第三,承载创新引领的前瞻视野与制度构建使命。在数据要素市场规则逐步确立和完善的进程中,数字人才应成为制度探索者和范式定义者,特别是在数据确权、定价、交易等关键环节,应能够立足中国实践提出系统性解决方案,推动构建具有国际竞争力的数据要素市场生态。这意味着我们的培养目标不能仅限于培养适应现有规则的操作者,更要培养能够参与甚至主导规则制定的开拓者。他们需要具备全球视野,了解国际数据治理动态,同时又能扎根中国国情,在数据产权分置、收益分配、安全合规等方面提出具有中国智慧的制度设计方案,助力我国在全球数据规则体系中掌握更大话语权。 二、创新学科专业建设模式 针对数字人才的数据要素化思维、全生命周期嵌入与产业创新引领等核心特征,须围绕数据价值链重构培养体系,开展突破性学科专业建设。为此,需创新“思维重塑—模式创新—生态构建”的建设路径。 第一,推动数据思维与认知体系的重塑。通过构建融合技术、经济、法律与伦理的跨学科课程体系,打破传统专业认知壁垒,使学生形成以数据为关键生产要素的分析框架和解决复杂问题的思维范式,深刻理解数据要素的价值演进逻辑。 2025年,北京邮电大学经济管理学院率先设置“人工智能+大数据管理与应用”双学士学位复合型人才培养项目,培养贯通“AI算法→数据价值→商业落地”全链条的数字人才。通过设置“大数据与人工智能技术”“商业分析与决策优化”“数智化场景与管理”三大专业课程模块,打造“技术+管理+场景”交叉融合的数字人才培养体系。双学士学位人才培养不仅是课程拼接,更是深层次的学科交融,旨在培养既能理解AI模型底层逻辑、又能驾驭数据价值发现、并最终能实现商业创新的T型复合人才。我们正积极探索与计算机学院、人工智能学院等的深度协同,打破院系围墙,共享师资、课程与实践资源。 第二,构建产教融合的创新培养模式。摒弃单向知识传授,建立“产教融合、科教协同”新机制。通过引入真实产业课题、共建前沿实验室、聘请行业导师等举措将教学场景延伸至创新前沿。重点培养学生在数据定价、交易机制、合规科技等前沿领域的探索能力,激发创新潜力。我们通过与数据交易所、数据商、数据流通交易服务平台等合作,将高质量数据集构建、数据产品开发、隐私计算应用、数据资产入表、数据跨境流动等真实挑战作为毕业设计或科研项目选题,让学生“真刀真枪”参与实践。同时,推动科研反哺教学,将国家级科研项目关于数据要素的最新研究成果转化为教学内容,如数据基础设施建设运营模式、数据要素贡献度测度方法等,保持教学内容的先进性与前瞻性。 第三,培育全链条协同的人才生态。学科建设应聚焦专业深度,为数据价值链不同环节培养人才。通过设置细分专业方向、开发模块化课程、建立跨专业协作平台,既保证学生在特定领域形成专业优势,又培养其团队协作能力,最终构建一个分工明确、协同高效的人才生态系统。通过设立跨专业的“数据创新工作室”或“项目实践课”,模拟真实工作场景,让不同专长的学生组队完成从数据采集清洗、建模分析、产品设计到合规评估的全流程项目,在实践中培养协同精神与系统解决问题的能力。 三、构建人才培养支撑体系 数字人才培养需要坚实的资源支持与机制支撑。为将数字人才队伍建设落到实处,必须系统构建全方位、多层次的人才培养支撑体系,形成高质量、可持续的数字人才供给能力。为此,提出以下三点建议。 第一,强化师资队伍建设。建议实施数字人才师资能力提升工程,建立国家级和区域级数字领域骨干教师培训基地;推行“产业教授”计划,制定明确的选聘标准和考核机制,从头部科技企业、数据交易机构选聘产业专家担任兼职教授;深化校企“双导师”制度,推动校企导师共同指导课程设计、实践教学和毕业设计等教学育人工作。 第二,完善实践教学条件。应高标准建设国家级数据要素综合实训中心。在基础设施层,配备高性能存储系统和算力平台,支持大规模数据处理和模型训练;在平台工具层,搭建全真模拟平台,接入政务、金融、医疗等领域的真实脱敏数据集,模拟数据确权、定价、交易、流通全流程;在应用场景层,建立重点行业实训基地,采用“项目驱动+岗位实训”模式,提升学生数据采集、分析、可视化等实战能力。如北京邮电大学建立“UNETS”数智北邮开源平台,打造了包括邮谱、码上、智链等在内的“AI应用超市”,推动数据、模型、算力等要素的集中整合。北邮经济管理学院通过开设“场景训练营”,为数字人才培养提供“全链条赋能、全场景融合、全周期培育”创新范本。 第三,构建多元人才培养渠道。可创新“竞赛引领、项目驱动、认证支撑”的多元培养模式,支持举办国家级数据要素创新大赛,设立算法优化、数据治理、隐私计算、价值评估等赛道;建立开源项目孵化机制,支持学生参与国家级开源社区建设,培育优质数据工具和算法库;完善职业能力认证体系,制定国家数字人才能力标准,建立分级认证考试制度,涵盖数据科学家、数据工程师等岗位序列。 依托学校信息科技特色与优势,北京邮电大学经济管理学院将坚持“厚基础、强交叉、重实践、促创新”的理念,进一步探索和完善数字人才培养方案,通过深化科教融合、产教融合,不断加快构建支撑数据要素价值充分释放、助力人工智能时代高质量发展的高水平数字人才队伍。 来源(网站):国家数据局
2026-02-02 17:31 142
热门文章