埃隆·马斯克和黄仁勋除了都运营着尖端科技公司之外,还有一个共同点:他们都非常重视从第一性原理出发思考问题。马斯克曾解释道:“我倾向于从物理学的角度来思考问题……物理学教会我们从第一性原理出发进行推理,而不是通过类比。第一性原理方法曾被许多伟大的思想家运用,包括发明家约翰内斯·古腾堡、军事战略家约翰·博伊德和古代哲学家亚里士多德,但没有人比企业家埃隆·马斯克更能有效地体现第一性原理思维的哲学。 2002 年,马斯克开始了将第一枚火箭送上火星的征程——这个想法最终发展成为航天公司 SpaceX。 他一开始就遇到了巨大的挑战。在走访了世界各地的多家航空航天制造商后,马斯克发现购买一枚火箭的成本高得惊人——高达6500万美元。鉴于如此高昂的价格,他开始重新思考这个问题。 “我倾向于从物理学的角度来思考问题,”马斯克在一次采访中说道。“物理学教导我们从基本原理出发进行推理,而不是通过类比。所以我说,好吧,让我们来看看基本原理。火箭是由什么制成的?航空级铝合金,再加上一些钛、铜和碳纤维。然后我问,这些材料在商品市场上的价值是多少?结果发现,火箭的材料成本大约只占其典型价格的百分之二。” 马斯克没有选择花费数千万美元购买成品火箭,而是决定创建自己的公司,以低价购买原材料,并自行制造火箭。SpaceX由此诞生。 短短几年内,SpaceX 就将火箭发射成本降低了近十倍,同时还能盈利。马斯克运用第一性原理思维,将问题分解到最基本层面,绕过航空航天业的高昂成本,创造出更高效的解决方案。 ”英伟达首席执行官黄仁勋也身体力行地实践着这一点。他敦促团队“回归第一性原理”,并扪心自问:“在今天的情况下……我会如何重做这件事?我会如何彻底重塑它?”听到火箭和人工智能芯片领域的领导者谈论如何将问题简化到本质,我不禁思考:同样的方法能否改变数据治理这样传统且往往进展缓慢的领域呢? 作为一名顾问,我见过许多精心设计的治理框架——精美的幻灯片、组织严密的委员会、详尽的目录。它们在纸面上看起来完美无缺,但在实践中却往往不堪一击。数据治理的理论与实践之间存在着巨大的鸿沟。解决方案可能过于精雕细琢,却缺乏在现实世界中的检验。因此,我开始思考:如果我们运用第一性原理思维来审视数据治理,会怎样?我们能否摒弃那些陈规陋习和繁文缛节,从根本上重建治理体系,使其真正有效? 1.什么是第一性原理思维 第一性原理思维意味着从基本原理出发。它不接受既有的假设或类比,而是将问题分解为无可辩驳的真理,并以此为基础向上推导。本质上,它是将问题简化为基本组成部分,并从这些基本要素出发进行推理。这个概念并不新鲜——两千多年前,亚里士多德就将第一性原理定义为“事物被认知的首要基础”。在现代,这种思维方式被工程师和企业家广泛采用,他们希望避免简单地复制“最佳实践”。他们像科学家一样,质疑每一个假设:我们真正确定的是什么? 我们究竟想要解决什么问题?通过这种方式,他们往往能找到比传统观点更优的解决方案。 毫不奇怪,这种方法几乎成了科技界的口头禅。马斯克和黄仁勋经常谈到“第一性原理”,以至于这个词听起来都像是一句口号。但抛开这些流行语,第一性原理思维的力量在于它的清晰性。它迫使我们专注于本质——将目标与无关紧要的细节区分开来。与其在旧模型上迭代,不如问问自己:如果我们今天从零开始解决这个问题,我们会怎么做? 2.为什么数据治理是理想之选 如果说哪个领域最需要从根本上进行反思,那非数据治理莫属。许多现有的治理实践都是由遗留习惯、过时的“最佳实践”和沿用已久的模板拼凑而成。多年来,组织机构不断叠加政策和流程,却往往从未质疑这些规则是否仍然合理。惯性是一种强大的力量:一旦治理委员会、报告或规则出台,它们往往会长期存在,远远超过其应有的使用寿命。其结果是,数据治理领域充斥着复杂性和模糊的价值。人们遵循旧的清单,仅仅因为“我们一直都是这么做的”,即使没有人能够清楚地解释为什么某个步骤或文件是真正必要的。 裂痕开始显现。正如一位 Gartner 分析师所言,“传统的数据治理方法正在过时”。事实上,根据Gartner 的报告,2025 年80% 试图扩展数字化项目的组织将会失败,原因在于它们未能对其数据治理方法进行现代化改造。这是一个令人警醒的信号:我们现有的治理方式不仅有些笨拙,而且在很大程度上根本行不通。治理项目往往过分强调文书工作、为了控制而控制以及一刀切的解决方案,而忽略了清晰度和业务成果。这使得数据治理成为运用第一性原理思维的理想对象。通过将治理简化到其核心目标——确保数据的可信度、可用性和安全性——我们可以从根本上重建一种更精简、更高效的方法。 3.常见的数据治理习惯和假设 让我们来审视一下现状。以下是一些数据治理中常见的习惯和假设。您很可能已经遇到过其中一些: •在开始进行数据管理之前,您需要一个专门的工具或平台。 •数据治理必须由集中化的团队或委员会负责才能有效运作。 •无论重要性如何,每一条数据都需要以同样的严格标准进行管理。 •治理的第一步是预先制定详尽的政策和文件。 •适当的数据治理必然会减慢项目进度(而这正是做好数据治理的代价)。 •数据治理主要是一项IT举措——业务人员只是最终的成果。 •所有重大数据决策都应经过正式的治理委员会批准。 •在进行任何其他操作之前,我们应该对企业范围内的所有数据资产进行编目和分类。 •只有当所有系统的数据质量都接近完美时,人们才能信任或使用数据。 •直接采用行业最佳实践框架或模型将保证治理成功。 •如果某种治理方案对其他公司(或您上一个客户)有效,那么它在这里也同样有效,无需任何改动。 •数据治理主要关乎合规性和满足审计人员的要求。 •购买合适的数据治理工具将解决我们的数据问题(人员和流程随后都会迎刃而解)。 •数据治理可以视为一次性项目——一旦推出,就大功告成了。 •我们添加的规则和控制措施越多,我们的数据就越好。 •一个好的数据治理方案应该从一开始就覆盖整个组织。 •在任何领域实施治理之前,最好等到我们有了完善的定义和完全的共识之后再进行。 •只有高管或首席数据官才能最终“拥有”和推动数据治理(其他人只是辅助人员)。 这真是一长串假设……其中一些听起来可能似曾相识。它们经常出现在演示文稿、项目章程以及关于治理的闲聊中。但其中有多少是真正正确或必要的呢?是时候运用第一性原理思维来检验它们了。 4.将第一性原理应用于数据治理假设 让我们来分析这些假设。我们将探究每项假设存在的原因(是什么样的思维模式或历史背景使其得以延续),然后提出一个问题:从第一性原理出发,我们会提出什么样的替代方案?我们的目标是找出哪些习惯是真正必要的,哪些只是历史遗留的噪音。请参见下表: 假设 为何存在这种假设 第一性原则建议做什么 在开始治理数据之前,需要一个大型工具 购买工具显得具体且能显示进展。供应商将工具宣传为“银色子弹”。技术也感觉比解决人员和流程问题更容易。 从基本原则开始。定义所有权、标准和质量检查,使用简单的工具即可。投资于仅在你确切知道自己需要什么时才使用的工具。 治理必须集中在一个团队下 中央化似乎安全,并承诺一致性和控制。组织害怕决策分散。 遵循集中原则,但不执行。设定通用标准,但允许领域团队管理自己的数据。保持决策闭环与数据所在位置一致。 所有数据都必须平等治理 没有清晰优先级,团队会把所有事情都当作同等重要来对待。担心错过任何事情会导致全盘皆输的项目。 并非所有数据都一样。聚焦高价值和高风险数据。对低关键性数据应用更轻量级的治理方法。 我们必须提前编写所有政策和文档 传统的项目规划和合规文化将政策和文档视为控制和合规性的标志。 政策应以指导行为为主。从最小、实用的指南开始,逐步根据经验塑造政策。治理应通过防止返工和冲突来加快进度。将其嵌入现有工作流并自动化,如果它导致延迟,那就是设计不当。 良好的治理自然会减慢项目进度 治理历来依赖委员会和审批流程,这会带来摩擦,因此延迟被视为不可避免。 治理属于业务,因为业务定义了数据的意义和价值。IT支持技术方面,但业务拥有定义、质量及用途。 数据治理是IT的责任 数据长期被视为技术资产,所有权默认归属于IT。业务部门保持距离。 明确决策权。推动常规决策由数据所有者和利益相关方做出。仅在真正战略性或冲突性问题上保留委员会决策。 每个数据决策都需要理事会批准 委员会感到安全,并分散责任,尤其是在跨职能决策中。 确定何时需要决策。关注使重要数据可查找和可理解。首先基于现实情况有机地构建元数据。 我们必须分类和标记所有数据 库存看起来逻辑且全面,尤其是出于风险和合规角度考虑。 关注适用性。在必要时改进质量,在不影响使用的情况下记录局限性。当数据用于改善时,持续优化。 数据必须完美才能使用 过去糟糕的经历造成了恐惧。监管环境强化了零容忍思维。 专注于目的。在有意义的地方改进质量和记录局限性。只要数据可用于改进,就持续优化。 遵循标准框架就能保证成功 框架看起来安全可信,尤其对高管而言。它们减少了原创思考的需求。 框架是参考而非规则。只使用适合你上下文的部分。适应并简化而不是盲目遵循。 别处有效的方法在这里也会有效 复制比从头设计更容易,且失败时可以掩盖问题。 上下文很重要。借鉴理念,但重建解决方案,基于你自己的问题、文化和约束条件。 治理主要是为了合规 合规性通过监管获得牵引力,使其更容易通过“怕罚款”来争取资金支持。 合规性很重要,但业务决策同样重要。治理应满足决策、效率和信任需求,而不仅仅是审计要求。 正确的工具将解决我们的数据问题 现代工具承诺自动化和智能,促使人们相信“技术优先”的解决方案。 工具能实现良好的治理,但无法替代它。先修复所有权、标准和流程,然后扩展工具。 治理可以设置后遗忘 治理常被当作一次性项目资助,造成完成的错觉。 治理是持续的。数据和业务需求不断变化,因此治理必须随着明确的长期所有权持续进化。 更多规则意味着更好的治理 控制性强的文化将安全等同于更多规则和流程。 太多规则会产生摩擦和变通。使用少量精选原则和控制。 我们必须在整个企业中统一实施治理 大型项目计划周密且公平,吸引高层领导支持。 从影响最大的地方开始。在一个领域治理或使用案例中启动,然后基于成功扩展。 必须等待完美的共识才能行动 害怕做错和强烈的共识文化导致瘫痪。 从合理的版本1.0开始。行动、学习、精炼。实践使用表面接口,避免无休止的争论。 只有高管才能真正拥有数据治理 权威与高级领导层相关联,因此所有权被向上推。 治理发生在日常决策中。所有权应与最接近数据的人共存,并由高管支持。 逐一分析这些假设,一个清晰的模式浮现出来:许多数据治理的“规则”并非基于基本原则,而是沿袭下来的选择。事实上,某些做法之所以存在,仅仅是因为它们曾经解决了某个具体问题或缓解了某种担忧,然后逐渐固化为教条。随着时间的推移,最初的背景被遗忘,但习惯却保留了下来。(换句话说,地图变成了疆域。) 通常,所谓的“最佳实践”其实只是某种被广泛接受的做法。正如黄建生所观察到的,权宜之计可能会僵化成长期规则,因为你曾经奉为圭臬的那些东西,往往最初只是仓促妥协的结果。我们的调查显示,许多数据治理习惯都是这样产生的——一种权宜之计或假设,却长期未受到质疑。 通过这项练习,我们也看到了常识与实际操作之间存在的巨大差距。人们常说,你需要一个强大的工具和一份长达50页的政策文件才能启动治理,但实际上,成功的治理举措往往是从零开始的:一个积极进取的团队、几项关键协议、一份简单的条款表格,以及解决一个紧迫的问题。我们列出的许多假设似乎已经过时。鉴于当今的技术和敏捷的工作方式,这些假设不再成立或者至少并非普遍适用。有些假设纯粹是理论性的,只有那些缺乏治理成功或失败经验的人才会遵循。 简而言之,应用基本原则会发现,许多数据治理的“必备要素”其实是锦上添花,甚至是分散注意力的因素。当我们把治理简化到其核心——确保合适的人在合适的时间信任并使用合适的数据——一个更简单、更清晰的图景就会浮现出来。 5.数据治理本身就是一个假设 到目前为止,我们已经挑战了数据治理内部的一些假设和习惯。但让我们更进一步……或许有点疯狂……如果数据治理本身根本就不是首要原则呢?或者,如果数据治理不是首要原则,那么什么才是? 从最基本的层面来说,真正的第一原则是: 数据是决策和行动的运营投入,滥用数据会造成实际危害。 就是这样。其他一切都是衍生品。 你不需要“数据治理”。你需要做的是防止损害,同时确保正确使用那些会对结果产生实质性影响的事物。 这与以下情况并无不同: •之所以要实行财务管制,是因为资金可能被滥用。 •制定医疗规程是因为患者可能受到伤害 •之所以存在安全系统,是因为可能会发生物理损坏。 没有人会出于哲学原因来管理“金钱”或“医疗”。他们管理的是与影响相关的风险。 因此,与其问“我们如何管理数据?”,不如从根本上思考“数据可以在哪些方面以对结果产生实质性影响的方式使用,以及为了确保这种使用方式的安全性和正确性,必须满足哪些条件?” 从这个角度来看,我们称之为“治理”的许多东西都可能消失。让我们再次审视一下是什么让数据“可用”、“可信”和“受保护”。这些都是一个事实的副产品:数据在其设计用途的语境中得到应用。 让我们来详细分析一下: •可用数据意味着使用者能够理解数据所支持的决策或行动。数据与决策意图相符。如果这种一致性是明确的,可用性自然就具备了。否则,任何目录或所有者都无济于事。可用性失败并非因为缺少元数据,而是因为缺乏明确的意图。 •可信的数据意味着,在决策过程中,出错的风险是可以接受的。信任并非绝对,而是取决于具体情况。用于指导营销支出的数据不需要像用于财务报告的数据那样严格的保证。当数据被用于其原本设计用途之外的决策时,信任就会瓦解。 •受保护数据意味着数据不能以违反其预期用途的方式使用。这并非指数据未被分类或标记,而是指数据不能在允许的上下文之外使用。如果数据无法被访问、合并、导出或在其允许用途之外重复使用,那么数据保护就已经实现了。 这种框架的根本含义是:你不需要所有权,你不需要分类,你不需要委员会,你不需要目录。 你需要明确且强制执行的使用意图。其他一切都只是实现细节。 如果我们仅仅止步于这种理论推测,或许会令人失望……所以,让我们尝试将其付诸实践。那么,究竟什么可以取代数据治理呢? 使用限制。 换句话说: •数据的产生有其既定目的 •系统仅允许以兼容的方式使用它。 •当意图发生变化时,数据需要重新设计或重新审批。 如果你认真对待这个框架并想将其付诸实践,我想到了两种模式:API和数据产品。这两种模式之所以有效,正是因为它们强制明确意图、约束和责任,而无需单独的治理层: •API之所以强大,是因为它们明确地编码了意图。API为特定目的公开了特定的功能。它定义了可以访问哪些数据、以何种形式、以何种频率以及在何种条件下可以访问。你不可能随意地重新利用API而不被察觉。如果用例发生变化,约定也必须随之改变。仅此一点就解决了可用性、信任度和安全性方面的大部分问题。数据可用是因为其用途清晰。数据值得信赖是因为预期明确。数据受到保护是因为滥用受到设计的限制,而不是由策略限制。 •数据产品的作用类似,但层次更高。数据产品的存在是因为有人需要数据来支持既定的决策或运营流程。它将数据、逻辑、质量预期和使用边界整合到一个专门设计用于消费的产品中。当数据被视为产品时,所有权或分类等问题就变得次要了。重要的是产品是否实现了其预期目标,以及是否能防止有害或意外的使用。从这个意义上讲,数据产品并非一种治理结构,而是一种使正确使用数据成为默认行为的方式。 如今治理的存在并非因为组织热爱流程,而是因为某些根本性的缺失。数据创建时缺乏明确的用途,系统允许数据被无限且默默地重复使用,决策的后果也难以预见。随着时间的推移,治理逐渐发展成为一种事后弥补这些缺陷的补偿机制。委员会、政策、审查和控制措施的出现,旨在重新引入那些最初设计中从未包含的意图、界限和问责制。然而,当意图明确、约束内置于系统、后果在使用时清晰可见时,治理便不再需要凌驾于一切之上。它会融入日常运营,成为数据生产和使用方式的一部分,而非试图控制数据的独立职能。 6.让这一切成为现实 在继续之前,我们先暂停一下。如果你读到这里,心里想的是:“好吧,他是不是说我们应该取消数据治理?”……那么你可以放心了。并非如此。数据治理的存在有其非常现实的原因,而且在许多组织中,它将继续发挥越来越重要的作用。法规仍然重要。风险仍然重要。问责制仍然重要。 这项基于第一性原理的目的并非否定数据治理,而是停止将其视为出发点。一旦你不再假定治理是万能的,你就能更加审慎地思考它在哪些方面真正发挥作用,以及它在哪些方面仅仅是弥补了意图不明确或设计缺陷。基于此,以下是一些将这种理念应用于当下的实用方法。 (1)首先要明确每项治理实践的“为什么”:选择一项你正在进行或计划进行的治理活动,问问自己:“这项活动旨在解决什么根本问题?”如果你无法清晰回答,请考虑暂停该活动。例如,如果你每周召开一次数据委员会会议,无休止地审查数据定义,那么请明确其目的:是为了解决冲突?还是为了进行教育?如果它没有达到预期目的,那就取消或调整它。通过重新聚焦核心目标,你可以确保每一项治理工作都有其存在的理由而不仅仅是“我们一直都是这么做的”。这可以立即减少繁琐的工作,并腾出时间来完成更有意义的任务。 (2)在完善流程之前,先解决实际问题:与其抽象地设计理想的治理框架,不如找出迫切需要的数据痛点,并以务实的方式解决它。例如,如果不同地区的销售报告不一致,那就召集关键人员,在本周内为每个指标制定一个统一的定义。将其记录在一个简单的共享文档中。无需复杂的数据目录,也无需数月的委员会审查。通过解决具体问题,您不仅可以快速创造价值,还可以创建一个其他人都能接受的治理模板。这种“问题优先”的方法确保治理植根于实际需求,并建立信誉——人们看到的是好处,而不仅仅是负担。 (3)赋能一线员工并不断迭代:选择一个团队或领域,让他们尝试一个轻量级的数据治理实验。例如,从客服部门挑选一位精通数据的员工,让他担任客户数据的“数据管理员”一个月。给他/她一两项简单的职责:比如确保新客户数据字段得到记录,并处理该领域的数据质量问题。观察他遇到的困难以及改进之处,从中学习。也许他回来后会说:“我们真的需要一个地址标准,因为我们浪费了很多时间清理地址。” 太好了——现在你有了需要解决的具体的第一性需求,例如,创建一个地址标准格式。这里的关键在于,以一种可控的方式,将决策权和责任下放给日常处理数据的人员,并从他们的反馈中学习。随着时间的推移,你可以将哪些方法有效(以及哪些无效)正式化。这种自下而上的实验,以第一性原则(例如,“从源头明确数据”)为指导,可以取代庞大的前期项目。这是敏捷治理:分小块实施,迭代,扩展。 (4)利用 API 和数据产品进行意图导向型设计。如果您想认真应用第一性原理,就不要事后试图用治理机制解决所有问题。相反,应该在设计数据时就明确其预期用途并加以强制执行。API 通过定义清晰的访问和使用契约来实现这一点。数据产品则通过围绕一组特定的决策或操作,将数据、逻辑、质量预期和使用边界捆绑在一起来实现这一点。当意图清晰且约束内置时,可用性、信任和安全性自然而然就会随之而来。治理之所以变得轻便,并非因为您移除了它,而是因为最棘手的问题已经在设计中得到了解决。 它们无需企业数据目录、新预算或高管批准即可启动。它们真正需要的是一种思维方式的转变:重视简洁性、直接问题解决和反馈,而不是详尽的计划。 小结 数据治理的核心在于关注真正对数据可信度和实用性至关重要的因素。第一性原理思维是找到这一核心的有效途径。通过质疑长期存在的假设,并将问题简化到最基本的层面,我们可以重新设计出更简洁高效的治理方法。我们不再盲目遵循传统或流行的框架,而是深入探究每个要素存在的意义,并剔除那些不再发挥作用的要素。 这里要传达的信息并非是所有传统的治理方式都是不好的——而是我们应该基于基本原则有意识地选择它们,而不是仅仅出于惯性。有时,繁琐的流程是必要的(例如,某些监管合规步骤可能是不可协商的)。但很多时候,当我们从基本原则出发时,会发现更轻松、更明智的替代方案。 第一性原理思维帮助马斯克重新构想了火箭,也帮助黄仁勋重新构想了计算架构。它同样可以帮助我们重新构想数据治理,将其从繁琐的官僚程序转变为组织数据运营中精简而鲜活的一部分。基于第一性原理重建的数据治理应该更易于接受,也更具赋能性。它不再是监管,而是通过可靠的数据赋能于人。 所以,不妨从你的治理体系中挑选一头神圣不可侵犯的“圣牛”,然后把它“请”出去……你或许会惊讶地发现,它带来的不便微乎其微。毕竟,进步往往始于对我们习以为常的事物提出质疑。尊重数据以及数据用户的最佳方式,是目标明确、视角全新,并且有勇气摒弃那些不再适用的惯例。 来源(公众号):数据驱动智能
2026-02-03 18:56 482
文 | 北京邮电大学经济管理学院院长、教授 闫强 北京邮电大学经济管理学院教授 赵晨 中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》中强调要激活数据要素潜能,充分实现数据要素价值。我国虽具备海量数据资源和丰富应用场景的优势,但数据要素价值释放仍不充分。其深层次原因在于数字人才队伍支撑能力不足,缺乏具备数据要素化思维、跨界整合能力和创新引领精神的高素质数字人才。因此,必须从战略高度系统性加强数据要素学科专业建设。近日,国家发展改革委、国家数据局、教育部等五部门联合印发了《关于加强数据要素学科专业建设和数字人才队伍建设的意见》,按照“思维重塑—模式创新—生态构建”的培养思路,通过强化师资队伍建设、完善实践教学条件、构建多元人才培养渠道等关键举措,打破传统学科壁垒,创新数字人才培养模式。这份重要文件的出台,标志着我国对数字人才的培养已从宏观倡导进入系统化、制度化推进的新阶段,是响应数据要素市场化配置改革、夯实数字中国建设人才基石的关键一步,对于抢占全球数字经济竞争制高点具有重要意义。 一、把握数字人才培养定位 数字人才是指以数据为关键生产要素,以数字创新为核心能力,依托数字技术开展生产活动,实现价值创造、扩散与倍增,并支撑数字经济高质量发展的关键实践者。数字人才的特殊性体现在以下三个维度。 第一,具备数据要素化的价值认知与系统思维。相较于以提供技术实现能力为核心的ICT人才和以数字技术应用能力为核心的数字化转型人才,数字人才的核心特质在于从根本上将数据视为可循环增值的新型生产要素,能够深刻洞察其从原始资源到资产化、资本化的价值演进路径。他们不仅掌握多学科知识,更能以系统思维识别和设计数据要素价值化的整体框架,为数据进入经济循环奠定认知基础。这种思维模式的转变是根本性的,要求人才不仅要懂数据“怎么用”,更要懂数据“为什么具有价值”以及“如何让价值充分释放”,能够从经济学、管理学、法学等多维度审视数据的内在价值及其实现条件。 第二,拥有全生命周期的技术实现与协同能力。在认知思维基础上,数字人才能够具体融入数据采集汇聚、计算存储、流通交易、开发利用、安全治理和基础设施建设的每一环节,承担技术工程师、产品经理、合规安全专家等角色,通过技术落地和流程协同,打通数据要素价值转化的关键堵点,实现数据在产业层面的可信流转与深度利用。特别是在当前人工智能技术迅猛发展的背景下,高质量数据已成为驱动AI模型迭代创新的核心燃料。数字人才必须精通如何为AI应用高效、合规地供给、处理、标注和管理数据,理解数据质量、规模、多样性对AI性能的决定性影响,成为连接数据要素与AI创新的桥梁。 第三,承载创新引领的前瞻视野与制度构建使命。在数据要素市场规则逐步确立和完善的进程中,数字人才应成为制度探索者和范式定义者,特别是在数据确权、定价、交易等关键环节,应能够立足中国实践提出系统性解决方案,推动构建具有国际竞争力的数据要素市场生态。这意味着我们的培养目标不能仅限于培养适应现有规则的操作者,更要培养能够参与甚至主导规则制定的开拓者。他们需要具备全球视野,了解国际数据治理动态,同时又能扎根中国国情,在数据产权分置、收益分配、安全合规等方面提出具有中国智慧的制度设计方案,助力我国在全球数据规则体系中掌握更大话语权。 二、创新学科专业建设模式 针对数字人才的数据要素化思维、全生命周期嵌入与产业创新引领等核心特征,须围绕数据价值链重构培养体系,开展突破性学科专业建设。为此,需创新“思维重塑—模式创新—生态构建”的建设路径。 第一,推动数据思维与认知体系的重塑。通过构建融合技术、经济、法律与伦理的跨学科课程体系,打破传统专业认知壁垒,使学生形成以数据为关键生产要素的分析框架和解决复杂问题的思维范式,深刻理解数据要素的价值演进逻辑。 2025年,北京邮电大学经济管理学院率先设置“人工智能+大数据管理与应用”双学士学位复合型人才培养项目,培养贯通“AI算法→数据价值→商业落地”全链条的数字人才。通过设置“大数据与人工智能技术”“商业分析与决策优化”“数智化场景与管理”三大专业课程模块,打造“技术+管理+场景”交叉融合的数字人才培养体系。双学士学位人才培养不仅是课程拼接,更是深层次的学科交融,旨在培养既能理解AI模型底层逻辑、又能驾驭数据价值发现、并最终能实现商业创新的T型复合人才。我们正积极探索与计算机学院、人工智能学院等的深度协同,打破院系围墙,共享师资、课程与实践资源。 第二,构建产教融合的创新培养模式。摒弃单向知识传授,建立“产教融合、科教协同”新机制。通过引入真实产业课题、共建前沿实验室、聘请行业导师等举措将教学场景延伸至创新前沿。重点培养学生在数据定价、交易机制、合规科技等前沿领域的探索能力,激发创新潜力。我们通过与数据交易所、数据商、数据流通交易服务平台等合作,将高质量数据集构建、数据产品开发、隐私计算应用、数据资产入表、数据跨境流动等真实挑战作为毕业设计或科研项目选题,让学生“真刀真枪”参与实践。同时,推动科研反哺教学,将国家级科研项目关于数据要素的最新研究成果转化为教学内容,如数据基础设施建设运营模式、数据要素贡献度测度方法等,保持教学内容的先进性与前瞻性。 第三,培育全链条协同的人才生态。学科建设应聚焦专业深度,为数据价值链不同环节培养人才。通过设置细分专业方向、开发模块化课程、建立跨专业协作平台,既保证学生在特定领域形成专业优势,又培养其团队协作能力,最终构建一个分工明确、协同高效的人才生态系统。通过设立跨专业的“数据创新工作室”或“项目实践课”,模拟真实工作场景,让不同专长的学生组队完成从数据采集清洗、建模分析、产品设计到合规评估的全流程项目,在实践中培养协同精神与系统解决问题的能力。 三、构建人才培养支撑体系 数字人才培养需要坚实的资源支持与机制支撑。为将数字人才队伍建设落到实处,必须系统构建全方位、多层次的人才培养支撑体系,形成高质量、可持续的数字人才供给能力。为此,提出以下三点建议。 第一,强化师资队伍建设。建议实施数字人才师资能力提升工程,建立国家级和区域级数字领域骨干教师培训基地;推行“产业教授”计划,制定明确的选聘标准和考核机制,从头部科技企业、数据交易机构选聘产业专家担任兼职教授;深化校企“双导师”制度,推动校企导师共同指导课程设计、实践教学和毕业设计等教学育人工作。 第二,完善实践教学条件。应高标准建设国家级数据要素综合实训中心。在基础设施层,配备高性能存储系统和算力平台,支持大规模数据处理和模型训练;在平台工具层,搭建全真模拟平台,接入政务、金融、医疗等领域的真实脱敏数据集,模拟数据确权、定价、交易、流通全流程;在应用场景层,建立重点行业实训基地,采用“项目驱动+岗位实训”模式,提升学生数据采集、分析、可视化等实战能力。如北京邮电大学建立“UNETS”数智北邮开源平台,打造了包括邮谱、码上、智链等在内的“AI应用超市”,推动数据、模型、算力等要素的集中整合。北邮经济管理学院通过开设“场景训练营”,为数字人才培养提供“全链条赋能、全场景融合、全周期培育”创新范本。 第三,构建多元人才培养渠道。可创新“竞赛引领、项目驱动、认证支撑”的多元培养模式,支持举办国家级数据要素创新大赛,设立算法优化、数据治理、隐私计算、价值评估等赛道;建立开源项目孵化机制,支持学生参与国家级开源社区建设,培育优质数据工具和算法库;完善职业能力认证体系,制定国家数字人才能力标准,建立分级认证考试制度,涵盖数据科学家、数据工程师等岗位序列。 依托学校信息科技特色与优势,北京邮电大学经济管理学院将坚持“厚基础、强交叉、重实践、促创新”的理念,进一步探索和完善数字人才培养方案,通过深化科教融合、产教融合,不断加快构建支撑数据要素价值充分释放、助力人工智能时代高质量发展的高水平数字人才队伍。 来源(网站):国家数据局
2026-02-02 17:31 253
如何将国家制度规范转换为地方治理路径,是深化数据跨境流动治理亟待解决的关键问题。基于“技术-制度-组织”分析框架,对上海临港、粤港澳大湾区开展案例分析,深入挖掘数据跨境流动地方治理的路径转换与结构逻辑。研究发现:第一,随着国家治理框架的逐步完善,地方治理经历了制度应对、技术牵引、技术制度协同的路径演进阶段;第二,理论上,地方治理应迈向系统耦合阶段,但实践中还面临技术嵌入力、制度适配力、组织统筹力不足的挑战;第三,推进数据跨境流动地方治理系统耦合的路径在于,技术应承载规则并服务过程,制度须强化适配与细化逻辑,组织则须统筹资源实现高效运转,共同构建一个开放、包容、弹性、可持续的地方治理体系。
2026-01-26 17:43 583
数据要素行业丨研究报告 核心摘要: 数据作为第五生产要素由于其非竞争、可复制、无限增长与供给的特性,其价值挖掘流程的复杂程度远高于其他传统生产要素,从数据来源的合法性、权属划分到后续的价值评估与增值管理,数据要素价值的提升对于政策明晰的制度框架与实施路径有较高依赖,随着市场化体系的健全,以地方性数据交易机构、数商为代表的产业模式正逐步成为推动数据要素市场发展的核心,以“政产联动”建立良好的供数、用数生态,促进“供得出、流得动、用得好、保安全”的阶段性目标达成。 近况解读:国内数据要素行业现状分析 在政策指导与产业建设的共同作用下,以数据、科技与基建为核心的数据要素市场体系逐步完善,推动行业向更高价值的“政产联动”迈进 政策剖析:近年数据要素行业政策解读 数据产业链价值流通体系的政策性完善与地方性数据体系的健全成为国内数据要素价值链流通的重要保障,数字产业进入“质量提升”新阶段 规模核算:中国数据要素行业市场规模 数字经济核心产业成为推动国内整体经济体系发展的重要驱动,预计国内数据要素市场将以约20.26%的复合增长率于2028年突破3000亿元 近年国内数据要素产业发展呈现稳步增长态势,中国数字经济规模由2017年的27.2万亿增长至2023年的53.9万亿,六年整体规模翻了一倍,复合增长率约为12.07%。2024年以数字产品制造业、数字技术应用业为代表的数据经济核心产业增加值达到13.49万亿元,约为同年期GDP的10%,成为推动国内经济整体发展的重要驱动力。随着数据产业标准化体系的完善、创新案例与产业试点规模的扩充以及服务前沿技术场景的外延价值提升,国内数据要素行业规模将以约20.26%的复合增长率保持高速增长,预计2025年整体规模将达到2000亿左右,2028年将正式突破3000亿。其中以数据加工与分析为核心的数据处理环节,将成为数据要素产业规模占比最高的细分产业,预计2028年其整体规模即将达到1440亿元。 数据要素价值流通体系建设 以前沿技术能力与监管合规体系为支撑,围绕数据要素价值阶段性开发的流通链路体系建设 数据价值链流通(一):数据合规与确权 以“数据二十条”为基础的数据要素权属体系建设是保障数据价值链高效流通的重要前提,监管刚性更强的确权法律体系备受业内期待 随着数字经济的发展与数字中国战略的实施,数据作为“第五大生产要素”其资产化流通链路的完善与价值释放体系的建设成为当前国内市场的关注重点,清晰的数据要素权属制度与统一的数据资产登记体系将成为保障数据要素价值链建设的重要前提。但由于数据资产的非损耗、非排他与非竞争属性,导致传统生产要素的分配模式无法在数据要素市场套用,建立专属于数据资产的权属划分体系成为推动行业发展的“当务之急”。自2022年国务院颁布“数据二十条”政策以来,国内数据要素的确权制度体系开始逐步完善,“数据二十条”政策不仅明确了以公共数据为代表的三大数据源的分类分级确权制度,还将数据资源的持有权、加工使用权与产品经营权进行了划分,力求保障数据价值链每位参与者的固有权益,为建设合规高效的数据流通交易制度与安全可控的数据治理体系奠定基础,后续国家发改委、国家数据局及各地方数据管理机构陆续颁布了围绕数据管理、数据资源授权与数据知识产权登记等条例,进一步完善国内数据市场确权、登记体系。但在实践过程中,公共数据开放度不够、企业数据流通受阻、自产自用以及个人数据信息边界不清、合规使用标准模糊等问题依旧存在,此外单一维度的数据分类也难以兼顾大数据时代下对于数据安全、经济效率与公共利益的三方追求,执行稳定性与刚性更强、适配于多样化应用场景的数据要素权属法律体系建设,成为新时代改善确权矛盾、提升数据使用效率的关键。 数据价值链流通(二):数据登记 数据登记的管理方式和责任单位与其形态密切相关,“1+3”的政策体系与资源登记枢纽共同构建国内公共数据资源管理的基本框架 数据产权登记作为保障数据资产权属划分、促进数据价值释放的重要环节,其核心工作原理是在数据确权的基础之上,由登记机构将数据资产的信息与权属情况审核、登记、公示,之后发放登记证书,作为日后数据交易、融资抵债、会计核算等资产化、资本化场景的应用依据。根据数据资源、数据产品及数据资产三类数据要素的形态差异,负责登记的机构也存在差别,根据地区性数据要素登记管理办法,数据资源(包括数据知识产权)的登记工作由相关行政事业单位负责,强调对于数据资源及信息的保护,而经济价值更显著的数据产品及数据资产则由数据交易机构确认登记,意在推动数据要素的市场化流通与创新数据资产的融资应用。在登记的数据当中,公共数据作为规模庞大、潜在价值丰富的核心数据资源体,如何对其实现高效的开发、应用成为现阶段国内数据行业的关注要点。针对于此,国家发改委与国家数据局颁布了一系列围绕公共数据资源登记管理、授权运营、价格形成机制的指导政策,构建起以《中共中央办公厅 国务院办公厅关于加快公共数据资源开发利用的意见》为核心的“1+3”政策体系,推动国内公共数据资源管理进入“有规可依”的新时代,通过“一个标准、两级平台”的建设路径,以国家公共数据资源登记平台作为全国一体化公共数据资源登记的“总枢纽”,对接各省级公共数据资源平台,打破地区与部门间的“数据隔阂”,实现公共数据登记资讯的互联互通。 数据价值链流通(三):数据价值评估 数据评价政策体系建设日渐完善,公共数据资源量化标准成为业内重要的参考标杆,以价值易变性为代表的实践性定价难题有待后续解决 价值评估作为在数据要素确权与登记的基础上保障数据价值挖掘与市场化流通的重要节点,其评价体系的准确性与完善度将成为保障数据要素交易、相关利益分配与激励机制确立的基础,是推动数据要素价值释放与持续创造性建设的关键。自2019年起,《资产评估专家指引第9号——数据资产评估》的发布开启了国内数据资产的计量时代,数据评估的对象、方法及报告的编纂形式有了政策性依据,后续《数据资产评估指导意见》与《企业数据资源相关会计处理暂行规定》进一步提升了数据评估的实践性,在评估对象、操作要求、评估方法、会计处理等方面提供了更详实的参考依据。于今年6月最新发布的《公共数据资源社会价值与经济价值评价》直接将视角聚焦公共数据资源的社会与经济价值,为公共数据的价值评估提供了客观、可量化的指标体系,填补了领域标准的空白。 随着数据评价逐步由政策引导迈向产业实践,数据资产的非实体性、价值易变性等传统实物资产不具备的异质性特征,导致实际价值评估流程的难度与复杂程度远高于预期,数据价值随产品化建设与场景应用的不同而动态变化,在完成初步价值评估之后贯穿数据资产生命周期的阶段性评估与价值调整,将成为数据产品价值精准性的重要保障。作为流通商品,国内数据市场的供需关系也将极大的影响到数据产品的价值,市场公允价值评估对于该行业的信息透明度与传输效率提出了更高的要求,此外,在确定数据价值模型的输入参数中,偏执因素、折现率、未来收益等部分指标的数值确定依赖于行业专家的主观经验判断,如何确保选择的模型、输入参数与当前使用场景的适配程度,需要政策性定价体系的进一步完善与标杆案例的深度指导。 数据价值链流通(四):数据资产入表 数据资产入表拉动数据市场、资本市场多层经济效应,由数据资产价值波动带来的衍生资本风险应受到业内重视 数据资产入表是数据要素资本化实践的核心环节,也是近年国内数据要素市场关注的热门话题。自2024年1月1日起,《企业数据资源相关会计处理暂行规定》的实施标志着我国数据资产入表正式迈入制度化新时代,在完成数据资源盘点、合规审查与价值评估之后,按照会计处理的要求将数据资源以无形资产、开发支出、存货等形式计入财务报表,实现数据资源从“隐性资产”向“显性资产”的转化,在改善资本负债结构、提升企业融资增信方面效果显著,是奠定数据资本化运作的重要环节。自2024年起上市企业新增数据入表数量逐步提升,涉及包括信息传输、软件和信息服务、制造业、金融业等多个领域,企业的数据治理与场景深化能力进一步提升。从入表资产登记的使用场景来看,对外提供的产品或服务、内部降本增效与AI大模型的开发成为三大主流应用场景,而选择在数据交易所产品登记、上架的企业比例不高,整体交易流通的活跃度不达预期。目前市场对于入表数据资产的资本化应用程度远高于最初设想的产品端应用,如何管理数据资产资本化风险、推动数据产品市场发展将成为新阶段的重要课题。此外,在“强制披露+资源披露”的要求下, 业内数据入表信息的披露标准仍存在差异,业务模式相近的企业对于类似资源的数据资产处理方法不同,导致彼此间数据资产价值的可比性分析难度较大,数据资产入表的细节问题仍需期待相关政策与行业标准的完善。 数据价值链流通(五):数据资产交易 数据市场交易呈现“内冷外热”的分布模式,场内交易的体系化、标准化与场外交易的客制化、灵活度共同推动国内数据资产交易体系的完善 数据资产的产品化封装与市场化流通是数据要素价值释放的重要环节。随着数据经济的蓬勃发展,数据交易所作为由政府设立的官方数据交易平台,其设立数量、产品丰富度、入驻数商数量、平台覆盖维度等多方面表现提升显著,以“京沪广深贵”为代表五大头部交易所在交易规模、标准制定、资产分类、跨境合作等领域充分发挥了行业主导作用,推动国内数据资产场内交易体系的完善与“全国统一大市场+区域特色专区”的建设。虽然近年数据交易所的交易规模有所提升,但受到场内交易流程复杂、交流成本高、数据场内留痕、市场多样化不足等负面因素的影响,目前国内的数据交易呈现“内冷外热”的分布模式,“点对点”的场外交易依旧占据市场主导地位。与场内市场相比,数据资产的场外交易具备更强的灵活性与多样性,能够根据客户端的场景驱动定义、适配恰当的数据服务,推动市场内数据交易的流通与资源的快速对接,于24年初颁布的《“数据要素”x三年行动计划》将征求意见稿中的“场内交易大幅提升”调整为“场内交易与场外交易协调发展”,从政策角度认可了场外交易对于推动数据要素市场发展的重要意义,但如何在缺少透明化、标准化、集中化的市场中保障数据信息安全与合规交易成为新阶段行业发展面临的首要问题。此外,在没有法定中间商的情况下,如何确认数据产品各方的权属关系,合理、合法的分配利润也将成为影响场外交易持续、稳定、合规发展的关键。 数据价值链流通(六):数据资本化应用 以数据资产服务企业融资与参与股权投资成为业内最广泛的资本化运营模式,金融杠杆效应将同步扩大数据资产的价值属性与资本市场风险 近年数据要素的资本化应用成为数据价值释放的核心方式,与服务数据产品交易的资产化模式相比,数据要素资本化在价值变现路径与释放充分度方面更具优势,通过认可数据资产的货币价值与实用价值,优化数据密集型企业的资产负债结构,拓展低成本、高效率的融资渠道,为企业,特别是缺少传统资产抵押物的新兴科技企业,提供更便捷的融资方式,加速金融资源在科技、数据领域的流通与合理分配,实现“科技-产业-金融”的良性循环。此外,政府也从监管层面认可了数据资产的“投资用途”,赋予其与传统资产类似的实物属性,同时数据资产所包含的数据信息资源将服务企业的实体经营,在客户管理、运营优化、市场分析等多个场景提供量化指导。资本市场的杠杆作用在帮助数据资产提升自身价值的同时,也扩大了其负面因素带来的市场风险,对于数据资产价值的判断与动态评估成为把控数据资本化运营风险的关键。 数据价值链流通(七):数据资产通证化 将实物资产数字化与数字资产货币化相结合的数据资产通证体系,以数据连接实物与资本市场,实现从“真数据”向“金资产”的价值升级 数据资产通证化是目前数据要素价值应用的最高阶体现,与前几个阶段不同,数据资产通证化不仅围绕狭义的数据要素价值流通,而是在传统数据资产来源的基础上增加了实物资产的数字化环节,通过RWA(RealWorldAssets)将企业中无法衡量的业务积累与实物资产的相关权利转化为区块链中流通的数字资产,实现实体经济在数字经济体系下的价值映射,在此基础上,RDA(RealDataAssets)作为由上海数交所提出的、锚定实数融合实体资产的“升级版稳定币”,通过数据资产壳、自登共证、权威背书和行业标准四大创新模式,将区块链中流通的普通数据转化为具备稳定收益预期和融资能力的“金资产”,除了信贷融资与股权融资之外,以数据资产未来现金流为底层资产支持的数据资产ABS与RDA体系下境内、海外资产的对接融资渠道,都将成为推动数据要素价值化与多种要素融合发展的核心方式。为保障可信数据资产流通安全,上海数交所提出了以“一桥、两所、两轴”为底层架构的DCB(Dat-CapitalBridge)体系,结合交易底链、资产链与价值链的组合实现基础设施对于数据资产通证化有序推进的保障。 产业实践:各产业规模拆分 数据资源密集型产业成为数据要素市场的核心组成部分,具备“乘数效应”的金融业与“技术优势”的互联网共同占据约一半的市场份额 数据作为多产业体系中承载信息流、价值流与工作流的重要生产要素,随着其产品化、市场化、资产化体系的完善,合规场景下的价值开发与信息交换成为数据要素市场的重要实践场景,各产业通过对原生数据的整理与挖掘、产业间数据要素的交易与补充,形成服务于自身业务场景与产业发展的数字化价值体系。从各产业拆分的规模来看,金融行业作为近年数智化转型效果显著、数据价值多元化体系完善的数据密集型产业,或将以RWA、RDA、股债融资等资本形式占据约三分之一的数据要素市场规模。聚集大量线上数据资源的互联网产业将凭借其在数据流量引入与聚集、前沿技术开发及应用等领域的优势,成为占据市场约20%规模的第二核心产业。除此之外,通讯、制造、政务、医疗、交通等产业也将随着数据交易场景的完善与数据处理技术的成熟逐步提升自身数据产业规模,实现数据价值的深度释放与数智化业务场景建设。 实践场景(一):金融业 产业间数据联动极大的提升了金融机构在风控、营销、投资三大核心业务场景的实践表现,金融机构的数智化技术输出能力备受行业期待 “数据要素x”在金融行业的创新生态建设主要围绕多元数据的融合与跨行业金融活动的嵌入两方面展开,通过打通产业链、公共数据与金融数据之间的壁垒,将传统财务报表、抵押物等结构化数据与用户行为、社交媒体信息等非结构化数据相结合,实现金融场景数据与社交数据、物流以及物联网等产业端场景数据的互联互通,降低由于信息不对称、数据缺失对金融业务的负面影响,提升金融机构在信贷风控、营销拓客、产业投资等领域的业务表现,实现数智化对于金融服务能力与用户金融服务体验的提升。此外,金融机构作为数据资源与技术能力的持有方,其对于技术欠缺产业、中小企业的数智化转型推动能力受到广泛关注,《推动数字金融高质量发展行动方案》明确鼓励金融机构在技术能力、平台服务资源等领域的输出,以机构自身的科技优势助力中小企业的数智化转型。2024年年初,以北京、上海、广州、深圳、贵阳为代表的五大数交所陆续上架了2060款金融场景数据产业及服务,随着数据交易体系的完善以及数据处理技术的成熟,预计金融行业的数据要素规模将以约19.06%的复合增长率,于2028年突破1000亿元,成为推动国内数据要素市场发展的核心产业。 实践场景(二):工业制造业 以可信数据空间与高质量数据集为核心的工业制造业“数据要素x”实践将充分发挥业内数据红利,推动数智时代工业制造的产业升级 工业制造是城市产业发展的基石,工业数据是推动产业经济发展的重要驱动。数智时代,工业制造的产业升级需求将推动其对于跨企业、跨行业的数据资源需求,在高端制造业产品研发、运营流程科学决策及稳固产业链、供应链协同效应等业务场景中,工业数据的标准化、安全性与业务场景数据应用实践水平将成为影响产业升级效果与数智化表现的核心因素。随着区块链、生成式AI等前沿技术逐步成为工业制造的新质生产力,联动产业链上下游的可信数据空间与工业高质量数据集建设将推动工业制造业实现由“规模红利”向“质量红利”和“数据红利”的转型,预计未来产业整体在数据要素领域的市场规模将以约24.22%的复合增长率,由2025年的157亿增长至2028年的302亿,未来三年内实现产业规模的翻倍式增长。 实践场景(三):医疗健康业 医疗数据的合规应用将推动“三医”产业协同发展,如何保障个人健康数据的安全成为医疗产业数智化应关注的核心问题 随着我国大健康产业的蓬勃发展,以医疗、医保、医药为核心的“三医”产业数据联动与协同发展成为数智时代医疗产业发展的重要主题,从就诊流程的优化、预报结算的革新,到面对公共卫生防疫的早期预警与精准防控,以及后续应用“AI+”强计算与智慧涌现能力对非标准化医疗经验的数据归类与精准建模,医疗产业的数智化进程将推动产业模式实现由“经验传承”到“数据验证”的转变,医疗资源的配置能力与医疗服务效率将显著提升。此外,医疗数据体系的完善也将为保险产业提供更加丰富的数据资源支持,促进保险产品的个性化定制与“一站式”理赔流程的优化,推动“三医协同”与多层次医疗体系的健全,但同时医疗数据作为与个人信息紧密相连的生产要素,如何保障其跨产业应用的合规性与安全性将成为新阶段价值开发关注的焦点。从行业发展的整体规模来看,服务于医疗产业的数据要素规模将以约23.69%的复合增长率稳步提升,预计2028年将突破250亿元。 趋势一:高质量数据集建设 高质量数据集成为推动人工智能产业发展的关键要素,国内数据产业迈入从“单点突破”向“全域发展”的新阶段 高质量数据集是指将原始数据按照特定标准进行系统性采集、清洗、归类、标注、增强合成等智能化处理后形成的高价值、高密度、标准化的数据集合,能够为人工智能训练、产业数字化升级与区域性数字经济发展等场景提供信息内容明确、准确性强的数据资源支持,提升算力资源合理利用效率。随着基础模型开源成为业内主流,技术服务商之间在算力与算法方面的差距被逐步削弱,数据要素的质量成为决定大模型产品质量的关键因素。2025年5月《数字中国建设2025年行动方案》将人工智能高质量数据集、重点领域数据标注等领域作为重点布局对象,以《高质量数据建设指南》为代表的技术文件要求为高质量数据集建设提供标准参考,各地数据局也纷纷设立本年度高质量数据集建设目标、发布高质量集典型案例与奖励措施,通过推动多行业、零散数据要素的体系化、高质量建设,提升“人工智能+”产业发展。截至2025年上半年,我国7个数据标注基底已建设数据集524个,规模超过29PB,服务大模型163个。新阶段国家数据集将着力打造“数据标注+高质量数据集+模型+应用场景+市场化价值化”的闭环生态,推进数据要素市场配置改革和“人工智能+”行动力同向发力、同频共振。 趋势二:可信数据空间建设 以可信管控、资源交互、价值共创为核心的可信数据空间将成为新阶段保障数据要素流通与高价值应用的重要基础 可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的数据流通架构体系,类似“有围栏的数据沙箱”,数据资源能够在可信安全的空间内流通共享、授权计算,数据的提供方与使用方在“可用不可见”的前提下实现数据价值的共创。作为可信数据空间建设的元年,2025年以《可信数据空间发展行动计划(2024-2028年)》为代表的可信数据空间标准管理与试点方案陆续出台,推动企业、行业、城市、个人的可信数据空间建设,以及服务跨国科研、供应链协同、企业管理等应用场景下的跨境可信空间建设。2025年7月16日,国家数据局公布了首批可信数据空间创新发展试点名单,63个入选试点项目中涵盖了13个城市、22个行业以及28个企业的可信数据空间,2028年全国可信数据空间建设数量计划突破100个,初步形成与我国经济社会发展水平相适应的数据生态体系。 来源(公众号):艾瑞咨询
2026-01-20 18:41 1980
❝ 上周五下午五点半,老张刚准备下班,产品经理突然冲到工位前:"张工张工!老板要看全国各区域的销售数据汇总,现在就要!" 老张抬头看了看窗外,心里一万头草泥马呼啸而过...华东的数据在杭州集群,华北的在北京集群,华南的在深圳集群,这要跨三个Doris集群做联合查询! 按照以前的套路,要么写JDBC Catalog慢慢等,要么就得临时把数据同步到一个集群——前者慢得让人怀疑人生,后者等数据同步完周末都过去了。 老张急忙翻阅了下 Doris 4.0.2版本的 release note,突然不紧不慢地说道:"给我半小时..." Doris跨集群查询的老大难,终于有解了 说起跨集群数据分析,做过大数据的人都知道这有多头疼。 你们公司是不是也这样:业务发展快了,一个Doris集群不够用,就搞了好几个。交易数据在A集群,物流数据在B集群,用户画像在C集群。 平时各自安好,但老板一句"我要看全局数据",技术团队就开始抓狂。 传统的JDBC Catalog确实能用,但用过的人都懂那个痛。 协议开销大得吓人,查询优化策略用不上,简单查询还行,遇到复杂的Join和聚合,性能能把人逼疯。 有个朋友跟我吐槽过,他们用JDBC Catalog跨集群查个订单履约率,单表聚合查询愣是跑了45秒,老板在会议室等得直拍桌子。 更要命的是,数据量一大,JDBC那套基于MySQL协议的玩法就彻底歇菜。 你看着查询进度条一点点爬,心里默念"快点快点",但它就是快不了。这不是咱技术同学偷懒,而是协议层面的先天不足! but,Doris团队这次是真狠,连自己都不放过。 他们大概也意识到,光支持Iceberg、Paimon、Hudi、JDBC...这些外部数据湖还不够,Doris自己跨集群访问性能不行,这个湖仓一体的故事就讲不圆。 于是乎,Doris Catalog应运而生,专门用来解决Doris集群之间的高效联邦查询。 测试数据更是让人眼前一亮。 在TPC-DS基准测试中,单表聚合查询场景下,Doris Catalog虚拟集群模式的查询耗时只有0.21秒,而JDBC Catalog需要40+秒——性能提升超过200倍。 这已然不是小打小闹的优化了,可谓是质的飞跃。多表关联查询也有42%的性能提升。虽然没有单表聚合那么夸张,但对于复杂业务分析来说,这个提升已经足够显著。 两种模式各显神通,按需选择 Doris Catalog提供了两种访问模式:Arrow Flight模式和虚拟集群模式。 这个设计思路挺有意思,不是一刀切的方案,而是让你根据实际场景灵活选择。 Arrow Flight模式的设计很聪明。 它让本地集群的FE节点生成查询计划,针对远端表生成单表查询SQL,然后通过Arrow Flight协议直接从远端BE节点拉取数据。 整个过程就像是在本地集群做了个"远程调用",简单直接。 这种模式特别适合那种查询逻辑简单、但远端集群规模大的场景。 比如你只是想从另一个集群拉取某张表的数据做个UNION操作,用Arrow Flight模式最合适不过。 协议开销小,传输效率高,不需要复杂的查询优化。 虚拟集群模式就更有意思了。 它把远端集群的BE节点当成虚拟BE,直接同步完整的元数据信息,然后生成全局统一的执行计划。 在Doris看来,两个集群的BE节点就是一个大集群,查询计划可以无缝分发执行。 这种设计带来的好处是显而易见的:所有Doris内表的优化策略都能用上,Runtime Filter、分区裁剪、列裁剪这些优化手段全部生效。 对于那种需要复杂Join和聚合的分析场景,虚拟集群模式是不二之选。 回到文章开头老张的故事,他用的就是虚拟集群模式。 配置Doris Catalog只需要一条SQL,指定远端FE的HTTP地址、Thrift地址、用户名密码,设置use_arrow_flight为false,就搞定了。 然后在查询时,用全限定名直接关联本地表和远端表,一条SQL解决战斗: -- 创建Doris Catalog,启用虚拟集群模式(复用内表优化) CREATECATALOGIFNOTEXISTS remote_ctl PROPERTIES ( 'type' = 'doris', -- 固定类型 'fe_http_hosts' = 'http://logistics-fe1:8030,http://logistics-fe2:8030', -- 远端FE HTTP地址 'fe_arrow_hosts' = 'logistics-fe1:8040,http://logistics-fe2:8040', -- 远端FE Arrow Flight地址 'fe_thrift_hosts' = 'logistics-fe1:9020,http://logistics-fe2:9020', -- 远端FE Thrift地址 'use_arrow_flight' = 'false', -- false=虚拟集群模式,true=Arrow Flight模式 'user' = 'doris_admin', -- 远端集群登录用户 'password' = 'Doris@123456', -- 远端集群登录密码 'compatible' = 'false', -- 集群版本接近(4.0.3 vs 4.0.2),无需兼容 'query_timeout_sec' = '30'-- 延长查询超时时间(默认15秒) ); -- 查询 SELECT local.region, SUM(remote.sales_amount) as total_sales FROM internal.sales_db.orders local JOIN remote_ctl.logistics_db.delivery remote ON local.order_id = remote.order_id WHERE local.create_date >= '2025-01-01' GROUPBY local.region; 这种写法和在单集群查询没什么区别,唯一的差别是多了个Catalog前缀。 但对于查询引擎来说,这背后的优化逻辑完全不同——它会智能地把计算下推到远端集群,减少数据传输量,最大化利用两边的计算资源。 有个做电商的小伙伴用Doris Catalog解决了订单履约率分析的问题。他们的订单数据在交易集群,履约数据在物流集群,以前用JDBC Catalog跑一次查询要好几分钟。换成Doris Catalog虚拟集群模式后,查询时间直接降到秒级,业务人员终于不用盯着进度条发呆了。 面对两种模式,很多人会纠结该用哪个: 其实选择逻辑很简单。 如果你的查询主要是简单的单表过滤、投影操作,或者需要跨集群做UNION,那Arrow Flight模式就够用了。它轻量、高效,不需要同步完整元数据,对FE内存压力小。 但如果你的分析涉及复杂的Join、聚合操作,或者需要依赖Doris的各种查询优化特性,那毫不犹豫选虚拟集群模式。虽然它会同步元数据,对FE内存有一定要求,但换来的性能提升是实打实的。 还有一个考虑因素是集群版本。如果你的多个Doris集群版本不一致,用Arrow Flight模式更稳妥,兼容性更好。 结语 Doris Catalog目前还是实验性特性,官方明确表示会持续优化。 说到底,Doris Catalog的出现,让湖仓一体这个概念更加完整了。 以前Doris可以无缝对接各种外部数据湖,现在连自己的多个集群也能高效互联,真正做到了无界。 数据在哪里不重要,重要的是你能不能高效地查询和分析它。 这种对内对外都不妥协的态度,才是一个成熟数据库应有的样子吧。 来源(公众号):一臻数据
2026-01-15 14:16 267
大型语言模型展现出的智能程度是以往软件所无法比拟的。你可以让它解释复杂的主题、改写电子邮件或帮助你理清思路,而它的回答往往听起来冷静、自信且深思熟虑。这自然而然地引出了人们不断追问的问题:人工智能真的在思考吗? 诚实的答案很微妙。这些系统的思维方式与人类不同,但它们所做的事情也远不止于简单地重复记忆的文本。要理解人工智能为何如此人性化,就需要了解这些模型真正接受过哪些训练,以及它们没有接受过哪些训练。 现代人工智能模型的基本原理是训练预测下一个词。在训练过程中,模型会接触大量文本,并反复学习如何回答一个简单的问题:根据目前为止的所有信息,下一个最有可能出现的词是什么?随着时间的推移,这个简单的目标会迫使模型内化语言模式、事实、推理方式,甚至人类解释事物的方式。 这就是为什么“这只是自动补全”的解释既正确又具有误导性。正确之处在于,预测确实是其核心机制。误导之处在于,当预测规模扩展到数万亿个单词和数十亿个参数时,系统会开始构建一些内部结构,这些结构看起来很像概念。并非人类意义上的概念,而是稳定的模式,当模型处理诸如数字、城市、情感或因果关系之类的概念时,这些模式会持续激活。 如果你让模型解决一个多步骤问题,它通常会生成一些类似于推理过程的中间步骤。它可能会定义术语、探索其他方案,或者排除之前的可能性。这一切的发生并非因为模型本身的目标就是给出正确的答案。而是因为在它所训练的数据中,正确的答案往往伴随着连贯的解释链。生成这些解释链会增加后续步骤产生合理结果的概率。 换句话说,推理行为的出现是因为它对预测有用,而不是因为模型知道自己在推理。 这种区别至关重要。人类通过推理得出结论。语言模型之所以生成符合推理逻辑的文本,是因为统计上这种文本能带来更好的自动补全效果。因果关系的方向颠倒了。 如果这听起来有些含糊不清,那么最近的可解释性研究已经开始让这些内部模式显现出来。在Anthropic及其合作者的研究中,研究人员开发了一些工具,可以追踪信息在模型内部的流动方式,类似于生物学家使用显微镜观察活体生物体内的细胞。 我们基于近期研究成果,引入了一套用于识别特征并绘制特征间连接图的新工具——类似于神经科学家绘制大脑的“线路图”。我们大量运用了一种名为归因图的工具,它使我们能够部分追踪模型将特定输入提示转化为输出响应所使用的中间步骤链。 如果将模型的内部活动想象成一种隐藏的计算网络,那么这些归因图就如同图表,展示了模型决定写作内容的主要路径。研究人员甚至用类似于简化电路图的图表来可视化这些路径,其中每个节点代表一个学习到的概念,而边则显示了不同概念如何影响输出。 论文中重点介绍的一个例子涉及基本的地理推理。当给出“事实:达拉斯所在的州的首府是……”这样的提示时,模型会补全为“奥斯汀”。研究人员利用他们的工具表明,在幕后,该模型实际上使用了中间概念步骤来得出这个答案。它首先将“达拉斯”表示为位于“德克萨斯州”,然后以此为基础确定“奥斯汀”是首府,所有这些步骤都发生在最终文本出现之前。 Haiku 用一个“多步骤”图表来完成句子,顺序为达拉斯 → 德克萨斯州 → 奥斯汀。 该模型内部执行真正的两步推理,与快捷推理并存……决定说奥斯汀取决于一系列中间计算步骤。 在研究的另一部分,研究人员发现模型在创作诗歌时表现出惊人的特性。在生成诗歌的每一行之前,模型内部的电路通常会激活潜在的押韵词,并利用这些潜在的押韵目标来构建诗行。本质上,尽管模型的目标函数仅用于预测下一个词,但它却能提前规划下一个词之后的内容。 在开始编写每一行之前,该模型会识别出可能出现在句末的押韵词。这些预先选定的押韵选项随后会影响模型构建整行的方式。 另一项令研究人员感到惊讶的发现是,某些内部模式在不同语言中是共通的。当相同的提示被翻译成不同的语言时,模型内部计算中会激活类似的回路路径。这暗示了该模型使用了一种抽象表征,这种表征并非严格局限于单一的人类语言,而是映射到跨语言共享的概念结构。 我们发现该模型使用了特定于语言的电路和抽象的、与语言无关的电路的混合……与较小、功能较弱的模型相比,Claude 3.5 Haiku 中与语言无关的电路更为突出。 这一切都很重要,因为它有助于解释为什么人工智能的回答在多句话中往往显得连贯一致。当你提出问题时,模型并非盲目猜测下一个词。它通常会运用内部对答案类型的理解,然后将其翻译成类似人类语言的表达方式。 但这并不意味着模型理解了它所表达的意思。一个便于理解的方法是想象一个人读过几乎所有书籍,但却没有任何直接的现实世界经验。这个人或许能够解释悲伤是如何产生的,法律体系是如何运作的,或者一家初创公司应该如何运营,而这一切仅仅是通过对所读内容进行模式匹配来实现的。这种解释或许非常精辟,但仍然是二手信息。 这有助于解释一个常见的误解。人们常常认为,如果一个模型能够始终如一地谈论某个概念,那么它一定像人类一样“拥有”这个概念。实际上,模型学习了一套内部表征,这些表征有助于在合适的语境中使用正确的词语。这些表征可能非常稳定,但它们并非基于经验、意图或理解。 这也是为什么模型有时会显得自信满满,但实际上却可能出错的原因。自信只是文本中的一种模式。模型已经学习到,权威的解释往往遵循某些特定的语言形式。如果这些形式在统计学上是合理的,模型就会使用它们,而不管其背后的内容是否正确。 从这个角度来看,现代人工智能系统的行为就更容易理解了。它们之所以强大,是因为它们能将海量的人类知识压缩成一种可以按需重组的形式。它们的局限性在于,它们缺乏人类用来发现错误、寻求澄清或根据现实世界反馈更新信念的机制。 我认为这种框架比任何极端观点都更有用。这些系统并非意识系统,也与意识相去甚远。但它们也绝非肤浅的技巧。一个单一的训练目标就能产生支持翻译、解释、类似计划的行为和抽象思维的内部结构,这的确令人惊叹。 理解其运作原理并非仅仅是学术探讨,它会影响我们如何负责任地部署这些系统。一旦你不再假设模型“知道”何时正确,你就会开始设计能够验证、约束和巩固其输出的系统。你不再依赖流畅性来判断正确性,而是将其视为一种表面信号。 人工智能本身并不思考。但它所产生的行为与从外部视角观察到的思考方式存在重叠。这种重叠既强大到足以发挥作用,也危险到需要我们谨慎对待。我认为,对于任何想要认真研究这些系统的人来说,同时认识到这两点才是正确的出发点。 来源(公众号):数据驱动智能
2026-01-14 11:31 250
热门文章