❝ 上周五下午五点半,老张刚准备下班,产品经理突然冲到工位前:"张工张工!老板要看全国各区域的销售数据汇总,现在就要!" 老张抬头看了看窗外,心里一万头草泥马呼啸而过...华东的数据在杭州集群,华北的在北京集群,华南的在深圳集群,这要跨三个Doris集群做联合查询! 按照以前的套路,要么写JDBC Catalog慢慢等,要么就得临时把数据同步到一个集群——前者慢得让人怀疑人生,后者等数据同步完周末都过去了。 老张急忙翻阅了下 Doris 4.0.2版本的 release note,突然不紧不慢地说道:"给我半小时..." Doris跨集群查询的老大难,终于有解了 说起跨集群数据分析,做过大数据的人都知道这有多头疼。 你们公司是不是也这样:业务发展快了,一个Doris集群不够用,就搞了好几个。交易数据在A集群,物流数据在B集群,用户画像在C集群。 平时各自安好,但老板一句"我要看全局数据",技术团队就开始抓狂。 传统的JDBC Catalog确实能用,但用过的人都懂那个痛。 协议开销大得吓人,查询优化策略用不上,简单查询还行,遇到复杂的Join和聚合,性能能把人逼疯。 有个朋友跟我吐槽过,他们用JDBC Catalog跨集群查个订单履约率,单表聚合查询愣是跑了45秒,老板在会议室等得直拍桌子。 更要命的是,数据量一大,JDBC那套基于MySQL协议的玩法就彻底歇菜。 你看着查询进度条一点点爬,心里默念"快点快点",但它就是快不了。这不是咱技术同学偷懒,而是协议层面的先天不足! but,Doris团队这次是真狠,连自己都不放过。 他们大概也意识到,光支持Iceberg、Paimon、Hudi、JDBC...这些外部数据湖还不够,Doris自己跨集群访问性能不行,这个湖仓一体的故事就讲不圆。 于是乎,Doris Catalog应运而生,专门用来解决Doris集群之间的高效联邦查询。 测试数据更是让人眼前一亮。 在TPC-DS基准测试中,单表聚合查询场景下,Doris Catalog虚拟集群模式的查询耗时只有0.21秒,而JDBC Catalog需要40+秒——性能提升超过200倍。 这已然不是小打小闹的优化了,可谓是质的飞跃。多表关联查询也有42%的性能提升。虽然没有单表聚合那么夸张,但对于复杂业务分析来说,这个提升已经足够显著。 两种模式各显神通,按需选择 Doris Catalog提供了两种访问模式:Arrow Flight模式和虚拟集群模式。 这个设计思路挺有意思,不是一刀切的方案,而是让你根据实际场景灵活选择。 Arrow Flight模式的设计很聪明。 它让本地集群的FE节点生成查询计划,针对远端表生成单表查询SQL,然后通过Arrow Flight协议直接从远端BE节点拉取数据。 整个过程就像是在本地集群做了个"远程调用",简单直接。 这种模式特别适合那种查询逻辑简单、但远端集群规模大的场景。 比如你只是想从另一个集群拉取某张表的数据做个UNION操作,用Arrow Flight模式最合适不过。 协议开销小,传输效率高,不需要复杂的查询优化。 虚拟集群模式就更有意思了。 它把远端集群的BE节点当成虚拟BE,直接同步完整的元数据信息,然后生成全局统一的执行计划。 在Doris看来,两个集群的BE节点就是一个大集群,查询计划可以无缝分发执行。 这种设计带来的好处是显而易见的:所有Doris内表的优化策略都能用上,Runtime Filter、分区裁剪、列裁剪这些优化手段全部生效。 对于那种需要复杂Join和聚合的分析场景,虚拟集群模式是不二之选。 回到文章开头老张的故事,他用的就是虚拟集群模式。 配置Doris Catalog只需要一条SQL,指定远端FE的HTTP地址、Thrift地址、用户名密码,设置use_arrow_flight为false,就搞定了。 然后在查询时,用全限定名直接关联本地表和远端表,一条SQL解决战斗: -- 创建Doris Catalog,启用虚拟集群模式(复用内表优化) CREATECATALOGIFNOTEXISTS remote_ctl PROPERTIES ( 'type' = 'doris', -- 固定类型 'fe_http_hosts' = 'http://logistics-fe1:8030,http://logistics-fe2:8030', -- 远端FE HTTP地址 'fe_arrow_hosts' = 'logistics-fe1:8040,http://logistics-fe2:8040', -- 远端FE Arrow Flight地址 'fe_thrift_hosts' = 'logistics-fe1:9020,http://logistics-fe2:9020', -- 远端FE Thrift地址 'use_arrow_flight' = 'false', -- false=虚拟集群模式,true=Arrow Flight模式 'user' = 'doris_admin', -- 远端集群登录用户 'password' = 'Doris@123456', -- 远端集群登录密码 'compatible' = 'false', -- 集群版本接近(4.0.3 vs 4.0.2),无需兼容 'query_timeout_sec' = '30'-- 延长查询超时时间(默认15秒) ); -- 查询 SELECT local.region, SUM(remote.sales_amount) as total_sales FROM internal.sales_db.orders local JOIN remote_ctl.logistics_db.delivery remote ON local.order_id = remote.order_id WHERE local.create_date >= '2025-01-01' GROUPBY local.region; 这种写法和在单集群查询没什么区别,唯一的差别是多了个Catalog前缀。 但对于查询引擎来说,这背后的优化逻辑完全不同——它会智能地把计算下推到远端集群,减少数据传输量,最大化利用两边的计算资源。 有个做电商的小伙伴用Doris Catalog解决了订单履约率分析的问题。他们的订单数据在交易集群,履约数据在物流集群,以前用JDBC Catalog跑一次查询要好几分钟。换成Doris Catalog虚拟集群模式后,查询时间直接降到秒级,业务人员终于不用盯着进度条发呆了。 面对两种模式,很多人会纠结该用哪个: 其实选择逻辑很简单。 如果你的查询主要是简单的单表过滤、投影操作,或者需要跨集群做UNION,那Arrow Flight模式就够用了。它轻量、高效,不需要同步完整元数据,对FE内存压力小。 但如果你的分析涉及复杂的Join、聚合操作,或者需要依赖Doris的各种查询优化特性,那毫不犹豫选虚拟集群模式。虽然它会同步元数据,对FE内存有一定要求,但换来的性能提升是实打实的。 还有一个考虑因素是集群版本。如果你的多个Doris集群版本不一致,用Arrow Flight模式更稳妥,兼容性更好。 结语 Doris Catalog目前还是实验性特性,官方明确表示会持续优化。 说到底,Doris Catalog的出现,让湖仓一体这个概念更加完整了。 以前Doris可以无缝对接各种外部数据湖,现在连自己的多个集群也能高效互联,真正做到了无界。 数据在哪里不重要,重要的是你能不能高效地查询和分析它。 这种对内对外都不妥协的态度,才是一个成熟数据库应有的样子吧。 来源(公众号):一臻数据
2026-01-15 14:16 91
大型语言模型展现出的智能程度是以往软件所无法比拟的。你可以让它解释复杂的主题、改写电子邮件或帮助你理清思路,而它的回答往往听起来冷静、自信且深思熟虑。这自然而然地引出了人们不断追问的问题:人工智能真的在思考吗? 诚实的答案很微妙。这些系统的思维方式与人类不同,但它们所做的事情也远不止于简单地重复记忆的文本。要理解人工智能为何如此人性化,就需要了解这些模型真正接受过哪些训练,以及它们没有接受过哪些训练。 现代人工智能模型的基本原理是训练预测下一个词。在训练过程中,模型会接触大量文本,并反复学习如何回答一个简单的问题:根据目前为止的所有信息,下一个最有可能出现的词是什么?随着时间的推移,这个简单的目标会迫使模型内化语言模式、事实、推理方式,甚至人类解释事物的方式。 这就是为什么“这只是自动补全”的解释既正确又具有误导性。正确之处在于,预测确实是其核心机制。误导之处在于,当预测规模扩展到数万亿个单词和数十亿个参数时,系统会开始构建一些内部结构,这些结构看起来很像概念。并非人类意义上的概念,而是稳定的模式,当模型处理诸如数字、城市、情感或因果关系之类的概念时,这些模式会持续激活。 如果你让模型解决一个多步骤问题,它通常会生成一些类似于推理过程的中间步骤。它可能会定义术语、探索其他方案,或者排除之前的可能性。这一切的发生并非因为模型本身的目标就是给出正确的答案。而是因为在它所训练的数据中,正确的答案往往伴随着连贯的解释链。生成这些解释链会增加后续步骤产生合理结果的概率。 换句话说,推理行为的出现是因为它对预测有用,而不是因为模型知道自己在推理。 这种区别至关重要。人类通过推理得出结论。语言模型之所以生成符合推理逻辑的文本,是因为统计上这种文本能带来更好的自动补全效果。因果关系的方向颠倒了。 如果这听起来有些含糊不清,那么最近的可解释性研究已经开始让这些内部模式显现出来。在Anthropic及其合作者的研究中,研究人员开发了一些工具,可以追踪信息在模型内部的流动方式,类似于生物学家使用显微镜观察活体生物体内的细胞。 我们基于近期研究成果,引入了一套用于识别特征并绘制特征间连接图的新工具——类似于神经科学家绘制大脑的“线路图”。我们大量运用了一种名为归因图的工具,它使我们能够部分追踪模型将特定输入提示转化为输出响应所使用的中间步骤链。 如果将模型的内部活动想象成一种隐藏的计算网络,那么这些归因图就如同图表,展示了模型决定写作内容的主要路径。研究人员甚至用类似于简化电路图的图表来可视化这些路径,其中每个节点代表一个学习到的概念,而边则显示了不同概念如何影响输出。 论文中重点介绍的一个例子涉及基本的地理推理。当给出“事实:达拉斯所在的州的首府是……”这样的提示时,模型会补全为“奥斯汀”。研究人员利用他们的工具表明,在幕后,该模型实际上使用了中间概念步骤来得出这个答案。它首先将“达拉斯”表示为位于“德克萨斯州”,然后以此为基础确定“奥斯汀”是首府,所有这些步骤都发生在最终文本出现之前。 Haiku 用一个“多步骤”图表来完成句子,顺序为达拉斯 → 德克萨斯州 → 奥斯汀。 该模型内部执行真正的两步推理,与快捷推理并存……决定说奥斯汀取决于一系列中间计算步骤。 在研究的另一部分,研究人员发现模型在创作诗歌时表现出惊人的特性。在生成诗歌的每一行之前,模型内部的电路通常会激活潜在的押韵词,并利用这些潜在的押韵目标来构建诗行。本质上,尽管模型的目标函数仅用于预测下一个词,但它却能提前规划下一个词之后的内容。 在开始编写每一行之前,该模型会识别出可能出现在句末的押韵词。这些预先选定的押韵选项随后会影响模型构建整行的方式。 另一项令研究人员感到惊讶的发现是,某些内部模式在不同语言中是共通的。当相同的提示被翻译成不同的语言时,模型内部计算中会激活类似的回路路径。这暗示了该模型使用了一种抽象表征,这种表征并非严格局限于单一的人类语言,而是映射到跨语言共享的概念结构。 我们发现该模型使用了特定于语言的电路和抽象的、与语言无关的电路的混合……与较小、功能较弱的模型相比,Claude 3.5 Haiku 中与语言无关的电路更为突出。 这一切都很重要,因为它有助于解释为什么人工智能的回答在多句话中往往显得连贯一致。当你提出问题时,模型并非盲目猜测下一个词。它通常会运用内部对答案类型的理解,然后将其翻译成类似人类语言的表达方式。 但这并不意味着模型理解了它所表达的意思。一个便于理解的方法是想象一个人读过几乎所有书籍,但却没有任何直接的现实世界经验。这个人或许能够解释悲伤是如何产生的,法律体系是如何运作的,或者一家初创公司应该如何运营,而这一切仅仅是通过对所读内容进行模式匹配来实现的。这种解释或许非常精辟,但仍然是二手信息。 这有助于解释一个常见的误解。人们常常认为,如果一个模型能够始终如一地谈论某个概念,那么它一定像人类一样“拥有”这个概念。实际上,模型学习了一套内部表征,这些表征有助于在合适的语境中使用正确的词语。这些表征可能非常稳定,但它们并非基于经验、意图或理解。 这也是为什么模型有时会显得自信满满,但实际上却可能出错的原因。自信只是文本中的一种模式。模型已经学习到,权威的解释往往遵循某些特定的语言形式。如果这些形式在统计学上是合理的,模型就会使用它们,而不管其背后的内容是否正确。 从这个角度来看,现代人工智能系统的行为就更容易理解了。它们之所以强大,是因为它们能将海量的人类知识压缩成一种可以按需重组的形式。它们的局限性在于,它们缺乏人类用来发现错误、寻求澄清或根据现实世界反馈更新信念的机制。 我认为这种框架比任何极端观点都更有用。这些系统并非意识系统,也与意识相去甚远。但它们也绝非肤浅的技巧。一个单一的训练目标就能产生支持翻译、解释、类似计划的行为和抽象思维的内部结构,这的确令人惊叹。 理解其运作原理并非仅仅是学术探讨,它会影响我们如何负责任地部署这些系统。一旦你不再假设模型“知道”何时正确,你就会开始设计能够验证、约束和巩固其输出的系统。你不再依赖流畅性来判断正确性,而是将其视为一种表面信号。 人工智能本身并不思考。但它所产生的行为与从外部视角观察到的思考方式存在重叠。这种重叠既强大到足以发挥作用,也危险到需要我们谨慎对待。我认为,对于任何想要认真研究这些系统的人来说,同时认识到这两点才是正确的出发点。 来源(公众号):数据驱动智能
2026-01-14 11:31 90
时隔七年,作为数据管理领域的核心标准,DCMM迎来了首次重大修订。新国标 GB/T 36073-2025 究竟有哪些新变化?将给企业带来哪些影响?又将为我国数据管理体系的规范化建设注入哪些新动力?下面将从修订背景、核心变化及企业贯标建议等方面逐一介绍,帮助大家了解本次DCMM新国标的关键信息与应用价值。 一 DCMM新国标修订背景 作为数据管理领域的“黄金标准”,DCMM(数据管理能力成熟度模型)一直被视为企业数字化转型的“体检表”。然而,随着产业环境的剧烈变化,沿用了7年的GB/T 36073-2018《数据管理能力成熟度评估模型》标准逐渐显露出局限性,我国亟需加快完善标准体系建设,为数据管理工作提供更加有力的支撑。 2025年12月31日,国家标准化管理委员会正式发布《数据管理能力成熟度模型》新国标,标准号为 GB/T 36073-2025,将于2026年7月1日正式实施。 本次修订主要基于以下三大核心驱动力: 1.新技术的快速迭代:人工智能、区块链、隐私计算等新一代信息技术的应用日益广泛,旧版标准在技术适配性上已难以满足当前需求。 2.数据要素市场化的推进:随着数据要素市场化配置改革的深入,以及数据资产入表的落地,企业需要更具针对性的指导。 3.合规要求的升级:数据安全合规要求持续升级,暴露了现行标准在标准覆盖范围和合规管理等方面的不足。 因此,本次修订旨在解决上述痛点,让标准能全面适配当前的技术演进与监管需求 二 DCMM主要修订内容 DCMM(GB/T 36073-2025)包含9个能力域和33个能力项,与GB/T 36073—2018相比,主要改进有以下五点: 1.新增“数据资产”能力域 从“管理”迈向“价值”这是本次修订最显著的变化。新国标将“数据资产”单独作为一个一级能力域,直观反映了“数据即资产”的理念从政策层面走向了评估标准的落地。 (1)下设能力项:包含“权属管理”、“价值评估”、“资产运营”三个关键能力项。 (2)深度解读:企业不仅要管好数据,更要明确数据归谁所有、值多少钱、如何运营增值。 2.新增“外部数据管理”能力项 打通数据流通大动脉为了响应数据要素流通共享的需求,原“数据应用”能力域升级为“数据应用流通”能力域。 (1)新增内容:专门增设“外部数据管理”能力项。 (2)深度解读:重点在于规范数据合作机制,实现交付流程与服务质量的标准化管控,保障引入外部数据时的安全合规。 3.调整与优化能力项要求 更贴合业务实战,新国标对原有的过程项进行了精细化调整, (1)文化升级:“数据治理沟通”优化扩展为“数据文化与沟通”,强调知识传播与工具使用。 (2)安全重构:“数据安全策略”和“数据安全管理”重组为“数据安全合规”与“数据安全防护”,突出底线思维与主动防御。 (3)能力项拆分:将原来的“参考数据和主数据”拆分为“参考数据”和“主数据”两个独立能力项,实现精细化管理。 4.术语更新与细化 为了统一行业认知,新国标大幅更新了术语定义。 (1)新增术语:包括“数据文化”、“数据资产”、“数据目录”、“数据出境”、“数据流水线”等18个关键术语。 (2)深度解读:新词汇的加入,标志着数据跨境流动、自动化数据流水线等前沿实践已被正式纳入国家标准体系。 5.细化优化级条款要求 高等级门槛变高了,新版依旧维持五级成熟度框架,但在最高的“优化级”(5级)中,标准变得更加严苛。 (1)具体要求:增加了针对“工具智能化”、“组织推广”、“国行标参编”等硬性要求。 (2)深度解读:企业必须具备智能化的管理手段,并能实质性地参与到行业标准制定中,输出方法论。 三 对贯标企业的建议 面对新国标的落地,不同阶段的企业应该如何调整策略? 1.正在准备贯标:建议立即按下“暂停键”进行核对,确认目前的差距分析是否需要根据新国标进行微调。特别是目标定在3级及以上的企业,务必关注新标准中关于“量化指标”的要求,提前准备佐证材料。 2.已经获证:不必焦虑。通常情况下,现有证书在有效期内依然具备法律效力。但在下一次再认证(复评)时,将大概率切换为新标准。建议利用这段窗口期,对照新标进行内部自查,提前适应新要求。 3.还在观望:现在是入局的最佳时机。新国标更务实、更清晰,直接以新标准起步,建立起符合最新监管要求的数据管理体系。 四 结语 GB/T 36073-2025 的发布,标志着我国数据治理体系从“夯基垒台”迈向了“积厚成势”的新阶段。新标准以“实效”为尺,倒逼企业重构数据管理逻辑,将数据能力从边缘辅助扭转为核心引擎。这不仅是破解管理痛点的解药,更是企业角逐数据要素市场的金钥匙。未来,数据内功将决定竞争上限。将DCMM作为数字化转型的顶层指引,顺势而上,方能让数据真正成为企业行稳致远的压舱石。 来源(公众号):南京南数数据运筹科学研究院 网站详见:https://std.samr.gov.cn/gb/search/gbDetailed?id=473EBB99D6AB455EE06397BE0A0ABB9A
2026-01-09 13:40 459
数据要素的市场化配置与价值释放水平直接关系到数字经济高质量发展的质效。国家数据局发布的《关于培育数据流通服务机构加快推进数据要素市场化价值化的意见(征求意见稿)》(以下简称《意见》),是首份聚焦数据流通服务机构培育与规范的专门政策文件,数据交易所被赋予引领带动、规则制定、综合服务的重要角色,在全国一体化数据市场建设中占据重要地位。这份《意见》是一份具有重要意义的文件,必将推动我国数据要素市场建设与数字经济发展迈入规范化、规模化新阶段,其核心作用体现在以下五个维度。 一、明晰主体定位,优化数据流通市场格局 《意见》首次在政策面明确数据交易所的行业引领者地位,确立其在数据市场中的关键角色。文件针对数据流通服务机构存在的功能重叠、定位模糊、同质化竞争等问题,系统明确了数据交易所、数据流通服务平台企业、数据商三类主体的差异化定位与发展机制,推动形成各尽其能、互有侧重、协同高效的市场格局,为数据要素市场化配置确立了清晰的主体分工,能够有效激活市场机构活力,推动数据流通从无序分散向规范协同转型,引导数据资源向优质应用场景、高效配置领域集中。 数据交易所的功能将从传统单一交易场所向数据要素流通综合服务平台升级。其功能聚焦规则制定、合规保障、供需匹配等基础支撑,同时拓展价格发现、产品开发、生态培育等综合性服务,通过与数据流通服务平台企业的专业化服务、数据商的场景化产品开发的差异化分工,数据交易所将在三大领域实现突破:一是承接公共数据产品和服务交易功能,打通公共数据与市场需求对接通道,通过监测交易价格、跟踪场景反馈,反哺公共数据标准化开发与高效利用,实现社会价值与市场价值的统一;二是通过与数据流通服务平台企业紧密合作,共同打造行业数据驱动产业链、供应链发展的新模式,以数据流通交易推动更多数实融合、多元数据融合的落地,赋能数据要素在实体经济中的深度渗透与价值释放;三是通过与数据商协同联动,整合数据供给方、需求方、服务方等多元主体,构建“场景挖掘—产品开发—流通交易”的闭环,支持数据商深入行业场景,开发高质量数据产品,同时为数据商提供交易组织服务,拓展数据价值变现渠道。 二、创新流通机制,拓宽数据价值实现路径 《意见》聚焦数据要素价值释放的核心需求,明确了交易模式、产品形态、重点领域支撑等创新方向。数据交易所将推动数据价值化从初级流通向深度增值转型,积极开展创新探索,拓宽数据价值实现的广度与深度,建立优质数据付费流通机制,强化数据要素对产业升级与科技创新的赋能作用。 创新交易模式与产品形态方面,探索创新数据流通交易模式,支撑数据换资源、作价出资等创新模式落地,扩充高质量数据集等即用型产品,创新数据指数、智能体服务等分析决策型产品。AI等重点领域数据支撑方面,构建以场景牵引的高质量数据集建设全流程解决方案,覆盖从数据源的合规溯源、专业化标注、质量评测、模型适配性验证到场景化交付的全链条环节,通过标准化服务模块与配套运营体系,形成以高质量数据集为核心、紧密连接数据供给方与模型应用方的可持续运营生态。完善价值发现与交易组织方面,探索数据价值评估模型,结合稀缺性、适配度等维度构建科学定价机制,引导“优质优价”;搭建高效的供需对接平台,提升服务各类主体数据采购的能力,建立标准化交易流程,降低摩擦成本,提升数据资源配置效率。加强市场合作方面,吸引技术服务商等多元主体参与,构建覆盖数据采集、加工、流通、应用全链条的活跃生态。延伸增值服务方面,创新数据资产运营与收益分成新模式,建立权威的数据资产登记平台,实现数据权利的可追溯、可验证,为数据资源入表、作价入股、质押贷款等资产化、资本化应用场景提供重要依据;在数据跨境服务领域,通过搭建数据托管平台、研发跨境技术工具、定制化合规解决方案等方式,有效助力中国企业走出去。 三、健全规则标准,提升数据要素配置效率 规则缺失、标准不一是制约数据要素市场化的主要瓶颈之一,导致数据交易存在“定价难、对接难、监管难”等问题。《意见》提出赋予数据交易所探索与引领数据流通交易规则和标准建设的职责,确立其数据流通规则体系的“探索者、实践者”的角色。 一是建立完善数据流通交易合同备案规程和标准,规范交易全流程权责界定,推动数据产品描述、质量评价等关键标准研制,统一数据流通的“通用语言”,提升数据流通的规范性和效率;二是探索适配数据要素特性的价格形成机制,披露交易价格信息,为市场化定价提供可参考的重要依据;三是聚焦匿名化处理、数据资产化和资本化路径等关键领域,将实践中形成的标杆案例转化为可复制、可推广的解决方案,持续完善规则体系的适配性,提升高质量数据集等各类数据产品和服务流通交易效率。 四、强化协同保障,拓展数据流通辐射范围 《意见》提出从基础设施、资源整合、互认互通等维度构建数据流通支撑体系,数据交易所作为核心枢纽,可深入推进基础设施建设与协同应用,为数据要素跨领域、跨区域高效流通提供关键保障。 一是建设高性能数据流通平台,夯实规模化流通基础。数据交易所可主导建设标准化、规模化、智能化的数据流通服务系统平台,通过模块化功能设计、自动化流程管理及智能算法优化,提供数据登记、供需匹配、加工处理、交付结算等全环节高效服务。同时,推动平台功能与医疗、工业等重点行业需求深度适配,提升数据流通服务的专业化、可复用性与可扩展性,为数据流通常态化、规模化运行提供技术支撑;二是推进资源整合,降低市场参与成本。数据交易所可发挥资源聚合优势,引导各类市场主体依托统一数据基础设施开展流通交易,通过开放接口、共享技术能力等方式,大幅降低中小微企业及数据商的技术开发与运营成本。在此基础上,构建跨机构、跨区域的数据流通基础设施网络,打破技术壁垒与区域限制,提升基础设施利用效能。三是推进跨主体互认互通,释放数据协同价值。数据交易所可牵头建立规范的数据流通凭证格式与认证体系,建立数据流通交易监测指标机制,实现跨平台、跨主体数据交易记录全程可追溯、可验证,打通产业链上下游、跨行业领域的数据流通堵点,促进数据要素在更大范围融合应用。 五、优化数据交易所布局,促进数据流通市场高质量发展 《意见》提出统筹优化数据交易所布局,严控数量,适时开展整合优化,这一部署能够破解当前数据交易所发展中的结构性问题。一是实现资源集约高效配置。当前部分地区数据交易所盲目布局、功能重叠、定位模糊等问题,通过统筹规划、严控数量,可遏制低水平重复建设,推动优质数据资源、技术与资金向核心交易所集中,避免“小而散”的低效竞争,提升数据交易所整体运营效能;二是夯实全国一体化数据市场基础。优化布局能够推动数据交易所从“区域分割”转向“全国统筹”,推动交易所更好承担促进跨区域数据流通、跨区域规则凭证互认互通,打破数据流通地域壁垒,为全国一体化数据市场筑牢支撑;三是强化治理效能。通过不断整合优化,交易所要具备更强的技术与管理能力,可建立统一高效的治理体系,防范数据泄露、滥用等风险,实现发展与安全的统筹兼顾;四是提升赋能产业精准度。交易所可聚焦AI、工业互联网等重点场景,打造专业化服务能力,让数据流通服务更贴合实体经济需求,提升数实融合实效;五是引领行业规范发展,增强国际竞争力。交易所将成为行业标杆,集中力量开展规则创新、标准研制,引领行业向规范化、专业化转型;同步探索跨境数据交易服务,主动对接国际通行规则,提升我国数据要素的全球配置能力与国际竞争力。 数据交易所是我国数据要素市场化进程中的制度创新,在孵化数据产品服务、筑牢合规保障防线、加强行业标准建设、培育产业生态体系、推动数据市场与金融市场融通、拓展国际合作空间等关键领域发挥了积极作用。数据交易所要立足自身资源禀赋,通过建设全链条数据流通交易服务体系,推动破解数据流通中的制度性障碍与技术性难题,持续探索数据要素市场化配置的有效路径。 当前,我国数据流通市场尚在培育期,数据交易所发展正处于爬坡过坎、滚石上山的攻坚阶段。预计随着《意见》的落地实施,数据要素将在安全合规的前提下实现更广泛流通、更高效配置、更充分增值,数据交易所作为数据流通服务关键主体,也将持续发挥创新引领与资源整合优势,为全国一体化数据市场建设和数字经济高质量发展注入强劲动能。 来源(网站):国家数据局
2026-01-08 10:19 116
近日,谷歌在《2026 AI智能体趋势报告》(AI agent trends 2026)中指出,决定商业格局的变革已悄然发生,AI智能体正从“辅助工具”跃升为“核心生产力引擎”。 报告基于对全球3466位企业决策者的调研,融合了谷歌云与DeepMind的内部洞察,并整合了TELUS、Salesforce等知名企业的实际落地经验,提出了五大核心趋势,揭示了2026年AI智能体将如何重构员工角色、业务流程、客户体验、安全体系与组织能力,最终推动企业实现“AI优先”的根本性转型。五大趋势构建了企业2026年AI智能体战略的完整蓝图: 面向每位员工,赋能个体实现最高生产力; 面向每个工作流,以落地型智能体系统驱动业务运转; 面向每位客户,以礼宾式体验创造极致满意度; 面向安全领域,从被动告警转变为主动行动; 面向规模化发展,人才技能提升是商业价值的终极驱动力。 趋势1:面向每个员工——从“任务执行者”到“智能体协作者” 在AI发展的背景下,2026年最为深刻的职场变革,并非效率的提升,而是以员工为核心的工作模式重构,其核心逻辑在于从“指令式”向“意图式”的工作革命。计算机交互从“人类下达指令(如分析表格、编写代码)”转向“人类明确目标,AI智能体规划路径”。员工的核心角色从“亲自完成琐事”转变为“智能体团队的战略指挥者与质量监督者”。 数据支撑: 52%的生成式AI应用企业已将AI智能体投入生产,覆盖多元场景; 应用占比前五位:客户服务(49%)、营销/安全运营(46%)、技术支持(45%)、产品创新/生产力提升(43%)。 报告提到在“人类+智能体”的协同模型中,员工成为“智能体的人类主管”,工作重心聚焦于:任务委派:识别重复性、事务性工作(如数据录入、基础报告),并分配给专用智能体;目标设定:明确期望结果,为智能体指明方向;战略指导:运用人类判断力处理AI无法应对的复杂决策(如品牌调性把控、客户情绪回应);质量验证:作为最终环节,确保智能体输出的准确性、合规性与适配性。 报告设想了一个营销经理的典型场景,2026年,营销经理无需再陷入文案撰写、数据整理等琐碎工作,而是借助五大专业智能体实现效能倍增: 一是数据智能体:筛选数百万结构化与非结构化数据,挖掘市场趋势中的可行动模式; 二是分析智能体:24小时监控竞品动态、社交媒体情绪,每日推送一页式核心洞察报告; 三是内容智能体:根据每周战略主题,以品牌语调生成社交媒体文案与博客文章,供经理审核; 四是报告智能体:连接企业分析平台,每周五输出营销活动数据摘要; 五是创意智能体:基于营销策略与文案,生成配套图片与视频素材。 趋势2:面向每个工作流——“数字装配线”驱动端到端自动化 如果说面向员工的智能体是“单兵作战”,面向工作流的智能体系统则是“集团军协同”。2026年,企业将通过“数字装配线”,由人类指导、多智能体协同的端到端工作流,重构采购、客服、安全运营等核心流程,实现7×24小时规模化高效运转。 数据支撑:88%的智能体早期采用者,已在至少一个生成式AI场景中获得正投资回报率。 核心价值:不仅提升单一流程效率,更能整合网络运营、现场服务、客户呼叫中心等孤立职能,实现跨部门无缝协作。 报告提到,“数字装配线”的实现,依赖两大核心协议的突破:其一是Agent2Agent(A2A)协议,开放式标准,让不同开发商、不同框架、不同组织的AI智能体实现无缝集成与协同,例如媒体公司的智能体可直接对接零售商智能体,展示流媒体内容中的产品详情与定价;其二是Model Context Protocol(MCP)协议,解决LLM的两大局限(知识固化、无法联动外部),通过标准化双向连接,让AI模型轻松对接CloudSQL、BigQuery等数据库与数据平台,获取实时数据并执行操作。 报告提到了Salesforce、Elanco等厂商的案例,其中,Elanco(全球动物健康领导者)通过AI模型,自动处理每个生产基地2500余份非结构化流程制度类文档,提取关键信息、降低因信息过时或前后矛盾可能引发的风险,避免了高达130万美元的生产力损失。 趋势3:面向每个客户——礼宾式体验重构客户互动 过去十年,客户服务自动化的核心是“预制聊天机器人”,仅能解答简单问题;2026年,随着大模型的发展,将从“被动响应”到“主动预判”的服务升级,将催生“礼宾式智能体”,能够记住客户偏好、关联历史交互,提供个性化、人性化的一对一体验,甚至主动预判并解决问题。 数据支撑:49%的智能体应用企业,已将其用于客户服务与体验优化。 客户无需重复提供订单号、身份信息,智能体可基于企业CRM、物流数据库等“落地数据”,直接精准响应需求。 报告提到了物流智能体主动服务的场景,物流智能体监测到配送失败后,自动执行三步操作。确认故障原因(配送车故障)、重新调度次日最早配送时段、发放10美元服务抵扣券,再通过短信告知客户并确认新时间,无需客户主动联系。 值得注意的是,报告强调个性化体验并非局限于C端,在制造业车间,智能体可针对班组绩效差异,分析设备参数并提供优化建议(如调整机器设定点、安排专项培训);在医疗领域,智能体可整合影像、电子病历、理赔数据,为临床医生提供主动洞察,推动医疗系统从“被动响应”向“预测性健康系统”转型。 趋势4:面向安全——从“告警过载”到“智能行动” 报告提到,安全运营中心(SOC)的分析师面临“告警疲劳”困境,82%的分析师担忧因告警数量过多而遗漏真实威胁。传统安全编排自动化响应(SOAR)解决方案仅能实现增量自动化,而AI智能体凭借“推理-行动-观察-调整”的闭环能力,将安全运营从“被动响应”升级为“主动防御”,成为安全团队的“超级助手”。 数据支撑:46%的智能体应用企业已将智能体应用于安全运营和网络安全领域,以增强其网络安全防护、检测、响应及预测能力。 核心价值:不仅提升威胁检测与响应速度,更能将分析师从重复的告警筛选工作中解放,聚焦战略防御。 AI智能体驱动的SOC,通过任务型智能体协同完成安全闭环:检测告警:智能体初步筛选海量告警,识别高风险信号;分诊调查:结合安全遥测数据,深入分析威胁来源与影响范围;威胁研究与狩猎:在分析师指导下,主动搜寻潜在风险;响应工程:制定并执行解决方案;升级与建议:复杂威胁自动升级至人类团队,提供完整分析摘要供决策。 安全运营周期图展现了人类与智能体的协同模式:AI智能体负责数据管理、分诊、分析等战术任务,人类则聚焦于升级决策、规则优化与战略防御。 趋势5:面向规模化——技能提升是商业价值的终极驱动 当企业聚焦AI模型、平台等技术时,容易忽视最核心的要素——人。2026年,AI的普及将加剧技能缺口,专业技能的“半衰期”已缩短至4年,科技领域更是仅为2年。只有通过系统化的技能提升,让员工掌握“智能体协作能力”,企业才能真正释放AI的规模化价值。 数据支撑: 82%的决策者认为,技术学习资源能帮助企业在AI领域保持领先; 71%的受访企业表示,参与学习资源后收入实现增长; 84%的员工希望组织更重视AI技能培养,61%的AI应用企业员工每日使用AI。 AI学习的五大支柱: 确立目标:设定可衡量的AI工具目标(如“100%员工在工作流中使用智能体”),确保与组织整体需求对齐; 获得支持:组建三大核心利益相关者团队——“赞助者”(提供资金与高层支持)、基层推动者(传播AI价值、收集员工想法)、AI加速器(将想法转化为实际解决方案); 持续推进与奖励创新:搭建“数字枢纽”,通过游戏化想法交流、排行榜、季度奖励等形式,鼓励员工分享AI应用案例,保持参与热度; 融入日常工作流:举办内部“马拉松”,让团队在协作实践中掌握AI工具的使用; 以可信框架应对风险:培训员工识别AI相关威胁(如AI驱动的社工攻击),明确数据使用边界,将安全责任落实到每个人。 来源:谷歌云《AI agent trends 2026》报告
2026-01-06 10:39 543
12月29日至30日,全国数据工作会议在京召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的二十大和二十届历次全会精神,认真落实中央经济工作会议部署、全国发展和改革工作会议要求,总结2025年数据工作,部署2026年重点任务。国家发展改革委党组书记、主任郑栅洁出席会议并讲话。国家发展改革委党组成员、国家数据局局长刘烈宏作工作报告。 郑栅洁指出,2025年是数据系统改革攻坚之年,全国数据系统坚决贯彻落实党中央、国务院决策部署,紧紧围绕经济社会发展工作大局,牢牢把握数据要素市场化配置改革主线,持续推进数字中国、数字经济、数字社会“三个建设”和数据领域国际合作,取得显著成效。 2026年要准确把握数据工作新形势新要求,紧紧抓住发展机遇,锚定数字中国建设目标任务,扎实推动数据事业高质量发展。必须充分挖掘数字经济潜能,促进数字科技和服务创新,优化数字消费软硬件环境,培育壮大数据产业。必须坚持政策支持和改革创新并举,注重规划引领,健全完善数据领域法规制度体系,加快培育开放共享安全的全国一体化数据市场。必须坚持投资于物和投资于人紧密结合,多措并举激发投资活力,加快数字人才培养。必须做到既“放得活”又“管得好”,统筹数据领域高质量发展和高水平安全。必须以苦练内功来应对外部挑战,塑造于我有利的数据发展外部环境。 刘烈宏指出,全国数据系统要坚持以习近平新时代中国特色社会主义思想为指导,全面落实党的二十届四中全会和中央经济工作会议精神,深入推进数字中国建设,加强规划引领、创新驱动,深化数据要素市场化配置改革,深化数据资源开发利用,突出数据赋能人工智能发展,促进实体经济和数字经济深度融合,统筹深化数据领域国际合作,加快释放数据要素价值,更好推动高质量发展,努力完成数字中国建设“十五五”规划开局之年的各项目标任务。当前要更加注重拓展内需增长新空间,更加注重实体经济和数字经济深度融合,更加注重有为政府和有效市场相结合,更加注重统筹数据发展和安全。 会议认为,2025年数据工作聚力改革攻坚,取得新进展新突破。围绕制度、设施、场景、市场和产业,增强体系化攻坚能力,打出一套数据要素市场化配置改革“组合拳”,数据要素市场化价值化进程明显加快,统筹“三个建设”、数据领域国际合作取得积极成效。 一是数据要素市场化配置改革持续深化。数据基础制度建设取得突破性进展,数据基础设施建设稳步推进,数据资源开发利用不断深化,数据流通交易发展效果初显,数据产业发展动能更加强劲,科技标准人才工作迈出新步伐,数据赋能人工智能成效显著。 二是“三个建设”取得新成效。数字中国建设已经成为发展新质生产力的重要引擎,构筑国家竞争新优势的战略举措,推进国家治理体系和治理能力现代化的重要途径。数字经济创新活力迸发,“十四五”数字经济发展规划目标任务圆满完成。数字社会建设服务效能提升,城市全域数字化转型持续推进。 三是数据领域国际合作务实推进。深入参与联合国全球数据治理工作,建立上合组织数字经济国际合作平台,举办上合组织数字经济论坛,数字经济国际合作不断拓展深化。在中国—新加坡数字政策对话等双边机制下,创新合作模式。布局数据跨境流动服务基础设施,制定行业数据跨境指引,促进数据安全合规高效流动。 四是数据系统队伍建设不断加强。全国数据系统坚决贯彻落实习近平总书记重要指示批示精神,旗帜鲜明讲政治。深入学习宣传贯彻党的二十届四中全会精神,扎实开展深入贯彻中央八项规定精神学习教育,深化整治形式主义为基层减负。 会议要求,2026年是“数据要素价值释放年”,要着力畅通数据流动和资源配置渠道,激活数据市场供给和需求,繁荣市场生态,进一步推动数据“供得出、流得动、用得好、保安全”,促进数据要素全面融入经济价值创造过程,更好赋能经济社会发展,重点做好以下8个方面工作。 一是高质量编制实施数字中国建设规划,坚持数据要素市场化配置改革主线,统筹好“三个建设”,突出阶段特征,坚持因地制宜,开门编制规划。 解读:2026年处于十四五收官与十五五展望的交汇点。原文特别强调开门编制规划,意味着十五五数字中国规划的制定将更加注重社会各界的参与,不再是闭门造车。同时,数字中国、数字经济、数字社会三个建设被再次强调为统筹重点。 二是加快培育开放共享安全的全国一体化数据市场,对标对表“五统一、一开放”基本要求,加强顶层设计,繁荣市场生态,完善市场治理。 解读:原文中的五统一、一开放,统一基础制度、统一设施、统一市场、统一监管、统一标准、对外开放是建设全国统一大市场的核心标准。这意味着2026年将大力清理地方数据壁垒,通过统一的标准和监管,让数据在全国范围内真正流动起来。 三是着力推进数据科技创新和产业创新深度融合,推动数据科技创新,加快数据产业发展,梯次培育数字产业集群。 解读:梯次培育是关键词。这表明国家在培育数字产业集群时,将根据不同区域的基础和优势,分层次、分阶段地进行布局,避免同质化竞争,旨在形成大中小企业融通发展的产业生态。 四是不断深化数据融合应用和场景建设,强化需求牵引,持续开展“数据要素×”行动和公共数据跑起来示范场景建设,推进城市全域数字化转型,开展国有企业数据效能提升行动,赋能数字政府建设持续健康发展。 解读:原文点名了三大具体抓手:数据要素×是广度覆盖,公共数据跑起来是政府带头,国有企业数据效能提升是盘活存量。这三者构成了2026年场景建设的三驾马车,特别是国企数据资产的价值化将是重头戏。 五是加力推进数据基础设施建设和运营,推动数据基础设施规模化部署、系统化应用、一体化发展,持续推进数据基础设施建设。 解读:与以往强调建设不同,原文此次增加了运营二字,并强调规模化、系统化、一体化。这说明基础设施建设将从单点试验转向全面铺开,且更加注重建成后的运营效率和实际应用效果。 六是持续健全数据基础制度,落实数据产权制度,加强政策协同,提高法治化国际化水平,强化标准制定实施。 解读:落实数据产权制度是原文的核心眼。经过几年的探索,2026年将是数据产权制度从理论走向落地的关键一年,确权难的问题有望通过具体的政策协同和标准制定得到实质性缓解。 七是强化数据赋能人工智能发展,实施强基扩容行动、应用赋能行动、提质增效行动、管理服务行动、价值释放行动、标注攻坚行动等6大专项行动。 解读:原文罕见地列出了非常具体的6大专项行动,特别是标注攻坚行动,直指当前AI发展中高质量语料不足的痛点。这标志着国家将把数据作为燃料,全面通过行政和市场手段加速人工智能产业的发展。 八是统筹深化数据领域国际合作,有力服务元首外交和主场外交,积极参与国际规则标准制定,务实开展数字经济国际合作,探索数据跨境流动新模式。 解读:原文提到探索数据跨境流动新模式,结合会议中提到的制定行业数据跨境指引,预示着2026年在数据出海、跨境电商、跨国科研数据流动等方面,将会有更灵活、更具操作性的合规通道(如白名单机制、数据自由贸易港等)落地。 会议强调,做好2026年数据工作,全系统党员干部要更加紧密地团结在以习近平同志为核心的党中央周围,深入学习贯彻习近平总书记关于数据发展和安全的重要论述,进一步深刻领悟“两个确立”的决定性意义,增强“四个意识”、坚定“四个自信”、做到“两个维护”,全面落实党中央、国务院决策部署。要树立和践行正确政绩观,着力锻造“党性过硬、视野开阔、善于创新、真抓实干”的高素质数据干部队伍,以“时时放心不下”的责任感和“事事心中有底”的行动力,持续推动数据工作不断迈上新台阶。‘ 来源(网站):国家数据局
2026-01-04 16:20 347
热门文章