数据要素行业丨研究报告 核心摘要: 数据作为第五生产要素由于其非竞争、可复制、无限增长与供给的特性,其价值挖掘流程的复杂程度远高于其他传统生产要素,从数据来源的合法性、权属划分到后续的价值评估与增值管理,数据要素价值的提升对于政策明晰的制度框架与实施路径有较高依赖,随着市场化体系的健全,以地方性数据交易机构、数商为代表的产业模式正逐步成为推动数据要素市场发展的核心,以“政产联动”建立良好的供数、用数生态,促进“供得出、流得动、用得好、保安全”的阶段性目标达成。 近况解读:国内数据要素行业现状分析 在政策指导与产业建设的共同作用下,以数据、科技与基建为核心的数据要素市场体系逐步完善,推动行业向更高价值的“政产联动”迈进 政策剖析:近年数据要素行业政策解读 数据产业链价值流通体系的政策性完善与地方性数据体系的健全成为国内数据要素价值链流通的重要保障,数字产业进入“质量提升”新阶段 规模核算:中国数据要素行业市场规模 数字经济核心产业成为推动国内整体经济体系发展的重要驱动,预计国内数据要素市场将以约20.26%的复合增长率于2028年突破3000亿元 近年国内数据要素产业发展呈现稳步增长态势,中国数字经济规模由2017年的27.2万亿增长至2023年的53.9万亿,六年整体规模翻了一倍,复合增长率约为12.07%。2024年以数字产品制造业、数字技术应用业为代表的数据经济核心产业增加值达到13.49万亿元,约为同年期GDP的10%,成为推动国内经济整体发展的重要驱动力。随着数据产业标准化体系的完善、创新案例与产业试点规模的扩充以及服务前沿技术场景的外延价值提升,国内数据要素行业规模将以约20.26%的复合增长率保持高速增长,预计2025年整体规模将达到2000亿左右,2028年将正式突破3000亿。其中以数据加工与分析为核心的数据处理环节,将成为数据要素产业规模占比最高的细分产业,预计2028年其整体规模即将达到1440亿元。 数据要素价值流通体系建设 以前沿技术能力与监管合规体系为支撑,围绕数据要素价值阶段性开发的流通链路体系建设 数据价值链流通(一):数据合规与确权 以“数据二十条”为基础的数据要素权属体系建设是保障数据价值链高效流通的重要前提,监管刚性更强的确权法律体系备受业内期待 随着数字经济的发展与数字中国战略的实施,数据作为“第五大生产要素”其资产化流通链路的完善与价值释放体系的建设成为当前国内市场的关注重点,清晰的数据要素权属制度与统一的数据资产登记体系将成为保障数据要素价值链建设的重要前提。但由于数据资产的非损耗、非排他与非竞争属性,导致传统生产要素的分配模式无法在数据要素市场套用,建立专属于数据资产的权属划分体系成为推动行业发展的“当务之急”。自2022年国务院颁布“数据二十条”政策以来,国内数据要素的确权制度体系开始逐步完善,“数据二十条”政策不仅明确了以公共数据为代表的三大数据源的分类分级确权制度,还将数据资源的持有权、加工使用权与产品经营权进行了划分,力求保障数据价值链每位参与者的固有权益,为建设合规高效的数据流通交易制度与安全可控的数据治理体系奠定基础,后续国家发改委、国家数据局及各地方数据管理机构陆续颁布了围绕数据管理、数据资源授权与数据知识产权登记等条例,进一步完善国内数据市场确权、登记体系。但在实践过程中,公共数据开放度不够、企业数据流通受阻、自产自用以及个人数据信息边界不清、合规使用标准模糊等问题依旧存在,此外单一维度的数据分类也难以兼顾大数据时代下对于数据安全、经济效率与公共利益的三方追求,执行稳定性与刚性更强、适配于多样化应用场景的数据要素权属法律体系建设,成为新时代改善确权矛盾、提升数据使用效率的关键。 数据价值链流通(二):数据登记 数据登记的管理方式和责任单位与其形态密切相关,“1+3”的政策体系与资源登记枢纽共同构建国内公共数据资源管理的基本框架 数据产权登记作为保障数据资产权属划分、促进数据价值释放的重要环节,其核心工作原理是在数据确权的基础之上,由登记机构将数据资产的信息与权属情况审核、登记、公示,之后发放登记证书,作为日后数据交易、融资抵债、会计核算等资产化、资本化场景的应用依据。根据数据资源、数据产品及数据资产三类数据要素的形态差异,负责登记的机构也存在差别,根据地区性数据要素登记管理办法,数据资源(包括数据知识产权)的登记工作由相关行政事业单位负责,强调对于数据资源及信息的保护,而经济价值更显著的数据产品及数据资产则由数据交易机构确认登记,意在推动数据要素的市场化流通与创新数据资产的融资应用。在登记的数据当中,公共数据作为规模庞大、潜在价值丰富的核心数据资源体,如何对其实现高效的开发、应用成为现阶段国内数据行业的关注要点。针对于此,国家发改委与国家数据局颁布了一系列围绕公共数据资源登记管理、授权运营、价格形成机制的指导政策,构建起以《中共中央办公厅 国务院办公厅关于加快公共数据资源开发利用的意见》为核心的“1+3”政策体系,推动国内公共数据资源管理进入“有规可依”的新时代,通过“一个标准、两级平台”的建设路径,以国家公共数据资源登记平台作为全国一体化公共数据资源登记的“总枢纽”,对接各省级公共数据资源平台,打破地区与部门间的“数据隔阂”,实现公共数据登记资讯的互联互通。 数据价值链流通(三):数据价值评估 数据评价政策体系建设日渐完善,公共数据资源量化标准成为业内重要的参考标杆,以价值易变性为代表的实践性定价难题有待后续解决 价值评估作为在数据要素确权与登记的基础上保障数据价值挖掘与市场化流通的重要节点,其评价体系的准确性与完善度将成为保障数据要素交易、相关利益分配与激励机制确立的基础,是推动数据要素价值释放与持续创造性建设的关键。自2019年起,《资产评估专家指引第9号——数据资产评估》的发布开启了国内数据资产的计量时代,数据评估的对象、方法及报告的编纂形式有了政策性依据,后续《数据资产评估指导意见》与《企业数据资源相关会计处理暂行规定》进一步提升了数据评估的实践性,在评估对象、操作要求、评估方法、会计处理等方面提供了更详实的参考依据。于今年6月最新发布的《公共数据资源社会价值与经济价值评价》直接将视角聚焦公共数据资源的社会与经济价值,为公共数据的价值评估提供了客观、可量化的指标体系,填补了领域标准的空白。 随着数据评价逐步由政策引导迈向产业实践,数据资产的非实体性、价值易变性等传统实物资产不具备的异质性特征,导致实际价值评估流程的难度与复杂程度远高于预期,数据价值随产品化建设与场景应用的不同而动态变化,在完成初步价值评估之后贯穿数据资产生命周期的阶段性评估与价值调整,将成为数据产品价值精准性的重要保障。作为流通商品,国内数据市场的供需关系也将极大的影响到数据产品的价值,市场公允价值评估对于该行业的信息透明度与传输效率提出了更高的要求,此外,在确定数据价值模型的输入参数中,偏执因素、折现率、未来收益等部分指标的数值确定依赖于行业专家的主观经验判断,如何确保选择的模型、输入参数与当前使用场景的适配程度,需要政策性定价体系的进一步完善与标杆案例的深度指导。 数据价值链流通(四):数据资产入表 数据资产入表拉动数据市场、资本市场多层经济效应,由数据资产价值波动带来的衍生资本风险应受到业内重视 数据资产入表是数据要素资本化实践的核心环节,也是近年国内数据要素市场关注的热门话题。自2024年1月1日起,《企业数据资源相关会计处理暂行规定》的实施标志着我国数据资产入表正式迈入制度化新时代,在完成数据资源盘点、合规审查与价值评估之后,按照会计处理的要求将数据资源以无形资产、开发支出、存货等形式计入财务报表,实现数据资源从“隐性资产”向“显性资产”的转化,在改善资本负债结构、提升企业融资增信方面效果显著,是奠定数据资本化运作的重要环节。自2024年起上市企业新增数据入表数量逐步提升,涉及包括信息传输、软件和信息服务、制造业、金融业等多个领域,企业的数据治理与场景深化能力进一步提升。从入表资产登记的使用场景来看,对外提供的产品或服务、内部降本增效与AI大模型的开发成为三大主流应用场景,而选择在数据交易所产品登记、上架的企业比例不高,整体交易流通的活跃度不达预期。目前市场对于入表数据资产的资本化应用程度远高于最初设想的产品端应用,如何管理数据资产资本化风险、推动数据产品市场发展将成为新阶段的重要课题。此外,在“强制披露+资源披露”的要求下, 业内数据入表信息的披露标准仍存在差异,业务模式相近的企业对于类似资源的数据资产处理方法不同,导致彼此间数据资产价值的可比性分析难度较大,数据资产入表的细节问题仍需期待相关政策与行业标准的完善。 数据价值链流通(五):数据资产交易 数据市场交易呈现“内冷外热”的分布模式,场内交易的体系化、标准化与场外交易的客制化、灵活度共同推动国内数据资产交易体系的完善 数据资产的产品化封装与市场化流通是数据要素价值释放的重要环节。随着数据经济的蓬勃发展,数据交易所作为由政府设立的官方数据交易平台,其设立数量、产品丰富度、入驻数商数量、平台覆盖维度等多方面表现提升显著,以“京沪广深贵”为代表五大头部交易所在交易规模、标准制定、资产分类、跨境合作等领域充分发挥了行业主导作用,推动国内数据资产场内交易体系的完善与“全国统一大市场+区域特色专区”的建设。虽然近年数据交易所的交易规模有所提升,但受到场内交易流程复杂、交流成本高、数据场内留痕、市场多样化不足等负面因素的影响,目前国内的数据交易呈现“内冷外热”的分布模式,“点对点”的场外交易依旧占据市场主导地位。与场内市场相比,数据资产的场外交易具备更强的灵活性与多样性,能够根据客户端的场景驱动定义、适配恰当的数据服务,推动市场内数据交易的流通与资源的快速对接,于24年初颁布的《“数据要素”x三年行动计划》将征求意见稿中的“场内交易大幅提升”调整为“场内交易与场外交易协调发展”,从政策角度认可了场外交易对于推动数据要素市场发展的重要意义,但如何在缺少透明化、标准化、集中化的市场中保障数据信息安全与合规交易成为新阶段行业发展面临的首要问题。此外,在没有法定中间商的情况下,如何确认数据产品各方的权属关系,合理、合法的分配利润也将成为影响场外交易持续、稳定、合规发展的关键。 数据价值链流通(六):数据资本化应用 以数据资产服务企业融资与参与股权投资成为业内最广泛的资本化运营模式,金融杠杆效应将同步扩大数据资产的价值属性与资本市场风险 近年数据要素的资本化应用成为数据价值释放的核心方式,与服务数据产品交易的资产化模式相比,数据要素资本化在价值变现路径与释放充分度方面更具优势,通过认可数据资产的货币价值与实用价值,优化数据密集型企业的资产负债结构,拓展低成本、高效率的融资渠道,为企业,特别是缺少传统资产抵押物的新兴科技企业,提供更便捷的融资方式,加速金融资源在科技、数据领域的流通与合理分配,实现“科技-产业-金融”的良性循环。此外,政府也从监管层面认可了数据资产的“投资用途”,赋予其与传统资产类似的实物属性,同时数据资产所包含的数据信息资源将服务企业的实体经营,在客户管理、运营优化、市场分析等多个场景提供量化指导。资本市场的杠杆作用在帮助数据资产提升自身价值的同时,也扩大了其负面因素带来的市场风险,对于数据资产价值的判断与动态评估成为把控数据资本化运营风险的关键。 数据价值链流通(七):数据资产通证化 将实物资产数字化与数字资产货币化相结合的数据资产通证体系,以数据连接实物与资本市场,实现从“真数据”向“金资产”的价值升级 数据资产通证化是目前数据要素价值应用的最高阶体现,与前几个阶段不同,数据资产通证化不仅围绕狭义的数据要素价值流通,而是在传统数据资产来源的基础上增加了实物资产的数字化环节,通过RWA(RealWorldAssets)将企业中无法衡量的业务积累与实物资产的相关权利转化为区块链中流通的数字资产,实现实体经济在数字经济体系下的价值映射,在此基础上,RDA(RealDataAssets)作为由上海数交所提出的、锚定实数融合实体资产的“升级版稳定币”,通过数据资产壳、自登共证、权威背书和行业标准四大创新模式,将区块链中流通的普通数据转化为具备稳定收益预期和融资能力的“金资产”,除了信贷融资与股权融资之外,以数据资产未来现金流为底层资产支持的数据资产ABS与RDA体系下境内、海外资产的对接融资渠道,都将成为推动数据要素价值化与多种要素融合发展的核心方式。为保障可信数据资产流通安全,上海数交所提出了以“一桥、两所、两轴”为底层架构的DCB(Dat-CapitalBridge)体系,结合交易底链、资产链与价值链的组合实现基础设施对于数据资产通证化有序推进的保障。 产业实践:各产业规模拆分 数据资源密集型产业成为数据要素市场的核心组成部分,具备“乘数效应”的金融业与“技术优势”的互联网共同占据约一半的市场份额 数据作为多产业体系中承载信息流、价值流与工作流的重要生产要素,随着其产品化、市场化、资产化体系的完善,合规场景下的价值开发与信息交换成为数据要素市场的重要实践场景,各产业通过对原生数据的整理与挖掘、产业间数据要素的交易与补充,形成服务于自身业务场景与产业发展的数字化价值体系。从各产业拆分的规模来看,金融行业作为近年数智化转型效果显著、数据价值多元化体系完善的数据密集型产业,或将以RWA、RDA、股债融资等资本形式占据约三分之一的数据要素市场规模。聚集大量线上数据资源的互联网产业将凭借其在数据流量引入与聚集、前沿技术开发及应用等领域的优势,成为占据市场约20%规模的第二核心产业。除此之外,通讯、制造、政务、医疗、交通等产业也将随着数据交易场景的完善与数据处理技术的成熟逐步提升自身数据产业规模,实现数据价值的深度释放与数智化业务场景建设。 实践场景(一):金融业 产业间数据联动极大的提升了金融机构在风控、营销、投资三大核心业务场景的实践表现,金融机构的数智化技术输出能力备受行业期待 “数据要素x”在金融行业的创新生态建设主要围绕多元数据的融合与跨行业金融活动的嵌入两方面展开,通过打通产业链、公共数据与金融数据之间的壁垒,将传统财务报表、抵押物等结构化数据与用户行为、社交媒体信息等非结构化数据相结合,实现金融场景数据与社交数据、物流以及物联网等产业端场景数据的互联互通,降低由于信息不对称、数据缺失对金融业务的负面影响,提升金融机构在信贷风控、营销拓客、产业投资等领域的业务表现,实现数智化对于金融服务能力与用户金融服务体验的提升。此外,金融机构作为数据资源与技术能力的持有方,其对于技术欠缺产业、中小企业的数智化转型推动能力受到广泛关注,《推动数字金融高质量发展行动方案》明确鼓励金融机构在技术能力、平台服务资源等领域的输出,以机构自身的科技优势助力中小企业的数智化转型。2024年年初,以北京、上海、广州、深圳、贵阳为代表的五大数交所陆续上架了2060款金融场景数据产业及服务,随着数据交易体系的完善以及数据处理技术的成熟,预计金融行业的数据要素规模将以约19.06%的复合增长率,于2028年突破1000亿元,成为推动国内数据要素市场发展的核心产业。 实践场景(二):工业制造业 以可信数据空间与高质量数据集为核心的工业制造业“数据要素x”实践将充分发挥业内数据红利,推动数智时代工业制造的产业升级 工业制造是城市产业发展的基石,工业数据是推动产业经济发展的重要驱动。数智时代,工业制造的产业升级需求将推动其对于跨企业、跨行业的数据资源需求,在高端制造业产品研发、运营流程科学决策及稳固产业链、供应链协同效应等业务场景中,工业数据的标准化、安全性与业务场景数据应用实践水平将成为影响产业升级效果与数智化表现的核心因素。随着区块链、生成式AI等前沿技术逐步成为工业制造的新质生产力,联动产业链上下游的可信数据空间与工业高质量数据集建设将推动工业制造业实现由“规模红利”向“质量红利”和“数据红利”的转型,预计未来产业整体在数据要素领域的市场规模将以约24.22%的复合增长率,由2025年的157亿增长至2028年的302亿,未来三年内实现产业规模的翻倍式增长。 实践场景(三):医疗健康业 医疗数据的合规应用将推动“三医”产业协同发展,如何保障个人健康数据的安全成为医疗产业数智化应关注的核心问题 随着我国大健康产业的蓬勃发展,以医疗、医保、医药为核心的“三医”产业数据联动与协同发展成为数智时代医疗产业发展的重要主题,从就诊流程的优化、预报结算的革新,到面对公共卫生防疫的早期预警与精准防控,以及后续应用“AI+”强计算与智慧涌现能力对非标准化医疗经验的数据归类与精准建模,医疗产业的数智化进程将推动产业模式实现由“经验传承”到“数据验证”的转变,医疗资源的配置能力与医疗服务效率将显著提升。此外,医疗数据体系的完善也将为保险产业提供更加丰富的数据资源支持,促进保险产品的个性化定制与“一站式”理赔流程的优化,推动“三医协同”与多层次医疗体系的健全,但同时医疗数据作为与个人信息紧密相连的生产要素,如何保障其跨产业应用的合规性与安全性将成为新阶段价值开发关注的焦点。从行业发展的整体规模来看,服务于医疗产业的数据要素规模将以约23.69%的复合增长率稳步提升,预计2028年将突破250亿元。 趋势一:高质量数据集建设 高质量数据集成为推动人工智能产业发展的关键要素,国内数据产业迈入从“单点突破”向“全域发展”的新阶段 高质量数据集是指将原始数据按照特定标准进行系统性采集、清洗、归类、标注、增强合成等智能化处理后形成的高价值、高密度、标准化的数据集合,能够为人工智能训练、产业数字化升级与区域性数字经济发展等场景提供信息内容明确、准确性强的数据资源支持,提升算力资源合理利用效率。随着基础模型开源成为业内主流,技术服务商之间在算力与算法方面的差距被逐步削弱,数据要素的质量成为决定大模型产品质量的关键因素。2025年5月《数字中国建设2025年行动方案》将人工智能高质量数据集、重点领域数据标注等领域作为重点布局对象,以《高质量数据建设指南》为代表的技术文件要求为高质量数据集建设提供标准参考,各地数据局也纷纷设立本年度高质量数据集建设目标、发布高质量集典型案例与奖励措施,通过推动多行业、零散数据要素的体系化、高质量建设,提升“人工智能+”产业发展。截至2025年上半年,我国7个数据标注基底已建设数据集524个,规模超过29PB,服务大模型163个。新阶段国家数据集将着力打造“数据标注+高质量数据集+模型+应用场景+市场化价值化”的闭环生态,推进数据要素市场配置改革和“人工智能+”行动力同向发力、同频共振。 趋势二:可信数据空间建设 以可信管控、资源交互、价值共创为核心的可信数据空间将成为新阶段保障数据要素流通与高价值应用的重要基础 可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的数据流通架构体系,类似“有围栏的数据沙箱”,数据资源能够在可信安全的空间内流通共享、授权计算,数据的提供方与使用方在“可用不可见”的前提下实现数据价值的共创。作为可信数据空间建设的元年,2025年以《可信数据空间发展行动计划(2024-2028年)》为代表的可信数据空间标准管理与试点方案陆续出台,推动企业、行业、城市、个人的可信数据空间建设,以及服务跨国科研、供应链协同、企业管理等应用场景下的跨境可信空间建设。2025年7月16日,国家数据局公布了首批可信数据空间创新发展试点名单,63个入选试点项目中涵盖了13个城市、22个行业以及28个企业的可信数据空间,2028年全国可信数据空间建设数量计划突破100个,初步形成与我国经济社会发展水平相适应的数据生态体系。 来源(公众号):艾瑞咨询
2026-01-20 18:41 148
❝ 上周五下午五点半,老张刚准备下班,产品经理突然冲到工位前:"张工张工!老板要看全国各区域的销售数据汇总,现在就要!" 老张抬头看了看窗外,心里一万头草泥马呼啸而过...华东的数据在杭州集群,华北的在北京集群,华南的在深圳集群,这要跨三个Doris集群做联合查询! 按照以前的套路,要么写JDBC Catalog慢慢等,要么就得临时把数据同步到一个集群——前者慢得让人怀疑人生,后者等数据同步完周末都过去了。 老张急忙翻阅了下 Doris 4.0.2版本的 release note,突然不紧不慢地说道:"给我半小时..." Doris跨集群查询的老大难,终于有解了 说起跨集群数据分析,做过大数据的人都知道这有多头疼。 你们公司是不是也这样:业务发展快了,一个Doris集群不够用,就搞了好几个。交易数据在A集群,物流数据在B集群,用户画像在C集群。 平时各自安好,但老板一句"我要看全局数据",技术团队就开始抓狂。 传统的JDBC Catalog确实能用,但用过的人都懂那个痛。 协议开销大得吓人,查询优化策略用不上,简单查询还行,遇到复杂的Join和聚合,性能能把人逼疯。 有个朋友跟我吐槽过,他们用JDBC Catalog跨集群查个订单履约率,单表聚合查询愣是跑了45秒,老板在会议室等得直拍桌子。 更要命的是,数据量一大,JDBC那套基于MySQL协议的玩法就彻底歇菜。 你看着查询进度条一点点爬,心里默念"快点快点",但它就是快不了。这不是咱技术同学偷懒,而是协议层面的先天不足! but,Doris团队这次是真狠,连自己都不放过。 他们大概也意识到,光支持Iceberg、Paimon、Hudi、JDBC...这些外部数据湖还不够,Doris自己跨集群访问性能不行,这个湖仓一体的故事就讲不圆。 于是乎,Doris Catalog应运而生,专门用来解决Doris集群之间的高效联邦查询。 测试数据更是让人眼前一亮。 在TPC-DS基准测试中,单表聚合查询场景下,Doris Catalog虚拟集群模式的查询耗时只有0.21秒,而JDBC Catalog需要40+秒——性能提升超过200倍。 这已然不是小打小闹的优化了,可谓是质的飞跃。多表关联查询也有42%的性能提升。虽然没有单表聚合那么夸张,但对于复杂业务分析来说,这个提升已经足够显著。 两种模式各显神通,按需选择 Doris Catalog提供了两种访问模式:Arrow Flight模式和虚拟集群模式。 这个设计思路挺有意思,不是一刀切的方案,而是让你根据实际场景灵活选择。 Arrow Flight模式的设计很聪明。 它让本地集群的FE节点生成查询计划,针对远端表生成单表查询SQL,然后通过Arrow Flight协议直接从远端BE节点拉取数据。 整个过程就像是在本地集群做了个"远程调用",简单直接。 这种模式特别适合那种查询逻辑简单、但远端集群规模大的场景。 比如你只是想从另一个集群拉取某张表的数据做个UNION操作,用Arrow Flight模式最合适不过。 协议开销小,传输效率高,不需要复杂的查询优化。 虚拟集群模式就更有意思了。 它把远端集群的BE节点当成虚拟BE,直接同步完整的元数据信息,然后生成全局统一的执行计划。 在Doris看来,两个集群的BE节点就是一个大集群,查询计划可以无缝分发执行。 这种设计带来的好处是显而易见的:所有Doris内表的优化策略都能用上,Runtime Filter、分区裁剪、列裁剪这些优化手段全部生效。 对于那种需要复杂Join和聚合的分析场景,虚拟集群模式是不二之选。 回到文章开头老张的故事,他用的就是虚拟集群模式。 配置Doris Catalog只需要一条SQL,指定远端FE的HTTP地址、Thrift地址、用户名密码,设置use_arrow_flight为false,就搞定了。 然后在查询时,用全限定名直接关联本地表和远端表,一条SQL解决战斗: -- 创建Doris Catalog,启用虚拟集群模式(复用内表优化) CREATECATALOGIFNOTEXISTS remote_ctl PROPERTIES ( 'type' = 'doris', -- 固定类型 'fe_http_hosts' = 'http://logistics-fe1:8030,http://logistics-fe2:8030', -- 远端FE HTTP地址 'fe_arrow_hosts' = 'logistics-fe1:8040,http://logistics-fe2:8040', -- 远端FE Arrow Flight地址 'fe_thrift_hosts' = 'logistics-fe1:9020,http://logistics-fe2:9020', -- 远端FE Thrift地址 'use_arrow_flight' = 'false', -- false=虚拟集群模式,true=Arrow Flight模式 'user' = 'doris_admin', -- 远端集群登录用户 'password' = 'Doris@123456', -- 远端集群登录密码 'compatible' = 'false', -- 集群版本接近(4.0.3 vs 4.0.2),无需兼容 'query_timeout_sec' = '30'-- 延长查询超时时间(默认15秒) ); -- 查询 SELECT local.region, SUM(remote.sales_amount) as total_sales FROM internal.sales_db.orders local JOIN remote_ctl.logistics_db.delivery remote ON local.order_id = remote.order_id WHERE local.create_date >= '2025-01-01' GROUPBY local.region; 这种写法和在单集群查询没什么区别,唯一的差别是多了个Catalog前缀。 但对于查询引擎来说,这背后的优化逻辑完全不同——它会智能地把计算下推到远端集群,减少数据传输量,最大化利用两边的计算资源。 有个做电商的小伙伴用Doris Catalog解决了订单履约率分析的问题。他们的订单数据在交易集群,履约数据在物流集群,以前用JDBC Catalog跑一次查询要好几分钟。换成Doris Catalog虚拟集群模式后,查询时间直接降到秒级,业务人员终于不用盯着进度条发呆了。 面对两种模式,很多人会纠结该用哪个: 其实选择逻辑很简单。 如果你的查询主要是简单的单表过滤、投影操作,或者需要跨集群做UNION,那Arrow Flight模式就够用了。它轻量、高效,不需要同步完整元数据,对FE内存压力小。 但如果你的分析涉及复杂的Join、聚合操作,或者需要依赖Doris的各种查询优化特性,那毫不犹豫选虚拟集群模式。虽然它会同步元数据,对FE内存有一定要求,但换来的性能提升是实打实的。 还有一个考虑因素是集群版本。如果你的多个Doris集群版本不一致,用Arrow Flight模式更稳妥,兼容性更好。 结语 Doris Catalog目前还是实验性特性,官方明确表示会持续优化。 说到底,Doris Catalog的出现,让湖仓一体这个概念更加完整了。 以前Doris可以无缝对接各种外部数据湖,现在连自己的多个集群也能高效互联,真正做到了无界。 数据在哪里不重要,重要的是你能不能高效地查询和分析它。 这种对内对外都不妥协的态度,才是一个成熟数据库应有的样子吧。 来源(公众号):一臻数据
2026-01-15 14:16 76
大型语言模型展现出的智能程度是以往软件所无法比拟的。你可以让它解释复杂的主题、改写电子邮件或帮助你理清思路,而它的回答往往听起来冷静、自信且深思熟虑。这自然而然地引出了人们不断追问的问题:人工智能真的在思考吗? 诚实的答案很微妙。这些系统的思维方式与人类不同,但它们所做的事情也远不止于简单地重复记忆的文本。要理解人工智能为何如此人性化,就需要了解这些模型真正接受过哪些训练,以及它们没有接受过哪些训练。 现代人工智能模型的基本原理是训练预测下一个词。在训练过程中,模型会接触大量文本,并反复学习如何回答一个简单的问题:根据目前为止的所有信息,下一个最有可能出现的词是什么?随着时间的推移,这个简单的目标会迫使模型内化语言模式、事实、推理方式,甚至人类解释事物的方式。 这就是为什么“这只是自动补全”的解释既正确又具有误导性。正确之处在于,预测确实是其核心机制。误导之处在于,当预测规模扩展到数万亿个单词和数十亿个参数时,系统会开始构建一些内部结构,这些结构看起来很像概念。并非人类意义上的概念,而是稳定的模式,当模型处理诸如数字、城市、情感或因果关系之类的概念时,这些模式会持续激活。 如果你让模型解决一个多步骤问题,它通常会生成一些类似于推理过程的中间步骤。它可能会定义术语、探索其他方案,或者排除之前的可能性。这一切的发生并非因为模型本身的目标就是给出正确的答案。而是因为在它所训练的数据中,正确的答案往往伴随着连贯的解释链。生成这些解释链会增加后续步骤产生合理结果的概率。 换句话说,推理行为的出现是因为它对预测有用,而不是因为模型知道自己在推理。 这种区别至关重要。人类通过推理得出结论。语言模型之所以生成符合推理逻辑的文本,是因为统计上这种文本能带来更好的自动补全效果。因果关系的方向颠倒了。 如果这听起来有些含糊不清,那么最近的可解释性研究已经开始让这些内部模式显现出来。在Anthropic及其合作者的研究中,研究人员开发了一些工具,可以追踪信息在模型内部的流动方式,类似于生物学家使用显微镜观察活体生物体内的细胞。 我们基于近期研究成果,引入了一套用于识别特征并绘制特征间连接图的新工具——类似于神经科学家绘制大脑的“线路图”。我们大量运用了一种名为归因图的工具,它使我们能够部分追踪模型将特定输入提示转化为输出响应所使用的中间步骤链。 如果将模型的内部活动想象成一种隐藏的计算网络,那么这些归因图就如同图表,展示了模型决定写作内容的主要路径。研究人员甚至用类似于简化电路图的图表来可视化这些路径,其中每个节点代表一个学习到的概念,而边则显示了不同概念如何影响输出。 论文中重点介绍的一个例子涉及基本的地理推理。当给出“事实:达拉斯所在的州的首府是……”这样的提示时,模型会补全为“奥斯汀”。研究人员利用他们的工具表明,在幕后,该模型实际上使用了中间概念步骤来得出这个答案。它首先将“达拉斯”表示为位于“德克萨斯州”,然后以此为基础确定“奥斯汀”是首府,所有这些步骤都发生在最终文本出现之前。 Haiku 用一个“多步骤”图表来完成句子,顺序为达拉斯 → 德克萨斯州 → 奥斯汀。 该模型内部执行真正的两步推理,与快捷推理并存……决定说奥斯汀取决于一系列中间计算步骤。 在研究的另一部分,研究人员发现模型在创作诗歌时表现出惊人的特性。在生成诗歌的每一行之前,模型内部的电路通常会激活潜在的押韵词,并利用这些潜在的押韵目标来构建诗行。本质上,尽管模型的目标函数仅用于预测下一个词,但它却能提前规划下一个词之后的内容。 在开始编写每一行之前,该模型会识别出可能出现在句末的押韵词。这些预先选定的押韵选项随后会影响模型构建整行的方式。 另一项令研究人员感到惊讶的发现是,某些内部模式在不同语言中是共通的。当相同的提示被翻译成不同的语言时,模型内部计算中会激活类似的回路路径。这暗示了该模型使用了一种抽象表征,这种表征并非严格局限于单一的人类语言,而是映射到跨语言共享的概念结构。 我们发现该模型使用了特定于语言的电路和抽象的、与语言无关的电路的混合……与较小、功能较弱的模型相比,Claude 3.5 Haiku 中与语言无关的电路更为突出。 这一切都很重要,因为它有助于解释为什么人工智能的回答在多句话中往往显得连贯一致。当你提出问题时,模型并非盲目猜测下一个词。它通常会运用内部对答案类型的理解,然后将其翻译成类似人类语言的表达方式。 但这并不意味着模型理解了它所表达的意思。一个便于理解的方法是想象一个人读过几乎所有书籍,但却没有任何直接的现实世界经验。这个人或许能够解释悲伤是如何产生的,法律体系是如何运作的,或者一家初创公司应该如何运营,而这一切仅仅是通过对所读内容进行模式匹配来实现的。这种解释或许非常精辟,但仍然是二手信息。 这有助于解释一个常见的误解。人们常常认为,如果一个模型能够始终如一地谈论某个概念,那么它一定像人类一样“拥有”这个概念。实际上,模型学习了一套内部表征,这些表征有助于在合适的语境中使用正确的词语。这些表征可能非常稳定,但它们并非基于经验、意图或理解。 这也是为什么模型有时会显得自信满满,但实际上却可能出错的原因。自信只是文本中的一种模式。模型已经学习到,权威的解释往往遵循某些特定的语言形式。如果这些形式在统计学上是合理的,模型就会使用它们,而不管其背后的内容是否正确。 从这个角度来看,现代人工智能系统的行为就更容易理解了。它们之所以强大,是因为它们能将海量的人类知识压缩成一种可以按需重组的形式。它们的局限性在于,它们缺乏人类用来发现错误、寻求澄清或根据现实世界反馈更新信念的机制。 我认为这种框架比任何极端观点都更有用。这些系统并非意识系统,也与意识相去甚远。但它们也绝非肤浅的技巧。一个单一的训练目标就能产生支持翻译、解释、类似计划的行为和抽象思维的内部结构,这的确令人惊叹。 理解其运作原理并非仅仅是学术探讨,它会影响我们如何负责任地部署这些系统。一旦你不再假设模型“知道”何时正确,你就会开始设计能够验证、约束和巩固其输出的系统。你不再依赖流畅性来判断正确性,而是将其视为一种表面信号。 人工智能本身并不思考。但它所产生的行为与从外部视角观察到的思考方式存在重叠。这种重叠既强大到足以发挥作用,也危险到需要我们谨慎对待。我认为,对于任何想要认真研究这些系统的人来说,同时认识到这两点才是正确的出发点。 来源(公众号):数据驱动智能
2026-01-14 11:31 70
近日,谷歌在《2026 AI智能体趋势报告》(AI agent trends 2026)中指出,决定商业格局的变革已悄然发生,AI智能体正从“辅助工具”跃升为“核心生产力引擎”。 报告基于对全球3466位企业决策者的调研,融合了谷歌云与DeepMind的内部洞察,并整合了TELUS、Salesforce等知名企业的实际落地经验,提出了五大核心趋势,揭示了2026年AI智能体将如何重构员工角色、业务流程、客户体验、安全体系与组织能力,最终推动企业实现“AI优先”的根本性转型。五大趋势构建了企业2026年AI智能体战略的完整蓝图: 面向每位员工,赋能个体实现最高生产力; 面向每个工作流,以落地型智能体系统驱动业务运转; 面向每位客户,以礼宾式体验创造极致满意度; 面向安全领域,从被动告警转变为主动行动; 面向规模化发展,人才技能提升是商业价值的终极驱动力。 趋势1:面向每个员工——从“任务执行者”到“智能体协作者” 在AI发展的背景下,2026年最为深刻的职场变革,并非效率的提升,而是以员工为核心的工作模式重构,其核心逻辑在于从“指令式”向“意图式”的工作革命。计算机交互从“人类下达指令(如分析表格、编写代码)”转向“人类明确目标,AI智能体规划路径”。员工的核心角色从“亲自完成琐事”转变为“智能体团队的战略指挥者与质量监督者”。 数据支撑: 52%的生成式AI应用企业已将AI智能体投入生产,覆盖多元场景; 应用占比前五位:客户服务(49%)、营销/安全运营(46%)、技术支持(45%)、产品创新/生产力提升(43%)。 报告提到在“人类+智能体”的协同模型中,员工成为“智能体的人类主管”,工作重心聚焦于:任务委派:识别重复性、事务性工作(如数据录入、基础报告),并分配给专用智能体;目标设定:明确期望结果,为智能体指明方向;战略指导:运用人类判断力处理AI无法应对的复杂决策(如品牌调性把控、客户情绪回应);质量验证:作为最终环节,确保智能体输出的准确性、合规性与适配性。 报告设想了一个营销经理的典型场景,2026年,营销经理无需再陷入文案撰写、数据整理等琐碎工作,而是借助五大专业智能体实现效能倍增: 一是数据智能体:筛选数百万结构化与非结构化数据,挖掘市场趋势中的可行动模式; 二是分析智能体:24小时监控竞品动态、社交媒体情绪,每日推送一页式核心洞察报告; 三是内容智能体:根据每周战略主题,以品牌语调生成社交媒体文案与博客文章,供经理审核; 四是报告智能体:连接企业分析平台,每周五输出营销活动数据摘要; 五是创意智能体:基于营销策略与文案,生成配套图片与视频素材。 趋势2:面向每个工作流——“数字装配线”驱动端到端自动化 如果说面向员工的智能体是“单兵作战”,面向工作流的智能体系统则是“集团军协同”。2026年,企业将通过“数字装配线”,由人类指导、多智能体协同的端到端工作流,重构采购、客服、安全运营等核心流程,实现7×24小时规模化高效运转。 数据支撑:88%的智能体早期采用者,已在至少一个生成式AI场景中获得正投资回报率。 核心价值:不仅提升单一流程效率,更能整合网络运营、现场服务、客户呼叫中心等孤立职能,实现跨部门无缝协作。 报告提到,“数字装配线”的实现,依赖两大核心协议的突破:其一是Agent2Agent(A2A)协议,开放式标准,让不同开发商、不同框架、不同组织的AI智能体实现无缝集成与协同,例如媒体公司的智能体可直接对接零售商智能体,展示流媒体内容中的产品详情与定价;其二是Model Context Protocol(MCP)协议,解决LLM的两大局限(知识固化、无法联动外部),通过标准化双向连接,让AI模型轻松对接CloudSQL、BigQuery等数据库与数据平台,获取实时数据并执行操作。 报告提到了Salesforce、Elanco等厂商的案例,其中,Elanco(全球动物健康领导者)通过AI模型,自动处理每个生产基地2500余份非结构化流程制度类文档,提取关键信息、降低因信息过时或前后矛盾可能引发的风险,避免了高达130万美元的生产力损失。 趋势3:面向每个客户——礼宾式体验重构客户互动 过去十年,客户服务自动化的核心是“预制聊天机器人”,仅能解答简单问题;2026年,随着大模型的发展,将从“被动响应”到“主动预判”的服务升级,将催生“礼宾式智能体”,能够记住客户偏好、关联历史交互,提供个性化、人性化的一对一体验,甚至主动预判并解决问题。 数据支撑:49%的智能体应用企业,已将其用于客户服务与体验优化。 客户无需重复提供订单号、身份信息,智能体可基于企业CRM、物流数据库等“落地数据”,直接精准响应需求。 报告提到了物流智能体主动服务的场景,物流智能体监测到配送失败后,自动执行三步操作。确认故障原因(配送车故障)、重新调度次日最早配送时段、发放10美元服务抵扣券,再通过短信告知客户并确认新时间,无需客户主动联系。 值得注意的是,报告强调个性化体验并非局限于C端,在制造业车间,智能体可针对班组绩效差异,分析设备参数并提供优化建议(如调整机器设定点、安排专项培训);在医疗领域,智能体可整合影像、电子病历、理赔数据,为临床医生提供主动洞察,推动医疗系统从“被动响应”向“预测性健康系统”转型。 趋势4:面向安全——从“告警过载”到“智能行动” 报告提到,安全运营中心(SOC)的分析师面临“告警疲劳”困境,82%的分析师担忧因告警数量过多而遗漏真实威胁。传统安全编排自动化响应(SOAR)解决方案仅能实现增量自动化,而AI智能体凭借“推理-行动-观察-调整”的闭环能力,将安全运营从“被动响应”升级为“主动防御”,成为安全团队的“超级助手”。 数据支撑:46%的智能体应用企业已将智能体应用于安全运营和网络安全领域,以增强其网络安全防护、检测、响应及预测能力。 核心价值:不仅提升威胁检测与响应速度,更能将分析师从重复的告警筛选工作中解放,聚焦战略防御。 AI智能体驱动的SOC,通过任务型智能体协同完成安全闭环:检测告警:智能体初步筛选海量告警,识别高风险信号;分诊调查:结合安全遥测数据,深入分析威胁来源与影响范围;威胁研究与狩猎:在分析师指导下,主动搜寻潜在风险;响应工程:制定并执行解决方案;升级与建议:复杂威胁自动升级至人类团队,提供完整分析摘要供决策。 安全运营周期图展现了人类与智能体的协同模式:AI智能体负责数据管理、分诊、分析等战术任务,人类则聚焦于升级决策、规则优化与战略防御。 趋势5:面向规模化——技能提升是商业价值的终极驱动 当企业聚焦AI模型、平台等技术时,容易忽视最核心的要素——人。2026年,AI的普及将加剧技能缺口,专业技能的“半衰期”已缩短至4年,科技领域更是仅为2年。只有通过系统化的技能提升,让员工掌握“智能体协作能力”,企业才能真正释放AI的规模化价值。 数据支撑: 82%的决策者认为,技术学习资源能帮助企业在AI领域保持领先; 71%的受访企业表示,参与学习资源后收入实现增长; 84%的员工希望组织更重视AI技能培养,61%的AI应用企业员工每日使用AI。 AI学习的五大支柱: 确立目标:设定可衡量的AI工具目标(如“100%员工在工作流中使用智能体”),确保与组织整体需求对齐; 获得支持:组建三大核心利益相关者团队——“赞助者”(提供资金与高层支持)、基层推动者(传播AI价值、收集员工想法)、AI加速器(将想法转化为实际解决方案); 持续推进与奖励创新:搭建“数字枢纽”,通过游戏化想法交流、排行榜、季度奖励等形式,鼓励员工分享AI应用案例,保持参与热度; 融入日常工作流:举办内部“马拉松”,让团队在协作实践中掌握AI工具的使用; 以可信框架应对风险:培训员工识别AI相关威胁(如AI驱动的社工攻击),明确数据使用边界,将安全责任落实到每个人。 来源:谷歌云《AI agent trends 2026》报告
2026-01-06 10:39 495
热门文章