1. 为什么大语言模型(LLMs)会“过度自信” 现代LLMs在数学、科学甚至代码推理方面表现惊人,这得益于一种称为带验证奖励的强化学习(RLVR)的训练范式。在RLVR中,模型生成答案,自动验证器检查其正确性,并据此给予奖励(或惩罚)。这一循环使模型无需人工编写的奖励信号即可自我改进。 但这里存在一个隐藏的问题。 在RLVR训练中,大多数流程会反复采样相同的“初始状态”(即原始问题)。随着模型学会解决这一特定提示分布,其策略熵(衡量其下一个token选择多样性的指标)会急剧下降。简而言之,模型开始依赖少数安全的答案模式,变得过度自信且低多样性。结果是熵崩溃:探索枯竭,学习停滞,进一步训练收效甚微。 研究人员尝试用提高采样温度、添加KL惩罚或裁剪高协方差token等技巧修补此问题。这些方法虽有一定效果,但通常需要针对任务精心调整超参数,且仍依赖同一组静态提示。我们真正需要的是在模型学习过程中向训练数据注入真正的新颖性。 2. 如何让模型保持“好奇” 当语言模型生成解决方案时,有时会真正犹豫该写哪个词或数学运算符。这些时刻反映为高token级熵——模型“举棋不定”。 如果我们在这些高熵点精确干预,可以在分叉前截断部分生成的答案,保留导致不确定性的连贯前缀,并将该前缀附加到原始问题后重新提示模型。模型现在面临一个略有不同的初始上下文——一个它从未见过的上下文——因此其后续决策被迫探索新的推理路径。 这就是CURE(关键token引导的重新拼接)的核心。CURE不调整损失函数或裁剪梯度,而是动态重塑数据分布,引导模型转向未充分探索的状态,从而延缓熵崩溃。 3. CURE简述——两个阶段 阶段1(探索)。 采样器被替换为以下流程:首先生成原始提示的多个 rollout,计算每个token的熵,选择一个关键token(从top-K中均匀采样的最高熵token),提取该token前的前缀,将其与原始问题拼接,然后从新提示生成额外 rollout。原始和重新提示的 rollout 组成训练组,输入GRPO风格的裁剪替代损失。 阶段2(利用)。 探索阶段后,训练与标准RLVR完全相同:模型在原始问题上微调(无重新拼接)。由于策略已接触更丰富的初始状态,现在可以安全地将熵缩减至确定性高精度状态,而不会崩溃。 4. 方法深入解析(阶段1) 以下是探索阶段的逐步说明,非专业人士也能理解。 采样初始 rollout 对训练集中的每个问题q,用当前策略π₀生成N₁(如4个)候选答案。 计算token级熵 生成每个答案时,模型在每一步对词汇表分配概率分布。该分布的熵, 量化其在token位置t的“不确定性”。高Hₜ表示模型在多个合理选项中犹豫。 选择关键token 按Hₜ排序所有位置。 取top-K(如K=20)最高熵位置。 从中均匀采样得到随机关键索引t⁎。 创建前沿前缀 提取前缀p = answer₁…answer₍ₜ⁎₋₁₎(关键token前的所有内容)。 重新拼接 构建新提示 其中“||”表示简单拼接。 生成重新提示的 rollout 从每个精炼提示q′生成N₂(如3个)额外答案。 组构建 对每个原始问题q,现在有一个组 原始重新提示的 该组输入GRPO风格的裁剪替代损失: 动态过滤(DAPO技巧) 丢弃并重新采样仅含全正确或全错误答案的组,确保每批包含混合信号。 优化 用AdamW(学习率=1e-6,无熵或KL正则化)最小化损失。故意省略KL项,因为重新拼接前缀被视为外生干预——无梯度流过,模型仅学习对新上下文的反应。 阶段1结果: 模型的策略熵在探索中实际增长,同时习得的知识融入权重。后续利用阶段后,熵适度下降(评估温度0.6时约30%),但准确率比仅用阶段1的基线提高约7%。 5. 实验 在六个标准数学推理基准上,CURE始终优于先前的RLVR方法。第一阶段(探索)后,多数数据集准确率绝对提升约2–3%。最终(利用)阶段表现最佳: 六基准平均准确率从阶段1后的 52.1% 升至阶段2后的 54.3% ——绝对提升约2%,相对最强RLVR基线改进约5%。 熵轨迹显示,探索阶段达到所有测试方法的最高策略熵,利用阶段平滑降低熵,同时高于DAPO或GRPO的平台期。定性分析(生成文本的词云)显示阶段1后连接词(“因此”“验证”等)使用更丰富,符合CURE鼓励更广推理路径的假设。 6. 结论——“好奇”LLMs的配方 CURE证明,一种以数据为中心的微调——在模型自身犹豫时刻重新提示——可显著延缓熵崩溃,并在挑战性推理基准上转化为真实性能提升。因其仅需两个额外超参数(rollout数量)和top-K设置,易于采用、计算廉价且兼容任何RLVR框架。 来源(公众号):AI Signal 前瞻
2025-08-28 23:11 619
数据要素行业丨研究报告 核心摘要: 数据作为第五生产要素由于其非竞争、可复制、无限增长与供给的特性,其价值挖掘流程的复杂程度远高于其他传统生产要素,从数据来源的合法性、权属划分到后续的价值评估与增值管理,数据要素价值的提升对于政策明晰的制度框架与实施路径有较高依赖,随着市场化体系的健全,以地方性数据交易机构、数商为代表的产业模式正逐步成为推动数据要素市场发展的核心,以“政产联动”建立良好的供数、用数生态,促进“供得出、流得动、用得好、保安全”的阶段性目标达成。 近况解读:国内数据要素行业现状分析 在政策指导与产业建设的共同作用下,以数据、科技与基建为核心的数据要素市场体系逐步完善,推动行业向更高价值的“政产联动”迈进 政策剖析:近年数据要素行业政策解读 数据产业链价值流通体系的政策性完善与地方性数据体系的健全成为国内数据要素价值链流通的重要保障,数字产业进入“质量提升”新阶段 规模核算:中国数据要素行业市场规模 数字经济核心产业成为推动国内整体经济体系发展的重要驱动,预计国内数据要素市场将以约20.26%的复合增长率于2028年突破3000亿元 近年国内数据要素产业发展呈现稳步增长态势,中国数字经济规模由2017年的27.2万亿增长至2023年的53.9万亿,六年整体规模翻了一倍,复合增长率约为12.07%。2024年以数字产品制造业、数字技术应用业为代表的数据经济核心产业增加值达到13.49万亿元,约为同年期GDP的10%,成为推动国内经济整体发展的重要驱动力。随着数据产业标准化体系的完善、创新案例与产业试点规模的扩充以及服务前沿技术场景的外延价值提升,国内数据要素行业规模将以约20.26%的复合增长率保持高速增长,预计2025年整体规模将达到2000亿左右,2028年将正式突破3000亿。其中以数据加工与分析为核心的数据处理环节,将成为数据要素产业规模占比最高的细分产业,预计2028年其整体规模即将达到1440亿元。 数据要素价值流通体系建设 以前沿技术能力与监管合规体系为支撑,围绕数据要素价值阶段性开发的流通链路体系建设 数据价值链流通(一):数据合规与确权 以“数据二十条”为基础的数据要素权属体系建设是保障数据价值链高效流通的重要前提,监管刚性更强的确权法律体系备受业内期待 随着数字经济的发展与数字中国战略的实施,数据作为“第五大生产要素”其资产化流通链路的完善与价值释放体系的建设成为当前国内市场的关注重点,清晰的数据要素权属制度与统一的数据资产登记体系将成为保障数据要素价值链建设的重要前提。但由于数据资产的非损耗、非排他与非竞争属性,导致传统生产要素的分配模式无法在数据要素市场套用,建立专属于数据资产的权属划分体系成为推动行业发展的“当务之急”。自2022年国务院颁布“数据二十条”政策以来,国内数据要素的确权制度体系开始逐步完善,“数据二十条”政策不仅明确了以公共数据为代表的三大数据源的分类分级确权制度,还将数据资源的持有权、加工使用权与产品经营权进行了划分,力求保障数据价值链每位参与者的固有权益,为建设合规高效的数据流通交易制度与安全可控的数据治理体系奠定基础,后续国家发改委、国家数据局及各地方数据管理机构陆续颁布了围绕数据管理、数据资源授权与数据知识产权登记等条例,进一步完善国内数据市场确权、登记体系。但在实践过程中,公共数据开放度不够、企业数据流通受阻、自产自用以及个人数据信息边界不清、合规使用标准模糊等问题依旧存在,此外单一维度的数据分类也难以兼顾大数据时代下对于数据安全、经济效率与公共利益的三方追求,执行稳定性与刚性更强、适配于多样化应用场景的数据要素权属法律体系建设,成为新时代改善确权矛盾、提升数据使用效率的关键。 数据价值链流通(二):数据登记 数据登记的管理方式和责任单位与其形态密切相关,“1+3”的政策体系与资源登记枢纽共同构建国内公共数据资源管理的基本框架 数据产权登记作为保障数据资产权属划分、促进数据价值释放的重要环节,其核心工作原理是在数据确权的基础之上,由登记机构将数据资产的信息与权属情况审核、登记、公示,之后发放登记证书,作为日后数据交易、融资抵债、会计核算等资产化、资本化场景的应用依据。根据数据资源、数据产品及数据资产三类数据要素的形态差异,负责登记的机构也存在差别,根据地区性数据要素登记管理办法,数据资源(包括数据知识产权)的登记工作由相关行政事业单位负责,强调对于数据资源及信息的保护,而经济价值更显著的数据产品及数据资产则由数据交易机构确认登记,意在推动数据要素的市场化流通与创新数据资产的融资应用。在登记的数据当中,公共数据作为规模庞大、潜在价值丰富的核心数据资源体,如何对其实现高效的开发、应用成为现阶段国内数据行业的关注要点。针对于此,国家发改委与国家数据局颁布了一系列围绕公共数据资源登记管理、授权运营、价格形成机制的指导政策,构建起以《中共中央办公厅 国务院办公厅关于加快公共数据资源开发利用的意见》为核心的“1+3”政策体系,推动国内公共数据资源管理进入“有规可依”的新时代,通过“一个标准、两级平台”的建设路径,以国家公共数据资源登记平台作为全国一体化公共数据资源登记的“总枢纽”,对接各省级公共数据资源平台,打破地区与部门间的“数据隔阂”,实现公共数据登记资讯的互联互通。 数据价值链流通(三):数据价值评估 数据评价政策体系建设日渐完善,公共数据资源量化标准成为业内重要的参考标杆,以价值易变性为代表的实践性定价难题有待后续解决 价值评估作为在数据要素确权与登记的基础上保障数据价值挖掘与市场化流通的重要节点,其评价体系的准确性与完善度将成为保障数据要素交易、相关利益分配与激励机制确立的基础,是推动数据要素价值释放与持续创造性建设的关键。自2019年起,《资产评估专家指引第9号——数据资产评估》的发布开启了国内数据资产的计量时代,数据评估的对象、方法及报告的编纂形式有了政策性依据,后续《数据资产评估指导意见》与《企业数据资源相关会计处理暂行规定》进一步提升了数据评估的实践性,在评估对象、操作要求、评估方法、会计处理等方面提供了更详实的参考依据。于今年6月最新发布的《公共数据资源社会价值与经济价值评价》直接将视角聚焦公共数据资源的社会与经济价值,为公共数据的价值评估提供了客观、可量化的指标体系,填补了领域标准的空白。 随着数据评价逐步由政策引导迈向产业实践,数据资产的非实体性、价值易变性等传统实物资产不具备的异质性特征,导致实际价值评估流程的难度与复杂程度远高于预期,数据价值随产品化建设与场景应用的不同而动态变化,在完成初步价值评估之后贯穿数据资产生命周期的阶段性评估与价值调整,将成为数据产品价值精准性的重要保障。作为流通商品,国内数据市场的供需关系也将极大的影响到数据产品的价值,市场公允价值评估对于该行业的信息透明度与传输效率提出了更高的要求,此外,在确定数据价值模型的输入参数中,偏执因素、折现率、未来收益等部分指标的数值确定依赖于行业专家的主观经验判断,如何确保选择的模型、输入参数与当前使用场景的适配程度,需要政策性定价体系的进一步完善与标杆案例的深度指导。 数据价值链流通(四):数据资产入表 数据资产入表拉动数据市场、资本市场多层经济效应,由数据资产价值波动带来的衍生资本风险应受到业内重视 数据资产入表是数据要素资本化实践的核心环节,也是近年国内数据要素市场关注的热门话题。自2024年1月1日起,《企业数据资源相关会计处理暂行规定》的实施标志着我国数据资产入表正式迈入制度化新时代,在完成数据资源盘点、合规审查与价值评估之后,按照会计处理的要求将数据资源以无形资产、开发支出、存货等形式计入财务报表,实现数据资源从“隐性资产”向“显性资产”的转化,在改善资本负债结构、提升企业融资增信方面效果显著,是奠定数据资本化运作的重要环节。自2024年起上市企业新增数据入表数量逐步提升,涉及包括信息传输、软件和信息服务、制造业、金融业等多个领域,企业的数据治理与场景深化能力进一步提升。从入表资产登记的使用场景来看,对外提供的产品或服务、内部降本增效与AI大模型的开发成为三大主流应用场景,而选择在数据交易所产品登记、上架的企业比例不高,整体交易流通的活跃度不达预期。目前市场对于入表数据资产的资本化应用程度远高于最初设想的产品端应用,如何管理数据资产资本化风险、推动数据产品市场发展将成为新阶段的重要课题。此外,在“强制披露+资源披露”的要求下, 业内数据入表信息的披露标准仍存在差异,业务模式相近的企业对于类似资源的数据资产处理方法不同,导致彼此间数据资产价值的可比性分析难度较大,数据资产入表的细节问题仍需期待相关政策与行业标准的完善。 数据价值链流通(五):数据资产交易 数据市场交易呈现“内冷外热”的分布模式,场内交易的体系化、标准化与场外交易的客制化、灵活度共同推动国内数据资产交易体系的完善 数据资产的产品化封装与市场化流通是数据要素价值释放的重要环节。随着数据经济的蓬勃发展,数据交易所作为由政府设立的官方数据交易平台,其设立数量、产品丰富度、入驻数商数量、平台覆盖维度等多方面表现提升显著,以“京沪广深贵”为代表五大头部交易所在交易规模、标准制定、资产分类、跨境合作等领域充分发挥了行业主导作用,推动国内数据资产场内交易体系的完善与“全国统一大市场+区域特色专区”的建设。虽然近年数据交易所的交易规模有所提升,但受到场内交易流程复杂、交流成本高、数据场内留痕、市场多样化不足等负面因素的影响,目前国内的数据交易呈现“内冷外热”的分布模式,“点对点”的场外交易依旧占据市场主导地位。与场内市场相比,数据资产的场外交易具备更强的灵活性与多样性,能够根据客户端的场景驱动定义、适配恰当的数据服务,推动市场内数据交易的流通与资源的快速对接,于24年初颁布的《“数据要素”x三年行动计划》将征求意见稿中的“场内交易大幅提升”调整为“场内交易与场外交易协调发展”,从政策角度认可了场外交易对于推动数据要素市场发展的重要意义,但如何在缺少透明化、标准化、集中化的市场中保障数据信息安全与合规交易成为新阶段行业发展面临的首要问题。此外,在没有法定中间商的情况下,如何确认数据产品各方的权属关系,合理、合法的分配利润也将成为影响场外交易持续、稳定、合规发展的关键。 数据价值链流通(六):数据资本化应用 以数据资产服务企业融资与参与股权投资成为业内最广泛的资本化运营模式,金融杠杆效应将同步扩大数据资产的价值属性与资本市场风险 近年数据要素的资本化应用成为数据价值释放的核心方式,与服务数据产品交易的资产化模式相比,数据要素资本化在价值变现路径与释放充分度方面更具优势,通过认可数据资产的货币价值与实用价值,优化数据密集型企业的资产负债结构,拓展低成本、高效率的融资渠道,为企业,特别是缺少传统资产抵押物的新兴科技企业,提供更便捷的融资方式,加速金融资源在科技、数据领域的流通与合理分配,实现“科技-产业-金融”的良性循环。此外,政府也从监管层面认可了数据资产的“投资用途”,赋予其与传统资产类似的实物属性,同时数据资产所包含的数据信息资源将服务企业的实体经营,在客户管理、运营优化、市场分析等多个场景提供量化指导。资本市场的杠杆作用在帮助数据资产提升自身价值的同时,也扩大了其负面因素带来的市场风险,对于数据资产价值的判断与动态评估成为把控数据资本化运营风险的关键。 数据价值链流通(七):数据资产通证化 将实物资产数字化与数字资产货币化相结合的数据资产通证体系,以数据连接实物与资本市场,实现从“真数据”向“金资产”的价值升级 数据资产通证化是目前数据要素价值应用的最高阶体现,与前几个阶段不同,数据资产通证化不仅围绕狭义的数据要素价值流通,而是在传统数据资产来源的基础上增加了实物资产的数字化环节,通过RWA(RealWorldAssets)将企业中无法衡量的业务积累与实物资产的相关权利转化为区块链中流通的数字资产,实现实体经济在数字经济体系下的价值映射,在此基础上,RDA(RealDataAssets)作为由上海数交所提出的、锚定实数融合实体资产的“升级版稳定币”,通过数据资产壳、自登共证、权威背书和行业标准四大创新模式,将区块链中流通的普通数据转化为具备稳定收益预期和融资能力的“金资产”,除了信贷融资与股权融资之外,以数据资产未来现金流为底层资产支持的数据资产ABS与RDA体系下境内、海外资产的对接融资渠道,都将成为推动数据要素价值化与多种要素融合发展的核心方式。为保障可信数据资产流通安全,上海数交所提出了以“一桥、两所、两轴”为底层架构的DCB(Dat-CapitalBridge)体系,结合交易底链、资产链与价值链的组合实现基础设施对于数据资产通证化有序推进的保障。 产业实践:各产业规模拆分 数据资源密集型产业成为数据要素市场的核心组成部分,具备“乘数效应”的金融业与“技术优势”的互联网共同占据约一半的市场份额 数据作为多产业体系中承载信息流、价值流与工作流的重要生产要素,随着其产品化、市场化、资产化体系的完善,合规场景下的价值开发与信息交换成为数据要素市场的重要实践场景,各产业通过对原生数据的整理与挖掘、产业间数据要素的交易与补充,形成服务于自身业务场景与产业发展的数字化价值体系。从各产业拆分的规模来看,金融行业作为近年数智化转型效果显著、数据价值多元化体系完善的数据密集型产业,或将以RWA、RDA、股债融资等资本形式占据约三分之一的数据要素市场规模。聚集大量线上数据资源的互联网产业将凭借其在数据流量引入与聚集、前沿技术开发及应用等领域的优势,成为占据市场约20%规模的第二核心产业。除此之外,通讯、制造、政务、医疗、交通等产业也将随着数据交易场景的完善与数据处理技术的成熟逐步提升自身数据产业规模,实现数据价值的深度释放与数智化业务场景建设。 实践场景(一):金融业 产业间数据联动极大的提升了金融机构在风控、营销、投资三大核心业务场景的实践表现,金融机构的数智化技术输出能力备受行业期待 “数据要素x”在金融行业的创新生态建设主要围绕多元数据的融合与跨行业金融活动的嵌入两方面展开,通过打通产业链、公共数据与金融数据之间的壁垒,将传统财务报表、抵押物等结构化数据与用户行为、社交媒体信息等非结构化数据相结合,实现金融场景数据与社交数据、物流以及物联网等产业端场景数据的互联互通,降低由于信息不对称、数据缺失对金融业务的负面影响,提升金融机构在信贷风控、营销拓客、产业投资等领域的业务表现,实现数智化对于金融服务能力与用户金融服务体验的提升。此外,金融机构作为数据资源与技术能力的持有方,其对于技术欠缺产业、中小企业的数智化转型推动能力受到广泛关注,《推动数字金融高质量发展行动方案》明确鼓励金融机构在技术能力、平台服务资源等领域的输出,以机构自身的科技优势助力中小企业的数智化转型。2024年年初,以北京、上海、广州、深圳、贵阳为代表的五大数交所陆续上架了2060款金融场景数据产业及服务,随着数据交易体系的完善以及数据处理技术的成熟,预计金融行业的数据要素规模将以约19.06%的复合增长率,于2028年突破1000亿元,成为推动国内数据要素市场发展的核心产业。 实践场景(二):工业制造业 以可信数据空间与高质量数据集为核心的工业制造业“数据要素x”实践将充分发挥业内数据红利,推动数智时代工业制造的产业升级 工业制造是城市产业发展的基石,工业数据是推动产业经济发展的重要驱动。数智时代,工业制造的产业升级需求将推动其对于跨企业、跨行业的数据资源需求,在高端制造业产品研发、运营流程科学决策及稳固产业链、供应链协同效应等业务场景中,工业数据的标准化、安全性与业务场景数据应用实践水平将成为影响产业升级效果与数智化表现的核心因素。随着区块链、生成式AI等前沿技术逐步成为工业制造的新质生产力,联动产业链上下游的可信数据空间与工业高质量数据集建设将推动工业制造业实现由“规模红利”向“质量红利”和“数据红利”的转型,预计未来产业整体在数据要素领域的市场规模将以约24.22%的复合增长率,由2025年的157亿增长至2028年的302亿,未来三年内实现产业规模的翻倍式增长。 实践场景(三):医疗健康业 医疗数据的合规应用将推动“三医”产业协同发展,如何保障个人健康数据的安全成为医疗产业数智化应关注的核心问题 随着我国大健康产业的蓬勃发展,以医疗、医保、医药为核心的“三医”产业数据联动与协同发展成为数智时代医疗产业发展的重要主题,从就诊流程的优化、预报结算的革新,到面对公共卫生防疫的早期预警与精准防控,以及后续应用“AI+”强计算与智慧涌现能力对非标准化医疗经验的数据归类与精准建模,医疗产业的数智化进程将推动产业模式实现由“经验传承”到“数据验证”的转变,医疗资源的配置能力与医疗服务效率将显著提升。此外,医疗数据体系的完善也将为保险产业提供更加丰富的数据资源支持,促进保险产品的个性化定制与“一站式”理赔流程的优化,推动“三医协同”与多层次医疗体系的健全,但同时医疗数据作为与个人信息紧密相连的生产要素,如何保障其跨产业应用的合规性与安全性将成为新阶段价值开发关注的焦点。从行业发展的整体规模来看,服务于医疗产业的数据要素规模将以约23.69%的复合增长率稳步提升,预计2028年将突破250亿元。 趋势一:高质量数据集建设 高质量数据集成为推动人工智能产业发展的关键要素,国内数据产业迈入从“单点突破”向“全域发展”的新阶段 高质量数据集是指将原始数据按照特定标准进行系统性采集、清洗、归类、标注、增强合成等智能化处理后形成的高价值、高密度、标准化的数据集合,能够为人工智能训练、产业数字化升级与区域性数字经济发展等场景提供信息内容明确、准确性强的数据资源支持,提升算力资源合理利用效率。随着基础模型开源成为业内主流,技术服务商之间在算力与算法方面的差距被逐步削弱,数据要素的质量成为决定大模型产品质量的关键因素。2025年5月《数字中国建设2025年行动方案》将人工智能高质量数据集、重点领域数据标注等领域作为重点布局对象,以《高质量数据建设指南》为代表的技术文件要求为高质量数据集建设提供标准参考,各地数据局也纷纷设立本年度高质量数据集建设目标、发布高质量集典型案例与奖励措施,通过推动多行业、零散数据要素的体系化、高质量建设,提升“人工智能+”产业发展。截至2025年上半年,我国7个数据标注基底已建设数据集524个,规模超过29PB,服务大模型163个。新阶段国家数据集将着力打造“数据标注+高质量数据集+模型+应用场景+市场化价值化”的闭环生态,推进数据要素市场配置改革和“人工智能+”行动力同向发力、同频共振。 趋势二:可信数据空间建设 以可信管控、资源交互、价值共创为核心的可信数据空间将成为新阶段保障数据要素流通与高价值应用的重要基础 可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的数据流通架构体系,类似“有围栏的数据沙箱”,数据资源能够在可信安全的空间内流通共享、授权计算,数据的提供方与使用方在“可用不可见”的前提下实现数据价值的共创。作为可信数据空间建设的元年,2025年以《可信数据空间发展行动计划(2024-2028年)》为代表的可信数据空间标准管理与试点方案陆续出台,推动企业、行业、城市、个人的可信数据空间建设,以及服务跨国科研、供应链协同、企业管理等应用场景下的跨境可信空间建设。2025年7月16日,国家数据局公布了首批可信数据空间创新发展试点名单,63个入选试点项目中涵盖了13个城市、22个行业以及28个企业的可信数据空间,2028年全国可信数据空间建设数量计划突破100个,初步形成与我国经济社会发展水平相适应的数据生态体系。 来源(公众号):艾瑞咨询
2026-01-20 18:41 661
大型语言模型(LLMs)如 OpenAI‑O3、DeepSeek‑R1 和 Qwen 系列,在解决数学问题、回答科学问题甚至进行多步骤推理方面展现出惊人能力。然而这些强大系统中一直隐藏着一个缺陷:它们经常过度思考。即使是像 这样简单的问题,也可能触发冗长曲折的思维链,消耗数千 token 并推高计算成本。 一项题为《DRQA: Dynamic Reasoning Quota Allocation for Controlling Overthinking in Reasoning Large Language Models》的最新研究揭示了一个惊人现象:当多个问题以批处理形式输入时,模型会自动压缩推理过程,生成比单独处理时更简短的答案。作者将这种 emergent 的「资源竞争压力」转化为系统性技术——动态推理配额分配(DRQA),使单问题推理也能获得同等效率。 1. 过度思考 作者从三个维度描述了该问题: 过度思考导致冗长且通常冗余的思维链及不必要的 token 消耗 后果包括推理延迟增加、GPU 内存占用扩大、API 成本上升以及实际应用的可扩展性降低 思考不足(另一极端)会导致解释过于简略、步骤缺失以及在难题上准确率下降,影响模型在挑战性基准测试中的表现 现代 LLMs 擅长思维链(CoT)提示,即模型在给出最终答案前逐步写出推理过程。这种方式能提升复杂任务的准确率,但在简单任务上可能造成浪费。该研究提出: “ 我们能否鱼与熊掌兼得? 模型能否学会在问题简单时保持简洁,在问题困难时保持严谨——而无需人工设置 token 预算? 2. 批处理推理的启示 2.1 作者的观察 实验:作者比较了三个数学问题被单独回答与批量回答时的 token 消耗量(图 1) 结果:批量回答节省约 45% 的 token(648 vs. 1205),且准确率相当 解读:当多个查询共享同一上下文窗口时,模型会直觉性地为有限推理配额展开竞争并修剪非必要步骤——作者称之为资源竞争压力 2.2 效应扩展性 作者测量了不同批量大小下每个问题的平均 token 消耗量(使用 DeepSeek‑R1 在 DeepScaleR 数据集约 3 万道数学题上测试): 即使批量增大,准确率仅轻微下降,证实模型会自动为难题分配更多推理资源,同时压缩简单问题的推理过程 3. 从观察到方法:DRQA 的实现 该研究的核心贡献是将批处理诱导的效率迁移至单问题推理的强化学习(RL)框架。以下详细解析各组件 3.1 框架概览图 3.2 逐步方法论 3.2.1 通过批处理推理收集数据 使用 DeepSeek‑R1 在 DeepScaleR 数据集(约 3 万道数学题)上运行批量大小为 2/3/5的提示,为每个问题提取对应 CoT “ 提供模型在资源竞争下自然压缩推理的真实样本 3.2.2 偏好标签构建 每个 CoT 被赋予以下标签之一: ‑ A:正确但可更简洁 ‑ B:正确且简洁(理想状态) ‑ C:错误 标注规则: ‑ 原始(单问题)CoT → 标签 A(正确)或 C(错误) ‑ 批量 CoT → 标签 B(正确)或 C(错误) “ 提供区分「足够好」推理与「不必要的冗长」推理的分级信号 3.2.3 偏好数据集 生成包含 5 万以上 (问题, 推理链, 三选一标签) 元组的数据集 “ 该数据集是 RL 智能体的训练场 3.2.4 基于 GRPO 的强化学习 通过组相对策略优化(GRPO) 训练模型。这种策略梯度方法在最大化正确标签概率的同时,惩罚与旧策略的较大 KL 散度(避免灾难性遗忘)。形式化表示为: 其中 是相对优势(选择标签与真实标签一致时为正,反之为负) “ 该目标函数显式奖励简洁且正确的推理(标签 B),抑制冗长或错误响应。KL 项用于稳定学习,防止模型「遗忘」解决难题的能力 3.2.5 推理(单问题模式) 测试时,模型接收单个问题并照常生成 CoT。但由于已内化对简洁性的偏好,它会根据难度评估自动分配推理配额 “ 无需额外提示、token 预算或手工规则——模型实时自主决策 3.3 为何监督微调(SFT)不足 SFT:作者首先尝试在批量生成的「简洁」数据上直接进行监督微调 结果:token 数大幅下降(GSM8K 上减少 69%),但准确率显著受损(如 AIME 2024 准确率从 74% 跌至 9%) 原因:模型学会了表面简洁性而未理解何时可简洁,导致灾难性遗忘深度推理能力 因此,需要基于奖励的方法(DRQA)来平衡这两个目标 4. 实验结果 4.1 基准测试与设置 数据集 领域 典型难度 GSM8K 小学数学 简单-中等 MATH‑500 代数、几何、数论 中等-困难 AIME 2024/2025 高中奥数 困难 AMC 2023 竞赛数学 中等 GPQA‑Diamond 研究生级科学问答 困难 / 分布外(OOD) 评估的两个蒸馏模型: DeepSeek‑R1‑Distill‑Qwen‑1.5B DeepSeek‑R1‑Distill‑Qwen‑7B 所有基线方法(GRPO、O1‑Pruner、DAST、Shorter‑Better 等)均在相同推理配置下复现(温度 0.6,最大长度 32 K) 4.2 主要结果(摘要) 原始模型(无 DRQA)在 GSM8K 上达到 84.67% 准确率,平均每问 1 929 token;在 AIME 2024 上获得 28.67% 准确率,消耗 14 395 token DRQA (1.5 B) 将 GSM8K 准确率提升至 86.67%(+2 个百分点),token 数降至 1 428(约 ‑26%);在 AIME 2024 上准确率升至 32.00%(+3.3 个百分点),token 数减至 11 008(约 ‑23%) DRQA (7 B) 在 GSM8K 上达到 92.67% 准确率,仅用 1 324 token(‑24%);在 AIME 2024 上获得 54.67% 准确率,消耗 10 008 token(‑27%) 激进压缩方法如 Shorter‑Better 虽大幅减少 token(GSM8K 上 ‑94%),但准确率崩溃(降至 63.67%) DAST 与 O1‑Pruner 获得中等 token 节省(‑70% 至 ‑76%),但准确率提升有限,均未达到 DRQA 的平衡性 总体而言,DRQA 在各类数学科学基准测试中持续减少约 30% token 用量,同时保持甚至提升准确率 4.3 消融研究(摘要) 批量-2(使用批量大小 2 训练)获得最佳权衡:token 减少约 30%,整体准确率约 79.6% 批量-3 与 批量-5 的 token 节省略少,准确率微降,表明过大的批量可能稀释「资源竞争」信号 使用非批量数据(如 Qwen2.5‑7B)或批判性微调(CFT) 会导致效率或准确率下降,证实批量生成的偏好数据与 RL 目标均不可或缺 4.4 分布外鲁棒性 在 GPQA‑Diamond 基准上,DRQA 仍减少约 31% token 消耗,同时保持 31.81% / 49.50% 的准确率,优于过度压缩或泛化失败的其他基线 5. 意义 成本节约——对于按 token 收费的服务(如 OpenAI API),DRQA 可在保持质量的前提下降低约三分之一月成本 延迟降低——更短的输出意味着更快的推理,对辅导机器人或科学助手等实时应用至关重要 可扩展部署——凭借更低的内存与计算占用,模型可在相同硬件上处理更多查询 无需人工 token 预算——与许多「早退」或 token 预算方法不同,DRQA 无需额外提示技巧,模型学会自主调节推理长度 6. 局限性与未来方向 当前局限 潜在改进方案 仅在数学与科学推理数据集上测试 将 DRQA 扩展至代码生成、对话或多模态任务 方法仍依赖批量生成的偏好数据集,对超大语料库成本较高 探索合成生成或自博弈以自举偏好数据 仅优化token 用量;未直接处理其他效率维度(如 GPU 内存、推理延迟) 将 DRQA 与动态早退或模型规模剪枝框架结合 7. 结论性思考 DRQA 框架巧妙捕捉了 LLMs 在共享上下文窗口时表现出的微妙涌现行为——资源竞争。通过将该现象转化为强化学习信号,作者赋予模型自调节推理配额的能力:问题简单时简短清晰,问题困难时深入严谨。 结果令人印象深刻:在多种数学科学基准测试中实现token 消耗降低 30%,同时保持甚至提升准确率。重要的是,DRQA 无需硬编码 token 限制或额外提示技巧,使其成为任何以推理为核心的 LLM 部署的即插即用式升级方案。 来源(公众号):AI Signal 前瞻
2025-09-01 18:15 926
为何“记忆”对LLM至关重要 大语言模型(LLMs)在文本生成、翻译和问答方面表现卓越,但它们都存在一个根本性局限:无状态性。每个用户查询都被独立处理,模型仅能查看固定长度的“上下文窗口”(通常为数千个 token)。当对话跨越数十轮,或任务需要数周前的对话信息时,模型便会遗忘——关键信息对其不可见。 常见的解决方案是附加外部记忆库。模型通过检索增强生成(RAG)获取少量历史记录并附加到提示词中。这为 LLM 提供了访问“旧”信息的捷径,但也引入了两难权衡: 检索条目过少 → 遗漏关键事实,导致错误答案 检索条目过多 → 提示词被无关信息淹没,模型注意力分散 人类记忆的工作方式不同:我们快速浏览庞大的心理档案,然后筛选并整合与当前问题真正相关的内容。Memory‑R1 论文的作者主张,“记忆管理”应是一项习得技能,而非手工设计的启发式规则。 Memory‑R1 核心思想概览 Memory‑R1(读作“Memory‑R‑one”)是一个强化学习(RL)框架,为 LLM 配备两个专用智能体: 记忆管理器 – 针对每条新信息,决定添加(ADD)、更新(UPDATE)、删除(DELETE) 或无操作(NO‑OP);基于下游答案正确性,通过结果驱动的 RL(PPO 或 GRPO)进行优化 应答智能体 – 根据用户问题,通过 RAG 召回最多 60 条候选记忆,提炼最有用信息并生成最终答案;同样通过 PPO/GRPO 微调,奖励信号为生成答案与标准答案的精确匹配(EM)率 两个智能体均构建于标准 LLM 之上(作者实验了 LLaMA‑3.1‑8B‑Instruct 和 Qwen‑2.5‑7B‑Instruct)。关键在于,仅需152 个标注的问答对即可训练系统——远少于监督微调通常所需的数千个样本。 方法深度解析 1. 整体流程 对话轮次到达 → LLM 提取关键事实 (例如“Andrew 收养了名为 Buddy 的狗”) RAG 检索从当前记忆库 中获取相关记忆短列表 记忆管理器接收 并预测操作 记忆库相应更新,产生新库 问题出现时 → RAG 从 中获取最多 60 条候选记忆 应答智能体执行记忆提炼策略:对每条检索记忆评分,保留 top‑k(通常仅少数几条),并基于提炼后的上下文生成答案 2. 强化学习微调 两个智能体均作为策略网络 进行训练,将输入映射到离散动作(记忆操作或答案 token)。探索了两种 RL 算法: 近端策略优化(PPO) – 通过裁剪替代目标优化,保持策略更新稳定性;经典且易于理解,适用于价值函数(评论家)可估计预期奖励的场景 组相对策略优化(GRPO) – 对一组动作采样并相对排序,在组内标准化优势函数;无需显式评论家,在稀疏的结果驱动奖励(如精确匹配)下收敛更快 2.1 记忆管理器 RL 状态:提取事实 + 检索记忆 动作:四类记忆操作 token 之一,以及(ADD/UPDATE 时)待插入或合并的内容 奖励:若更新后应答智能体生成正确答案则 ,否则 策略训练目标是最大化基于操作前后答案准确率差异计算的优势值。由于奖励为二值信号,策略能快速学会哪些操作安全(NOOP),哪些操作有益(如“两只狗”案例中的 UPDATE)。 2.2 应答智能体 RL 状态:问题 + 检索记忆集 动作:完整答案 token 序列(自回归生成) 奖励:生成答案 与标准答案 的精确匹配(EM)率 训练期间,智能体对候选答案批次采样并计算 EM 分数,将得分输入 PPO/GRPO。记忆提炼步骤嵌入策略中:模型学会关注能最大化 EM 的记忆子集,实现内置过滤机制。 3. 数据构建 记忆管理器训练数据 – 对每轮对话,使用强 LLM(GPT‑4o‑mini)构建时序记忆快照(前 50 轮对话)。该轮次、快照及关联问答对构成监督学习元组。通过比较该轮次前后的快照自动标注正确操作(ADD/UPDATE/DELETE/NOOP) 应答智能体训练数据 – 记忆管理器构建全局记忆库后,每个问题检索每位参与者最相关的 30 条记忆(共 60 条)。三元组(问题,检索记忆,标准答案)成为应答智能体的训练样本 实验亮点 基准测试:LOCOMO LOCOMO 是用于长程对话记忆的挑战性基准,包含 10 个多轮对话,每个对话约 600 轮(≈ 26 k token)。问题需跨越遥远对话轮次进行单跳、多跳、开放域及时序推理。 训练制度:仅使用第一个对话(152 个问答对)进行微调;剩余八个对话(1 307 个问答对)构成测试集 骨干模型:LLaMA‑3.1‑8B‑Instruct 和 Qwen‑2.5‑7B‑Instruct 主要结果(文本描述) 作者对每个骨干模型评估了 GRPO 和 PPO 训练的 Memory‑R1 系统,并与两个基线对比:原始记忆系统(Mem0)和文献报道的最强非 RL 基线(A‑Mem)。 简言之,Memory‑R1 相比最强非 RL 基线将 F1 提高约 48 %(LLaMA)和 57 %(Qwen),BLEU‑1 和 LLM‑as‑a‑Judge 指标亦有相当提升。 消融实验洞察 结果证实作者主张:每个 RL 训练组件均带来可量化价值,且双智能体相互增强——更优的记忆管理为应答智能体提供更丰富上下文,而选择性提炼策略进一步受益。 PPO 与 GRPO 对比 训练曲线显示GRPO 早期收敛更快,因为当奖励稀疏(二值 EM)时,组相对优势提供更强梯度信号。但两种算法最终性能相近,表明选择可基于计算预算或所需速度。 结论 Memory‑R1 表明,赋予 LLM “记忆感知”能力——而非单纯扩大容量——可显著提升其长周期记忆、推理与行动能力。随着强化学习技术持续成熟,我们有望见到真正学会管理自身知识的、日益 sophisticated 的智能型 LLM 系统。 来源(公众号):AI Signal 前瞻
2025-09-04 13:56 1588
近年来,“场景”一词在各类政策文件、产业报告和创新实践中频繁出现——从“数字政府场景化建设”到“AI+ 工业场景落地”,从“消费端场景创新”到“公共服务场景优化”。“场景”已不再是单纯的“情境描述”,而是成为新技术落地、新需求挖掘乃至问题解决与新价值创造的核心载体。 究其本源,当人工智能、物联网、大数据、边缘计算等新技术不断突破壁垒后,如何避免技术沦为“空转工具”,使其精准对接真实需求,成为创新的关键命题?而“场景”,正是链接技术与价值的重要桥梁。基于实践和研究总结,本文将场景归纳为“问题场景、需求场景、应用场景、案例场景”四阶框架,系统厘清从“发现问题”到“创造价值”的完整逻辑链条,以期为新技术时代的创新实践提供行动参考。 从“问题场景”入手,精准锚定价值源头 在新技术加速渗透的当下,创新实践往往面临“伪痛点”干扰——部分看似亟待解决的问题,要么脱离实际需求,要么缺乏技术适配基础,最终导致资源错配与创新低效。而“问题场景”的核心价值,在于依托新技术的感知、分析能力,穿透表象,识别核心矛盾,精准锚定“具体问题 + 价值缺口”。 借助数据监测、用户画像等技术工具,“问题场景”能够摆脱“模糊感受”的局限,将抽象的“不便”转化为可量化、可界定的具体矛盾:明确“谁在什么情境下遇到了什么阻碍”,以及“这一阻碍会造成怎样的价值损失”。这种精准锚定,使创新从源头就瞄准真正的价值“靶点”,避免技术投入“无的放矢”,也为后续价值创造筑牢了基础。 明晰勾勒“需求场景”,准确反映目标诉求 如果说“问题场景”是价值创造的“起点”,那么“需求场景”便是连接问题与技术的“转换器”。它将问题背后的价值缺口系统拆解为可落地的分层诉求,为新技术应用提供清晰指令。 “需求场景”的勾勒需紧扣“技术适配性”与“价值完整性”:既要关注直接解决问题的显性需求,明确技术应用的核心方向;也要重视支撑价值落地的隐性需求,保障技术应用的实际体验——若忽略隐性需求,即便技术功能达标,也可能因“体验缺陷”难以落地;还需考虑技术联动的关联需求,推动价值形成闭环,避免出现“解决老问题、引发新矛盾”的情况。 在此过程中,要警惕走入“技术先行”的误区,始终坚持以价值为导向,让需求牵引技术应用,而非让技术定义需求,确保每一项诉求都能服务于创造价值的最终目标。 打造“应用场景”,融合新技术创造新价值 “应用场景”是“需求场景”的具象化落地载体,也是新技术真正转化为实际价值的“最后一公里”。它聚焦于“在具体情境下,如何通过技术方案满足需求并创造价值”,核心在于实现技术与场景的深度适配。 打造“应用场景”需充分考量场景的约束条件——包括成本预算、环境限制、用户能力等,拒绝脱离实际的“通用方案”,而是要结合场景特性定制技术组合。“应用场景”通过将新技术与场景需求深度融合,使技术从“空中楼阁”的功能堆砌转变为嵌入实际场景的实用工具,既解决核心问题,又契合场景特性,最终创造出可感知、可量化的新价值。 这种“场景定制化”的技术应用,不仅能提升创新效率,更能确保价值落地的稳定性与可持续性。 用好“案例场景”,迭代推广实现价值升级 “案例场景”并非简单的成果展示,而是兼具“内部优化”与“外部推广”双重价值的闭环环节,既是前序场景的验证与修正载体,也是价值经验跨场景、跨区域扩散的核心纽带。在新技术赋能的创新生态中,单一案例的价值往往局限于内部,只有通过系统化推广,才能将局部经验转化为行业级、区域级的规模化价值增量。 一方面,“案例场景”需通过真实实践完成内部校准——验证“问题—需求—应用”链条的合理性,发现漏洞、反馈优化;另一方面,更需构建“可推广的经验模板”,通过提炼案例中的“共性逻辑”与“适配方法”,形成标准化的推广框架。同时,可依托数字化平台搭建案例共享库,整合不同领域、不同规模的案例经验,配套“场景适配指南”,帮助推广对象快速判断案例适用性,降低试错成本。 这种“内部迭代 + 外部推广”的双轮驱动,既能让案例价值从单一场景延伸至更广领域,实现“一点突破、多点受益”,又能通过推广中的反馈进一步丰富案例内涵,形成“迭代—推广—再迭代”的良性循环,推动价值创造从“局部优化”走向“系统升级”。 四阶场景联动,构建价值创造的系统闭环 “问题场景、需求场景、应用场景、案例场景”并非线性的步骤流程,而是围绕价值创造形成的相互校准、动态优化的系统闭环——“问题场景”锚定价值源头,若锚定偏差,后续环节便会偏离方向;“需求场景”拆解技术指令,若拆解不完整,应用场景便难以落地;“应用场景”实现价值转化,若适配不足,价值便无法有效生成;“案例场景”推动价值优化与推广,若反馈缺失或推广乏力,价值创造便难以突破局部局限、实现规模化增量。 这一闭环框架的核心意义,在于为新技术时代的创新实践提供一条清晰的从“技术”到“价值”、从“局部”到“全局”的转化路径,让创新不再依赖“经验判断”,而是基于系统逻辑实现精准发力与规模化扩散。在新技术加速创新的背景下,唯有依托四阶场景的联动,才能让技术真正嵌入社会经济肌理,成为推动价值创造从“单点创新”走向“生态化突破”的核心力量,为产业升级、公共服务优化、消费创新等领域提供坚实支撑。 来源(公众号):浙江数字经济
2025-11-10 16:21 269
热门文章