数据开发的终极目标不是 “做出好看的报表” 或者 “搭个复杂的数仓”,而是 “用数据驱动业务决策,创造能衡量的商业价值”。
2025-09-09 18:17 166
近年来人工智能技术加速创新发展,社会各界对“AI赋能千行百业”充满期待。然而,现阶段技术层面的热度与实际落地的冷态形成鲜明反差:一方面,AI大模型、智能算法等技术持续迭代,成为产业创新的热门方向;另一方面,当技术试图深入制造业、医疗、教育等具体领域时,却常陷入“不知需求在哪、不知如何适配”的困境。这种“供需双模糊”并非偶然,而是技术革命与产业转型不同步的阶段性产物——技术供给的泛化性与产业需求的特异性碰撞,传统供需对接逻辑失效,最终形成“需求说不清、供给不对路、匹配无标准”的三重困境。深入剖析这一困境的本质与成因,探索系统性破局路径,是推动AI从“技术概念”走向“产业价值”的关键。 供需双模糊的现实图景:三个维度的核心矛盾 供需双模糊的本质,是AI技术与产业需求在“表达-供给-对接”全链条中的认知断层与能力错位,具体呈现为三个维度的核心矛盾。 1 需求端--“抽象诉求”与“具体落地”的断层 需求端的模糊性,根源在于“需求表达能力”与“技术落地要求”的不匹配。产业界对AI的需求往往停留在“降本增效”“提升质量”等抽象目标,却难以完成从“要什么”到“怎么实现”的转化——既无法明确需求对应的技术边界(如“提升生产效率”需匹配“实时数据采集”还是“智能调度算法”),也难以界定落地的约束条件(如现有设备是否兼容、业务流程是否需重构)。这种断层的核心原因,在于行业主体缺乏对AI技术应用边界的认知,同时AI技术的复杂性又让“需求具象化”需要跨领域知识(既懂行业业务,又懂技术逻辑),而多数行业尚未形成这种跨领域的需求转化能力。此外,需求的动态性进一步加剧模糊性:产业需求随市场变化、政策调整持续迭代,而AI技术的研发与落地存在周期,静态的需求描述与动态的产业变化难以同步,导致需求与供给始终存在“时差”。 2 供给端--“通用技术”与“行业特异性”的错位 供给端的模糊性,源于技术研发的“通用导向”与产业需求的“场景特异性”之间的天然张力。当前AI技术供给多聚焦于基础能力建设(如大模型的通用推理、算法的精度优化),研发逻辑偏向“技术可能性”而非“行业必要性”——技术方常以“通用解决方案”推向市场,却忽视不同行业、甚至同一行业不同场景的差异化需求(如制造业的离散生产与流程生产,对AI的实时性、稳定性要求截然不同)。更关键的是,技术供给的价值评估体系与产业需求脱节:技术方倾向以“算法精度”“模型参数”等技术指标衡量价值,而产业方更关注“投资回报率”“与现有系统兼容性”“人员操作门槛”等实际效益指标,这种价值认知的偏差,导致技术供给看似先进,却难以满足产业的真实落地要求。此外,技术供给的“超前性”也加剧模糊:部分AI技术尚处于实验室验证阶段,离产业级的稳定性、可靠性要求仍有差距,却被过早推向市场,进一步放大“技术能做什么”与“产业需要什么”的错位。 3 匹配端--“传统机制”与“AI特性”的失效 供需匹配机制的模糊性,本质是传统对接模式难以适配AI技术的特性。过去产业供需对接多依赖“需求明确-产品开发-批量交付”的线性逻辑,而AI赋能的核心是“场景化适配”——需求需在技术落地过程中逐步明晰,技术也需根据场景反馈持续优化,这种“动态适配”逻辑与传统静态对接模式完全不同。同时,价值评估体系的缺失让匹配失去标准:AI对产业的价值不仅是效率提升,更包括业务流程重构、商业模式创新等深层影响,这些价值难以用传统量化指标衡量,导致供需双方对“匹配效果”缺乏共识。此外,行业知识壁垒进一步阻碍匹配:AI技术方缺乏对产业业务流程、痛点的深度理解,产业方也难以判断技术的实际适配性,双方陷入“无法有效对话”的困境,最终导致匹配效率低下,甚至出现“错配”(如为低需求场景投入高成本AI技术,或为高复杂度场景提供简易解决方案)。 从行业差异来看,供需模糊性的程度与行业的“信息化基础”“知识壁垒”呈正相关:互联网、金融等信息化程度高、业务流程相对标准化的行业,供需双方对AI的认知更清晰,模糊性较低;而制造业、医疗、教育等信息化起步晚、业务流程复杂、知识壁垒高的行业,需求更难具象化、技术更难适配,供需模糊性也更为突出。这种差异并非技术可行性问题,而是供需双方的认知协同、能力协同程度不同所致。 供需双模糊的深层成因:多因素交织的系统性矛盾 供需双模糊并非单一因素导致的问题,而是技术演进规律、产业发展特征、组织能力建设、生态体系构建等多维度矛盾交织的结果,其核心是“AI技术的突破性”与“产业体系的惯性”之间的冲突。 1 技术迭代与产业进化的节奏失衡 AI技术的迭代呈现“指数级”特征:大模型的参数规模、算法的推理效率持续突破,新的技术方向不断涌现,技术边界快速扩张。而产业需求的进化遵循“渐进式”逻辑:产业的业务流程、设备体系、组织模式是长期积累形成的,其变革需考虑成本、风险、人员接受度等多重因素,难以随技术迭代同步调整。这种“快技术”与“慢产业”的节奏差,导致技术供给始终领先于产业需求的消化能力——当技术方推出新一代解决方案时,产业方可能仍在消化上一代技术的落地难题,供需之间自然形成“时间差”。更关键的是,AI技术的“通用性”让其应用场景具有无限可能性,而产业需求的“特异性”要求技术必须聚焦具体场景,这种“泛在技术”与“特定场景”的天然张力,进一步放大了节奏失衡带来的模糊性。 2 技术方与产业方的认知鸿沟 供需双模糊的核心障碍,是技术方与产业方之间的“双向无知”与“语言壁垒”。一方面,AI技术方多出身于计算机、数学等领域,对传统产业的业务流程、核心痛点、操作习惯缺乏深度理解,往往从技术逻辑出发设计解决方案,而非从产业需求出发;另一方面,产业方对AI技术的原理、边界、落地条件认知有限,既难以判断技术的实际可行性,也无法清晰表达自身需求对应的技术要求。这种双向无知导致供需对话陷入“鸡同鸭讲”的困境:技术方谈论“模型精度”“推理延迟”,产业方关心“故障响应速度”“人员培训成本”,双方使用不同的“专业语言”,却缺乏统一的转换逻辑,需求无法精准传递,供给也难以有效匹配。更严重的是,这种认知鸿沟会引发“误判”:技术方可能高估产业的技术接受能力,产业方可能高估AI的实际效果,进一步加剧供需错位。 3 人才结构与产业需求的严重错配 人才是连接技术与产业的关键纽带,而当前AI领域的人才结构,恰恰难以满足供需协同的需求。一方面,AI人才多集中于技术研发(如算法设计、模型训练),缺乏既懂AI技术、又懂产业业务的“复合型人才”——这类人才需要同时掌握技术逻辑与行业知识,能够将抽象需求转化为具体技术指标,也能将技术特性转化为产业价值,而目前无论是高校培养体系还是市场人才供给,都难以满足这一需求。另一方面,产业内部的人才也存在“AI认知缺口”:多数行业业务骨干缺乏对AI技术的基础认知,无法判断技术与业务的结合点;IT人员虽懂技术,却缺乏对业务流程的深度理解,难以推动技术与业务的深度融合。这种“技术人才不懂业务、业务人才不懂技术”的结构矛盾,导致需求在产业内部传递时就出现损耗,更无法与技术供给有效对接。 4 标准缺失与生态碎片化的约束 AI赋能需要一套统一的“规则体系”来降低供需对接成本,而当前标准的缺失与生态的碎片化,进一步加剧了供需模糊性。从标准层面看,AI应用尚未形成统一的数据格式、接口规范、评估指标:不同技术方的系统接口不兼容,数据难以互通;缺乏行业公认的AI价值评估标准,供需双方对“落地效果”难以达成共识;技术适配的约束条件(如硬件要求、安全规范)也无明确界定,导致技术落地时需反复试错。从生态层面看,AI产业呈现“各自为战”的碎片化格局:技术提供商、行业解决方案商、基础设施服务商之间缺乏协同机制,技术研发、需求挖掘、场景落地等环节相互割裂,难以形成“技术-需求-落地”的闭环。这种碎片化不仅增加了供需对接的复杂度,也导致资源分散,无法集中力量解决共性问题(如跨行业的需求转化方法、通用的技术适配框架)。 5 组织认知与资本逻辑的双重干扰 组织内部的认知偏差与外部资本的短期导向,也在放大供需双模糊的效应。在组织层面,对AI的认知常陷入两个极端:一是“AI万能论”,认为AI可解决所有产业问题,盲目上马项目却不考虑实际需求,导致技术与业务脱节;二是“技术恐惧论”,因担心AI对现有流程、岗位的冲击而拒绝尝试,错失技术赋能机会。同时,多数组织仍沿用“技术驱动”而非“需求驱动”的决策逻辑,产品开发先考虑技术可能性,再寻找应用场景,而非先明确需求痛点,再匹配技术方案,这种逻辑倒置本身就容易导致供需错位。在资本层面,AI领域的资本多追求短期回报,倾向于投资“概念新、见效快”的通用技术研发,而非“周期长、见效慢”的行业场景落地,导致技术供给偏向“炫技式创新”,而产业真正需要的“实用化创新”却缺乏资本支持,进一步加剧技术供给与产业需求的脱节。 破解路径:构建“三阶破冰”的系统框架 破解供需双模糊困境,不能依赖单一环节的优化,而需构建“需求解码-技术适配-生态协同”的三阶系统框架,从需求、技术、生态三个维度同步发力,实现供需的精准对接与动态平衡。 1 需求解码--建立“跨域协同”的需求转化机制 需求解码的核心,是解决“需求从抽象到具体”的转化难题,关键在于构建“业务与技术协同”的跨域机制。首先,需建立“需求翻译”团队:由行业业务专家与AI技术专家组成跨领域小组,业务专家负责梳理核心痛点、明确业务目标,技术专家负责将痛点转化为技术指标(如将“减少设备故障”转化为“故障识别精度、响应时间”等可量化的技术要求),通过双向沟通弥合认知鸿沟。其次,需采用“场景化测试”方法:通过模拟产业实际场景(如搭建缩小版的生产流程、服务环境),让需求在动态测试中逐步明晰——先聚焦单一细分场景(如某一生产工序、某一类服务需求),通过技术验证反推需求边界,再逐步扩展至更复杂场景,避免因需求过于宽泛导致的技术适配困难。最后,需建立“需求迭代”机制:将需求视为动态变化的变量,定期收集技术落地后的业务反馈,根据反馈调整需求描述与技术要求,实现需求与技术的同步优化。 2 技术适配--打造“柔性灵活”的技术供给体系 技术适配的核心,是打破“通用技术”与“行业特异性”的壁垒,构建能够快速响应产业需求的柔性供给体系。其一,需推动技术“模块化”开发:将AI技术拆解为可独立组合的功能模块(如数据采集模块、算法推理模块、结果可视化模块),产业方可根据自身需求灵活选择模块组合,无需为通用解决方案支付额外成本,同时降低技术适配的复杂度。其二,需建立“标准化+定制化”的双重供给模式:针对行业共性需求(如数据格式、接口规范)制定统一标准,降低跨企业、跨场景的适配成本;针对行业特异性需求(如特殊生产环境、个性化服务流程)提供定制化调整,确保技术与实际场景的精准匹配。其三,需推广“轻量化”技术服务:针对中小企业技术能力弱、资源有限的特点,将AI技术封装为轻量化服务(如云端化工具、低代码平台),降低技术应用的门槛——企业无需投入大量资源进行技术研发与设备改造,只需根据需求调用服务,大幅降低AI赋能的启动成本与试错风险。 3 生态协同--构建“政产学研用”的共生发展网络 生态协同的核心,是解决“供需对接机制失效”与“资源分散”的问题,关键在于打造多主体协同的共生网络。从协同主体来看,需明确各方角色:政府负责搭建公共平台、制定标准规范、提供政策支持(如建设AI公共测试环境、出台行业应用标准);高校与科研机构负责基础技术研发与复合型人才培养(如开设“AI+行业”交叉学科、开展跨领域研究);企业(包括技术提供商与产业用户)负责场景落地与需求反馈,推动技术与业务的深度融合;金融机构负责提供长期资本支持,重点投向行业场景落地项目,缓解资本短期逐利的约束。从协同机制来看,需建立“多方联动”的对接平台:定期举办跨领域对接会、场景创新大赛,为技术方与产业方提供直接交流的渠道;建设行业AI知识库,汇总需求转化方法、技术适配案例、标准规范等共性知识,降低跨主体的认知成本;建立“风险共担”机制,通过政府补贴、保险支持等方式,分担技术落地的试错风险,鼓励技术方与产业方大胆尝试。 在实施三阶框架的过程中,还需把握三个关键原则:一是“小步快跑”的MVP(最小可行产品)原则,优先聚焦单一细分场景、推出简化版技术方案,通过快速验证与迭代降低风险;二是“价值导向”的动态评估原则,摒弃以技术指标为核心的评估逻辑,转而以业务价值(如成本降低、效率提升、体验改善)为核心,定期评估技术落地的实际效益,确保供需对接的价值导向;三是“能力培育”的长期原则,将人才培养、组织认知升级纳入破局路径,通过跨领域培训、实践项目锻炼等方式,提升产业方的AI认知能力与技术方的行业理解能力,从根本上解决供需协同的能力短板。 结语:从“模糊”到“适配”的产业进化逻辑 当下AI赋能过程中所面临供需双模糊困境,本质上是技术革命推动产业变革过程中的“必经阵痛”。回望历史,每一次重大技术革命(如电力、互联网)都曾经历类似阶段:技术的突破性发展打破原有供需平衡,新的供需逻辑在试错中逐步形成,最终实现技术与产业的深度融合。今天的AI赋能,正处于这一“平衡打破-新平衡构建”的过渡阶段,供需双模糊既是挑战,也是技术与产业相互适应、共同进化的契机。 未来,随着需求解码机制的完善、技术供给体系的柔性化、生态协同网络的成熟,AI供需关系将逐步从“模糊”走向“动态适配”——技术不再是孤立的研发成果,而是能够快速响应产业需求的“柔性工具”;需求不再是抽象的业务痛点,而是能够精准引导技术方向的“清晰目标”;供需对接不再是单向的“技术推送”或“需求拉动”,而是双向互动、持续优化的“协同进化”。最终,AI将从“技术概念”真正转变为“产业基础设施”,如同电力一样融入千行百业的日常运营,其价值不再需要刻意强调,而是自然体现于生产效率的提升、服务体验的改善、商业模式的创新之中。 对产业界而言,应对供需双模糊的关键,是跳出“技术崇拜”或“技术恐惧”的极端认知,以“务实理性”的态度拥抱AI——既不盲目追求前沿技术,也不拒绝技术带来的变革机遇,而是聚焦自身核心业务,通过跨域协同、柔性适配实现技术与业务的深度融合。对政策制定者而言,需在“鼓励创新”与“规范引导”之间寻找平衡,通过标准建设、平台搭建、人才培养,为供需对接创造良好环境,推动AI赋能从“单点突破”走向“系统落地”。 AI赋能的终极目标,不是技术的简单应用,而是产业价值的全面提升。当我们不再纠结于“AI能做什么”,而是聚焦“产业需要什么”,不再追求“通用技术的先进性”,而是关注“技术落地的实用性”时,供需双模糊的困境自然会逐步消解,AI也将真正成为推动产业高质量发展的新质生产力。 来源(公众号):浙江数字经济
2025-09-08 17:35 285
为何“记忆”对LLM至关重要 大语言模型(LLMs)在文本生成、翻译和问答方面表现卓越,但它们都存在一个根本性局限:无状态性。每个用户查询都被独立处理,模型仅能查看固定长度的“上下文窗口”(通常为数千个 token)。当对话跨越数十轮,或任务需要数周前的对话信息时,模型便会遗忘——关键信息对其不可见。 常见的解决方案是附加外部记忆库。模型通过检索增强生成(RAG)获取少量历史记录并附加到提示词中。这为 LLM 提供了访问“旧”信息的捷径,但也引入了两难权衡: 检索条目过少 → 遗漏关键事实,导致错误答案 检索条目过多 → 提示词被无关信息淹没,模型注意力分散 人类记忆的工作方式不同:我们快速浏览庞大的心理档案,然后筛选并整合与当前问题真正相关的内容。Memory‑R1 论文的作者主张,“记忆管理”应是一项习得技能,而非手工设计的启发式规则。 Memory‑R1 核心思想概览 Memory‑R1(读作“Memory‑R‑one”)是一个强化学习(RL)框架,为 LLM 配备两个专用智能体: 记忆管理器 – 针对每条新信息,决定添加(ADD)、更新(UPDATE)、删除(DELETE) 或无操作(NO‑OP);基于下游答案正确性,通过结果驱动的 RL(PPO 或 GRPO)进行优化 应答智能体 – 根据用户问题,通过 RAG 召回最多 60 条候选记忆,提炼最有用信息并生成最终答案;同样通过 PPO/GRPO 微调,奖励信号为生成答案与标准答案的精确匹配(EM)率 两个智能体均构建于标准 LLM 之上(作者实验了 LLaMA‑3.1‑8B‑Instruct 和 Qwen‑2.5‑7B‑Instruct)。关键在于,仅需152 个标注的问答对即可训练系统——远少于监督微调通常所需的数千个样本。 方法深度解析 1. 整体流程 对话轮次到达 → LLM 提取关键事实 (例如“Andrew 收养了名为 Buddy 的狗”) RAG 检索从当前记忆库 中获取相关记忆短列表 记忆管理器接收 并预测操作 记忆库相应更新,产生新库 问题出现时 → RAG 从 中获取最多 60 条候选记忆 应答智能体执行记忆提炼策略:对每条检索记忆评分,保留 top‑k(通常仅少数几条),并基于提炼后的上下文生成答案 2. 强化学习微调 两个智能体均作为策略网络 进行训练,将输入映射到离散动作(记忆操作或答案 token)。探索了两种 RL 算法: 近端策略优化(PPO) – 通过裁剪替代目标优化,保持策略更新稳定性;经典且易于理解,适用于价值函数(评论家)可估计预期奖励的场景 组相对策略优化(GRPO) – 对一组动作采样并相对排序,在组内标准化优势函数;无需显式评论家,在稀疏的结果驱动奖励(如精确匹配)下收敛更快 2.1 记忆管理器 RL 状态:提取事实 + 检索记忆 动作:四类记忆操作 token 之一,以及(ADD/UPDATE 时)待插入或合并的内容 奖励:若更新后应答智能体生成正确答案则 ,否则 策略训练目标是最大化基于操作前后答案准确率差异计算的优势值。由于奖励为二值信号,策略能快速学会哪些操作安全(NOOP),哪些操作有益(如“两只狗”案例中的 UPDATE)。 2.2 应答智能体 RL 状态:问题 + 检索记忆集 动作:完整答案 token 序列(自回归生成) 奖励:生成答案 与标准答案 的精确匹配(EM)率 训练期间,智能体对候选答案批次采样并计算 EM 分数,将得分输入 PPO/GRPO。记忆提炼步骤嵌入策略中:模型学会关注能最大化 EM 的记忆子集,实现内置过滤机制。 3. 数据构建 记忆管理器训练数据 – 对每轮对话,使用强 LLM(GPT‑4o‑mini)构建时序记忆快照(前 50 轮对话)。该轮次、快照及关联问答对构成监督学习元组。通过比较该轮次前后的快照自动标注正确操作(ADD/UPDATE/DELETE/NOOP) 应答智能体训练数据 – 记忆管理器构建全局记忆库后,每个问题检索每位参与者最相关的 30 条记忆(共 60 条)。三元组(问题,检索记忆,标准答案)成为应答智能体的训练样本 实验亮点 基准测试:LOCOMO LOCOMO 是用于长程对话记忆的挑战性基准,包含 10 个多轮对话,每个对话约 600 轮(≈ 26 k token)。问题需跨越遥远对话轮次进行单跳、多跳、开放域及时序推理。 训练制度:仅使用第一个对话(152 个问答对)进行微调;剩余八个对话(1 307 个问答对)构成测试集 骨干模型:LLaMA‑3.1‑8B‑Instruct 和 Qwen‑2.5‑7B‑Instruct 主要结果(文本描述) 作者对每个骨干模型评估了 GRPO 和 PPO 训练的 Memory‑R1 系统,并与两个基线对比:原始记忆系统(Mem0)和文献报道的最强非 RL 基线(A‑Mem)。 简言之,Memory‑R1 相比最强非 RL 基线将 F1 提高约 48 %(LLaMA)和 57 %(Qwen),BLEU‑1 和 LLM‑as‑a‑Judge 指标亦有相当提升。 消融实验洞察 结果证实作者主张:每个 RL 训练组件均带来可量化价值,且双智能体相互增强——更优的记忆管理为应答智能体提供更丰富上下文,而选择性提炼策略进一步受益。 PPO 与 GRPO 对比 训练曲线显示GRPO 早期收敛更快,因为当奖励稀疏(二值 EM)时,组相对优势提供更强梯度信号。但两种算法最终性能相近,表明选择可基于计算预算或所需速度。 结论 Memory‑R1 表明,赋予 LLM “记忆感知”能力——而非单纯扩大容量——可显著提升其长周期记忆、推理与行动能力。随着强化学习技术持续成熟,我们有望见到真正学会管理自身知识的、日益 sophisticated 的智能型 LLM 系统。 来源(公众号):AI Signal 前瞻
2025-09-04 13:56 736
当前人工智能发展正从“模型为中心”转向“数据为中心”,高质量数据集成为大模型竞争的“护城河”。为此,基于《“数据要素 ×”三年行动计划(2024—2026 年)》以及《高质量数据集建设指南(征求意见稿)》,笔者系统性地解构行业级高质量数据集的建设路径,在 AI 时代具有典型意义。 高质量数据集的建设背景 在 AI 产业深度变革的浪潮中,高质量数据集建设呈现出三大显著特征——需求爆发、政策驱动、技术拐点,其发展态势深刻重构着行业格局: 需求爆发 通用大模型向垂直领域的渗透催生了场景化数据资源的井喷式需求。央企加速开放电网调度、核电诊断、金融风控等 30 余个行业核心数据集,推动产业数字化从单点探索迈向系统化升级。这种需求不仅源于技术落地的诉求,更来自 C 端用户对智能服务体验的升级期待,如手机端大模型通过场景重构实现功能跃迁,使普惠化智能服务覆盖数亿用户。市场规模的扩张态势已然明确,即行业共性数据资源库的构建正驱动千亿级市场形成。 政策驱动 国家战略层面对数据要素的系统性部署构成核心驱动力。2017 年国务院印发的《新一代人工智能发展规划》开启了政策先导,2020 年《关于构建更加完善的要素市场化配置体制机制的意见》首次将数据纳入生产要素,而国家数据局联合 17部门联合印发的《“数据要素 ×”三年行动计划(2024—2026 年)》更标志着政策体系的成熟。中央与地方形成协同推进机制。工信部 2016 年发布的《大数据产业发展规划(2016—2020 年)》强化产业支撑体系,贵州省以信用体系与大数据融合试点推动社会治理创新,浙江省通过构建“城市大脑”实现全域数据资源整合。这种“中央顶层设计—部委专项落实—地方场景创新”的三级政策框架,为高质量数据集建设提供了刚性制度保障。 技术拐点 底层技术的突破性演进正颠覆传统数据建设范式。Transformer 架构(一种深度学习模型架构)在推动大模型性能跃升的同时,也暴露出算力分散、领域数据稀缺等瓶颈。当前技术演进呈现两大特征,其一是模型效率革命,如 DeepSeek-R1 系列验证高质量推理数据可提升参数量效率 3 倍,使数据质量取代算力规模成为“新护城河”;其二是架构自主突破,如高质量数据集建设中 95% 国产化率的要求,推动自主芯片 /OS/ 云平台的技术适配。这些突破标志着 AI 发展从“模型优先”转向“数据优先”的新阶段。 高质量数据集的战略定位与意义 在人工智能技术从实验室走向产业化落地的关键转型期,高质量数据集的战略定位已超越基础技术资源范畴,升维为国家数字竞争力的核心基础设施。其战略意义深刻贯穿技术根基、经济引擎与安全壁垒三大维度,构成了支撑“人工智能 +”国家战略落地的系统性支柱。 奠定人工智能发展的技术根基 数据集质量直接决定了人工智能的“智商”水平,这是其最根本的战略定位。国家数据发展研究院院长胡坚波明确指出:“高质量数据集是人工智能真正的‘护城河’”。技术验证亦进行了证明,纽约大学研究发现,医学数据中含 0.001% 错误即会导致模型输出致命误判,而 DeepSeek-R1 模型证明高质量推理数据可使参数量效率提升 300%。此类数据犹如“智能燃料”,通过精准的特征供给驱动模型认知跃升,“数据集质量决定人工智能智商上限”,奠定其在技术生态中的基石地位。 驱动数字经济发展的核心引擎 高质量数据集通过构建“数据—算力—模型”的融合生态,催化出显著的 GDP 增长乘数效应。国家数据局实施的《“数据要素 ×”三年行动计划(2024—2026 年)》将数据集定位为“产业数字化转型升级的加速器”。这种引擎效应建立在数据资产化的创新机制上,主要包括:第一,短期价值释放。央企开放的 30 个行业数据集催生千亿级交易市场,其中金融风控数据集使银行不良贷款识别率提升 29%,直接拉动信贷资产质量优化。第二,长期生态共建。深城交主导建设的交通行业多模态数据集支撑多个大模型训练,有效带动智能网联、低空经济等新产业孵化。 中国信息通信研究院副院长魏亮的“石油炼化”理论深刻阐释其经济逻辑“原始数据需炼化成高质量数据集,才能驱动模型效能转化”,这种“数据炼油厂”角色使其成为新质生产力培育的关键载体。 构筑国家科技安全的战略屏障 在全球化技术竞争背景下,高质量数据集承载着维护科技主权的使命。数据集的国产化率是核心领域数据管控要求,国务院国资委规划发展局副局长胡武婕强调:“行业数据集加速汇聚共享是人工智能自主可控的基础保障”。国家数据局副局长夏冰的论断揭示了其战略本质:“数据集的质效提升是人工智能赋能实体经济的催化剂,需构建部际协同机制筑牢安全根基”。在芯片制程受限的现实环境下,高质量数据集已成为中国突破“算力围城”的核心战略资源。高质量数据集通过“技术根基—经济引擎—安全壁垒”的三角战略架构,确立了人工智能时代的国家基础设施地位。其战略意义不仅在于推动产业实效,更深层的在于构建了中国自主的 AI 发展范式——当算力鸿沟客观存在时,以数据质量优势实现“非对称超越”。随着《高质量数据集建设指南(征求意见稿)》的落地与国家数据要素市场的培育,这一战略支柱将进一步释放“数据 × 产业”的乘数效应,最终支撑中国在全球人工智能治理中实现从“规则接受者”向“标准制定者”的历史性跨越。 高质量数据集的定义和特征 高质量数据集的定义 根据全国数据标准化技术委员会发布的《高质量数据集建设指南(征求意见稿)》和国家标准草案定义,高质量数据集是指经过专业采集、加工处理可直接用于 AI 模型开发与训练,能显著提升模型性能的数据集合,其核心特征体现为“高价值 × 高密度 × 标准化”的三维体系。 高质量数据集的三大特征 高价值指数据集直接驱动模型性能跃升的战略属性。如金融领域数据集通过精准标注交易欺诈模式,使大模型风险误报率降低 55%,凸显其对决策效率的实质提升。高质量数据集需紧密关联应用场景,如工业设备故障预测、医疗影像诊断等,赋能模型在特定领域实现突破性表现。 高密度强调数据的精炼性与信息浓度。通过严格清洗去除冗余噪声,确保样本蕴含有效特征的最大化。典型案例如医疗影像数据集标注病灶边界精度达99.99%,这得益于自动化标注框架与领域专家核验机制的协同,如放射科医生参与审核,实现精准剔除无效样本与强化数据关键特征的统一。 标准化通过分级规范,保障数据可用性。具体可分为三类:一是整合社会通用知识(如基础教育、基础科学数据)的通识数据集,此数据集主要用于支撑通用模型训练;二是聚焦领域基础知识(如金融术语库、交通规则库)的行业通识数据集,理解这类数据需具备基础专业背景;三是面向深度业务场景(如电网故障诊断日志、核电设备运行数据)的行业专识数据集,构建这类数据集需要领域专家的参与。 从本质上来讲,高质量数据集是人工智能时代的“新型基础设施”——其战略价值已超越技术工具范畴,成为驱动产业智能升级、构筑数字主权、重塑全球 AI 竞争格局的核心支点。正如夏冰所强调的:“数据集的质效提升是人工智能赋能实体经济的催化剂,需部际协同构建多元生态”。 高质量数据集的典型建设思路 按照国家数据局关于高质量数据集建设的统筹部署,围绕“试技术融合、试场景支撑、试标准验证、试机制建设”四项工作任务,笔者提出高质量数据集典型建设思路(如图1 所示),以确保高质量数据集建设可持续、可复制、可推广,为创新领域和关键行业的智能化转型夯实基础。 图 1 高质量数据集典型建设思路 坚持“价值驱动,场景牵引”,实现数据集建设靶向聚焦 以行业真实业务痛点和应用场景为原点,构建从需求反推数据供给的闭环建设逻辑。这一路径通过深入挖掘垂直领域的核心诉求,精准定位数据资源的价值锚点,避免“为建而建”的资源错配,优先突破人工智能应用最迫切、最容易产生效果、最影响行业高质量发展的领域。在实践中体现为三重协同机制 : 业务需求精准映射、场景化数据供给和动态反馈调优机制。这种价值驱动的建设范式,从根本上改变了传统“数据先行、应用滞后”的粗放模式,使数据集成为破解行业瓶颈的战略工具。正如《“数据要素 ×”三年行动计划(2024—2026 年)》所要求的:需“围绕应用需求牵引、典型场景切入”,最终实现数据资源向生产力要素的高效转化。 强化技术牵引,构建先进敏捷的数据开发能力体系 以大模型、数据合成、超智融合算力等新一代人工智能技术为支撑,创新数据开发模式与技术路径。依托大规模异构算力平台,建立多模态并行处理与加速机制,全面提升数据处理效率与数据质量控制能力。引入大模型自动标注与人机协同能力,在图像、语音、视频等复杂模态上应用预训练模型进行智能标注与初步语义聚类,大幅减少人工成本、提升标注一致性。同步开展数据增强与生成技术研究,通过仿真生成、时序数据合成等手段扩展样本覆盖度,提高长尾问题覆盖能力。围绕高质量训练数据构建目标,集成清洗、脱敏、合规校验、标签审核等自动化工具链,建立敏捷迭代的“采—标—检—训”闭环开发体系,确保高质量数据集供给的稳定性与适配性。 突出数据支撑,夯实多模态、多源异构数据治理基础 构建覆盖数据采集、汇聚、管理、调用的全过程数据治理体系,支持结构化数据、图像视频、音频语音、传感数据等多种模态的统一接入、分级治理与标准转换,打通源系统与训练平台之间的“数据断点”。推进“原始数据—预处理数据—训练数据”三层架构设计,配套元数据管理、数据血缘追踪、数据质量监控等机制,确保数据资产可追溯、可评估、可调优。在全生命周期管理基础上,构建面向不同训练目标的主题化数据仓库,支撑预训练集、微调集、测试集、验证集四类数据集的按需编排与快速交付。 坚持标准引领,形成可迁移可复用的数据集建设规范 围绕数据集“可交付、可训练、可迭代”三大目标,同步推进采集、标注、元数据、注释、脱敏、安全等关键环节的标准体系建设,建立覆盖“源头—处理—交付—调用”的全链路高质量数据集建设标准,形成一整套可迁移、可扩展、可复制的操作规范体系。重点验证数据基础设施建设的接口规范、用户身份管理、接入协议、标识规则、目录描述要求等通用技术要求,并对数据格式、分类指南、质量评估、平台管理等关键领域的标准化要求进行实际对接和测试,打通构建、治理与共享之间的关键环节。 完善协同机制,保障高质量数据集长效运营与推广 构建多主体参与的数据集共建共享机制,形成“行业主导、平台承载、企业参与、多元共赢”的生态格局。以数据资产确权、使用授权、成果收益等机制为核心,推动建立多元共建、共享开放的数据供给模式,激发数据持有方参与积极性。构建基于项目制和联盟制的数据集协同开发模式,实现区域间、企业间的数据流动,促进高质量数据集的跨域融合与能力复用。同时,构建“共建 + 共评 + 共用”的联合攻坚机制,明确各参与方责任边界与数据权益分配方式,为高质量数据集的规模化建设与可持续运营提供保障。 推广建设模式,形成高质量数据集复制推广新范式 坚持“试点先行、模块化拆解、生态化复制”的原则,推动建设成果的广泛推广和应用。围绕“数据集建设技术体系、标准规范体系、平台工具体系、运营治理机制”四大方面,推动“数据采集—清洗标注—平台建设—模型训练—应用落地”的全流程闭环体系在行业内外复制部署。 高质量数据集的业务蓝图 高质量数据集的逻辑架构主要包括数据源、数据集构成,核心是持续生产能够匹配不同行业、领域的大模型进行训练,如图 2 所示: 图 2 高质量数据集的逻辑架构 参考国家高质量数据集建设指南和相关标准,高质量数据集的业务蓝图主要包括行业高质量数据集及场景应用、数据集开发运营平台、数据基础设施与安全设施、标准机制验证及提升推广体系、价值贡献与权益分配机制等五大部分,如图 3 所示: 图 3 高质量数据集的业务蓝图 笔者以某交能融合链主型企业申请的行业高质量数据集为例,阐述每一部分的建设内容: 高质量数据集及场景应用 该企业通过开拓新能源及车网互动、智慧交通等业态,在业务创新的同时,利用边缘计算、物联网、移动互联网等技术,采集沉淀了大量的数据。同时结合大数据、大模型、人工智能技术,探索了多个创新场景,从而具备了从数据到价值的链路闭环。一方面,这些数据源能够为高质量数据集提供源源不断的数据;另一方面,众多的应用场景又能支撑大模型的应用价值,从而构建了多模态、多行业和多功能数据集,并且赋能 N 个应用场景。 图 4 某交能高质量数据集及场景应用 数据集开发运营平台 高质量数据集的构建不是一蹴而就的,更不是一劳永逸的,而是一个持续性的运营业务,需要通过“数据需求—规划—采集—预处理—标注—模型验证”,形成一个端到端的闭环,并且利用运营真正吸引数据集的供需双方,从而实现从技术到商业、从数据到价值,打造可持续发展的健康商业模式,实现数据“供得出、流得动”。高质量数据集本质上是一个训练大模型数据的生产线,能够持续不断地获取、加工,给大模型训练供给高质量数据。这个生产线包括八大模块,即运营门户、数据需求、数据规划、数据采集、数据预处理、数据标注、数据验证和技术底座。 图 5 某交能高质量数据集开发运营平台 数据基础设施与安全设施 高质量数据集是战略项目,关乎国家信息安全,因此打造一个牢固坚韧安全的基础设施是重中之重。该企业构建了网络预调度体系、存储与计算资源池、数据采集与边缘处理设备为核心的基础设施,同时全链路配套数据脱敏与加密,权限分级与行为审计,安全边界防护、风控预警与应急响应机制,对关键数据进行分域分级保护,从而实现数据的“保安全”。 图 6 某交能高质量数据集基础设施与安全设施 标准机制验证及提升推广体系 高质量数据集的建设还处于早期阶段,尚未形成成熟可复制的统一模式,所以在遵循一些新标准的同时,还需要对这些标准进行验证,并且探索提升和推广体系,从而让后续的建设运营有章可循、持续优化。这方面主要包括从标准执行到标准验证、标准反馈和标准优化的全体系建设,从而能够在不断提升数据集质量的同时,也能够更好的赋能行业。 图 7 某交能高质量数据集标准机制验证及提升推广 价值贡献与权益分配机制 高质量数据集建成发布后,就会面临价值贡献如何评估、权益收益如何分配的问题。并且只有价值贡献评估客观、公平,权益分配机制遵循“谁贡献,谁受益”的原则,才能够让数据集保有持续的生命力,接入更多有价值的数据源,吸引更多大模型训练方。价值贡献与权益分配机制的建立主要包括三部分内容:数据使用授权机制、数据及服务交易机制、收益分配机制,这些机制能够推动高质量数据集可持续健康发展。 图 8 某交能高质量数据集价值贡献与权益分配机制 高质量数据集的典型建设路径 高质量数据集的建设路径是一项涵盖数据全生命周期的系统工程,需严格遵循规范化的流程框架并结合场景化落地策略,其,核心步骤可归纳为六个阶段,各阶段环环相扣且需动态迭代优化。 数据需求定义(战略锚定与标准构建) 该阶段需从业务场景出发,明确数据集的战略定位与技术规格。依据《高质量数据集建设指南 ( 征求意见稿 )》,需完成三项关键任务:场景化需求分析,针对行业痛点精准锚定数据价值,如金融风控数据集需聚焦欺诈交易特征识别。胡坚波强调需“从医疗、教育等亟需领域切入,避免盲目跟风”,此过程需联合领域专家建立数据质量模型,界定关键指标;数据可获得性评估,预判行业知识壁垒与技术难度,如核电诊断数据集需协调央企设备日志与安全规范;标准化框架设计,基于全国数据标准化委员会的“三类分级”规范(通识 / 行业通识 / 行业专识),定义数据结构与元数据标准。 数据规划(架构设计与资源调配) 本阶段需将需求转化为可执行蓝图,主要包括三大工作内容:一是架构设计,规划存储、计算、安全三大体系,例如深圳交通行业高质量数据集,采用信创云平台整合库表管理、任务调度功能,实现 607TB 视频数据的分布式存储;二是质量计划制定,设定数据清洗、标注精度等 KPI,如医疗数据清洗后错误率需压降至 0.001% 以下以规避模型误判风险;三是工作量预估与资源分配,测算采集标注成本,调配领域专家资源。苏州丝绸纹样数据集建设时整合 222 件文物数字化团队,工作量精确至样本 / 小时级。 数据采集(多源获取与质量控制) 采集过程需融合技术合规“双约束”,多模态采集技术应用,典型的数据集项目采用“前置交换 + 物联网感知 + 互联网爬取”复合方式,归集视频、GPS 等数据。在采集过程中要注意两大保障:质量保障,通过自动化校验规则(如交通视频帧重复率检测算法)拦截无效数据,原始数据清洗率超 30%;合规性保障,严格遵循《数据安全法》,核电数据采集采用“私有化部署 + 区块链溯源”机制阻断敏感信息泄露。 数据预处理(特征强化与噪声剔除) 本阶段决定数据集信息密度,主要的核心操作包括转换验证,例如统一时空坐标;聚合清洗,剔除冗余记录;特征工程,例如金融交易数据经特征选择后,欺诈特征维度浓缩至原始数据的12%,实现高密度表征;样本平衡,采用 SMOTE算法扩增工业设备故障样本。 数据标注(知识注入与精度控制) 标注环节是价值升华的关键,由多级标注体系构成,行业专识数据需领域专家介入,如核电设备诊断标注由工程师定义故障阈值;人机协同机制,采用“预标注 + 人工核验”模式;元数据绑定模式,例如丝绸纹样数据集中每样本关联织造年代、工艺等 32 项元数据,支撑跨产业复用。 模型验证与迭代优化(闭环反馈) 该阶段实现数据价值闭环:基准验证,数据集需通过模型性能测试,如金融数据集使风控模型误报率降幅≥ 55% 方达交付标准;持续优化机制,依托评测工具集监测数据漂移,如深圳交通数据集每季度更新 15% 样本以适配路网变化;跨域流通激活,运用隐私计算技术打通医保—交通数据壁垒,催生慢病出行预警等创新应用。 在当前人工智能从“模型优先”向“数据优先”转型的关键阶段,高质量数据集已成为赋能产业智能升级的战略基础设施和国家数字竞争力的核心支柱。通过系统化构建“价值驱动、技术融合、标准引领、生态协同”的建设体系,我国正加速打通从数据资源到智能应用的闭环路径——以《高质量数据集建设指南 ( 征求意见稿 )》为规范框架,以“数据要素 ×”三年行动计划为实施蓝图,推动金融、医疗、交通等高价值领域实现“原始数据炼化—特征提纯—模型赋能”的质效跃升。未来,随着全生命周期管理、多模态治理、权益分配三大机制的完善,高质量数据集将持续释放三大战略价值——筑牢人工智能技术根基的“护城河”,激活数字经济新质生产力的“新引擎”,以及构筑科技自主可控的“安全壁垒”,最终支撑我国在全球智能时代从数据规则的“接受者”迈向标准制定的“主导者”,真正实现数据要素向创新动能的系统性进化。 (作者史凯单位:精益数据方法论创始人、中国计算机学会数发委执行委员,作者杨慧娟单位:深城交数研智算 PDT、资深数字化顾问。本文刊发于2025年第8期《信息化建设》杂志。) 来源(公众号):浙江数字经济
2025-09-02 17:57 385
大型语言模型(LLMs)如 OpenAI‑O3、DeepSeek‑R1 和 Qwen 系列,在解决数学问题、回答科学问题甚至进行多步骤推理方面展现出惊人能力。然而这些强大系统中一直隐藏着一个缺陷:它们经常过度思考。即使是像 这样简单的问题,也可能触发冗长曲折的思维链,消耗数千 token 并推高计算成本。 一项题为《DRQA: Dynamic Reasoning Quota Allocation for Controlling Overthinking in Reasoning Large Language Models》的最新研究揭示了一个惊人现象:当多个问题以批处理形式输入时,模型会自动压缩推理过程,生成比单独处理时更简短的答案。作者将这种 emergent 的「资源竞争压力」转化为系统性技术——动态推理配额分配(DRQA),使单问题推理也能获得同等效率。 1. 过度思考 作者从三个维度描述了该问题: 过度思考导致冗长且通常冗余的思维链及不必要的 token 消耗 后果包括推理延迟增加、GPU 内存占用扩大、API 成本上升以及实际应用的可扩展性降低 思考不足(另一极端)会导致解释过于简略、步骤缺失以及在难题上准确率下降,影响模型在挑战性基准测试中的表现 现代 LLMs 擅长思维链(CoT)提示,即模型在给出最终答案前逐步写出推理过程。这种方式能提升复杂任务的准确率,但在简单任务上可能造成浪费。该研究提出: “ 我们能否鱼与熊掌兼得? 模型能否学会在问题简单时保持简洁,在问题困难时保持严谨——而无需人工设置 token 预算? 2. 批处理推理的启示 2.1 作者的观察 实验:作者比较了三个数学问题被单独回答与批量回答时的 token 消耗量(图 1) 结果:批量回答节省约 45% 的 token(648 vs. 1205),且准确率相当 解读:当多个查询共享同一上下文窗口时,模型会直觉性地为有限推理配额展开竞争并修剪非必要步骤——作者称之为资源竞争压力 2.2 效应扩展性 作者测量了不同批量大小下每个问题的平均 token 消耗量(使用 DeepSeek‑R1 在 DeepScaleR 数据集约 3 万道数学题上测试): 即使批量增大,准确率仅轻微下降,证实模型会自动为难题分配更多推理资源,同时压缩简单问题的推理过程 3. 从观察到方法:DRQA 的实现 该研究的核心贡献是将批处理诱导的效率迁移至单问题推理的强化学习(RL)框架。以下详细解析各组件 3.1 框架概览图 3.2 逐步方法论 3.2.1 通过批处理推理收集数据 使用 DeepSeek‑R1 在 DeepScaleR 数据集(约 3 万道数学题)上运行批量大小为 2/3/5的提示,为每个问题提取对应 CoT “ 提供模型在资源竞争下自然压缩推理的真实样本 3.2.2 偏好标签构建 每个 CoT 被赋予以下标签之一: ‑ A:正确但可更简洁 ‑ B:正确且简洁(理想状态) ‑ C:错误 标注规则: ‑ 原始(单问题)CoT → 标签 A(正确)或 C(错误) ‑ 批量 CoT → 标签 B(正确)或 C(错误) “ 提供区分「足够好」推理与「不必要的冗长」推理的分级信号 3.2.3 偏好数据集 生成包含 5 万以上 (问题, 推理链, 三选一标签) 元组的数据集 “ 该数据集是 RL 智能体的训练场 3.2.4 基于 GRPO 的强化学习 通过组相对策略优化(GRPO) 训练模型。这种策略梯度方法在最大化正确标签概率的同时,惩罚与旧策略的较大 KL 散度(避免灾难性遗忘)。形式化表示为: 其中 是相对优势(选择标签与真实标签一致时为正,反之为负) “ 该目标函数显式奖励简洁且正确的推理(标签 B),抑制冗长或错误响应。KL 项用于稳定学习,防止模型「遗忘」解决难题的能力 3.2.5 推理(单问题模式) 测试时,模型接收单个问题并照常生成 CoT。但由于已内化对简洁性的偏好,它会根据难度评估自动分配推理配额 “ 无需额外提示、token 预算或手工规则——模型实时自主决策 3.3 为何监督微调(SFT)不足 SFT:作者首先尝试在批量生成的「简洁」数据上直接进行监督微调 结果:token 数大幅下降(GSM8K 上减少 69%),但准确率显著受损(如 AIME 2024 准确率从 74% 跌至 9%) 原因:模型学会了表面简洁性而未理解何时可简洁,导致灾难性遗忘深度推理能力 因此,需要基于奖励的方法(DRQA)来平衡这两个目标 4. 实验结果 4.1 基准测试与设置 数据集 领域 典型难度 GSM8K 小学数学 简单-中等 MATH‑500 代数、几何、数论 中等-困难 AIME 2024/2025 高中奥数 困难 AMC 2023 竞赛数学 中等 GPQA‑Diamond 研究生级科学问答 困难 / 分布外(OOD) 评估的两个蒸馏模型: DeepSeek‑R1‑Distill‑Qwen‑1.5B DeepSeek‑R1‑Distill‑Qwen‑7B 所有基线方法(GRPO、O1‑Pruner、DAST、Shorter‑Better 等)均在相同推理配置下复现(温度 0.6,最大长度 32 K) 4.2 主要结果(摘要) 原始模型(无 DRQA)在 GSM8K 上达到 84.67% 准确率,平均每问 1 929 token;在 AIME 2024 上获得 28.67% 准确率,消耗 14 395 token DRQA (1.5 B) 将 GSM8K 准确率提升至 86.67%(+2 个百分点),token 数降至 1 428(约 ‑26%);在 AIME 2024 上准确率升至 32.00%(+3.3 个百分点),token 数减至 11 008(约 ‑23%) DRQA (7 B) 在 GSM8K 上达到 92.67% 准确率,仅用 1 324 token(‑24%);在 AIME 2024 上获得 54.67% 准确率,消耗 10 008 token(‑27%) 激进压缩方法如 Shorter‑Better 虽大幅减少 token(GSM8K 上 ‑94%),但准确率崩溃(降至 63.67%) DAST 与 O1‑Pruner 获得中等 token 节省(‑70% 至 ‑76%),但准确率提升有限,均未达到 DRQA 的平衡性 总体而言,DRQA 在各类数学科学基准测试中持续减少约 30% token 用量,同时保持甚至提升准确率 4.3 消融研究(摘要) 批量-2(使用批量大小 2 训练)获得最佳权衡:token 减少约 30%,整体准确率约 79.6% 批量-3 与 批量-5 的 token 节省略少,准确率微降,表明过大的批量可能稀释「资源竞争」信号 使用非批量数据(如 Qwen2.5‑7B)或批判性微调(CFT) 会导致效率或准确率下降,证实批量生成的偏好数据与 RL 目标均不可或缺 4.4 分布外鲁棒性 在 GPQA‑Diamond 基准上,DRQA 仍减少约 31% token 消耗,同时保持 31.81% / 49.50% 的准确率,优于过度压缩或泛化失败的其他基线 5. 意义 成本节约——对于按 token 收费的服务(如 OpenAI API),DRQA 可在保持质量的前提下降低约三分之一月成本 延迟降低——更短的输出意味着更快的推理,对辅导机器人或科学助手等实时应用至关重要 可扩展部署——凭借更低的内存与计算占用,模型可在相同硬件上处理更多查询 无需人工 token 预算——与许多「早退」或 token 预算方法不同,DRQA 无需额外提示技巧,模型学会自主调节推理长度 6. 局限性与未来方向 当前局限 潜在改进方案 仅在数学与科学推理数据集上测试 将 DRQA 扩展至代码生成、对话或多模态任务 方法仍依赖批量生成的偏好数据集,对超大语料库成本较高 探索合成生成或自博弈以自举偏好数据 仅优化token 用量;未直接处理其他效率维度(如 GPU 内存、推理延迟) 将 DRQA 与动态早退或模型规模剪枝框架结合 7. 结论性思考 DRQA 框架巧妙捕捉了 LLMs 在共享上下文窗口时表现出的微妙涌现行为——资源竞争。通过将该现象转化为强化学习信号,作者赋予模型自调节推理配额的能力:问题简单时简短清晰,问题困难时深入严谨。 结果令人印象深刻:在多种数学科学基准测试中实现token 消耗降低 30%,同时保持甚至提升准确率。重要的是,DRQA 无需硬编码 token 限制或额外提示技巧,使其成为任何以推理为核心的 LLM 部署的即插即用式升级方案。 来源(公众号):AI Signal 前瞻
2025-09-01 18:15 255
1. 为什么大语言模型(LLMs)会“过度自信” 现代LLMs在数学、科学甚至代码推理方面表现惊人,这得益于一种称为带验证奖励的强化学习(RLVR)的训练范式。在RLVR中,模型生成答案,自动验证器检查其正确性,并据此给予奖励(或惩罚)。这一循环使模型无需人工编写的奖励信号即可自我改进。 但这里存在一个隐藏的问题。 在RLVR训练中,大多数流程会反复采样相同的“初始状态”(即原始问题)。随着模型学会解决这一特定提示分布,其策略熵(衡量其下一个token选择多样性的指标)会急剧下降。简而言之,模型开始依赖少数安全的答案模式,变得过度自信且低多样性。结果是熵崩溃:探索枯竭,学习停滞,进一步训练收效甚微。 研究人员尝试用提高采样温度、添加KL惩罚或裁剪高协方差token等技巧修补此问题。这些方法虽有一定效果,但通常需要针对任务精心调整超参数,且仍依赖同一组静态提示。我们真正需要的是在模型学习过程中向训练数据注入真正的新颖性。 2. 如何让模型保持“好奇” 当语言模型生成解决方案时,有时会真正犹豫该写哪个词或数学运算符。这些时刻反映为高token级熵——模型“举棋不定”。 如果我们在这些高熵点精确干预,可以在分叉前截断部分生成的答案,保留导致不确定性的连贯前缀,并将该前缀附加到原始问题后重新提示模型。模型现在面临一个略有不同的初始上下文——一个它从未见过的上下文——因此其后续决策被迫探索新的推理路径。 这就是CURE(关键token引导的重新拼接)的核心。CURE不调整损失函数或裁剪梯度,而是动态重塑数据分布,引导模型转向未充分探索的状态,从而延缓熵崩溃。 3. CURE简述——两个阶段 阶段1(探索)。 采样器被替换为以下流程:首先生成原始提示的多个 rollout,计算每个token的熵,选择一个关键token(从top-K中均匀采样的最高熵token),提取该token前的前缀,将其与原始问题拼接,然后从新提示生成额外 rollout。原始和重新提示的 rollout 组成训练组,输入GRPO风格的裁剪替代损失。 阶段2(利用)。 探索阶段后,训练与标准RLVR完全相同:模型在原始问题上微调(无重新拼接)。由于策略已接触更丰富的初始状态,现在可以安全地将熵缩减至确定性高精度状态,而不会崩溃。 4. 方法深入解析(阶段1) 以下是探索阶段的逐步说明,非专业人士也能理解。 采样初始 rollout 对训练集中的每个问题q,用当前策略π₀生成N₁(如4个)候选答案。 计算token级熵 生成每个答案时,模型在每一步对词汇表分配概率分布。该分布的熵, 量化其在token位置t的“不确定性”。高Hₜ表示模型在多个合理选项中犹豫。 选择关键token 按Hₜ排序所有位置。 取top-K(如K=20)最高熵位置。 从中均匀采样得到随机关键索引t⁎。 创建前沿前缀 提取前缀p = answer₁…answer₍ₜ⁎₋₁₎(关键token前的所有内容)。 重新拼接 构建新提示 其中“||”表示简单拼接。 生成重新提示的 rollout 从每个精炼提示q′生成N₂(如3个)额外答案。 组构建 对每个原始问题q,现在有一个组 原始重新提示的 该组输入GRPO风格的裁剪替代损失: 动态过滤(DAPO技巧) 丢弃并重新采样仅含全正确或全错误答案的组,确保每批包含混合信号。 优化 用AdamW(学习率=1e-6,无熵或KL正则化)最小化损失。故意省略KL项,因为重新拼接前缀被视为外生干预——无梯度流过,模型仅学习对新上下文的反应。 阶段1结果: 模型的策略熵在探索中实际增长,同时习得的知识融入权重。后续利用阶段后,熵适度下降(评估温度0.6时约30%),但准确率比仅用阶段1的基线提高约7%。 5. 实验 在六个标准数学推理基准上,CURE始终优于先前的RLVR方法。第一阶段(探索)后,多数数据集准确率绝对提升约2–3%。最终(利用)阶段表现最佳: 六基准平均准确率从阶段1后的 52.1% 升至阶段2后的 54.3% ——绝对提升约2%,相对最强RLVR基线改进约5%。 熵轨迹显示,探索阶段达到所有测试方法的最高策略熵,利用阶段平滑降低熵,同时高于DAPO或GRPO的平台期。定性分析(生成文本的词云)显示阶段1后连接词(“因此”“验证”等)使用更丰富,符合CURE鼓励更广推理路径的假设。 6. 结论——“好奇”LLMs的配方 CURE证明,一种以数据为中心的微调——在模型自身犹豫时刻重新提示——可显著延缓熵崩溃,并在挑战性推理基准上转化为真实性能提升。因其仅需两个额外超参数(rollout数量)和top-K设置,易于采用、计算廉价且兼容任何RLVR框架。 来源(公众号):AI Signal 前瞻
2025-08-28 23:11 220
各省、自治区、直辖市人民政府,国务院各部委、各直属机构: 为深入实施“人工智能+”行动,推动人工智能与经济社会各行业各领域广泛深度融合,重塑人类生产生活范式,促进生产力革命性跃迁和生产关系深层次变革,加快形成人机协同、跨界融合、共创分享的智能经济和智能社会新形态,现提出如下意见。 一、总体要求 以习近平新时代中国特色社会主义思想为指导,完整准确全面贯彻新发展理念,坚持以人民为中心的发展思想,充分发挥我国数据资源丰富、产业体系完备、应用场景广阔等优势,强化前瞻谋划、系统布局、分业施策、开放共享、安全可控,以科技、产业、消费、民生、治理、全球合作等领域为重点,深入实施“人工智能+”行动,涌现一批新基础设施、新技术体系、新产业生态、新就业岗位等,加快培育发展新质生产力,使全体人民共享人工智能发展成果,更好服务中国式现代化建设。 到2027年,率先实现人工智能与6大重点领域广泛深度融合,新一代智能终端、智能体等应用普及率超70%,智能经济核心产业规模快速增长,人工智能在公共治理中的作用明显增强,人工智能开放合作体系不断完善。到2030年,我国人工智能全面赋能高质量发展,新一代智能终端、智能体等应用普及率超90%,智能经济成为我国经济发展的重要增长极,推动技术普惠和成果共享。到2035年,我国全面步入智能经济和智能社会发展新阶段,为基本实现社会主义现代化提供有力支撑。 二、加快实施重点行动 (一)“人工智能+”科学技术 1.加速科学发现进程。加快探索人工智能驱动的新型科研范式,加速“从0到1”重大科学发现进程。加快科学大模型建设应用,推动基础科研平台和重大科技基础设施智能化升级,打造开放共享的高质量科学数据集,提升跨模态复杂科学数据处理水平。强化人工智能跨学科牵引带动作用,推动多学科融合发展。 2.驱动技术研发模式创新和效能提升。推动人工智能驱动的技术研发、工程实现、产品落地一体化协同发展,加速“从1到N”技术落地和迭代突破,促进创新成果高效转化。支持智能化研发工具和平台推广应用,加强人工智能与生物制造、量子科技、第六代移动通信(6G)等领域技术协同创新,以新的科研成果支撑场景应用落地,以新的应用需求牵引科技创新突破。 3.创新哲学社会科学研究方法。推动哲学社会科学研究方法向人机协同模式转变,探索建立适应人工智能时代的新型哲学社会科学研究组织形式,拓展研究视野和观察视域。深入研究人工智能对人类认知判断、伦理规范等方面的深层次影响和作用机理,探索形成智能向善理论体系,促进人工智能更好造福人类。 (二)“人工智能+”产业发展 1.培育智能原生新模式新业态。鼓励有条件的企业将人工智能融入战略规划、组织架构、业务流程等,推动产业全要素智能化发展,助力传统产业改造升级,开辟战略性新兴产业和未来产业发展新赛道。大力发展智能原生技术、产品和服务体系,加快培育一批底层架构和运行逻辑基于人工智能的智能原生企业,探索全新商业模式,催生智能原生新业态。 2.推进工业全要素智能化发展。推动工业全要素智能联动,加快人工智能在设计、中试、生产、服务、运营全环节落地应用。着力提升全员人工智能素养与技能,推动各行业形成更多可复用的专家知识。加快工业软件创新突破,大力发展智能制造装备。推进工业供应链智能协同,加强自适应供需匹配。推广人工智能驱动的生产工艺优化方法。深化人工智能与工业互联网融合应用,增强工业系统的智能感知与决策执行能力。 3.加快农业数智化转型升级。加快人工智能驱动的育种体系创新,支持种植、养殖等农业领域智能应用。大力发展智能农机、农业无人机、农业机器人等智能装备,提高农业生产和加工工具的智能感知、决策、控制、作业等能力,强化农机农具平台化、智能化管理。加强人工智能在农业生产管理、风险防范等领域应用,帮助农民提升生产经营能力和水平。 4.创新服务业发展新模式。加快服务业从数字赋能的互联网服务向智能驱动的新型服务方式演进,拓展经营范围,推动现代服务业向智向新发展。探索无人服务与人工服务相结合的新模式。在软件、信息、金融、商务、法律、交通、物流、商贸等领域,推动新一代智能终端、智能体等广泛应用。 (三)“人工智能+”消费提质 1.拓展服务消费新场景。培育覆盖更广、内容更丰富的智能服务业态,加快发展提效型、陪伴型等智能原生应用,支持开辟智能助理等服务新入口。加强智能消费基础设施建设,提升文娱、电商、家政、物业、出行、养老、托育等生活服务品质,拓展体验消费、个性消费、认知和情感消费等服务消费新场景。 2.培育产品消费新业态。推动智能终端“万物智联”,培育智能产品生态,大力发展智能网联汽车、人工智能手机和电脑、智能机器人、智能家居、智能穿戴等新一代智能终端,打造一体化全场景覆盖的智能交互环境。加快人工智能与元宇宙、低空飞行、增材制造、脑机接口等技术融合和产品创新,探索智能产品新形态。 (四)“人工智能+”民生福祉 1.创造更加智能的工作方式。积极发挥人工智能在创造新岗位和赋能传统岗位方面的作用,探索人机协同的新型组织架构和管理模式,培育发展智能代理等创新型工作形态,推动在劳动力紧缺、环境高危等岗位应用。大力支持开展人工智能技能培训,激发人工智能创新创业和再就业活力。加强人工智能应用就业风险评估,引导创新资源向创造就业潜力大的方向倾斜,减少对就业的冲击。 2.推行更富成效的学习方式。把人工智能融入教育教学全要素、全过程,创新智能学伴、智能教师等人机协同教育教学新模式,推动育人从知识传授为重向能力提升为本转变,加快实现大规模因材施教,提高教育质量,促进教育公平。构建智能化情景交互学习模式,推动开展方式更灵活、资源更丰富的自主学习。鼓励和支持全民积极学习人工智能新知识、新技术。 3.打造更有品质的美好生活。探索推广人人可享的高水平居民健康助手,有序推动人工智能在辅助诊疗、健康管理、医保服务等场景的应用,大幅提高基层医疗健康服务能力和效率。推动人工智能在繁荣文化生产、增强文化传播、促进文化交流中展现更大作为,利用人工智能辅助创作更多具有中华文化元素和标识的文化内容,壮大文化产业。充分发挥人工智能对织密人际关系、精神慰藉陪伴、养老托育助残、推进全民健身等方面的重要作用,拓展人工智能在“好房子”全生命周期的应用,积极构建更有温度的智能社会。 (五)“人工智能+”治理能力 1.开创社会治理人机共生新图景。有序推动市政基础设施智能化改造升级,探索面向新一代智能终端发展的城市规划、建设与治理,提升城市运行智能化水平。加快人工智能产品和服务向乡村延伸,推动城乡智能普惠。深入开展人工智能社会实验。安全稳妥有序推进人工智能在政务领域应用,打造精准识别需求、主动规划服务、全程智能办理的政务服务新模式。加快人工智能在各类公共资源招标投标活动中的应用,提升智能交易服务和监管水平。 2.打造安全治理多元共治新格局。推动构建面向自然人、数字人、智能机器人等多元一体的公共安全治理体系,加强人工智能在安全生产监管、防灾减灾救灾、公共安全预警、社会治安管理等方面的应用,提升监测预警、监管执法、指挥决策、现场救援、社会动员等工作水平,增强应用人工智能维护和塑造国家安全的能力。加快推动人工智能赋能网络空间治理,强化信息精准识别、态势主动研判、风险实时处置等能力。 3.共绘美丽中国生态治理新画卷。提高空天地海一体化动态感知和国土空间智慧规划水平,强化资源要素优化配置。围绕大气、水、海洋、土壤、生物等多要素生态环境系统和全国碳市场建设等,提升人工智能驱动的监测预测、模拟推演、问题处置等能力,推动构建智能协同的精准治理模式。 (六)“人工智能+”全球合作 1.推动人工智能普惠共享。把人工智能作为造福人类的国际公共产品,打造平权、互信、多元、共赢的人工智能能力建设开放生态。深化人工智能领域高水平开放,推动人工智能技术开源可及,强化算力、数据、人才等领域国际合作,帮助全球南方国家加强人工智能能力建设,助力各国平等参与智能化发展进程,弥合全球智能鸿沟。 2.共建人工智能全球治理体系。支持联合国在人工智能全球治理中发挥主渠道作用,探索形成各国广泛参与的治理框架,共同应对全球性挑战。深化与国际组织、专业机构等交流合作,加强治理规则、技术标准等对接协调。共同研判、积极应对人工智能应用风险,确保人工智能发展安全、可靠、可控。 三、强化基础支撑能力 (七)提升模型基础能力。加强人工智能基础理论研究,支持多路径技术探索和模型基础架构创新。加快研究更加高效的模型训练和推理方法,积极推动理论创新、技术创新、工程创新协同发展。探索模型应用新形态,提升复杂任务处理能力,优化交互体验。建立健全模型能力评估体系,促进模型能力有效迭代提升。 (八)加强数据供给创新。以应用为导向,持续加强人工智能高质量数据集建设。完善适配人工智能发展的数据产权和版权制度,推动公共财政资助项目形成的版权内容依法合规开放。鼓励探索基于价值贡献度的数据成本补偿、收益分成等方式,加强数据供给激励。支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业。 (九)强化智能算力统筹。支持人工智能芯片攻坚创新与使能软件生态培育,加快超大规模智算集群技术突破和工程落地。优化国家智算资源布局,完善全国一体化算力网,充分发挥“东数西算”国家枢纽作用,加大数、算、电、网等资源协同。加强智能算力互联互通和供需匹配,创新智能算力基础设施运营模式,鼓励发展标准化、可扩展的算力云服务,推动智能算力供给普惠易用、经济高效、绿色安全。 (十)优化应用发展环境。布局建设一批国家人工智能应用中试基地,搭建行业应用共性平台。推动软件信息服务企业智能化转型,重构产品形态和服务模式。培育人工智能应用服务商,发展“模型即服务”、“智能体即服务”等,打造人工智能应用服务链。健全人工智能应用场景建设指引、开放度评价与激励政策,完善应用试错容错管理制度。加强知识产权保护、转化与协同应用。加快重点领域人工智能标准研制,推进跨行业、跨领域、国际化标准联动。 (十一)促进开源生态繁荣。支持人工智能开源社区建设,促进模型、工具、数据集等汇聚开放,培育优质开源项目。建立健全人工智能开源贡献评价和激励机制,鼓励高校将开源贡献纳入学生学分认证和教师成果认定。支持企业、高校、科研机构等探索普惠高效的开源应用新模式。加快构建面向全球开放的开源技术体系和社区生态,发展具有国际影响力的开源项目和开发工具等。 (十二)加强人才队伍建设。推进人工智能全学段教育和全社会通识教育,完善学科专业布局,加大高层次人才培养力度,超常规构建领军人才培养新模式,强化师资力量建设,推进产教融合、跨学科培养和国际合作。完善符合人工智能人才职业属性和岗位特点的多元化评价体系,更好发挥领军人才作用,给予青年人才更大施展空间,鼓励积极探索人工智能“无人区”。支持企业规范用好股权、期权等中长期激励方式引才留才用才。 (十三)强化政策法规保障。健全国有资本投资人工智能领域考核评价和风险监管等制度。加大人工智能领域金融和财政支持力度,发展壮大长期资本、耐心资本、战略资本,完善风险分担和投资退出机制,充分发挥财政资金、政府采购等政策作用。完善人工智能法律法规、伦理准则等,推进人工智能健康发展相关立法工作。优化人工智能相关安全评估和备案管理制度。 (十四)提升安全能力水平。推动模型算法、数据资源、基础设施、应用系统等安全能力建设,防范模型的黑箱、幻觉、算法歧视等带来的风险,加强前瞻评估和监测处置,推动人工智能应用合规、透明、可信赖。建立健全人工智能技术监测、风险预警、应急响应体系,强化政府引导、行业自律,坚持包容审慎、分类分级,加快形成动态敏捷、多元协同的人工智能治理格局。 四、组织实施 坚持把党的领导贯彻到“人工智能+”行动全过程。国家发展改革委要加强统筹协调,推动形成工作合力。各地区各部门要紧密结合实际,因地制宜抓好贯彻落实,确保落地见效。要强化示范引领,适时总结推广经验做法。要加强宣传引导,广泛凝聚社会共识,营造全社会共同参与的良好氛围。 来源:中国政府网
2025-08-27 18:22 170
热门文章