来源(公众号):大数据AI智能圈 "老张,我们的用户画像模型又崩了,业务方明天要数据,怎么办?" 这已经是这个月第三次了。发消息的小李是某互联网公司的数据工程师,入行两年,技术不错,但总是被数据建模这件事搞得焦头烂额。 其实小李的遭遇并不是个例。 我在数据圈混了十多年,见过太多这样的场景:团队花了几个月时间精心设计的数据模型,上线没多久就被业务方嫌弃太复杂"不好用";技术团队加班加点优化模型性能,结果业务需求一变,前面的工作全白费。 问题到底出在哪里?为什么大部分团队在数据建模上都在做无用功? 第一个真相:你以为的需求分析,其实是在自欺欺人 大部分数据团队接需求的方式都有问题。 有这么一个典型的场景:业务方找到数据团队说,"我们需要一个用户行为分析的数据模型,要能看到用户的点击、浏览、购买行为。" 数据团队听了,觉得很清楚啊,于是开始设计用户行为事实表,把点击、浏览、购买这些事件都记录下来,还贴心地加了时间戳、设备信息、地理位置等维度。 结果模型上线后,业务方一脸懵逼:"这个转化率怎么算的?为什么我看到的数据和运营后台不一样?" 问题就出在这里——你以为你理解了需求,其实你只是听到了表面的描述。 真正的需求分析不是记录业务方说了什么,而是要挖掘他们为什么要这个数据。 同样是"用户行为分析",如果是为了优化产品功能,那重点应该是用户的操作路径和停留时长;如果是为了精准营销,那重点应该是用户的兴趣标签和消费偏好。 我有个朋友在某电商公司做数据架构师,他们团队有个不成文的规定:接到任何需求,都要先问三个问题: "这个数据最终是给谁看的?" "他们拿到数据后要做什么决策?" "如果没有这个数据,他们现在是怎么做决策的?" 这三个问题看起来简单,但能帮你快速定位真正的业务痛点。很多时候,业务方自己都不清楚要什么,他们只是觉得"应该有个数据看看"。 更要命的是,很多数据团队为了显示专业性,喜欢把简单的需求复杂化。业务方要个"日活用户数",你给他设计了一套包含十几个维度的用户活跃度分析模型。 业务方看着密密麻麻的表结构,心里只有一个想法:"我就想知道今天有多少人用了我们的产品,为什么这么复杂?" 第二个真相:技术驱动的建模思路,注定要踩坑 很多技术团队在做数据建模的时候,习惯性地从技术角度出发。 "我们用星型模型,性能好。" "雪花模型更规范,符合第三范式。" "这个字段可能以后会用到,先加上。" 听起来很专业,但实际上是在为技术而技术。 我见过一个团队,为了追求"完美的数据模型",设计了一套极其复杂的雪花模型。用户维度表拆分成了基础信息表、行为偏好表、消费能力表等七八张表。技术上确实很优雅,符合所有的建模规范。 但业务方要查个简单的"用户购买转化率",需要关联五张表,SQL写了三十多行。每次查询都要等好几分钟,业务方直接放弃了,回去继续用Excel手工统计。 这就是典型的"为了建模而建模"。 真正有效的数据建模,应该是业务驱动的。先搞清楚业务方最常用的查询场景,然后针对这些场景来优化模型结构。 比如说,如果业务方80%的查询都是按时间和渠道来分析用户行为,那就应该把时间和渠道作为主要的分区字段,即使这样做会导致一些数据冗余。 性能和规范性之间,永远要优先考虑性能。业务方不会因为你的模型符合第三范式而给你加薪,但他们会因为查询速度慢而投诉你。 还有一个容易被忽视的问题:很多团队在设计模型的时候,只考虑了当前的业务需求,没有考虑业务的发展变化。 之前见过一个案例,某公司的数据团队为电商业务设计了一套完美的订单分析模型。但半年后,公司开始做直播带货,原来的模型完全不适用,因为直播订单的业务逻辑和传统电商完全不同。 结果就是推倒重来,前面几个月的工作全部白费。 第三个真相:落地实施才是真正的考验 模型设计得再好,落地不了也是白搭。 很多团队在设计阶段考虑得很周全,但到了实施阶段就开始各种妥协。 数据质量不行,就先凑合着用;ETL任务经常失败,就手工补数据;查询性能不好,就让业务方"耐心等待"。 这种做法的后果就是,模型虽然上线了,但没人愿意用。 我有个前同事,现在在某金融公司做数据总监。他跟我分享过一个经验:"数据模型的成功与否,不是看设计得多完美,而是看有多少人在用。" 他们公司有个规定,任何数据模型上线后的第一个月,都要统计使用情况。如果日均查询次数少于10次,就要分析原因,要么优化模型,要么直接下线。 这个做法看起来有点残酷,但确实有效。它逼着数据团队从用户体验的角度来思考问题,而不是沉浸在技术的完美主义中。 另外,很多团队在实施阶段还有个通病:喜欢一次性把所有功能都做完。 业务方要个用户画像,你就把用户的所有属性都建模进去,从基础信息到行为偏好,从消费能力到社交关系,恨不得把用户的祖宗十八代都分析一遍。 结果就是开发周期拖得很长,等模型上线的时候,业务需求可能已经变了。 更好的做法是MVP(最小可行产品)思路:先做一个最简单的版本,满足核心需求,快速上线,然后根据使用反馈逐步迭代。 比如用户画像,第一版可能只包含基础信息和最近30天的行为数据,但能保证查询速度快,数据准确。等业务方用起来了,有了更多需求,再逐步增加维度和功能。 这样做的好处是,你能快速验证模型的有效性,避免在错误的方向上浪费太多时间。 结语 数据建模这件事,说到底还是要回归本质:为业务创造价值。 技术很重要,但技术只是手段,不是目的。一个能让业务方快速获得洞察、做出决策的简单模型,远比一个技术上完美但没人使用的复杂模型更有价值。 见过太多技术团队,花了大量时间精力去追求所谓的"最佳实践",结果做出来的东西业务方根本用不上。也见过一些看起来"不够优雅"的模型,但因为解决了实际问题,成为了公司的核心数据资产。 数据建模没有标准答案,只有适合不适合。与其追求完美,不如追求有用。先让模型跑起来,解决实际问题,然后在使用中不断优化,这才是数据建模的正确姿势。 记住一句话:好的数据模型不是设计出来的,是用出来的。
2025-09-11 18:22 262
数据开发的终极目标不是 “做出好看的报表” 或者 “搭个复杂的数仓”,而是 “用数据驱动业务决策,创造能衡量的商业价值”。
2025-09-09 18:17 305
为何“记忆”对LLM至关重要 大语言模型(LLMs)在文本生成、翻译和问答方面表现卓越,但它们都存在一个根本性局限:无状态性。每个用户查询都被独立处理,模型仅能查看固定长度的“上下文窗口”(通常为数千个 token)。当对话跨越数十轮,或任务需要数周前的对话信息时,模型便会遗忘——关键信息对其不可见。 常见的解决方案是附加外部记忆库。模型通过检索增强生成(RAG)获取少量历史记录并附加到提示词中。这为 LLM 提供了访问“旧”信息的捷径,但也引入了两难权衡: 检索条目过少 → 遗漏关键事实,导致错误答案 检索条目过多 → 提示词被无关信息淹没,模型注意力分散 人类记忆的工作方式不同:我们快速浏览庞大的心理档案,然后筛选并整合与当前问题真正相关的内容。Memory‑R1 论文的作者主张,“记忆管理”应是一项习得技能,而非手工设计的启发式规则。 Memory‑R1 核心思想概览 Memory‑R1(读作“Memory‑R‑one”)是一个强化学习(RL)框架,为 LLM 配备两个专用智能体: 记忆管理器 – 针对每条新信息,决定添加(ADD)、更新(UPDATE)、删除(DELETE) 或无操作(NO‑OP);基于下游答案正确性,通过结果驱动的 RL(PPO 或 GRPO)进行优化 应答智能体 – 根据用户问题,通过 RAG 召回最多 60 条候选记忆,提炼最有用信息并生成最终答案;同样通过 PPO/GRPO 微调,奖励信号为生成答案与标准答案的精确匹配(EM)率 两个智能体均构建于标准 LLM 之上(作者实验了 LLaMA‑3.1‑8B‑Instruct 和 Qwen‑2.5‑7B‑Instruct)。关键在于,仅需152 个标注的问答对即可训练系统——远少于监督微调通常所需的数千个样本。 方法深度解析 1. 整体流程 对话轮次到达 → LLM 提取关键事实 (例如“Andrew 收养了名为 Buddy 的狗”) RAG 检索从当前记忆库 中获取相关记忆短列表 记忆管理器接收 并预测操作 记忆库相应更新,产生新库 问题出现时 → RAG 从 中获取最多 60 条候选记忆 应答智能体执行记忆提炼策略:对每条检索记忆评分,保留 top‑k(通常仅少数几条),并基于提炼后的上下文生成答案 2. 强化学习微调 两个智能体均作为策略网络 进行训练,将输入映射到离散动作(记忆操作或答案 token)。探索了两种 RL 算法: 近端策略优化(PPO) – 通过裁剪替代目标优化,保持策略更新稳定性;经典且易于理解,适用于价值函数(评论家)可估计预期奖励的场景 组相对策略优化(GRPO) – 对一组动作采样并相对排序,在组内标准化优势函数;无需显式评论家,在稀疏的结果驱动奖励(如精确匹配)下收敛更快 2.1 记忆管理器 RL 状态:提取事实 + 检索记忆 动作:四类记忆操作 token 之一,以及(ADD/UPDATE 时)待插入或合并的内容 奖励:若更新后应答智能体生成正确答案则 ,否则 策略训练目标是最大化基于操作前后答案准确率差异计算的优势值。由于奖励为二值信号,策略能快速学会哪些操作安全(NOOP),哪些操作有益(如“两只狗”案例中的 UPDATE)。 2.2 应答智能体 RL 状态:问题 + 检索记忆集 动作:完整答案 token 序列(自回归生成) 奖励:生成答案 与标准答案 的精确匹配(EM)率 训练期间,智能体对候选答案批次采样并计算 EM 分数,将得分输入 PPO/GRPO。记忆提炼步骤嵌入策略中:模型学会关注能最大化 EM 的记忆子集,实现内置过滤机制。 3. 数据构建 记忆管理器训练数据 – 对每轮对话,使用强 LLM(GPT‑4o‑mini)构建时序记忆快照(前 50 轮对话)。该轮次、快照及关联问答对构成监督学习元组。通过比较该轮次前后的快照自动标注正确操作(ADD/UPDATE/DELETE/NOOP) 应答智能体训练数据 – 记忆管理器构建全局记忆库后,每个问题检索每位参与者最相关的 30 条记忆(共 60 条)。三元组(问题,检索记忆,标准答案)成为应答智能体的训练样本 实验亮点 基准测试:LOCOMO LOCOMO 是用于长程对话记忆的挑战性基准,包含 10 个多轮对话,每个对话约 600 轮(≈ 26 k token)。问题需跨越遥远对话轮次进行单跳、多跳、开放域及时序推理。 训练制度:仅使用第一个对话(152 个问答对)进行微调;剩余八个对话(1 307 个问答对)构成测试集 骨干模型:LLaMA‑3.1‑8B‑Instruct 和 Qwen‑2.5‑7B‑Instruct 主要结果(文本描述) 作者对每个骨干模型评估了 GRPO 和 PPO 训练的 Memory‑R1 系统,并与两个基线对比:原始记忆系统(Mem0)和文献报道的最强非 RL 基线(A‑Mem)。 简言之,Memory‑R1 相比最强非 RL 基线将 F1 提高约 48 %(LLaMA)和 57 %(Qwen),BLEU‑1 和 LLM‑as‑a‑Judge 指标亦有相当提升。 消融实验洞察 结果证实作者主张:每个 RL 训练组件均带来可量化价值,且双智能体相互增强——更优的记忆管理为应答智能体提供更丰富上下文,而选择性提炼策略进一步受益。 PPO 与 GRPO 对比 训练曲线显示GRPO 早期收敛更快,因为当奖励稀疏(二值 EM)时,组相对优势提供更强梯度信号。但两种算法最终性能相近,表明选择可基于计算预算或所需速度。 结论 Memory‑R1 表明,赋予 LLM “记忆感知”能力——而非单纯扩大容量——可显著提升其长周期记忆、推理与行动能力。随着强化学习技术持续成熟,我们有望见到真正学会管理自身知识的、日益 sophisticated 的智能型 LLM 系统。 来源(公众号):AI Signal 前瞻
2025-09-04 13:56 980
大型语言模型(LLMs)如 OpenAI‑O3、DeepSeek‑R1 和 Qwen 系列,在解决数学问题、回答科学问题甚至进行多步骤推理方面展现出惊人能力。然而这些强大系统中一直隐藏着一个缺陷:它们经常过度思考。即使是像 这样简单的问题,也可能触发冗长曲折的思维链,消耗数千 token 并推高计算成本。 一项题为《DRQA: Dynamic Reasoning Quota Allocation for Controlling Overthinking in Reasoning Large Language Models》的最新研究揭示了一个惊人现象:当多个问题以批处理形式输入时,模型会自动压缩推理过程,生成比单独处理时更简短的答案。作者将这种 emergent 的「资源竞争压力」转化为系统性技术——动态推理配额分配(DRQA),使单问题推理也能获得同等效率。 1. 过度思考 作者从三个维度描述了该问题: 过度思考导致冗长且通常冗余的思维链及不必要的 token 消耗 后果包括推理延迟增加、GPU 内存占用扩大、API 成本上升以及实际应用的可扩展性降低 思考不足(另一极端)会导致解释过于简略、步骤缺失以及在难题上准确率下降,影响模型在挑战性基准测试中的表现 现代 LLMs 擅长思维链(CoT)提示,即模型在给出最终答案前逐步写出推理过程。这种方式能提升复杂任务的准确率,但在简单任务上可能造成浪费。该研究提出: “ 我们能否鱼与熊掌兼得? 模型能否学会在问题简单时保持简洁,在问题困难时保持严谨——而无需人工设置 token 预算? 2. 批处理推理的启示 2.1 作者的观察 实验:作者比较了三个数学问题被单独回答与批量回答时的 token 消耗量(图 1) 结果:批量回答节省约 45% 的 token(648 vs. 1205),且准确率相当 解读:当多个查询共享同一上下文窗口时,模型会直觉性地为有限推理配额展开竞争并修剪非必要步骤——作者称之为资源竞争压力 2.2 效应扩展性 作者测量了不同批量大小下每个问题的平均 token 消耗量(使用 DeepSeek‑R1 在 DeepScaleR 数据集约 3 万道数学题上测试): 即使批量增大,准确率仅轻微下降,证实模型会自动为难题分配更多推理资源,同时压缩简单问题的推理过程 3. 从观察到方法:DRQA 的实现 该研究的核心贡献是将批处理诱导的效率迁移至单问题推理的强化学习(RL)框架。以下详细解析各组件 3.1 框架概览图 3.2 逐步方法论 3.2.1 通过批处理推理收集数据 使用 DeepSeek‑R1 在 DeepScaleR 数据集(约 3 万道数学题)上运行批量大小为 2/3/5的提示,为每个问题提取对应 CoT “ 提供模型在资源竞争下自然压缩推理的真实样本 3.2.2 偏好标签构建 每个 CoT 被赋予以下标签之一: ‑ A:正确但可更简洁 ‑ B:正确且简洁(理想状态) ‑ C:错误 标注规则: ‑ 原始(单问题)CoT → 标签 A(正确)或 C(错误) ‑ 批量 CoT → 标签 B(正确)或 C(错误) “ 提供区分「足够好」推理与「不必要的冗长」推理的分级信号 3.2.3 偏好数据集 生成包含 5 万以上 (问题, 推理链, 三选一标签) 元组的数据集 “ 该数据集是 RL 智能体的训练场 3.2.4 基于 GRPO 的强化学习 通过组相对策略优化(GRPO) 训练模型。这种策略梯度方法在最大化正确标签概率的同时,惩罚与旧策略的较大 KL 散度(避免灾难性遗忘)。形式化表示为: 其中 是相对优势(选择标签与真实标签一致时为正,反之为负) “ 该目标函数显式奖励简洁且正确的推理(标签 B),抑制冗长或错误响应。KL 项用于稳定学习,防止模型「遗忘」解决难题的能力 3.2.5 推理(单问题模式) 测试时,模型接收单个问题并照常生成 CoT。但由于已内化对简洁性的偏好,它会根据难度评估自动分配推理配额 “ 无需额外提示、token 预算或手工规则——模型实时自主决策 3.3 为何监督微调(SFT)不足 SFT:作者首先尝试在批量生成的「简洁」数据上直接进行监督微调 结果:token 数大幅下降(GSM8K 上减少 69%),但准确率显著受损(如 AIME 2024 准确率从 74% 跌至 9%) 原因:模型学会了表面简洁性而未理解何时可简洁,导致灾难性遗忘深度推理能力 因此,需要基于奖励的方法(DRQA)来平衡这两个目标 4. 实验结果 4.1 基准测试与设置 数据集 领域 典型难度 GSM8K 小学数学 简单-中等 MATH‑500 代数、几何、数论 中等-困难 AIME 2024/2025 高中奥数 困难 AMC 2023 竞赛数学 中等 GPQA‑Diamond 研究生级科学问答 困难 / 分布外(OOD) 评估的两个蒸馏模型: DeepSeek‑R1‑Distill‑Qwen‑1.5B DeepSeek‑R1‑Distill‑Qwen‑7B 所有基线方法(GRPO、O1‑Pruner、DAST、Shorter‑Better 等)均在相同推理配置下复现(温度 0.6,最大长度 32 K) 4.2 主要结果(摘要) 原始模型(无 DRQA)在 GSM8K 上达到 84.67% 准确率,平均每问 1 929 token;在 AIME 2024 上获得 28.67% 准确率,消耗 14 395 token DRQA (1.5 B) 将 GSM8K 准确率提升至 86.67%(+2 个百分点),token 数降至 1 428(约 ‑26%);在 AIME 2024 上准确率升至 32.00%(+3.3 个百分点),token 数减至 11 008(约 ‑23%) DRQA (7 B) 在 GSM8K 上达到 92.67% 准确率,仅用 1 324 token(‑24%);在 AIME 2024 上获得 54.67% 准确率,消耗 10 008 token(‑27%) 激进压缩方法如 Shorter‑Better 虽大幅减少 token(GSM8K 上 ‑94%),但准确率崩溃(降至 63.67%) DAST 与 O1‑Pruner 获得中等 token 节省(‑70% 至 ‑76%),但准确率提升有限,均未达到 DRQA 的平衡性 总体而言,DRQA 在各类数学科学基准测试中持续减少约 30% token 用量,同时保持甚至提升准确率 4.3 消融研究(摘要) 批量-2(使用批量大小 2 训练)获得最佳权衡:token 减少约 30%,整体准确率约 79.6% 批量-3 与 批量-5 的 token 节省略少,准确率微降,表明过大的批量可能稀释「资源竞争」信号 使用非批量数据(如 Qwen2.5‑7B)或批判性微调(CFT) 会导致效率或准确率下降,证实批量生成的偏好数据与 RL 目标均不可或缺 4.4 分布外鲁棒性 在 GPQA‑Diamond 基准上,DRQA 仍减少约 31% token 消耗,同时保持 31.81% / 49.50% 的准确率,优于过度压缩或泛化失败的其他基线 5. 意义 成本节约——对于按 token 收费的服务(如 OpenAI API),DRQA 可在保持质量的前提下降低约三分之一月成本 延迟降低——更短的输出意味着更快的推理,对辅导机器人或科学助手等实时应用至关重要 可扩展部署——凭借更低的内存与计算占用,模型可在相同硬件上处理更多查询 无需人工 token 预算——与许多「早退」或 token 预算方法不同,DRQA 无需额外提示技巧,模型学会自主调节推理长度 6. 局限性与未来方向 当前局限 潜在改进方案 仅在数学与科学推理数据集上测试 将 DRQA 扩展至代码生成、对话或多模态任务 方法仍依赖批量生成的偏好数据集,对超大语料库成本较高 探索合成生成或自博弈以自举偏好数据 仅优化token 用量;未直接处理其他效率维度(如 GPU 内存、推理延迟) 将 DRQA 与动态早退或模型规模剪枝框架结合 7. 结论性思考 DRQA 框架巧妙捕捉了 LLMs 在共享上下文窗口时表现出的微妙涌现行为——资源竞争。通过将该现象转化为强化学习信号,作者赋予模型自调节推理配额的能力:问题简单时简短清晰,问题困难时深入严谨。 结果令人印象深刻:在多种数学科学基准测试中实现token 消耗降低 30%,同时保持甚至提升准确率。重要的是,DRQA 无需硬编码 token 限制或额外提示技巧,使其成为任何以推理为核心的 LLM 部署的即插即用式升级方案。 来源(公众号):AI Signal 前瞻
2025-09-01 18:15 410
1. 为什么大语言模型(LLMs)会“过度自信” 现代LLMs在数学、科学甚至代码推理方面表现惊人,这得益于一种称为带验证奖励的强化学习(RLVR)的训练范式。在RLVR中,模型生成答案,自动验证器检查其正确性,并据此给予奖励(或惩罚)。这一循环使模型无需人工编写的奖励信号即可自我改进。 但这里存在一个隐藏的问题。 在RLVR训练中,大多数流程会反复采样相同的“初始状态”(即原始问题)。随着模型学会解决这一特定提示分布,其策略熵(衡量其下一个token选择多样性的指标)会急剧下降。简而言之,模型开始依赖少数安全的答案模式,变得过度自信且低多样性。结果是熵崩溃:探索枯竭,学习停滞,进一步训练收效甚微。 研究人员尝试用提高采样温度、添加KL惩罚或裁剪高协方差token等技巧修补此问题。这些方法虽有一定效果,但通常需要针对任务精心调整超参数,且仍依赖同一组静态提示。我们真正需要的是在模型学习过程中向训练数据注入真正的新颖性。 2. 如何让模型保持“好奇” 当语言模型生成解决方案时,有时会真正犹豫该写哪个词或数学运算符。这些时刻反映为高token级熵——模型“举棋不定”。 如果我们在这些高熵点精确干预,可以在分叉前截断部分生成的答案,保留导致不确定性的连贯前缀,并将该前缀附加到原始问题后重新提示模型。模型现在面临一个略有不同的初始上下文——一个它从未见过的上下文——因此其后续决策被迫探索新的推理路径。 这就是CURE(关键token引导的重新拼接)的核心。CURE不调整损失函数或裁剪梯度,而是动态重塑数据分布,引导模型转向未充分探索的状态,从而延缓熵崩溃。 3. CURE简述——两个阶段 阶段1(探索)。 采样器被替换为以下流程:首先生成原始提示的多个 rollout,计算每个token的熵,选择一个关键token(从top-K中均匀采样的最高熵token),提取该token前的前缀,将其与原始问题拼接,然后从新提示生成额外 rollout。原始和重新提示的 rollout 组成训练组,输入GRPO风格的裁剪替代损失。 阶段2(利用)。 探索阶段后,训练与标准RLVR完全相同:模型在原始问题上微调(无重新拼接)。由于策略已接触更丰富的初始状态,现在可以安全地将熵缩减至确定性高精度状态,而不会崩溃。 4. 方法深入解析(阶段1) 以下是探索阶段的逐步说明,非专业人士也能理解。 采样初始 rollout 对训练集中的每个问题q,用当前策略π₀生成N₁(如4个)候选答案。 计算token级熵 生成每个答案时,模型在每一步对词汇表分配概率分布。该分布的熵, 量化其在token位置t的“不确定性”。高Hₜ表示模型在多个合理选项中犹豫。 选择关键token 按Hₜ排序所有位置。 取top-K(如K=20)最高熵位置。 从中均匀采样得到随机关键索引t⁎。 创建前沿前缀 提取前缀p = answer₁…answer₍ₜ⁎₋₁₎(关键token前的所有内容)。 重新拼接 构建新提示 其中“||”表示简单拼接。 生成重新提示的 rollout 从每个精炼提示q′生成N₂(如3个)额外答案。 组构建 对每个原始问题q,现在有一个组 原始重新提示的 该组输入GRPO风格的裁剪替代损失: 动态过滤(DAPO技巧) 丢弃并重新采样仅含全正确或全错误答案的组,确保每批包含混合信号。 优化 用AdamW(学习率=1e-6,无熵或KL正则化)最小化损失。故意省略KL项,因为重新拼接前缀被视为外生干预——无梯度流过,模型仅学习对新上下文的反应。 阶段1结果: 模型的策略熵在探索中实际增长,同时习得的知识融入权重。后续利用阶段后,熵适度下降(评估温度0.6时约30%),但准确率比仅用阶段1的基线提高约7%。 5. 实验 在六个标准数学推理基准上,CURE始终优于先前的RLVR方法。第一阶段(探索)后,多数数据集准确率绝对提升约2–3%。最终(利用)阶段表现最佳: 六基准平均准确率从阶段1后的 52.1% 升至阶段2后的 54.3% ——绝对提升约2%,相对最强RLVR基线改进约5%。 熵轨迹显示,探索阶段达到所有测试方法的最高策略熵,利用阶段平滑降低熵,同时高于DAPO或GRPO的平台期。定性分析(生成文本的词云)显示阶段1后连接词(“因此”“验证”等)使用更丰富,符合CURE鼓励更广推理路径的假设。 6. 结论——“好奇”LLMs的配方 CURE证明,一种以数据为中心的微调——在模型自身犹豫时刻重新提示——可显著延缓熵崩溃,并在挑战性推理基准上转化为真实性能提升。因其仅需两个额外超参数(rollout数量)和top-K设置,易于采用、计算廉价且兼容任何RLVR框架。 来源(公众号):AI Signal 前瞻
2025-08-28 23:11 387
在人工智能日新月异的发展浪潮中,构建更强大的语言模型往往伴随着高昂代价——计算与内存需求呈指数级增长。 谷歌DeepMind、KAIST AI和Mila的研究人员在其2025年发表的论文《Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation》中提出的混合递归框架(MoR),正是这一困局的破局者。 这一开创性架构能够在保持大规模语言模型性能的同时,大幅降低资源消耗,或将重新定义高效AI的未来图景。让我们深入解析MoR的革命性突破,探寻其被誉为"游戏规则改变者"的深层原因。 核心挑战:如何实现高效扩展 像GPT-3和PaLM这样的大型语言模型(LLMs)已展现出惊人能力——从诗歌创作到复杂问题求解无所不能。然而,它们的算力需求同样惊人。训练和部署这些模型需要消耗海量资源,导致其几乎成为资金雄厚的科技巨头专属品。 以往提升效率的努力通常聚焦于两种策略:参数共享(通过复用模型权重缩减规模)或自适应计算(根据输入动态分配算力资源)。但问题在于——这两种方法长期未能有效结合,直到 MoR 的出现。 MoR 通过将参数共享与自适应计算统一纳入递归 Transformer 框架,直击这一难题。最终实现的模型既能达到大模型的性能水准,又只需小模型的资源开销,为AI效率树立了全新的帕累托前沿。 什么是混合递归架构(MoR) MoR(混合递归)架构的核心是通过两种关键方式提升基于Transformer的语言模型效率: 递归式参数共享机制:不同于传统模型为每层计算分配独立参数,MoR采用共享的Transformer层堆叠结构进行多步递归计算。这种设计大幅减少唯一参数数量,使模型在训练和部署时更紧凑高效。 自适应token计算策略:模型通过轻量级路由网络动态分配不同递归深度——对复杂token进行深层计算,而简单token则提前退出。这种细粒度资源分配有效避免了冗余运算。 该架构还创新性地采用了动态KV缓存技术:仅选择性存储当前递归步骤活跃令牌的键值对,显著降低内存占用并提升推理速度。其变体递归KV共享更进一步复用首步递归的键值对,在几乎不影响性能的前提下,大幅减少预填充延迟和内存消耗。 MoR 如何运作 想象一个编辑团队正在润色一份复杂文档。在传统 Transformer 架构中,每个编辑(层)都是独立的,需要消耗大量资源。而 MoR 则如同一位技艺高超的编辑,通过多次迭代审阅来优化文档。以下是MoR的核心组件解析: 递归式Transformer架构 MoR将模型划分为递归块,通过重复应用同一组共享层实现优化。其参数共享策略包含三种模式: 循环模式:层参数按周期循环复用 序列模式:连续重复使用相同层 中间变体:保留首尾层的独立参数,共享中间层参数 这种设计减少了独特参数数量,既提升了训练效率,又通过"连续深度批处理"等技术消除了计算"气泡"。 动态递归路由 全新训练的路由模块会根据token的复杂度分配递归深度:复杂token获得更多计算资源,简单token则提前退出。与事后路由方案不同,MoR的路由机制在预训练阶段就深度集成,确保训练与推理行为的一致性,实现最优性能。 高效KV缓存 MoR采用"递归感知KV缓存"技术,仅存储当前递归步活跃token的键值对,大幅减少内存访问。其"递归KV共享"变体通过复用首轮递归的键值对,可降低50%内存占用,某些场景下推理速度提升达2倍。 MoR为何重要:结果说明一切 MoR框架在1.35亿至17亿参数的模型规模范围内进行了严格测试,结果令人瞩目: 性能优势:在同等训练计算量(FLOPs)条件下,相较于传统Transformer和现有递归基线模型,MoR以更小的模型规模显著降低了验证困惑度,并提升了少样本学习准确率。 吞吐量提升:通过聚焦活跃令牌的计算优化及KV缓存机制,MoR实现了更高的推理吞吐量,使部署速度更快、成本效益更优。 内存高效:该框架将KV缓存内存占用减少约50%,直击大语言模型部署中最关键的瓶颈之一。 扩展性强:MoR的设计兼容现有硬件和架构,成为现实场景应用的实用解决方案。 这些突破性进展确立了MoR作为效率新标杆的地位,以"大模型性能、小模型成本"实现了优质低耗的完美平衡。 迈向更智能、更廉价AI的关键一步 MoR 的意义不仅限于技术效率的提升。通过降低部署大语言模型的计算与资金门槛,这项技术使小型机构和研究者也能用上尖端AI模型,推动了先进人工智能的民主化进程。其自适应计算机制更模拟了某种"计算智能"——像人类分配脑力处理复杂任务那样,动态调配计算资源到最需要的地方。 X平台上的技术爱好者甚至将MoR称为"Transformer杀手",暗示它可能引发传统Transformer架构的范式转移。虽然这种说法略显夸张,但MoR通过参数共享与自适应计算的创新结合,确实为高效AI设计树立了新标杆。 挑战与未来方向 尽管混合递归(MoR)是一项重大突破,但它仍面临挑战。动态路由机制需要精细训练以避免性能下降,而递归KV共享的权衡方案仍需在不同任务中进一步探索。此外,与所有注重效率的方法一样,需要确保该技术在现实应用中始终保持稳健性能。 未来研究可在MoR基础上整合其他技术,如专家混合(MoE)或DeepMind自研的混合深度(MoD)。该框架的灵活性还为动态样本调度和连续深度批处理等创新开辟了道路,有望进一步提升吞吐量(某些情况下可实现高达2.76倍的加速)。 结论:面向未来的蓝图 混合递归不仅是一项技术创新,更是构建更智能、更经济、更高效AI的蓝图。通过统一参数共享与自适应计算,MoR实现了曾被视作不可能的目标:既能达到大规模模型的性能,又能保持小规模模型的效率。当AI界苦于扩展成本不可持续之际,MoR为平衡性能与实用性提供了可行路径。 随着DeepMind与合作者不断突破AI效率的边界,MoR以其创造性的架构设计证明了创新的力量。无论它是"Transformer杀手"还是变革性的一步,有一点毋庸置疑:混合递归正在为更普惠、更可持续的AI未来铺平道路。 “ 更多细节请参阅arXiv上的原始论文:《Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation》 来源(公众号):AI Signal 前瞻
2025-08-26 16:07 440
热门文章