行业好文-龙石数据

全部类型 AI+大数据数据中台 AI智能问数 API平台数据交换数据集成数据质量数据标准数据安全

推理革命：强化学习如何教会人工智能真正思考我们都对像ChatGPT这样的大型语言模型（LLM）的能力感到惊叹。它们可以写邮件、起草诗歌，并回答几乎所有主题的问题。但流畅的对话与深入的多步推理之间存在着差异。我们如何让AI不仅能检索信息，而且能真正地思考——解决复杂的数学问题、编写功能代码并规划一系列行动？一篇全面的新综述《A Survey of Reinforcement Learning for Large Reasoning Models》描绘了人工智能发展中一个 groundbreaking 的转变历程。研究人员现在正在使用一种称为强化学习（RL）的技术，不仅是为了让模型更安全、更符合人类偏好，更是为了从根本上增强其推理能力。这正在将今天的LLM转变为大型推理模型（LRM），这标志着向更强大、更通用的人工智能迈出了关键的一步。从遵循规则到解决问题强化学习是一种训练方法，其灵感来源于我们如何从试错中学习。一个“智能体”（AI模型）通过与“环境”（一个问题或任务）交互来采取“行动”（生成文本或代码）。然后，它会根据其表现获得“奖励”。这与使AlphaGo等AI系统掌握围棋所依据的原理相同——通过进行数百万局游戏并学习哪些落子能导向胜利。最初，RL被著名地用于在一个称为人类反馈强化学习（RLHF）的过程中，将LLM与人类价值观对齐。在这个过程中，人类评审员会对不同的AI响应进行排名，然后利用这种反馈来训练一个“奖励模型”，以引导LLM变得更有帮助、更诚实且更无害。但一种新趋势已经出现，以里程碑式的模型如OpenAI o1和DeepSeek-R1为典范。这种新范式被称为带可验证奖励的强化学习（RLVR），它使用客观的、可自动检查的奖励来直接教授推理。AI不再依赖主观的人类反馈，而是为结果可验证的任务获得清晰的奖励信号：对于数学问题，如果\boxed{...}中的最终答案正确，则给予奖励。对于编码任务，如果生成的代码通过了所有单元测试，则给予奖励。这个简单的转变是深刻的。它允许AI模型通过生成长思维链、探索不同策略、并逐步发现那些能导向正确答案的推理路径，来学习复杂的问题解决。它开辟了一条扩展AI能力的新途径，这条途径与仅仅增大模型规模是互补的。训练师的工具包：用于推理的RL核心组件该综述将训练LRM的整个过程分解为三个基础组成部分。可以将其视为思维机器的完整训练方案。奖励设计：定义“做得好”：RL的核心是奖励。论文探讨了设计这些信号的几种方式：可验证奖励：如前所述，这些是清晰的、基于规则的信号，如正确的数学答案或通过的代码测试。它们具有可扩展性和可靠性。生成式奖励：对于更主观的任务（如评判故事的质量），可以使用另一个强大的AI作为评判员来提供批评和分数，充当“生成式奖励模型”。密集奖励：模型不仅能在最后获得奖励，还能在其推理链的每个中间步骤获得反馈。这就像一位老师在整个问题解决过程中给予指导。无监督奖励：在这里，模型学会根据内部信号（如其自身答案的一致性或其置信度）来自我奖励，从而消除了对外部标签的需求。策略优化：学习算法：一旦AI获得奖励，它需要一个机制来更新其内部“策略”，以便下次做得更好。该综述详细介绍了算法从标准的PPO（近端策略优化）到无评论者方法（如GRPO（组相对策略优化））的演变，后者因其在大规模训练中的简单性和高效性而变得流行。这些算法是将奖励信号转化为改进的推理能力的数学引擎。采样策略：智能练习：AI不仅仅是从静态的教科书中学习。它通过积极尝试解决问题来学习。采样策略是关于选择处理哪些问题。例如，动态采样策略可能会将AI的训练时间集中在既不太容易也不太困难的问题上，确保每个计算周期都用于学习一些有用的东西。大辩论：AI训练中的基础问题虽然进展迅速，但该领域正在努力解决几个基本且有争议的问题。该综述巧妙地概述了这些开放性问题：锐化 vs. 发现：RL仅仅是“锐化”模型从初始训练中 already latently 具备的推理能力吗？还是它能导致“发现”真正新的问题解决策略？证据好坏参半，一些研究表明RL主要 refine 现有技能，而另一些则显示它可以推动模型能力的边界。 RL vs. SFT（泛化 vs. 记忆）：RL与标准的监督微调（SFT）相比如何？在SFT中，模型只是学习模仿正确的例子。一个引人注目的结论正从最近的研究中浮现：“SFT memorizes, RL generalizes。” RL倾向于产生在未见过的、新问题上表现更好的模型，而SFT可能导致对训练数据的过拟合。过程 vs. 结果：我们应该奖励模型获得正确的最终答案（结果），还是奖励其正确的逐步推理过程？奖励结果更容易扩展，但这可能会鼓励AI寻找捷径或产生不忠实的思维链。奖励过程确保了忠实的推理，但监督成本要高得多。现实世界中的RL：推理AI的应用这些方法的最终检验是它们的现实影响。该综述强调了在广泛应用中取得的惊人进展：编码任务：经过RL训练的模型正在超越简单的代码生成，去应对竞争性编程、领域特定代码（如SQL），甚至仓库级的软件工程挑战，如代码修复和质量改进。智能体任务：这是AI学习使用工具的地方。借助RL，智能体可以学习浏览网页查找信息、使用计算器，或与图形用户界面（GUI）交互以完成任务，更像自主助手一样行动。多模态任务：推理不仅限于文本。RL正被用于训练能够理解和推理图像、视频甚至3D环境的模型。这包括从回答关于视频的复杂问题到生成符合特定、细致入微指令的图像等一切。机器人技术与医学：RL正在帮助弥合机器人的仿真与现实世界之间的差距，让视觉-语言-动作（VLA）模型能够以最少的人类数据学习操作任务。在医学领域，它正被用于增强诊断推理、解读医学图像，甚至优化治疗计划。正如近期模型的时间线所示，该领域的创新速度惊人，新的开源和专有模型不断推动着前沿。前路指南该综述通过展望未来作为结尾，概述了几个令人兴奋的方向。这些包括开发能够在其整个生命周期中持续学习（持续RL）的AI、构建具有鲁棒记忆系统（基于记忆的RL）的模型，甚至使用RL来共同设计未来AI模型的架构。这篇论文提供了一幅正处于革命中的领域的重要地图。通过利用试错学习的原则，研究人员正在构建的AI不仅仅是模仿智能，而是在积极培养智能。从大型语言模型到真正的大型推理模型的旅程正在进行中，而强化学习是推动它向前发展的引擎。来源（公众号）：AI Signal

行业好文

2025-09-12 17:47 2417

数据建模的真相！为什么90%的团队都在做无用功

来源（公众号）：大数据AI智能圈 "老张，我们的用户画像模型又崩了，业务方明天要数据，怎么办？" 这已经是这个月第三次了。发消息的小李是某互联网公司的数据工程师，入行两年，技术不错，但总是被数据建模这件事搞得焦头烂额。其实小李的遭遇并不是个例。我在数据圈混了十多年，见过太多这样的场景：团队花了几个月时间精心设计的数据模型，上线没多久就被业务方嫌弃太复杂"不好用"；技术团队加班加点优化模型性能，结果业务需求一变，前面的工作全白费。问题到底出在哪里？为什么大部分团队在数据建模上都在做无用功？第一个真相：你以为的需求分析，其实是在自欺欺人大部分数据团队接需求的方式都有问题。有这么一个典型的场景：业务方找到数据团队说，"我们需要一个用户行为分析的数据模型，要能看到用户的点击、浏览、购买行为。" 数据团队听了，觉得很清楚啊，于是开始设计用户行为事实表，把点击、浏览、购买这些事件都记录下来，还贴心地加了时间戳、设备信息、地理位置等维度。结果模型上线后，业务方一脸懵逼："这个转化率怎么算的？为什么我看到的数据和运营后台不一样？" 问题就出在这里——你以为你理解了需求，其实你只是听到了表面的描述。真正的需求分析不是记录业务方说了什么，而是要挖掘他们为什么要这个数据。同样是"用户行为分析"，如果是为了优化产品功能，那重点应该是用户的操作路径和停留时长；如果是为了精准营销，那重点应该是用户的兴趣标签和消费偏好。我有个朋友在某电商公司做数据架构师，他们团队有个不成文的规定：接到任何需求，都要先问三个问题： "这个数据最终是给谁看的？" "他们拿到数据后要做什么决策？" "如果没有这个数据，他们现在是怎么做决策的？" 这三个问题看起来简单，但能帮你快速定位真正的业务痛点。很多时候，业务方自己都不清楚要什么，他们只是觉得"应该有个数据看看"。更要命的是，很多数据团队为了显示专业性，喜欢把简单的需求复杂化。业务方要个"日活用户数"，你给他设计了一套包含十几个维度的用户活跃度分析模型。业务方看着密密麻麻的表结构，心里只有一个想法："我就想知道今天有多少人用了我们的产品，为什么这么复杂？" 第二个真相：技术驱动的建模思路，注定要踩坑很多技术团队在做数据建模的时候，习惯性地从技术角度出发。 "我们用星型模型，性能好。" "雪花模型更规范，符合第三范式。" "这个字段可能以后会用到，先加上。" 听起来很专业，但实际上是在为技术而技术。我见过一个团队，为了追求"完美的数据模型"，设计了一套极其复杂的雪花模型。用户维度表拆分成了基础信息表、行为偏好表、消费能力表等七八张表。技术上确实很优雅，符合所有的建模规范。但业务方要查个简单的"用户购买转化率"，需要关联五张表，SQL写了三十多行。每次查询都要等好几分钟，业务方直接放弃了，回去继续用Excel手工统计。这就是典型的"为了建模而建模"。真正有效的数据建模，应该是业务驱动的。先搞清楚业务方最常用的查询场景，然后针对这些场景来优化模型结构。比如说，如果业务方80%的查询都是按时间和渠道来分析用户行为，那就应该把时间和渠道作为主要的分区字段，即使这样做会导致一些数据冗余。性能和规范性之间，永远要优先考虑性能。业务方不会因为你的模型符合第三范式而给你加薪，但他们会因为查询速度慢而投诉你。还有一个容易被忽视的问题：很多团队在设计模型的时候，只考虑了当前的业务需求，没有考虑业务的发展变化。之前见过一个案例，某公司的数据团队为电商业务设计了一套完美的订单分析模型。但半年后，公司开始做直播带货，原来的模型完全不适用，因为直播订单的业务逻辑和传统电商完全不同。结果就是推倒重来，前面几个月的工作全部白费。第三个真相：落地实施才是真正的考验模型设计得再好，落地不了也是白搭。很多团队在设计阶段考虑得很周全，但到了实施阶段就开始各种妥协。数据质量不行，就先凑合着用；ETL任务经常失败，就手工补数据；查询性能不好，就让业务方"耐心等待"。这种做法的后果就是，模型虽然上线了，但没人愿意用。我有个前同事，现在在某金融公司做数据总监。他跟我分享过一个经验："数据模型的成功与否，不是看设计得多完美，而是看有多少人在用。" 他们公司有个规定，任何数据模型上线后的第一个月，都要统计使用情况。如果日均查询次数少于10次，就要分析原因，要么优化模型，要么直接下线。这个做法看起来有点残酷，但确实有效。它逼着数据团队从用户体验的角度来思考问题，而不是沉浸在技术的完美主义中。另外，很多团队在实施阶段还有个通病：喜欢一次性把所有功能都做完。业务方要个用户画像，你就把用户的所有属性都建模进去，从基础信息到行为偏好，从消费能力到社交关系，恨不得把用户的祖宗十八代都分析一遍。结果就是开发周期拖得很长，等模型上线的时候，业务需求可能已经变了。更好的做法是MVP（最小可行产品）思路：先做一个最简单的版本，满足核心需求，快速上线，然后根据使用反馈逐步迭代。比如用户画像，第一版可能只包含基础信息和最近30天的行为数据，但能保证查询速度快，数据准确。等业务方用起来了，有了更多需求，再逐步增加维度和功能。这样做的好处是，你能快速验证模型的有效性，避免在错误的方向上浪费太多时间。结语数据建模这件事，说到底还是要回归本质：为业务创造价值。技术很重要，但技术只是手段，不是目的。一个能让业务方快速获得洞察、做出决策的简单模型，远比一个技术上完美但没人使用的复杂模型更有价值。见过太多技术团队，花了大量时间精力去追求所谓的"最佳实践"，结果做出来的东西业务方根本用不上。也见过一些看起来"不够优雅"的模型，但因为解决了实际问题，成为了公司的核心数据资产。数据建模没有标准答案，只有适合不适合。与其追求完美，不如追求有用。先让模型跑起来，解决实际问题，然后在使用中不断优化，这才是数据建模的正确姿势。记住一句话：好的数据模型不是设计出来的，是用出来的。

行业好文

2025-09-11 18:22 532

数据集质量正成为AI大模型的终极壁垒

数据集正在成为AI时代的核心竞争力。在算法日趋同质化的今天，谁拥有更高质量的数据集，谁就拥有了更强的竞争优势。

行业好文

2025-09-10 17:47 604

数据开发的魅力，从来不是 “我能写多复杂的 SQL”

数据开发的终极目标不是 “做出好看的报表” 或者 “搭个复杂的数仓”，而是 “用数据驱动业务决策，创造能衡量的商业价值”。

行业好文

2025-09-09 18:17 544

美团 LongCat-Flash 这个5600亿参数的懒AI，竟然比勤奋的模型跑得更快？

LongCat-Flash的出现，不仅仅是美团在AI领域的一次技术突破，更像是给整个行业投下的一颗石子，激起的涟漪将会影响到每一个与AI相关的人！

行业好文

2025-09-05 13:41 889

RL解锁LLM超强记忆！Memory-R1：小样本训练，性能狂飙40%+！

为何“记忆”对LLM至关重要大语言模型（LLMs）在文本生成、翻译和问答方面表现卓越，但它们都存在一个根本性局限：无状态性。每个用户查询都被独立处理，模型仅能查看固定长度的“上下文窗口”（通常为数千个 token）。当对话跨越数十轮，或任务需要数周前的对话信息时，模型便会遗忘——关键信息对其不可见。常见的解决方案是附加外部记忆库。模型通过检索增强生成（RAG）获取少量历史记录并附加到提示词中。这为 LLM 提供了访问“旧”信息的捷径，但也引入了两难权衡：检索条目过少 → 遗漏关键事实，导致错误答案检索条目过多 → 提示词被无关信息淹没，模型注意力分散人类记忆的工作方式不同：我们快速浏览庞大的心理档案，然后筛选并整合与当前问题真正相关的内容。Memory‑R1 论文的作者主张，“记忆管理”应是一项习得技能，而非手工设计的启发式规则。 Memory‑R1 核心思想概览 Memory‑R1（读作“Memory‑R‑one”）是一个强化学习（RL）框架，为 LLM 配备两个专用智能体：记忆管理器 – 针对每条新信息，决定添加（ADD）、更新（UPDATE）、删除（DELETE）或无操作（NO‑OP）；基于下游答案正确性，通过结果驱动的 RL（PPO 或 GRPO）进行优化应答智能体 – 根据用户问题，通过 RAG 召回最多 60 条候选记忆，提炼最有用信息并生成最终答案；同样通过 PPO/GRPO 微调，奖励信号为生成答案与标准答案的精确匹配（EM）率两个智能体均构建于标准 LLM 之上（作者实验了 LLaMA‑3.1‑8B‑Instruct 和 Qwen‑2.5‑7B‑Instruct）。关键在于，仅需152 个标注的问答对即可训练系统——远少于监督微调通常所需的数千个样本。方法深度解析 1. 整体流程对话轮次到达 → LLM 提取关键事实（例如“Andrew 收养了名为 Buddy 的狗”） RAG 检索从当前记忆库中获取相关记忆短列表记忆管理器接收并预测操作记忆库相应更新，产生新库问题出现时 → RAG 从中获取最多 60 条候选记忆应答智能体执行记忆提炼策略：对每条检索记忆评分，保留 top‑k（通常仅少数几条），并基于提炼后的上下文生成答案 2. 强化学习微调两个智能体均作为策略网络进行训练，将输入映射到离散动作（记忆操作或答案 token）。探索了两种 RL 算法：近端策略优化（PPO） – 通过裁剪替代目标优化，保持策略更新稳定性；经典且易于理解，适用于价值函数（评论家）可估计预期奖励的场景组相对策略优化（GRPO） – 对一组动作采样并相对排序，在组内标准化优势函数；无需显式评论家，在稀疏的结果驱动奖励（如精确匹配）下收敛更快 2.1 记忆管理器 RL 状态：提取事实 + 检索记忆动作：四类记忆操作 token 之一，以及（ADD/UPDATE 时）待插入或合并的内容奖励：若更新后应答智能体生成正确答案则，否则策略训练目标是最大化基于操作前后答案准确率差异计算的优势值。由于奖励为二值信号，策略能快速学会哪些操作安全（NOOP），哪些操作有益（如“两只狗”案例中的 UPDATE）。 2.2 应答智能体 RL 状态：问题 + 检索记忆集动作：完整答案 token 序列（自回归生成）奖励：生成答案与标准答案的精确匹配（EM）率训练期间，智能体对候选答案批次采样并计算 EM 分数，将得分输入 PPO/GRPO。记忆提炼步骤嵌入策略中：模型学会关注能最大化 EM 的记忆子集，实现内置过滤机制。 3. 数据构建记忆管理器训练数据 – 对每轮对话，使用强 LLM（GPT‑4o‑mini）构建时序记忆快照（前 50 轮对话）。该轮次、快照及关联问答对构成监督学习元组。通过比较该轮次前后的快照自动标注正确操作（ADD/UPDATE/DELETE/NOOP）应答智能体训练数据 – 记忆管理器构建全局记忆库后，每个问题检索每位参与者最相关的 30 条记忆（共 60 条）。三元组（问题，检索记忆，标准答案）成为应答智能体的训练样本实验亮点基准测试：LOCOMO LOCOMO 是用于长程对话记忆的挑战性基准，包含 10 个多轮对话，每个对话约 600 轮（≈ 26 k token）。问题需跨越遥远对话轮次进行单跳、多跳、开放域及时序推理。训练制度：仅使用第一个对话（152 个问答对）进行微调；剩余八个对话（1 307 个问答对）构成测试集骨干模型：LLaMA‑3.1‑8B‑Instruct 和 Qwen‑2.5‑7B‑Instruct 主要结果（文本描述）作者对每个骨干模型评估了 GRPO 和 PPO 训练的 Memory‑R1 系统，并与两个基线对比：原始记忆系统（Mem0）和文献报道的最强非 RL 基线（A‑Mem）。简言之，Memory‑R1 相比最强非 RL 基线将 F1 提高约 48 %（LLaMA）和 57 %（Qwen），BLEU‑1 和 LLM‑as‑a‑Judge 指标亦有相当提升。消融实验洞察结果证实作者主张：每个 RL 训练组件均带来可量化价值，且双智能体相互增强——更优的记忆管理为应答智能体提供更丰富上下文，而选择性提炼策略进一步受益。 PPO 与 GRPO 对比训练曲线显示GRPO 早期收敛更快，因为当奖励稀疏（二值 EM）时，组相对优势提供更强梯度信号。但两种算法最终性能相近，表明选择可基于计算预算或所需速度。结论 Memory‑R1 表明，赋予 LLM “记忆感知”能力——而非单纯扩大容量——可显著提升其长周期记忆、推理与行动能力。随着强化学习技术持续成熟，我们有望见到真正学会管理自身知识的、日益 sophisticated 的智能型 LLM 系统。来源（公众号）：AI Signal 前瞻

行业好文

2025-09-04 13:56 1669

推理大模型机制解析！为什么Qwen3要把脑子一分为二？

在这个AI快速发展的时代，我们既要保持对技术前沿的敏感，也要对现实约束有清醒的认识。推理大模型的思考机制还在不断演进，而我们作为这个历史进程的参与者和见证者，最重要的是保持开放的心态和批判的思维。

行业好文

2025-09-03 15:13 644

大模型总“想太多”？LLM新算法DRQA：动态配额防过度思考，节省30% token消耗！

大型语言模型（LLMs）如 OpenAI‑O3、DeepSeek‑R1 和 Qwen 系列，在解决数学问题、回答科学问题甚至进行多步骤推理方面展现出惊人能力。然而这些强大系统中一直隐藏着一个缺陷：它们经常过度思考。即使是像这样简单的问题，也可能触发冗长曲折的思维链，消耗数千 token 并推高计算成本。一项题为《DRQA: Dynamic Reasoning Quota Allocation for Controlling Overthinking in Reasoning Large Language Models》的最新研究揭示了一个惊人现象：当多个问题以批处理形式输入时，模型会自动压缩推理过程，生成比单独处理时更简短的答案。作者将这种 emergent 的「资源竞争压力」转化为系统性技术——动态推理配额分配（DRQA），使单问题推理也能获得同等效率。 1. 过度思考作者从三个维度描述了该问题：过度思考导致冗长且通常冗余的思维链及不必要的 token 消耗后果包括推理延迟增加、GPU 内存占用扩大、API 成本上升以及实际应用的可扩展性降低思考不足（另一极端）会导致解释过于简略、步骤缺失以及在难题上准确率下降，影响模型在挑战性基准测试中的表现现代 LLMs 擅长思维链（CoT）提示，即模型在给出最终答案前逐步写出推理过程。这种方式能提升复杂任务的准确率，但在简单任务上可能造成浪费。该研究提出： “ 我们能否鱼与熊掌兼得？模型能否学会在问题简单时保持简洁，在问题困难时保持严谨——而无需人工设置 token 预算？ 2. 批处理推理的启示 2.1 作者的观察实验：作者比较了三个数学问题被单独回答与批量回答时的 token 消耗量（图 1）结果：批量回答节省约 45% 的 token（648 vs. 1205），且准确率相当解读：当多个查询共享同一上下文窗口时，模型会直觉性地为有限推理配额展开竞争并修剪非必要步骤——作者称之为资源竞争压力 2.2 效应扩展性作者测量了不同批量大小下每个问题的平均 token 消耗量（使用 DeepSeek‑R1 在 DeepScaleR 数据集约 3 万道数学题上测试）：即使批量增大，准确率仅轻微下降，证实模型会自动为难题分配更多推理资源，同时压缩简单问题的推理过程 3. 从观察到方法：DRQA 的实现该研究的核心贡献是将批处理诱导的效率迁移至单问题推理的强化学习（RL）框架。以下详细解析各组件 3.1 框架概览图 3.2 逐步方法论 3.2.1 通过批处理推理收集数据使用 DeepSeek‑R1 在 DeepScaleR 数据集（约 3 万道数学题）上运行批量大小为 2/3/5的提示，为每个问题提取对应 CoT “ 提供模型在资源竞争下自然压缩推理的真实样本 3.2.2 偏好标签构建每个 CoT 被赋予以下标签之一： ‑ A：正确但可更简洁 ‑ B：正确且简洁（理想状态） ‑ C：错误标注规则： ‑ 原始（单问题）CoT → 标签 A（正确）或 C（错误） ‑ 批量 CoT → 标签 B（正确）或 C（错误） “ 提供区分「足够好」推理与「不必要的冗长」推理的分级信号 3.2.3 偏好数据集生成包含 5 万以上 (问题, 推理链, 三选一标签) 元组的数据集 “ 该数据集是 RL 智能体的训练场 3.2.4 基于 GRPO 的强化学习通过组相对策略优化（GRPO）训练模型。这种策略梯度方法在最大化正确标签概率的同时，惩罚与旧策略的较大 KL 散度（避免灾难性遗忘）。形式化表示为：其中是相对优势（选择标签与真实标签一致时为正，反之为负） “ 该目标函数显式奖励简洁且正确的推理（标签 B），抑制冗长或错误响应。KL 项用于稳定学习，防止模型「遗忘」解决难题的能力 3.2.5 推理（单问题模式）测试时，模型接收单个问题并照常生成 CoT。但由于已内化对简洁性的偏好，它会根据难度评估自动分配推理配额 “ 无需额外提示、token 预算或手工规则——模型实时自主决策 3.3 为何监督微调（SFT）不足 SFT：作者首先尝试在批量生成的「简洁」数据上直接进行监督微调结果：token 数大幅下降（GSM8K 上减少 69%），但准确率显著受损（如 AIME 2024 准确率从 74% 跌至 9%）原因：模型学会了表面简洁性而未理解何时可简洁，导致灾难性遗忘深度推理能力因此，需要基于奖励的方法（DRQA）来平衡这两个目标 4. 实验结果 4.1 基准测试与设置数据集领域典型难度 GSM8K 小学数学简单-中等 MATH‑500 代数、几何、数论中等-困难 AIME 2024/2025 高中奥数困难 AMC 2023 竞赛数学中等 GPQA‑Diamond 研究生级科学问答困难 / 分布外（OOD）评估的两个蒸馏模型： DeepSeek‑R1‑Distill‑Qwen‑1.5B DeepSeek‑R1‑Distill‑Qwen‑7B 所有基线方法（GRPO、O1‑Pruner、DAST、Shorter‑Better 等）均在相同推理配置下复现（温度 0.6，最大长度 32 K） 4.2 主要结果（摘要）原始模型（无 DRQA）在 GSM8K 上达到 84.67% 准确率，平均每问 1 929 token；在 AIME 2024 上获得 28.67% 准确率，消耗 14 395 token DRQA (1.5 B) 将 GSM8K 准确率提升至 86.67%（+2 个百分点），token 数降至 1 428（约 ‑26%）；在 AIME 2024 上准确率升至 32.00%（+3.3 个百分点），token 数减至 11 008（约 ‑23%） DRQA (7 B) 在 GSM8K 上达到 92.67% 准确率，仅用 1 324 token（‑24%）；在 AIME 2024 上获得 54.67% 准确率，消耗 10 008 token（‑27%）激进压缩方法如 Shorter‑Better 虽大幅减少 token（GSM8K 上 ‑94%），但准确率崩溃（降至 63.67%） DAST 与 O1‑Pruner 获得中等 token 节省（‑70% 至 ‑76%），但准确率提升有限，均未达到 DRQA 的平衡性总体而言，DRQA 在各类数学科学基准测试中持续减少约 30% token 用量，同时保持甚至提升准确率 4.3 消融研究（摘要）批量-2（使用批量大小 2 训练）获得最佳权衡：token 减少约 30%，整体准确率约 79.6% 批量-3 与批量-5 的 token 节省略少，准确率微降，表明过大的批量可能稀释「资源竞争」信号使用非批量数据（如 Qwen2.5‑7B）或批判性微调（CFT）会导致效率或准确率下降，证实批量生成的偏好数据与 RL 目标均不可或缺 4.4 分布外鲁棒性在 GPQA‑Diamond 基准上，DRQA 仍减少约 31% token 消耗，同时保持 31.81% / 49.50% 的准确率，优于过度压缩或泛化失败的其他基线 5. 意义成本节约——对于按 token 收费的服务（如 OpenAI API），DRQA 可在保持质量的前提下降低约三分之一月成本延迟降低——更短的输出意味着更快的推理，对辅导机器人或科学助手等实时应用至关重要可扩展部署——凭借更低的内存与计算占用，模型可在相同硬件上处理更多查询无需人工 token 预算——与许多「早退」或 token 预算方法不同，DRQA 无需额外提示技巧，模型学会自主调节推理长度 6. 局限性与未来方向当前局限潜在改进方案仅在数学与科学推理数据集上测试将 DRQA 扩展至代码生成、对话或多模态任务方法仍依赖批量生成的偏好数据集，对超大语料库成本较高探索合成生成或自博弈以自举偏好数据仅优化token 用量；未直接处理其他效率维度（如 GPU 内存、推理延迟）将 DRQA 与动态早退或模型规模剪枝框架结合 7. 结论性思考 DRQA 框架巧妙捕捉了 LLMs 在共享上下文窗口时表现出的微妙涌现行为——资源竞争。通过将该现象转化为强化学习信号，作者赋予模型自调节推理配额的能力：问题简单时简短清晰，问题困难时深入严谨。结果令人印象深刻：在多种数学科学基准测试中实现token 消耗降低 30%，同时保持甚至提升准确率。重要的是，DRQA 无需硬编码 token 限制或额外提示技巧，使其成为任何以推理为核心的 LLM 部署的即插即用式升级方案。来源（公众号）：AI Signal 前瞻

行业好文

2025-09-01 18:15 977

真正有效的数据指标体系应该长什么样？

在这个数据驱动的时代，没有好的指标体系，企业就像在黑暗中摸索前进。而有了好的指标体系，就像有了明亮的灯塔，能够清晰地看到前进的方向。但记住，指标体系不是万能的，它只是工具。真正重要的是，要有用数据思维解决问题的能力，要有持续优化改进的意识，要有拥抱变化的勇气。

行业好文

2025-08-29 14:49 413

为什么AI会“过度自信”？CURE方法让LLM“保持好奇心”

1. 为什么大语言模型（LLMs）会“过度自信” 现代LLMs在数学、科学甚至代码推理方面表现惊人，这得益于一种称为带验证奖励的强化学习（RLVR）的训练范式。在RLVR中，模型生成答案，自动验证器检查其正确性，并据此给予奖励（或惩罚）。这一循环使模型无需人工编写的奖励信号即可自我改进。但这里存在一个隐藏的问题。在RLVR训练中，大多数流程会反复采样相同的“初始状态”（即原始问题）。随着模型学会解决这一特定提示分布，其策略熵（衡量其下一个token选择多样性的指标）会急剧下降。简而言之，模型开始依赖少数安全的答案模式，变得过度自信且低多样性。结果是熵崩溃：探索枯竭，学习停滞，进一步训练收效甚微。研究人员尝试用提高采样温度、添加KL惩罚或裁剪高协方差token等技巧修补此问题。这些方法虽有一定效果，但通常需要针对任务精心调整超参数，且仍依赖同一组静态提示。我们真正需要的是在模型学习过程中向训练数据注入真正的新颖性。 2. 如何让模型保持“好奇” 当语言模型生成解决方案时，有时会真正犹豫该写哪个词或数学运算符。这些时刻反映为高token级熵——模型“举棋不定”。如果我们在这些高熵点精确干预，可以在分叉前截断部分生成的答案，保留导致不确定性的连贯前缀，并将该前缀附加到原始问题后重新提示模型。模型现在面临一个略有不同的初始上下文——一个它从未见过的上下文——因此其后续决策被迫探索新的推理路径。这就是CURE（关键token引导的重新拼接）的核心。CURE不调整损失函数或裁剪梯度，而是动态重塑数据分布，引导模型转向未充分探索的状态，从而延缓熵崩溃。 3. CURE简述——两个阶段阶段1（探索）。采样器被替换为以下流程：首先生成原始提示的多个 rollout，计算每个token的熵，选择一个关键token（从top-K中均匀采样的最高熵token），提取该token前的前缀，将其与原始问题拼接，然后从新提示生成额外 rollout。原始和重新提示的 rollout 组成训练组，输入GRPO风格的裁剪替代损失。阶段2（利用）。探索阶段后，训练与标准RLVR完全相同：模型在原始问题上微调（无重新拼接）。由于策略已接触更丰富的初始状态，现在可以安全地将熵缩减至确定性高精度状态，而不会崩溃。 4. 方法深入解析（阶段1）以下是探索阶段的逐步说明，非专业人士也能理解。采样初始 rollout 对训练集中的每个问题q，用当前策略π₀生成N₁（如4个）候选答案。计算token级熵生成每个答案时，模型在每一步对词汇表分配概率分布。该分布的熵，量化其在token位置t的“不确定性”。高Hₜ表示模型在多个合理选项中犹豫。选择关键token 按Hₜ排序所有位置。取top-K（如K=20）最高熵位置。从中均匀采样得到随机关键索引t⁎。创建前沿前缀提取前缀p = answer₁…answer₍ₜ⁎₋₁₎（关键token前的所有内容）。重新拼接构建新提示其中“||”表示简单拼接。生成重新提示的 rollout 从每个精炼提示q′生成N₂（如3个）额外答案。组构建对每个原始问题q，现在有一个组原始重新提示的该组输入GRPO风格的裁剪替代损失：动态过滤（DAPO技巧）丢弃并重新采样仅含全正确或全错误答案的组，确保每批包含混合信号。优化用AdamW（学习率=1e-6，无熵或KL正则化）最小化损失。故意省略KL项，因为重新拼接前缀被视为外生干预——无梯度流过，模型仅学习对新上下文的反应。阶段1结果：模型的策略熵在探索中实际增长，同时习得的知识融入权重。后续利用阶段后，熵适度下降（评估温度0.6时约30%），但准确率比仅用阶段1的基线提高约7%。 5. 实验在六个标准数学推理基准上，CURE始终优于先前的RLVR方法。第一阶段（探索）后，多数数据集准确率绝对提升约2–3%。最终（利用）阶段表现最佳：六基准平均准确率从阶段1后的 52.1% 升至阶段2后的 54.3% ——绝对提升约2%，相对最强RLVR基线改进约5%。熵轨迹显示，探索阶段达到所有测试方法的最高策略熵，利用阶段平滑降低熵，同时高于DAPO或GRPO的平台期。定性分析（生成文本的词云）显示阶段1后连接词（“因此”“验证”等）使用更丰富，符合CURE鼓励更广推理路径的假设。 6. 结论——“好奇”LLMs的配方 CURE证明，一种以数据为中心的微调——在模型自身犹豫时刻重新提示——可显著延缓熵崩溃，并在挑战性推理基准上转化为真实性能提升。因其仅需两个额外超参数（rollout数量）和top-K设置，易于采用、计算廉价且兼容任何RLVR框架。来源（公众号）：AI Signal 前瞻

行业好文

2025-08-28 23:11 650