推理革命:强化学习如何教会人工智能真正思考 我们都对像ChatGPT这样的大型语言模型(LLM)的能力感到惊叹。它们可以写邮件、起草诗歌,并回答几乎所有主题的问题。但流畅的对话与深入的多步推理之间存在着差异。我们如何让AI不仅能检索信息,而且能真正地思考——解决复杂的数学问题、编写功能代码并规划一系列行动? 一篇全面的新综述《A Survey of Reinforcement Learning for Large Reasoning Models》描绘了人工智能发展中一个 groundbreaking 的转变历程。研究人员现在正在使用一种称为强化学习(RL)的技术,不仅是为了让模型更安全、更符合人类偏好,更是为了从根本上增强其推理能力。这正在将今天的LLM转变为大型推理模型(LRM),这标志着向更强大、更通用的人工智能迈出了关键的一步。 从遵循规则到解决问题 强化学习是一种训练方法,其灵感来源于我们如何从试错中学习。一个“智能体”(AI模型)通过与“环境”(一个问题或任务)交互来采取“行动”(生成文本或代码)。然后,它会根据其表现获得“奖励”。这与使AlphaGo等AI系统掌握围棋所依据的原理相同——通过进行数百万局游戏并学习哪些落子能导向胜利。 最初,RL被著名地用于在一个称为人类反馈强化学习(RLHF)的过程中,将LLM与人类价值观对齐。在这个过程中,人类评审员会对不同的AI响应进行排名,然后利用这种反馈来训练一个“奖励模型”,以引导LLM变得更有帮助、更诚实且更无害。 但一种新趋势已经出现,以里程碑式的模型如OpenAI o1和DeepSeek-R1为典范。这种新范式被称为带可验证奖励的强化学习(RLVR),它使用客观的、可自动检查的奖励来直接教授推理。AI不再依赖主观的人类反馈,而是为结果可验证的任务获得清晰的奖励信号: 对于数学问题,如果\boxed{...}中的最终答案正确,则给予奖励。 对于编码任务,如果生成的代码通过了所有单元测试,则给予奖励。 这个简单的转变是深刻的。它允许AI模型通过生成长思维链、探索不同策略、并逐步发现那些能导向正确答案的推理路径,来学习复杂的问题解决。它开辟了一条扩展AI能力的新途径,这条途径与仅仅增大模型规模是互补的。 训练师的工具包:用于推理的RL核心组件 该综述将训练LRM的整个过程分解为三个基础组成部分。可以将其视为思维机器的完整训练方案。 奖励设计:定义“做得好”:RL的核心是奖励。论文探讨了设计这些信号的几种方式: 可验证奖励:如前所述,这些是清晰的、基于规则的信号,如正确的数学答案或通过的代码测试。它们具有可扩展性和可靠性。 生成式奖励:对于更主观的任务(如评判故事的质量),可以使用另一个强大的AI作为评判员来提供批评和分数,充当“生成式奖励模型”。 密集奖励:模型不仅能在最后获得奖励,还能在其推理链的每个中间步骤获得反馈。这就像一位老师在整个问题解决过程中给予指导。 无监督奖励:在这里,模型学会根据内部信号(如其自身答案的一致性或其置信度)来自我奖励,从而消除了对外部标签的需求。 策略优化:学习算法:一旦AI获得奖励,它需要一个机制来更新其内部“策略”,以便下次做得更好。该综述详细介绍了算法从标准的PPO(近端策略优化)到无评论者方法(如GRPO(组相对策略优化))的演变,后者因其在大规模训练中的简单性和高效性而变得流行。这些算法是将奖励信号转化为改进的推理能力的数学引擎。 采样策略:智能练习:AI不仅仅是从静态的教科书中学习。它通过积极尝试解决问题来学习。采样策略是关于选择处理哪些问题。例如,动态采样策略可能会将AI的训练时间集中在既不太容易也不太困难的问题上,确保每个计算周期都用于学习一些有用的东西。 大辩论:AI训练中的基础问题 虽然进展迅速,但该领域正在努力解决几个基本且有争议的问题。该综述巧妙地概述了这些开放性问题: 锐化 vs. 发现:RL仅仅是“锐化”模型从初始训练中 already latently 具备的推理能力吗?还是它能导致“发现”真正新的问题解决策略?证据好坏参半,一些研究表明RL主要 refine 现有技能,而另一些则显示它可以推动模型能力的边界。 RL vs. SFT(泛化 vs. 记忆):RL与标准的监督微调(SFT)相比如何?在SFT中,模型只是学习模仿正确的例子。一个引人注目的结论正从最近的研究中浮现:“SFT memorizes, RL generalizes。” RL倾向于产生在未见过的、新问题上表现更好的模型,而SFT可能导致对训练数据的过拟合。 过程 vs. 结果:我们应该奖励模型获得正确的最终答案(结果),还是奖励其正确的逐步推理过程?奖励结果更容易扩展,但这可能会鼓励AI寻找捷径或产生不忠实的思维链。奖励过程确保了忠实的推理,但监督成本要高得多。 现实世界中的RL:推理AI的应用 这些方法的最终检验是它们的现实影响。该综述强调了在广泛应用中取得的惊人进展: 编码任务:经过RL训练的模型正在超越简单的代码生成,去应对竞争性编程、领域特定代码(如SQL),甚至仓库级的软件工程挑战,如代码修复和质量改进。 智能体任务:这是AI学习使用工具的地方。借助RL,智能体可以学习浏览网页查找信息、使用计算器,或与图形用户界面(GUI)交互以完成任务,更像自主助手一样行动。 多模态任务:推理不仅限于文本。RL正被用于训练能够理解和推理图像、视频甚至3D环境的模型。这包括从回答关于视频的复杂问题到生成符合特定、细致入微指令的图像等一切。 机器人技术与医学:RL正在帮助弥合机器人的仿真与现实世界之间的差距,让视觉-语言-动作(VLA)模型能够以最少的人类数据学习操作任务。在医学领域,它正被用于增强诊断推理、解读医学图像,甚至优化治疗计划。 正如近期模型的时间线所示,该领域的创新速度惊人,新的开源和专有模型不断推动着前沿。 前路指南 该综述通过展望未来作为结尾,概述了几个令人兴奋的方向。这些包括开发能够在其整个生命周期中持续学习(持续RL)的AI、构建具有鲁棒记忆系统(基于记忆的RL)的模型,甚至使用RL来共同设计未来AI模型的架构。 这篇论文提供了一幅正处于革命中的领域的重要地图。通过利用试错学习的原则,研究人员正在构建的AI不仅仅是模仿智能,而是在积极培养智能。从大型语言模型到真正的大型推理模型的旅程正在进行中,而强化学习是推动它向前发展的引擎。 来源(公众号):AI Signal
2025-09-12 17:47 2380
分享即关怀:AI模型如何通过协作实现更高效学习 在追求构建更智能、更强大的人工智能的过程中,研究人员不断探索训练语言模型(LMs)的新方法。其中,强化学习(Reinforcement Learning, RL)是一种极为强大的技术。这种方法让模型通过试错进行学习,类似于人类学习骑自行车的过程。通过奖励模型产生正确或期望的结果,它能够在推理和问题解决等复杂任务上逐步提升能力。 然而,传统上使用RL训练大规模语言模型是一项巨大的工程。它需要巨大的计算能力,通常依赖于庞大、昂贵且需完美同步的GPU集群。这个过程不仅成本高昂,还会造成技术瓶颈,从而拖慢研究进展。 Gensyn AI团队最近发表的一篇论文引入了一种颠覆性的新方法。题为《Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing》的研究提出了群体采样策略优化(Swarm sAmpling Policy Optimization, SAPO),这是一种去中心化、协作式的训练方法,使AI训练变得更高效、更易获取且更强大。 中心化方法存在的问题 传统上,扩展用于LMs的RL涉及一个协调大量模型的中心化系统。这种方法非常僵化;它要求模型及其硬件必须统一,且通信必须完美同步。这带来了延迟、成本和可靠性方面的挑战。如果有一种方法能够让运行在全球各地不同类型计算机上的不同模型,在没有这些限制的情况下共同学习呢? 引入SAPO:学习者组成的群体 这就是SAPO的用武之地。SAPO不依赖于僵化的中心化集群,而是在一个由多样计算机组成的去中心化网络上运行,论文将其称为“群体”(swarm)。其工作原理如下: 去中心化网络:群体中的每台计算机(或称“节点”)训练自己的AI模型。这些节点可以是高端服务器,也可以是消费级笔记本电脑,并且不需要运行相同的模型。 从经验中学习:每个节点独立解决问题并生成“rollouts”——这本质上是它尝试给出的答案。 分享即关怀:这是核心创新。节点不尝试同步复杂的模型参数,而是简单地将它们的rollouts(即答案的纯文本)与群体中的其他节点共享。这是一种轻量且高效的信息交换方式。 集体改进:每个节点都可以从这个共享的经验池中采样,学习他人的成功与失败。当一个模型灵光一现,找到了解决问题的好方法时,这种见解可以迅速传播到整个网络,为所有参与者快速提升学习进程。 这种方法避免了分布式RL常见的瓶颈,同时创建了一个动态的多智能体系统,其中模型和数据的多样性增强了整个集体的探索和学习能力。 对SAPO进行测试 研究人员进行了对照实验以衡量SAPO的有效性。他们创建了一个由八个相同的小语言模型(SLMs)组成的群体,让它们处理来自ReasoningGYM数据集的任务。该数据集是一个能够生成各种推理问题的工具,涵盖逻辑、代数和抽象推理等领域。 他们通过改变“本地”rollouts(模型自身生成的经验)与“外部”rollouts(从群体中采样的经验)的比例,测试了四种不同的配置: 8 本地 / 0 外部:基线情况,每个模型独立训练,不进行任何共享。 6 本地 / 2 外部:主要依靠自身,辅以少量群体输入。 4 本地 / 4 外部:平衡的方法。 2 本地 / 6 外部:严重依赖群体。 结果非常显著。如图1所示,涉及经验共享的配置明显优于基线。最佳配置是 4 本地 / 4 外部 的设置,它实现了最高的总体奖励积累——与孤立训练的模型相比,性能提升了惊人的 94% 。 图1 每种配置下所有智能体获得的奖励。增加外部rollouts的数量提高了峰值奖励,但最高的总体奖励积累出现在 4 本地 / 4 外部 的设置中,比基线提高了94%。 然而,研究也发现,更多的分享并不总是更好。过度依赖群体(2 本地 / 6 外部)的配置表现出不稳定性,性能波动剧烈。研究人员认为,这是因为智能体可能会受到较低性能同伴的负面影响,如果集体贡献的高质量经验不足,共享池的质量就会下降。个体探索和集体学习之间的平衡至关重要。 来自大规模演示的现实洞察 为了在更真实的条件下测试SAPO,团队分析了一个开源演示的数据。在该演示中,数千名Gensyn社区成员参与,在他们各自多样的硬件上运行各种模型。这次大规模实验证实了对照测试的发现。参与群体的模型随着时间的推移,其表现持续优于单独训练的模型(图3)。 有趣的是,收益对于中等能力的模型最为明显。研究人员假设,更强大的模型可能需要更复杂的方法来过滤和选择群体中最有益的经验,才能看到类似的增益。 核心要点 SAPO代表了我们在AI训练方法上的一个重大转变。通过创建一个去中心化系统,让模型从共享经验中学习,它提供了一种可扩展、高效且健壮的替代方案,以取代昂贵的中心化方法。它使改进AI模型的能力民主化,允许一个多样化的参与者网络贡献于集体智能并从中受益。 论文总结认为,经验共享是一个核心优势,为通过协作式后训练增强AI的推理能力提供了一条实用路径。未来的工作可能会探索为群体增加更多样性——包括人类参与者——并开发更智能的策略,让节点能够选择最有益的经验来学习。 来源(公众号):AI Signal
2025-09-16 22:23 616
你是否曾向聊天机器人提出一个简单问题,却得到了一个看似自信、合理但完全错误的答案?这种大型语言模型(LLMs)凭空捏造事实的现象被称为"幻觉"。这是一个持续存在的难题,侵蚀着我们对这些强大工具的信任。OpenAI 的最新研究论文《Why Language Models Hallucinate》深入探讨了该问题的统计学根源,指出幻觉并非随机故障,而是模型训练与测试方式的可预测结果。 问题根源:幻觉为何产生 论文的核心论点是:语言模型从训练伊始就承受着产生幻觉的统计压力。即使模型在完全真实、无错误的数据集上训练,其训练方法仍可能导致生成虚假信息。 为理解这一点,研究者做了个巧妙类比:假设你不仅要训练模型生成句子,还要让它回答简单的二选一问题——"这是有效陈述吗?"。这就是论文提出的IIV(Is-It-Valid)二元分类问题。一个能生成有效陈述的模型必然隐含着区分有效与无效陈述的能力。论文论证了一个数学关系:模型生成文本的错误率至少是其在这个"有效性判断"游戏中误分类语句率的两倍。 这个关联至关重要,因为它告诉我们:导致经典分类任务出错的因素,同样会造成生成式模型的幻觉。这些因素包括: 模型缺陷:有时模型架构根本不适合任务,就像试图用直线分割环形分布的数据点。 不可辨模式:另一种情况是数据本身本质随机(如人生日列表)。若没有潜在模式可学习,模型只能猜测。 论文图1展示了从易分类数据到因模型缺陷或缺乏模式导致错误的分类挑战。 研究成果:关键发现 研究结果明确显示:幻觉是标准训练过程的自然结果。主要发现包括: 预训练导致错误:预训练过程中最小化的统计目标(即匹配训练数据分布)直接导致模型生成错误,即使训练数据完美无缺。 校准是关键属性:训练良好的基础模型通常具有"校准"特性——即其预测概率具有实际意义。论文指出正是这种校准特性迫使模型犯错。从不犯错的模型(如只会回答"我不知道"的模型)根据推导必然存在校准缺陷。 单例率-幻觉关联:对任意事实而言,训练数据中仅出现一次的事实比例构成了幻觉率的具体下界。这一强大而直观的结果解释了为何模型擅长著名事实(如爱因斯坦生日),却难以处理冷门信息。 修复困境:后训练阶段的挑战 如果预训练是根源,为何不能通过后训练和微调解决幻觉?论文给出了令人信服的社会技术解释:我们的模型评估方式变相鼓励猜测。 想象学生参加没有答错扣分的选择题考试:最佳策略就是对不确定的题目全部猜测。论文指出大多数AI评估基准也遵循同样逻辑——它们使用"准确率"或"通过率"等二元制评分指标。"我不知道"的回答得零分,与完全错误答案同等对待,而幸运猜对则获满分。 这形成了逆向激励:诚实表达不确定性的模型(A模型)在排行榜上会输给总是盲目猜测的模型(B模型)。这种评估环境实际上在培养"应试高手型"模型——在不知道答案时虚张声势,从而延续了幻觉问题。 结论与前行之路 🗺️ 论文揭开了幻觉的神秘面纱,将其重新定义为统计压力与评估激励错位下的可预测结果。 作者提出了直接而具有挑战性的解决方案:必须改变测试方式。与其开发专项幻觉评估,不如改进主流评估基准以停止惩罚不确定性。他们建议在评估提示中引入显式置信度目标,例如: “ "仅当置信度>90%时作答,因为答错扣9分,答对得1分,'我不知道'得0分。" 通过透明化评分机制,可优化模型以恰当表达不确定性,为构建更可信赖的AI系统铺平道路。这一转变将奖励模型认知自身未知领域的能力,是实现真正可靠人工智能的关键一步。 来源(公众号):AI Signal
2025-09-18 15:49 687
热门文章