终结天价GPU集群!去中心化协作让AI学习效率飙升94%

2025-09-16 22:23 浏览量:252

分享即关怀:AI模型如何通过协作实现更高效学习

在追求构建更智能、更强大的人工智能的过程中,研究人员不断探索训练语言模型(LMs)的新方法。其中,强化学习(Reinforcement Learning, RL)是一种极为强大的技术。这种方法让模型通过试错进行学习,类似于人类学习骑自行车的过程。通过奖励模型产生正确或期望的结果,它能够在推理和问题解决等复杂任务上逐步提升能力。

然而,传统上使用RL训练大规模语言模型是一项巨大的工程。它需要巨大的计算能力,通常依赖于庞大、昂贵且需完美同步的GPU集群。这个过程不仅成本高昂,还会造成技术瓶颈,从而拖慢研究进展。

Gensyn AI团队最近发表的一篇论文引入了一种颠覆性的新方法。题为《Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing》的研究提出了群体采样策略优化(Swarm sAmpling Policy Optimization, SAPO),这是一种去中心化、协作式的训练方法,使AI训练变得更高效、更易获取且更强大。

中心化方法存在的问题

传统上,扩展用于LMs的RL涉及一个协调大量模型的中心化系统。这种方法非常僵化;它要求模型及其硬件必须统一,且通信必须完美同步。这带来了延迟、成本和可靠性方面的挑战。如果有一种方法能够让运行在全球各地不同类型计算机上的不同模型,在没有这些限制的情况下共同学习呢?

引入SAPO:学习者组成的群体

这就是SAPO的用武之地。SAPO不依赖于僵化的中心化集群,而是在一个由多样计算机组成的去中心化网络上运行,论文将其称为“群体”(swarm)。其工作原理如下:

去中心化网络:群体中的每台计算机(或称“节点”)训练自己的AI模型。这些节点可以是高端服务器,也可以是消费级笔记本电脑,并且不需要运行相同的模型。

从经验中学习:每个节点独立解决问题并生成“rollouts”——这本质上是它尝试给出的答案。

分享即关怀:这是核心创新。节点不尝试同步复杂的模型参数,而是简单地将它们的rollouts(即答案的纯文本)与群体中的其他节点共享。这是一种轻量且高效的信息交换方式。

集体改进:每个节点都可以从这个共享的经验池中采样,学习他人的成功与失败。当一个模型灵光一现,找到了解决问题的好方法时,这种见解可以迅速传播到整个网络,为所有参与者快速提升学习进程。

这种方法避免了分布式RL常见的瓶颈,同时创建了一个动态的多智能体系统,其中模型和数据的多样性增强了整个集体的探索和学习能力。

对SAPO进行测试

研究人员进行了对照实验以衡量SAPO的有效性。他们创建了一个由八个相同的小语言模型(SLMs)组成的群体,让它们处理来自ReasoningGYM数据集的任务。该数据集是一个能够生成各种推理问题的工具,涵盖逻辑、代数和抽象推理等领域。

他们通过改变“本地”rollouts(模型自身生成的经验)与“外部”rollouts(从群体中采样的经验)的比例,测试了四种不同的配置:

8 本地 / 0 外部:基线情况,每个模型独立训练,不进行任何共享。

6 本地 / 2 外部:主要依靠自身,辅以少量群体输入。

4 本地 / 4 外部:平衡的方法。

2 本地 / 6 外部:严重依赖群体。

结果非常显著。如图1所示,涉及经验共享的配置明显优于基线。最佳配置是 4 本地 / 4 外部 的设置,它实现了最高的总体奖励积累——与孤立训练的模型相比,性能提升了惊人的 94% 。

图1 每种配置下所有智能体获得的奖励。增加外部rollouts的数量提高了峰值奖励,但最高的总体奖励积累出现在 4 本地 / 4 外部 的设置中,比基线提高了94%。

然而,研究也发现,更多的分享并不总是更好。过度依赖群体(2 本地 / 6 外部)的配置表现出不稳定性,性能波动剧烈。研究人员认为,这是因为智能体可能会受到较低性能同伴的负面影响,如果集体贡献的高质量经验不足,共享池的质量就会下降。个体探索和集体学习之间的平衡至关重要。

来自大规模演示的现实洞察

为了在更真实的条件下测试SAPO,团队分析了一个开源演示的数据。在该演示中,数千名Gensyn社区成员参与,在他们各自多样的硬件上运行各种模型。这次大规模实验证实了对照测试的发现。参与群体的模型随着时间的推移,其表现持续优于单独训练的模型(图3)。

有趣的是,收益对于中等能力的模型最为明显。研究人员假设,更强大的模型可能需要更复杂的方法来过滤和选择群体中最有益的经验,才能看到类似的增益。

核心要点

SAPO代表了我们在AI训练方法上的一个重大转变。通过创建一个去中心化系统,让模型从共享经验中学习,它提供了一种可扩展、高效且健壮的替代方案,以取代昂贵的中心化方法。它使改进AI模型的能力民主化,允许一个多样化的参与者网络贡献于集体智能并从中受益。

论文总结认为,经验共享是一个核心优势,为通过协作式后训练增强AI的推理能力提供了一条实用路径。未来的工作可能会探索为群体增加更多样性——包括人类参与者——并开发更智能的策略,让节点能够选择最有益的经验来学习。

来源(公众号):AI Signal

上一篇:AI 智能问数:破解业务人员数据查询痛点的实践路径​

下一篇:数据倾斜背后的认知陷阱

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话