万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
Quick Take
DeepSeek's innovative use of large-scale reinforcement learning (RL) over traditional supervised fine-tuning (SFT) significantly enhances model reasoning capabilities, as discussed at AIR 2025 by researchers from institutions like UCL and CMU. Key findings include the effectiveness of preference fine-tuning and the introduction of the Goedel-Prover model for formal mathematical proofs, achieving state-of-the-art performance.
Key Points
- DeepSeek adopts large-scale RL, achieving significant breakthroughs in model reasoning.
- The Goedel-Prover model excels in automated theorem proving, setting new performance benchmarks.
- Preference fine-tuning improves reasoning tasks, enhancing model outputs based on user feedback.
- AIR 2025 featured discussions on ethical AI decision-making and uncertainty in AI systems.
- Research highlights the importance of data diversity in training for better generalization.
Article Content
From source RSS / original summary在 DeepSeek 能够破圈而出的一众原因中,完全摒弃传统的监督微调(SFT)、转而采用大规模强化学习(RL)的创新之处是关键所在,这使得模型推理能力在质上取得显著突破,更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。 近几年,学界和业界关于 RL 和 LLM 也涌现出了颇多具备开创性意义的研究成果。 在 AI 智能体推理与决策研讨会(AIR 2025)上,来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华为等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论,回答了诸多问题,例如:AI 系统如何模拟类人推理和决策过程? 最新的算法、框架和工具如何支持在不确定性下进行稳健的决策? 如何确保 AI 的决策过程是道德的、透明的且公正的? ……从一系列前沿的推理决策研究中,可以看到 DeepSeek 的影子。 2023 年,来自华盛顿大学的 Hanna Hajishirai 教授团队发布了一项关于大语言模型推理的开放训练方法的工作,研究强调,为了从预训练模型发展到最终模型,需要经历了三个阶段:指令微调、偏好微调以及具有可验证奖励的强化学习。
而这一方法也是 DeepSeek 所采用的推理开放训练方法。 Meta GenAI 的田渊栋教授系统总结了当下应对大语言模型局限的解决方式,除了 Scaling Law 之外还有Test-time Scaling(测试时扩展),即使用更大的模型加工具或思维链,使用不同的策略,最终可能会找到一个比单纯的大型模型更好的解决方案。 田渊栋教授也分享了通过使用梯度上升(gradient ascent)对神经网络进行训练的方式,从而试图将符号结构与神经网络表示统一起来,但这一方法还处于非常初级的阶段,并不确定未来是否能成为主流。 俄亥俄州立大学的 Huan Sun 教授从隐式推理出发,探讨了数据集中的两种事实:原子事实与推断事实,并提出了一个与主流不相同的研究发现:泛化速度与绝对数据量并没有关系,而是与关键数据分布、特别是推断事实与原子事实的比例密切相关,且比例越高,泛化速度就越快。 同时,也有研究围绕 AI for Math 这一主流的推理能力应用领域。
普林斯顿大学的金驰教授团队开发了Goedel-Prover 这一开源的大模型,通过将自然语言数学问题翻译成形式语言(如Lean 4),并生成形式化证明,从而解决形式化数学陈述和证明稀缺的问题,这一模型在自动定理证明方面达到了当前世界范围内的最佳性能水平。 更有实用性较强的 AI 智能体研究。 卡内基梅隆大学的 Graham Neubig 教授团队提出了一个混合 Agents 方案,这种 Agents 能够交替执行浏览和 API 调用操作,并且在每一步中,它会选择与人类沟通、生成自然语言、执行Python代码(包括API调用)以及执行网页浏览操作。 AIR2025 由伦敦大学学院汪军、Meta GenAI 田渊栋等教授联合主办,致力于推动智能系统的发展,使其能够自主、适应性强且负责任地运行(会议详情及注册可访问官网:https://ai-agent-reasoning. com)。 本次会议特别鸣谢来自加州大学伯克利分校的博士后研究员顾尚定。 这是一篇围绕 DeepSeek 的过去、当下与未来所展开的对人工智能的精彩讨论。
AI 科技评论截取会议部分精彩内进行编译,以下为核心内容的演讲实录:一、DeepSeek 的语言模型推理开放训练方法华盛顿大学的 Hanna Hajishirai 教授做了主题为“Open Training Recipes for Reasoning in Language Models”的演讲,探讨了语言模型推理的开放训练方法。 为了从预训练模型发展到最终模型,我们经历了三个阶段:指令微调、偏好微调以及具有可验证奖励的强化学习。 这是我们 2023 年论文中引入的新内容。 这基本上也是 DeepSeek 所采用的方法,后来我们发现 DeepSeek 也引入了同样的方法。 我们先来谈谈指令微调。 指令微调中,人们也把它称为 SFT,即监督式微调。 其核心思想是,你拿一个预训练的语言模型,然后向模型输入各种不同类型的任务指令,接着对模型进行微调,教会它如何遵循这些指令。 我们团队在这个方向上已经投入了很长时间。 我们在 2022 年开始专注于语言模型的指令微调,当时主要关注的是自然语言处理(NLP)标签等语言测试。
2023 年,我们引入了一个自我指导框架(self-instruct framework),在这个框架下,我们教会模型合成生成越来越多的数据,以便我们能够获得更好的、更多的数据用于监督式微调。 这种范式在 2023 年得到了广泛的关注,我们看到在工业界和学术界都有很多工作基于自我指导框架展开,并设计了像 Alpaca、Vicuna 等模型。 这些模型都大量使用了合成生成的指令数据进行训练。 下一步就是在监督式微调中进行偏好微调。 这里有一个非常重要的步骤,就是数据整理。 这和我刚才提到的合成数据生成是一样的,但同时也是一个很好的数据混合设置,因为当我们关注一组任务和我们试图优化的目标技能时,当我们增加一组任务的提示和完成内容时,我们可能会在其他组上失去准确性和改进。 比如,如果你在监督式微调中添加了大量数学提示和数学类型的数据,你可能会在知识回忆方面表现下降,因为你总是希望生成越来越长的思考链。 所以,数据混合是构建一个好的微调模型中非常重要的一步。 刚才我们一直在讲数据,但现在我想聚焦于什么样的数据才真正有助于推理。
这里所说的“推理”,举个例子,比如一个数学问题:一家商店正在进行衬衫促销,每件衬衫售价 25 美元,现在我们想买 7 件衬衫,总共要花多少钱? 我们可以很容易地标注出答案是 125 美元,但仅仅用这种问题和金额答案作为监督式微调数据是不够的。 大家已经认识到,真正重要的是处理这种逐步推理的输出,它能一步步告诉我们发生了什么。 这种数据可以成为监督式微调的优质来源。 这其实并不是一个新想法,它在自然语言处理(NLP)领域的语义解析、语义理解和推理方面已经被研究很久了。 但现在它又在语言模型中重新受到关注,因为如今我们可以处理这种既包含语言又包含形式化表达的推理链。 在早期的研究中,我们只能依赖于形式化的推理图或推理思路。 但现在面临的巨大挑战是:这种逐步推理的标注虽然很好,能够帮助模型处理复杂的多步骤问题,也能揭示模型在预训练过程中所获得的推理过程,甚至因为有了这些标注,我们还能发现推理链中间可能出现的错误,比如答案是125,但推理过程中可能有错误,这有点类似于人类的思维过程。 标注这种类型的推理提示非常困难。 它成本高昂、耗时费力,而且不够多样化。
我们的方法是做混合数据策划,即:查看现有的资源,然后将其与合成数据生成相结合。 事实上,我们采用了这篇非常有趣的论文中介绍的方法,用于合成地生成数据,但针对不同的用户角色。 这为什么重要呢? 因为它增加了生成提示的多样性。 而且,它还使我们能够不断扩大这种思维链条以及这种很难收集的推理数据的规模。 论文链接:https://arxiv. org/abs/2406. 20094这是如何运作的呢? 我们会给模型设定不同的用户角色,比如“这是一个化学动力学研究人员”,然后让模型以这个角色生成数据和数学问题。 接下来,我们再给它设定一个不同的角色,让它生成一个逻辑推理问题,就可以得到这样的结果。 我们给模型提供了许多不同类型的用户角色。 事实上,我们使用了25万种角色,包括计算机科学家、化学教授、五岁小孩等等。 然后,我们让模型根据这些角色生成数学问题。 通过这种方式,我们收集了 15 万道硬件数学题和 5 万道小学数学题。 我们还让模型生成编程问题,这主要是 Python 代码生成以及精确指令的遵循,贯穿于这些角色之中。 在收集完这些提示后,我们使用了像 GPT-4o 或 Claude 这样的大模型来为我们生成思维链条数据。
然后,它们生成了逐步的解决方案。 我们来看一下这是否有所帮助。 我们已经在这些设置下进行了评估,查看了一个公开的数据集,例如在数学领域,有一些由社区驱动的公开开源数据集,这些数据集是由其他团队、朋友和学术界生成或策划的。 然后,我们开始引入一些我们基于角色生成的合成数学问题。 这些曲线展示了在不同百分比下整合角色数据的情况,32 和 69 是我们不包含任何角色数据时在数学和 GSM8K 上的结果。 而最后一列则显示了逐步增加角色生成数据的数量。 在数学领域,我们在 GSM8K 或高年级数学问题上取得了显著的提升。 相比之下,我们在小学数学(GSM with K)上的提升较小,但仍然很有趣。 在生成合成数据时,一个重要的问题就是结果的质量。 你可能会说:“好吧,你们生成了这些数学数据,然后让GPT-4为这些生成内容做标注,那么这些标注的质量高不高呢? ”为了提高数据的质量,我们做了以下工作:我们让 GPT-4 生成多个实例或者多条思维链条,然后进行了多数投票,并保留了那些大多数情况下答案正确的实例。 通过这种方式,我们删除了很多数据。 我们基本上只保留了 60% 的数据。
好消息是,即使只使用了 60% 的数据,我们在数学领域的准确率仍然相似,GSM8K 上甚至略有提升。 在整个通用方案中,我们不仅仅局限于数学,而是涉及许多不同类型的数据。 这是我们早期的混合方案,比如用于 Tulu 2 的。 随着时间的推移,我们尝试了许多不同类型的混合方式,最终我们的混合方案给出了最佳的平均效果。 正如你在中间看到的,例如,有些混合方案在安全性方面表现更好,而在其他方面表现稍差。 但最终,我们希望在平均意义上达到一种平衡,于是我们最终选择了这种最终方案。 这是监督式微调阶段的结果。 现在我们进入下一个阶段:偏好微调。 那么,偏好微调的作用是什么呢? 它的想法是,我们将比较同一个提示的不同完成结果,并选择我们认为更强的那个。 通常,这在风格和聊天评估中非常有用。 比如它会告诉我们:“这个结果可能更符合人类的偏好。 ”但我们也发现,它甚至在推理测试中也有所提升。 我们将使用基于强化学习的方法来根据这种反馈、这种偏好数据进行优化。 在优化步骤中,我们将优化一个奖励,这个奖励是受到人类偏好的启发。 同时,我们希望确保不会偏离原始语言模型太远。 因此,我们加入了一个 KL 散度惩罚项。 我们如何进行优化?
有哪些不同的算法可以用于优化这种形式化问题? 通常,人们会使用 PPO(近端策略优化)。 然后,去年还引入了一种更简单的算法,称为直接近端偏好优化(Direct Proximal Preference Optimization)。 而我们的问题是:这两种算法中,哪一种更好? 在直接近端偏好优化(DPO)中,它就像是一种非常简单的基于学习的算法,与机器学习中的排序算法非常相似。 而在近端策略优化(PPO)中,它是一种真正的强化学习方法,你有一个奖励模型,然后我们希望对策略模型进行优化。 在最近的研究中,我们决定从理论和实证的角度更深入地研究这个问题,以了解这些算法中哪一个更好。 我们发现PPO(近端策略优化)始终优于DPO(直接近端偏好优化)。 然而,PPO 的实现要复杂得多。 它需要大量内存,因为我们希望同时将奖励模型和策略模型保留在内存中进行优化。 而当我们处理更大的模型时,这会变得更加困难,吞吐量也会显著降低。 论文链接:https://arxiv. org/abs/2406. 09279这些是关键的发现。 我们在比较这两种算法时注意到,有很多不同的变量在起作用。 因此,我们开始分别对它们进行消融研究。
比如说,这是我的初始监督微调结果,这些是我的平均性能,以及它们在一组任务——大量任务中的变化情况。 我们首先想研究数据的作用。 我们最初加入了较弱的偏好数据,效果并不太强,所以只有一点点提升。 当我们提高了偏好数据的质量时,我们看到了一个很大的跳跃。 我们使用完全相同的数据,只是替换了算法,结果 PPO 带来了更好的提升。 当我们引入更大的奖励模型时,这是非常直观的——当我们有一个更大的奖励模型时,我们期望PPO能取得更好的结果,但实际的提升并没有达到我们的预期。 我们原本以为,有了更大的奖励模型,我们应该会看到一个很大的跳跃,但结果却只是这么多。 我们并没有看到太多提升,这让我们感到非常惊讶。 现在让我更具体地谈谈特定的推理测试,在一些数学推理测试上看到了几乎完全相同的趋势。 但有趣的部分是,当我们将其与PPO结合时,我们实际上看到了一个更大的提升,尤其是在引入更大的奖励模型时。 这非常有趣。 当我们开始引入更具体的数学提示时,我们在这里看到了一个很大的跳跃。 因此,我们意识到,当我们专注于推理的提示时,情况就是这样。 这也是我们在偏好微调阶段看到改进的方式。 比如我们希望整合更多特定领域的数学问题。
我们把所有的发现汇总起来,然后设计了我们 2. 3 模型中的偏好微调阶段:首先,我们非常谨慎地选择提示词。 我们使用了在监督微调阶段已经引入模型的一部分提示词。 我们引入了新的提示,专注于像推理领域这样的特定领域,我们希望在这些领域看到更大的改进。 同时,我们也引入了一些领域外的提示,并且发现这实际上也非常有帮助。 我们收集这些提示词,并从一个非常大的模型集合中查看偏好响应,比如从 70 亿参数的模型到像 GPT-4o 这样非常强大的模型。 我们开始比较它们之间的偏好,看看哪一个更好,这样你的模型就会逐渐得到改进。 我们还确保包含未请求的数据,确保将 Tulu 38B 和 70B 数据纳入其中,因为这是符合策略的。 然后,我们使用 GPT-4o、LLaMa 这样的模型作为评判,来为我们对这些四个维度(帮助性、指令遵循性、真实性、诚实性)的偏好进行排序。 我们也尝试了不同的 LLM 作为评判,但结果差异不大。 它们的结果几乎都差不多。 研究发现,我们在使用所有模型时看到了很大的提升。 我们展示出,与之前的偏好数据混合集相比,我们看到了一个巨大的进步。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网 AI 学术
See more →
CVPR 2026 图像编辑趋势梳理:从参考一张图,到融合整个视觉世界
The CVPR 2026 trends highlight a shift in image generation from single-image quality to multi-image consistency and complex scene integration, with frameworks like GroupEditing and MICo-150K advancing capabilities in unified editing and multi-image composition. These developments emphasize the need for models to understand intricate visual relationships and user intent, moving towards more controllable and reliable visual generation systems.
