为了账号安全,请及时绑定邮箱和手机立即绑定

DeepSeek-R1模型带来的几点思考与收获

对于从事AI工作的软件团队来说,一直以来的挑战在于在能力与实用性之间找到平衡。最近的想法似乎在这两方面都有所改进。昨天发布的DeepSeek-R1模型,这里有一些要点,带来了一些新的视角。

推理模型

强化学习(RL),一种通过尝试和错误学习的方法,可以将基础AI系统变为擅长解决问题的高手。与依赖预标记数据集的传统方法不同,基于强化学习的后期训练过程让模型通过算法奖励来自行优化。

GRPO算法(Group Relative Policy Optimization,简称GRPO)首次在DeepSeekMath中提出,并应用于DeepSeek-R1,通过去掉关键瓶颈——“评判模型”来简化强化学习。

例如PPO的传统强化学习方法需要两个神经网络——策略网络(actor)和评估网络(critic)。GRPO用统计比较替代评价网络。对于每个任务,它生成多个候选解决方案,然后根据相对于整个群体平均表现计算奖励。

这里有一个GRPO实际操作的例子,设计用来展示它如何评估和提升模型的回复。

提示: 求解方程:2x + 3 = 7

第一步 - 生成多个回复

GRPO 项目从当前模型中选取几个回应(比如,3 个,例如 3):

问题 答案
1 <think> 减 3: 2x = 4 → x = 2. </think> <answer> 2 </answer>
2 <think> 减 3: 2x = 7 → x = 3.5. </think> <answer> 3.5 </answer>
3 <think> 2x + 3 = 7,解得 2x = 4,因此 x = 2. </think> <answer> 2 </answer>

下一步,计算奖励值

GRPO 使用 基于规则的奖励机制

  • 正确性奖励:答案正确得 +1(2 分),不正确则得 0 分。
  • 格式奖励:如果正确使用了 <think>/<answer> 标签,可得 +1 分。
响应 准确度奖励值 格式奖励值 总奖励值
1 1 1 2
2 0 1 1
3 1 1 2

接下来,计算相对优势

步骤 3 – 计算相对优势

GRPO 使用组统计来计算,优势

  • 平均值(2,1 + 1,2 + 2,0) / 3 ≈ 1.67
  • 标准差0.47
响应 优势计算公式 优势

(例如)
1 | (2 - 1.67) / 0.47 | +0.7
2 | (1 - 1.67) / 0.47 | -1.4
3 | (2 - 1.67) / 0.47 | +0.7

第四步:更新模型

GRPO 调整模型的策略,利用这些优势。

  • 强化:响应1和3(积极的)会得到“加强”。
  • 打压:响应2(消极的)会被打压。

在GRPO更新之后:模型学会了一些新的技能或知识。

  1. 避免犯错(如 2x = 7)。
  2. 使用正确的步骤(如 2x = 4 → x = 2)。
  3. 保持正确的格式(如保留 <think><answer> 标签)。

这个示例展示了GRPO如何通过一种轻量但有效的方法:简单的对比,逐步引导模型趋向更好输出。在没有评判模型的情况下,内存和计算资源的使用量会显著减少。

小模型,大作用

另一个关键洞察挑战了“越大越好”的假设:直接将强化学习(RL)应用于较小的模型(例如,7B参数这样的小型模型)只能带来有限的改进。相反,你可以通过以下方法获得更好的效果:

  1. 训练大规模模型(例如,比如通过GRPO,GRPO是某个特定的术语或缩写)

    将他们的能力精简成更小的版本

DeepSeek-R1蒸馏版的70亿参数模型在推理任务上超越了许多320亿参数规模的模型,相比之下,它需要的计算资源要少得多。有趣的是,这和软件工程的原则不谋而合,那就是先做一个靠谱的“参考实现”,然后再进行优化,投入生产。

编程训练超级重要

在介绍 GRPO 的 DeepSeekMath 论文里,还有一点有趣的地方:经过代码预训练的模型能更好地进行推理,比如解决数学题。

代码的结构化语法似乎传授了一些可以应用于各种领域的技能,比如解方程或逻辑游戏。

结尾

DeepSeek-R1 的发布彰显了在 AI 训练方面的创新如何能够弥合性能和实用性的差距。通过用 GRPO 的基于群体的比较取代传统强化学习中资源消耗大的“批评家”,团队可以简化模型优化,同时保持准确。

同样令人印象深刻的是,通过大规模强化学习训练得到的大模型被精简为更小且更高效的版本——这一策略与已被证明有效的软件工程实践相似。

最后,代码预训练过程与逻辑推理之间的联系突显了跨学科的学习的重要性。

这些见解共同提供了一条指南,帮助我们开发既强大又有效且经济实惠的AI系统,同时平衡了前沿成果和实际部署限制。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消