大家好!最近 DeepSeek-R1 模型横空出世,让整个 AI 圈沸腾了!这玩意儿究竟是什么神奇宝贝?它又是怎么炼成的?别急,咱们一起来看看。
DeepSeek-R1 模型厉害在哪儿?简单来说,它在推理任务(比如数学、编程和逻辑)上表现超强,有点像我们做难题一样,仔细思考,耐心琢磨。OpenAI 的 o1 模型也证明了,让大型语言模型(LLM)在推理阶段多花点算力,就能显著提升它的能力。然而,DeepSeek-R1 的秘诀到底是什么?DeepSeek 这次可是大方地分享了他们的训练秘籍。关键是,他们使用纯强化学习来训练基础语言模型进行推理,完全不需要人工干预!是不是很酷?
不过,DeepSeek-R1 的发布也带来了一些疑问:
- 数据收集:那些推理专用数据集是怎么收集的?
- 模型训练:DeepSeek 没公开训练代码,不知道哪些超参数最有效,不同模型家族和规模下又有什么不同。
- 规模定律:训练推理模型需要多少算力和数据?这方面有没有什么权衡?
这些问题促使 Hugging Face 启动了 Open-R1 项目,目标是:
- 系统性地复现 DeepSeek-R1 的数据和训练流程。
- 验证 DeepSeek-R1 的说法。
- 推动开放式推理模型的发展。
通过构建 Open-R1,我们希望:
- 明确强化学习如何提升推理能力。
- 与开源社区分享可复现的见解。
- 为未来模型利用这些技术奠定基础。
今天,让我们一起探索 DeepSeek-R1 的关键要素,看看 Open-R1 项目打算如何复制,以及你如何参与其中!
DeepSeek-R1 模型是基于 DeepSeek-V3 模型构建的。就像任何一个优秀的推理模型一样,它也需要一个强大的基础模型,而 DeepSeek-V3 正是如此。这个 6710 亿参数的混合专家 (MoE) 模型的性能与 Sonnet 3.5 和 GPT-4o 等重量级选手不相上下。更令人印象深刻的是,它训练成本仅为 550 万美元,这得益于诸如多标记预测 (MTP)、多头潜在注意力 (MLA) 和大量的硬件优化。
DeepSeek 还推出了两个模型:DeepSeek-R1-Zero 和 DeepSeek-R1,它们分别采用了不同的训练方法。DeepSeek-R1-Zero 直接跳过了监督微调,完全依赖强化学习 (RL),并使用了群体相对策略优化 (GRPO) 来提高效率。一个简单的奖励机制被用来指导模型,根据答案的准确性和结构提供反馈。这种方法帮助模型发展了有用的推理技能,例如将问题分解成步骤并验证其输出。但是,它的回复有时缺乏清晰度,阅读起来比较困难。
DeepSeek-R1 就解决了这个问题。它首先通过精心制作的小型示例集进行“冷启动”阶段的微调,以提高清晰度和可读性。之后,它经历了更多的强化学习和改进步骤,包括使用基于人类偏好和可验证奖励的机制来拒绝低质量输出,最终创建了一个不仅推理能力强,而且生成清晰、一致的答案的模型。
但是,DeepSeek-R1 模型的发布并不是完美的。他们没有公开训练用的数据集和代码,虽然模型权重是公开的。Open-R1 项目的目标就是填补这些空白,让整个研究和产业界都能利用这些配方和数据集构建类似或更好的模型!
Open-R1 的计划如下:
- 通过从 DeepSeek-R1 中提取高质量的推理数据集,复制 R1-蒸馏模型。
- 复制 DeepSeek 用于创建 R1-Zero 的纯强化学习流程。这将涉及整理新的、大规模的数学、推理和代码数据集。
- 展示我们可以通过多阶段训练从基础模型 → 监督微调 → 强化学习的完整流程。
这些合成数据集将允许每个人只需对其进行微调即可将现有或新的 LLM 调整为推理模型。强化学习相关的训练配方将作为起点,供任何人从头构建类似模型,并允许研究人员在此基础上构建更高级的方法。
当然,我们不只局限于数学数据集。在代码、医学等科学领域还有巨大的潜力。通过记录哪些方法有效、哪些无效,以及原因,我们希望避免他人走弯路,浪费时间和算力。
如果你对这个项目感兴趣,欢迎加入 Hugging Face!无论你贡献代码还是参与 Hugging Face 的讨论,都有很多方式参与到 Open-R1 项目中来!让我们一起构建未来!