DeepSeek研究员在线爆料：过年都没歇还有大招！

体育 · 2025-02-05 11:13 · By 喵喵 · 10次点击

DeepSeek

大年初四Daya Guo发了一条推文，透露了春节期间让他最兴奋的事情，亲眼见证了R1-Zero模型性能曲线的 “持续增长”，并且直言感受到了强化学习（RL）的强大力量。

Daya Guo回复了网友有关DeepSeek R1的一些问题，以及接下来的公司的计划，只能说DeepSeek的R1仅仅只是开始，内部研究还在快速推进，DeepSeek的研究员过年都没歇，一直在爆肝推进研究，接下来DeepSeek还有大招。

资讯图片

网友提问：“如果不是秘密的话：这次RL训练跑了多久？”对此，Daya Guo表示，660B参数的R1-Zero和R1是在V3发布之后才开始跑的，训练大约花了2-3周。

资讯图片

此外，他还表示在尝试将R1应用于形式化证明环境，希望尽快向社区发布更好的模型。听Daya Guo的意思，他们在这方面已经有进展，未来可能会有更重磅的模型发布！期待值拉满！

资讯图片

本网站转载其他媒体稿件，如稿件版权单位或个人不想在本网站发布，可与本网站联系并提交书面通知，本网站可立即将其删除。

DeepSeek

DeepSeek研究员在线爆料：过年都没歇 还有大招！