DeepSeek-R1强化学习引领推理巅峰，国产AI发起“诺曼底登陆”

21世纪经济报道 21财经APP 赵云帆

2025-01-21 22:47

21世纪经济报道记者赵云帆报道

2025年的AI大战，比预想的更快来到。

1月20日，在 DeepSeek-V3 发布仅仅26天后，深度求索公司再次发布了深度推理版本的 DeepSeek-R1。

而该版本被认为全面对标 OpenAI 发布的大模型 o1，以及更轻量，但推理更快捷的 o1-mini。

而由于深度求索此前发布的 DeepSeek-V3 已经在推理和数学方面展示出极强的能力，因此 R1 的推出被普遍认为是顺理成章的结果。

但 DeepSeek-R1 工程所展现的创造力和突破性，依然超过了绝大部分从业者的预期——比如他们利用更为纯粹的强化学习（RL）技术，颠覆性地免去了模型启动前需要人为赋能的传统认知，真正意义上让 AI 开始像人一样思考。

无巧不成书，就在 DeepSeek-R1 发布的同一天，另一家国内大模型“网红”Kimi发布了多模态思考模型“k1.5”，明确剑指实现多模态推理能力的 o1。

两家中国AI企业先声夺人，势成围剿——而 OpenAI 首席执行官山姆·奥特曼似乎也不甘寂寞。

同一天，奥特曼再度在社交媒体预告了旗下推理模型 o3 和 o3 mini 即将在几周后发布的信息。而按照 OpenAI 在去年的表态，o3 模型的能力将接近实现 AGI（通用人工智能）。

然而，奥特曼的表态，仍然被许多网友戏谑为“OpenAI又卖期货了”。

2025年刚刚开始，AI大模型的声浪比拼，攻守之势悄然改变。

明确对标 o1

去年9月，OpenAI发布具有划时代意义的 o1 模型。

o1 模型拥有两大标签，其分别为傲人的推理与理化分析能力，以及首次出现的多模态（比如图片、声音等混合输入）与推理结合的能力。

然而，在1月20日这天， OpenAI o1 模型的两大支柱，被国内的两家 AI 新秀发布的新版模型，分别明确对标。

DeepSeek-R1 之前，深度求索已经有基于推理能力的 DeepSeek-R1 Lite。然而在 DeepSeek-R1发布之后，众人发现其惊艳程度不亚于 DeepSeek V2 与 V3 迭代带给人的惊喜。

知名AI能力评测机构 LiveBench 上，DeepSeek-R1 的综合得分来到了全球第二，仅次于被俗称为“满血版本”的 OpenAI o1，比 DeepSeek-V3 的排名高出四位。

DeepSeek 官方网站上，记者发现，网页版 DeepSeek-R1 的功能被集成在了 V3 的“深度思索”调用功能按键之上。同时，在交互过程中， DeepSeek-R1 会用淡色小字来呈现模型的推理链条——这一点与被视为推理模型集大成者的 o1 雷同。

有试用的AI工程师如此描述 DeepSeek-R1 丝滑的感觉。

“在使用别的AI的过程中，你仍然会觉得他们在不断的搜索、拼接资料和数据，不论是推理还是做数学题。但 DeepSeek-R1 给我的感觉是它真的像一个人——即便也会犯错，因为人也会犯错。”

当然，DeepSeek-R1 无法完全对标 o1，因为至今为止仍然专注于单模态的推理。不过多模态推理，恰恰被新模型发布“撞车”，且与 DeepSeek 同样“C位出道”的月之暗面（Kimi）发布的 k1.5 模型所完成。

一系列权威评测结果显示，k1.5在数学能力上，无论是纯文本还是视觉多模态均超过 o1，在短推理上也超过了 GPT-4o 和 Claude 3.5-sonnet。

而不论是 DeepSeek-R1，还是 Kimi k1.5，两者在公开的开发文档中都透露，他们采用了类似的强化学习（RL）能力，在无人为干预监视的情况下提升了模型的能力。

一位用户名为“Flood Sung”的Kimi工程师在社交平台上表达了英雄所见略同的惊喜感：

“惊喜的是在我们实际训练的过程中，我们有了重要的发现……这个和友商 DeepSeek 的发现几乎是一样的。”Flood Sung表示：“感觉自己像个AI，哦不，是AI太像人了。”

国产AI后发制人

大约一年前，拥有着OpenAI联合创始人，特斯拉自动驾驶研发负责人头衔的 AI 界名人 Andrej Karpathy 曾信誓旦旦的表示：英语是AI最为常用的语言。

当然这一格局至今尚未改变。在使用 DeepSeek-V3 时，一些人发现，模型返回的结果时常会是全英文的表达。包括隔夜 DeepSeek-R1 发布之后，许多人发现 R1 在陈述推理过程中时不时展示英文。

而就当大家以为 DeepSeek 和 Kimi 都是站在 OpenAI 肩膀上的时候，中文却同时出现在了OpenAI o1的推理过程中。

就在 DeepSeek-V3 发布之后，一位网友发现，其使用的 o1 Pro 会随机使用中文进行思考。而有专家认为，除了中文字更为简练和高效之外，由于当下的大量训练集中包含中文，其也让 o1 模型用更为有效的中文来进行推理。

这至少证明，英文与中文的AI内容，已经开始互相影响。

与 DeepSeek-V3 类似，R1 的发布也在外网引发了热议。

英伟达AI负责人Fan Jim则在社交媒体上再次表达了对 DeepSeek-R1 模型的感叹：

“我们正生活在一个由非美国公司践行 OpenAI 最初使命的时代——真正的开放、前沿的研究，为所有人赋能”，Fan Jim表示：“ DeepSeek-R1 不仅是开源的，他们还展示了所有训练的秘诀。”

与此同时，包括 UC Berkeley 教授 Alex Dimakis，Abacus ai CEO Bindu Reddy等人，均表达了中国AI奋起直追，美国AI企业还需努力的感叹。

种种迹象显示，国产 AI，正以迅雷不及掩耳之势，融入 AI 世界的洪流。

（作者：赵云帆编辑：朱益民）

南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权，任何人不得以任何方式使用。详情或获取授权信息请点击此处。

加载全文