Editing DeepSeek R1 (section)

== 性能测试与对比 ==
自发布以来，DeepSeek R1 在各类基准测试和实际应用中展现了令人瞩目的性能表现。我们从几个方面来看它的表现，并与其他同类模型进行对比。

* **推理能力评测：**作为“推理大模型”，R1 在需要多步思考的任务上成绩斐然。官方报告显示，R1 系列模型在美国数学竞赛 AMC 中最高难度的 AIME 部分，以及全球顶级编程竞赛 Codeforces 的挑战题上，均取得了卓越成绩，'''大幅超越 GPT-4''' 等顶尖模型 (DeepSeek推理模型预览版上线，解密o1推理过程 | DeepSeek API Docs)。这意味着在数学证明、复杂算题、算法竞赛难题等场景下，R1 的推理正确率比 GPT-4 更高。此外，网易有道的内部测试也印证了R1的实力：在有道自有的 K12 教育题库上，DeepSeek-R1 的解题准确率高达 '''88%''' (网易有道全面拥抱DeepSeek-R1，推理大模型加速个性化教学升级 | 量子位)。这一数据远高于此前同类模型在该测试集上的成绩，充分证明了 R1 在教学场景下解决复杂习题的可靠性。
* '''与主流大模型对比：如果将 R1 与目前市面上的通用大模型相比，它在一些方面具有显著优势。首先是推理深度'''：OpenAI 的GPT-4虽然综合能力极强，但在公开交互中并不会展现完整的推理过程（很多链式推理是隐含的），而 DeepSeek R1 则擅长输出详细的思维链，这对需要验证步骤的任务非常有利 (DeepSeek推理模型预览版上线，解密o1推理过程 | DeepSeek API Docs)。其次，在'''特定领域'''（如数学和编程），R1 经专门强化后往往能给出比GPT系列更准确的结果。这一点从前述AIME和Codeforces成绩可见一斑 (DeepSeek推理模型预览版上线，解密o1推理过程 | DeepSeek API Docs)。再者，R1 的'''上下文长度'''远超一般模型（GPT-4上下文据传约8K或32K，而R1达到128K），这意味着它能处理超长的问题描述和推理过程而不“遗忘”前面内容。这在长文推理、复杂对话场景中是巨大优势。当然，在语言流畅性、常识问答等泛化能力上，ChatGPT/GPT-4 作为经过大规模互联网语料训练的模型可能仍占优势。但对于R1针对性强的逻辑推理任务，二者可谓各有千秋。
* '''与同类开源模型对比：在开源领域，近似的对标模型有 Meta 的 Llama2 系列、百度的文心大模型以及阿里云的 Qwen 千问模型等。DeepSeek R1 则因为其独特的MoE稀疏架构和强化学习训练，在性能和效率组合上形成差异化竞争力。据报道，R1 团队通过架构和训练优化，使模型推理成本降低了90%+''' (网易有道全面拥抱DeepSeek-R1，推理大模型加速个性化教学升级 | 量子位)——也就是说，在相似规模和任务下，R1 对算力资源的消耗显著小于其他 dense 架构模型。这对需要部署大模型的企业来说吸引力巨大：用更低的硬件投入即可达到同等甚至更好的效果。此外，R1 发布时引入了“纯RL赋能推理”的创新做法（DeepSeek-R1-Zero），这是业界首个'''完全通过强化学习激发推理能力'''的开源尝试 (Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1 at 5a56bdb)。相较之下，大多数同类模型都采用了大量监督微调数据来训练。R1 的出现为研究人员提供了一种新思路，其开源的权重为社区验证和复现这一路径提供了可能。 (deepseek-ai/DeepSeek-R1 · Thoughts on deepseek-r1. Correct me if I'm wrong)
* '''蒸馏小模型性能：值得关注的是，DeepSeek 官方发布的 1.5B-70B 的蒸馏模型在同等参数量级上也拥有惊人的表现'''。这些小模型基于 Qwen 和 Llama 等社区常用基模型，经过 R1 生成的数据微调后，在推理基准上的得分大幅提升 (Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1 at 5a56bdb)。换言之，一个区区7B参数的 DeepSeek-R1-Distill 模型，其复杂推理能力可能媲美甚至超越普通的13B/20B模型。这对开源社区是很大的贡献：小模型变得更聪明、更实用，从而'''降低了使用门槛'''。在实际对比中，社区用户反馈 7B 的 R1 蒸馏模型在一些逻辑题上的准确性胜过了Llama2-13B等大一号的模型。这也证明了大型模型的推理“经验”可以成功迁移到小模型上，为今后训练高性能小模型提供了范例 (Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1 at 5a56bdb)。
* '''不足与局限：当然，我们也要客观地看到 R1 的一些局限。首先，虽然成本大幅降低，但要充分发挥 R1 实力仍需要较高端的计算环境'''（比如要跑完整模型就离不开多GPU服务器）——这点上它和其他大模型一致，不可能在手机等设备上直接运行超大模型。其次，由于 R1 特化于推理，有些日常闲聊或开放领域知识问答上可能未必比经过大规模互联网语料训练的模型更健谈。此外，R1 输出长链推理虽是优势，但在实际应用中有时并不需要那么详尽的步骤，如何'''控制回答长度'''、让模型学会在啰嗦和准确之间平衡，也是使用者需要考虑的。最后，R1 虽已开源权重，但其训练用的部分数据和代码未完全公开 (deepseek-ai/DeepSeek-R1 · Thoughts on deepseek-r1. Correct me if I'm wrong)（例如具体使用了哪些高质量推理数据集尚不明确），这可能在学术研究复现上留有一些挑战。

总体而言，DeepSeek R1 在性能上的亮点是'''卓越的推理能力和高性价比'''。它证明了通过新颖的训练范式，可以在有限成本下逼近甚至超越行业最强模型的特定能力。这对推动大模型普惠化具有积极意义。通过与各类模型的对比，我们看到 R1 已经站在了行业前沿，尤其是在它所专长的领域。但任何模型都有其适用范围和限制，理解这些有助于我们更好地发挥 R1 的作用。了解了性能层面的情况后，让我们看看 R1 在实际应用中能发挥哪些作用、已经有哪些成功案例。