DeepSeek-R1 发布，性能对标 OpenAI O1 正式版 DeepSeek API Docs

与之前版本相比，本次更新通过 Post-Training 全面提升了模型各方面能力表现，包括数学、代码、写作、角色扮演等；同时，新版模型优化了文件上传功能，并且全新支持了联网搜索，展现出更加强大的全方位服务于各类工作生活场景的能力。 "深度思考" 模式专门针对数学、代码等各类复杂逻辑推理问题而设计，相比于普通的简单问题，能够提供更加全面、清晰、思路严谨的优质解答，充分展现出较长思维链的更多优势。登录官网 chat.deepseek.com 即可与最新版 V3 模型对话。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美 o1-preview 的推理效果，并为用户展现了 o1 没有公开的完整思考过程。随着性能更强、速度更快的 DeepSeek-V3 更新上线，我们的模型 API 服务定价也将调整为每百万输入 tokens 0.5 元（缓存命中）/ 2 元（缓存未命中），每百万输出 tokens 8 元，以期能够持续地为大家提供更好的模型服务。
登录DeepSeek官网或官方App，打开"深度思考"模式，即可调用最新版 DeepSeek-R1 完成各类推理任务。之后，正式版 DeepSeek-R1 模型将完全开源，我们将公开技术报告，并部署 API 服务。在"联网搜索"模式下，模型将深入阅读海量网页，为用户生成全面、准确、满足个性化需求的回答。面对用户的复杂问题，模型将自动提取多个关键词并行搜索，在更短时间内提供更加多样的搜索结果。 DeepSeek-R1-Lite 目前仍处于迭代开发阶段，仅支持网页使用，暂不支持 API 调用。 DeepSeek-R1-Lite 所使用的也是一个较小的基座模型，无法完全释放长思维链的潜力。
我们的测试结果显示，经过思维链压缩训练后，V3.1-Think 在输出 token 数减少 20%-50% 的情况下，各项任务的平均表现与 R 持平。需要注意的是，DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。另外，V3.1 对分词器及 chat template 进行了较大调整，与 DeepSeek-V3 存在明显差异。 V3.1的 Base 模型在 V3 的基础上重新做了外扩训练，一共增加训练了 840B Watch Shemale Hentai Videos tokens。 Base 模型与后训练模型均已在 Huggingface 与魔搭开源。
"以开源精神和长期主义追求普惠 AGI" 是 DeepSeek 一直以来的坚定信念。我们非常兴奋能与社区分享在模型预训练方面的阶段性进展，也十分欣喜地看到开源模型和闭源模型的能力差距正在进一步缩小。得益于开源社区的支持，SGLang 和 LMDeploy 第一时间支持了 V3 模型的原生 FP8 推理，同时 TensorRT-LLM 和 MindIE 则实现了 BF16 推理。此外，为方便社区适配和拓展应用场景，我们提供了从 FP8 到 BF16 的转换脚本。同时，V3.1 在非思考模式下的输出长度也得到了有效控制，相比于 DeepSeek-V ，能够在输出长度明显减少的情况下保持相同的模型性能。在代码修复测评 SWE 与命令行终端环境下的复杂任务（Terminal-Bench）测试中，DeepSeek-V3.1 相比之前的 DeepSeek 系列模型有明显提高。 DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元（缓存命中）/ 4 元（缓存未命中），每百万输出 tokens 16 元。在需要多步推理的复杂搜索测试（browsecomp）与多学科专家级难题测试（HLE）上，DeepSeek-V3.1 性能已大幅领先 R1-0528。
这是一个全新的开始，未来我们会在 DeepSeek-V3 基座模型上继续打造深度思考、多模态等更加丰富的功能，并将持续与社区分享我们最新的探索成果。 DeepSeek V2 系列模型自今年 5 月发布开源以来，已经陪伴大家走过了半年的时间，期间历经 5 次迭代，而广大用户朋友们的支持与肯定，正是我们一直以来坚持不断更新进步的动力。官方 App 与网页端模型已同步升级为 DeepSeek-V3.1。用户可以通过"深度思考"按钮，实现思考模式与非思考模式的自由切换。 DeepSeek R1 系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。通过算法和工程上的创新，DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS，相比 V2.5 模型实现了 3 倍的提升，为用户带来更加迅速流畅的使用体验。 DeepSeek-R1-Lite 的推理过程长，并且包含了大量的反思和验证。所有用户均可登录官方网页（chat.deepseek.com），一键开启与 R1-Lite 预览版模型的超强推理对话体验。