DeepSeek-R1 发布,性能对标 OpenAI O1 正式版 DeepSeek API Docs
与之前版本相比,本次更新通过 Post-Training 全面提升了模型各方面能力表现,包括数学、代码、写作、角色扮演等;同时,新版模型优化了文件上传功能,并且全新支持了联网搜索,展现出更加强大的全方位服务于各类工作生活场景的能力。 "深度思考" 模式专门针对数学、代码等各类复杂逻辑推理问题而设计,相比于普通的简单问题,能够提供更加全面、清晰、思路严谨的优质解答,充分展现出较长思维链的更多优势。 登录官网 chat.deepseek.com 即可与最新版 V3 模型对话。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。 该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。 随着性能更强、速度更快的 DeepSeek-V3 更新上线,我们的模型 API 服务定价也将调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元,以期能够持续地为大家提供更好的模型服务。
登录DeepSeek官网或官方App,打开"深度思考"模式,即可调用最新版 DeepSeek-R1 完成各类推理任务。 之后,正式版 DeepSeek-R1 模型将完全开源,我们将公开技术报告,并部署 API 服务。 在"联网搜索"模式下,模型将深入阅读海量网页,为用户生成全面、准确、满足个性化需求的回答。 面对用户的复杂问题,模型将自动提取多个关键词并行搜索,在更短时间内提供更加多样的搜索结果。 DeepSeek-R1-Lite 目前仍处于迭代开发阶段,仅支持网页使用,暂不支持 API 调用。 DeepSeek-R1-Lite 所使用的也是一个较小的基座模型,无法完全释放长思维链的潜力。
我们的测试结果显示,经过思维链压缩训练后,V3.1-Think 在输出 token 数减少 20%-50% 的情况下,各项任务的平均表现与 R 持平。 需要注意的是,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。 另外,V3.1 对分词器及 chat template 进行了较大调整,与 DeepSeek-V3 存在明显差异。 V3.1的 Base 模型在 V3 的基础上重新做了外扩训练,一共增加训练了 840B Watch Shemale Hentai Videos tokens。 Base 模型与后训练模型均已在 Huggingface 与魔搭开源。
"以开源精神和长期主义追求普惠 AGI" 是 DeepSeek 一直以来的坚定信念。 我们非常兴奋能与社区分享在模型预训练方面的阶段性进展,也十分欣喜地看到开源模型和闭源模型的能力差距正在进一步缩小。 得益于开源社区的支持,SGLang 和 LMDeploy 第一时间支持了 V3 模型的原生 FP8 推理,同时 TensorRT-LLM 和 MindIE 则实现了 BF16 推理。 此外,为方便社区适配和拓展应用场景,我们提供了从 FP8 到 BF16 的转换脚本。 同时,V3.1 在非思考模式下的输出长度也得到了有效控制,相比于 DeepSeek-V ,能够在输出长度明显减少的情况下保持相同的模型性能。 在代码修复测评 SWE 与命令行终端环境下的复杂任务(Terminal-Bench)测试中,DeepSeek-V3.1 相比之前的 DeepSeek 系列模型有明显提高。 DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。 在需要多步推理的复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上,DeepSeek-V3.1 性能已大幅领先 R1-0528。
这是一个全新的开始,未来我们会在 DeepSeek-V3 基座模型上继续打造深度思考、多模态等更加丰富的功能,并将持续与社区分享我们最新的探索成果。 DeepSeek V2 系列模型自今年 5 月发布开源以来,已经陪伴大家走过了半年的时间,期间历经 5 次迭代,而广大用户朋友们的支持与肯定,正是我们一直以来坚持不断更新进步的动力。 官方 App 与网页端模型已同步升级为 DeepSeek-V3.1。 用户可以通过"深度思考"按钮,实现思考模式与非思考模式的自由切换。 DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。 通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。 DeepSeek-R1-Lite 的推理过程长,并且包含了大量的反思和验证。 所有用户均可登录官方网页(chat.deepseek.com),一键开启与 R1-Lite 预览版模型的超强推理对话体验。