关于最强开源模型DeepSeek V4的所有细节:性能对标Opus 4.6、价格下降、编码基准刷榜登顶

Bitsfull2026/04/24 13:2916508

摘要:

关于最强开源模型DeepSeek V4的所有细节:性能对标Opus 4.6、价格下降、编码基准刷榜登顶

今日,DeepSeek 宣布开源 V4 系列预览版,权重已同步上架 Hugging Face 和 ModelScope,采用 MIT 许可协议。系列包含两款 MoE 模型:V4-Pro(总参数 1.6T,每 token 激活 49B/490 亿)和 V4-Flash(总参数 284B/2840 亿,激活 13B/130 亿),两款均支持 1M token 上下文。


架构层面有三项关键升级:


· 混合注意力机制,包含压缩稀疏注意力 CSA 和重度压缩注意力 HCA,大幅降低长上下文开销。在 1M 上下文下,V4-Pro 单 token 推理 FLOPs 仅为 V3.2 的 27%,KV 缓存占用仅为 V3.2 的 10%。


· 流形约束超连接(mHC)替代传统残差连接,增强跨层信号传播稳定性。


· 训练改用 Muon 优化器加速收敛。预训练数据总量超过 32T token。


后训练分两阶段:先用 SFT 和 GRPO 强化学习分别训练各领域专家,再通过在线蒸馏统一合并成一个模型。


性能评测:V4-Pro-Max 自称当前最强开源模型


V4-Pro 的最高推理力度模式称为 V4-Pro-Max。官方技术报告将其与 Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High 以及开源的 Kimi K2.6、GLM-5.1 进行对比(不含刚发布的 Opus 4.7 和 GPT-5.5,最终差距有待第三方验证)。


编码方面,V4-Pro-Max 在 Codeforces 拿到 3206 分,超过 GPT-5.4 的 3168 和 Gemini 3.1 Pro 的 3052,刷新该基准纪录。LiveCodeBench 得分 93.5,同样全场最高。SWE Verified 得分 80.6,仅低于 Opus 4.6 的 80.8,差 0.2 个百分点。


长上下文方面,两项 1M 基准均排第二:CorpusQA 1M 得分 62.0(Opus 4.6 为 71.7),MRCR 1M 得分 83.5(Opus 4.6 为 92.9)。


Agent 任务方面,MCPAtlas Public 得分 73.6,仅低于 Opus 4.6 的 73.8;Terminal-Bench 2.0 得分 67.9,低于 GPT-5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。


知识与推理方面仍存在明显差距:GPQA Diamond 90.1(Gemini 94.3)、SimpleQA-Verified 57.9(Gemini 75.6)、HLE 37.7(Gemini 44.4)。


作为开源模型,V4-Pro-Max 在多项编码和长上下文基准上首次追平甚至超过部分闭源旗舰,但在知识密集型评测上仍落后于 Gemini 3.1 Pro。


内部 dogfooding 数据与数学推理


DeepSeek 罕见公开了内部 dogfooding 数据。团队从 50 余名工程师收集约 200 个真实研发任务,覆盖功能开发、bug 修复、重构和诊断,技术栈包括 PyTorch、CUDA、Rust、C++,经严格筛选后保留 30 个作为评测集。


V4-Pro-Max 通过率 67%,显著高于 Sonnet 4.5 的 47%,接近 Opus 4.5 的 70%,但低于 Opus 4.5 Thinking 的 73% 和 Opus 4.6 Thinking 的 80%;Haiku 4.5 通过率仅为 13%。一项 N=85 的内部调查显示,所有受访者均在日常工作中使用 V4-Pro 做 agentic coding,52% 认为 V4-Pro 可作为默认主力编码模型,39% 倾向认可,不到 9% 否定。反馈的主要问题包括低级错误、对模糊 prompt 的误解以及偶发的过度思考。


形式化数学推理方面,Putnam(普特南竞赛)是北美最高水平本科数学竞赛。在实用场景(Practical Regime)下,V4-Flash-Max 在 Putnam-200 Pass@8 基准上拿到 81.00 分,使用开源工具 LeanExplore 和受限采样;作为对比,Seed-2.0-Prover 为 35.50,Gemini 3 Pro 和 Seed-1.5-Prover 均为 26.50。


在前沿场景(Frontier Regime)下,V4 采用混合形式-非形式推理方案,先用 informal reasoning 生成候选自然语言解,经自我验证过滤后再由 formal agent 在 Lean 中完成严格证明。V4 在 Putnam-2025 拿到 120/120 满分,与 Axiom 并列第一,高于 Seed-1.5-Prover 的 110/120 和 Aristotle 的 100/120。前沿场景使用了大规模计算扩展,实用场景结果更能反映常规部署能力。


API 与定价:V4-Flash 降价且上下文升级,V4-Pro 为高端档位


DeepSeek V4 API 已同步上线 V4-Pro 和 V4-Flash。官方公众号公布了定价和算力规划:V4-Flash 直接替代 V3.2(deepseek-chat),不仅没涨价反而降价——缓存命中输入不变(0.2 元/百万 token),缓存未命中输入从 2 元降至 1 元(降 50%),输出从 3 元降至 2 元(降 33%)。上下文从 128K 扩展到 1M,等于以更便宜的价格获得 8 倍上下文。旧模型名 deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日停用,目前分别指向 V4-Flash 的非思考模式和思考模式。


V4-Pro 是全新的高端档位:缓存命中输入 1 元、未命中 12 元、输出 24 元/百万 token,输出价格是 V3.2 的 8 倍。DeepSeek 在定价表注释中解释,受限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。两款模型均支持非思考模式和思考模式,思考模式支持 reasoning_effort 参数设置 high/max 两档强度。


DeepSeek 在公告中称:「从现在开始,1M 上下文将是 DeepSeek 所有官方服务的标配。」


首次公开基础设施:生产级弹性计算沙盒 DSec


DeepSeek V4 技术报告首次公开了支撑 Agent 后训练与海量评测的核心基础设施——生产级弹性计算沙盒 DSec(DeepSeek Elastic Compute)。


当前大模型强化学习需要极其庞大的代码试错环境。报告披露,在实际生产中,单个 DSec 集群能同时调度数十万个并发沙盒。系统由 Rust 编写,底层对接自研 3FS 分布式文件系统,通过层级按需加载(on-demand loading)打破了海量沙盒冷启动的性能瓶颈。


开发者体验上,DSec 用一套 Python SDK 统一了函数调用、容器、微型虚拟机和完整虚拟机四种执行底座,切换时仅需修改一个参数。针对算力集群常见的任务被抢占问题,DSec 引入了全局轨迹日志:当任务恢复时,系统会直接「快进」重放已缓存的命令执行结果,既实现了极速断点续训,又避免了因重复执行带来的非幂等错误。