太长只想看结果版本:
V4 真实存在,技术储备有论文背书,发布窗口大概率在 2026 年 4 月,但 DeepSeek 官方一字未发,"外部预期一再落空"记录已经有好几次了。
长文版本
从 2 月中旬的春节窗口,到 2 月下旬窗口,再到 3 月初社区预测的 3 月 3 日——这些时间点全部过去了,DeepSeek 官方一次都没有正式发布。截至 3 月 23 日,DeepSeek 的 API 文档中依然没有出现 V4 的模型 ID
中途出现了两个"假消息":
Hunter Alpha:3 月 11 日,一个叫 Hunter Alpha 的匿名模型出现在 OpenRouter 平台,参数对标万亿级,社区一度以为是 DeepSeek V4 的灰度测试。但路透社在 3 月 18 日报道,该模型实际上是小米的 MiMo-V2-Pro,并非 DeepSeek V4。
V4 Lite:3 月 9 日,媒体报道 DeepSeek 网站出现了一个编程和长上下文能力有所提升的版本,部分用户将其称为"DeepSeek V4 Lite",但 DeepSeek 从未官方承认这个名字,也没有公布任何规格
目前最可信的发布预期:4 月
白鲸实验室报道,DeepSeek V4 和腾讯的新混元模型都将在 2026 年 4 月发布。这一推迟是在《金融时报》此前预测的 3 月窗口基础上顺延的。来源:独家|梁文锋将携DeepSeek V4撞上姚顺雨
预测市场也给出了类似判断:Polymarket 上关于"DeepSeek V4 何时发布"的交易市场目前显示,4 月 15 日之前发布的概率约为66%。来源:DeepSeek V4 released by...?
V4 的技术方向(已有论文支撑)
DeepSeek 团队在等待发布期间发表了多篇技术预研论文,透露了 V4 的核心设计:
1.mHC(流形约束超连接) 2025 年 12 月,梁文峰团队联名发表了"mHC: Manifold-Constrained Hyper-Connections"论文,专注于优化底层架构的连接方式,目标是在不增加显著计算开销的前提下提升训练稳定性和推理性能。
2.Engram 条件记忆机制 2026 年 1 月,梁文峰发表"Conditional Memory via Scalable Lookup"论文,提出了条件记忆机制,旨在解决 Transformer 架构在记忆、训练稳定性和长上下文处理上的根本性限制。
3.多模态能力 据知情人士向 TechNode 透露,DeepSeek 计划将 V4 作为多模态模型发布,原生支持文本、图像和视频生成。
4.上下文窗口扩展到 100 万 token 2 月 11 日,DeepSeek 悄悄将其现有模型的上下文窗口从 128K 扩展到 100 万 token,知识截止日期更新至 2025 年 5 月。社区普遍将此解读为 V4 基础设施正在生产环境中测试的信号。
5.国产芯片优先 DeepSeek 与华为和寒武纪合作,专门为其最新国产 AI 芯片对 V4 进行了优化。这是大模型发展中一个值得关注的地缘政治信号。
结论
DeepSeek V4 大概率会出,会带来很多更新,但是会不会是一个新的"DeepSeek moment",我觉得不会是。
原因很简单:第一次的震撼,本质上是信息差带来的。
2025 年初 V3/R1 横空出世的时候,整个行业的预设还是"顶级大模型是美国科技巨头的专属游戏"。DeepSeek 用一个训练成本只有 GPT-4o 零头的模型打出同等性能,打的是认知,不是参数。那种震撼是无法复制的——因为它只能发生一次。
现在的市场环境完全不同了。所有人都已经默认 DeepSeek 有能力做出顶级模型,V4 是"预期中的进化",不是"意料之外的颠覆"。就算 V4 的 benchmark 全面超越 GPT-5,反应也会是"不出所料",而不是"怎么可能"。
更何况,这次 V4 面对的对手阵容也截然不同:GPT-5 已经发布,Claude Opus 4.6 在推理上大幅跃升,Gemini 2.5 Pro 在代码和长上下文上同样表现抢眼。整个前沿模型的水位都在涨,V4 要制造 moment,需要的不只是"比上一代强",而是"比所有人都强很多"——这个门槛比 2025 年初高出了一个量级。