网传 DeepSeekV4 要来了，这次是真的吗？目前有哪些信息？

太长只想看结果版本：

V4 真实存在，技术储备有论文背书，发布窗口大概率在 2026 年 4 月，但 DeepSeek 官方一字未发，"外部预期一再落空"记录已经有好几次了。

长文版本

从 2 月中旬的春节窗口，到 2 月下旬窗口，再到 3 月初社区预测的 3 月 3 日——这些时间点全部过去了，DeepSeek 官方一次都没有正式发布。截至 3 月 23 日，DeepSeek 的 API 文档中依然没有出现 V4 的模型 ID

中途出现了两个"假消息"：

Hunter Alpha：3 月 11 日，一个叫 Hunter Alpha 的匿名模型出现在 OpenRouter 平台，参数对标万亿级，社区一度以为是 DeepSeek V4 的灰度测试。但路透社在 3 月 18 日报道，该模型实际上是小米的 MiMo-V2-Pro，并非 DeepSeek V4。

V4 Lite：3 月 9 日，媒体报道 DeepSeek 网站出现了一个编程和长上下文能力有所提升的版本，部分用户将其称为"DeepSeek V4 Lite"，但 DeepSeek 从未官方承认这个名字，也没有公布任何规格

目前最可信的发布预期：4 月

白鲸实验室报道，DeepSeek V4 和腾讯的新混元模型都将在 2026 年 4 月发布。这一推迟是在《金融时报》此前预测的 3 月窗口基础上顺延的。来源：独家｜梁文锋将携DeepSeek V4撞上姚顺雨

预测市场也给出了类似判断：Polymarket 上关于"DeepSeek V4 何时发布"的交易市场目前显示，4 月 15 日之前发布的概率约为66%。来源：DeepSeek V4 released by...?

V4 的技术方向（已有论文支撑）

DeepSeek 团队在等待发布期间发表了多篇技术预研论文，透露了 V4 的核心设计：

1.mHC（流形约束超连接） 2025 年 12 月，梁文峰团队联名发表了"mHC: Manifold-Constrained Hyper-Connections"论文，专注于优化底层架构的连接方式，目标是在不增加显著计算开销的前提下提升训练稳定性和推理性能。

2.Engram 条件记忆机制 2026 年 1 月，梁文峰发表"Conditional Memory via Scalable Lookup"论文，提出了条件记忆机制，旨在解决 Transformer 架构在记忆、训练稳定性和长上下文处理上的根本性限制。

3.多模态能力据知情人士向 TechNode 透露，DeepSeek 计划将 V4 作为多模态模型发布，原生支持文本、图像和视频生成。

4.上下文窗口扩展到 100 万 token 2 月 11 日，DeepSeek 悄悄将其现有模型的上下文窗口从 128K 扩展到 100 万 token，知识截止日期更新至 2025 年 5 月。社区普遍将此解读为 V4 基础设施正在生产环境中测试的信号。

5.国产芯片优先 DeepSeek 与华为和寒武纪合作，专门为其最新国产 AI 芯片对 V4 进行了优化。这是大模型发展中一个值得关注的地缘政治信号。

结论

DeepSeek V4 大概率会出，会带来很多更新，但是会不会是一个新的"DeepSeek moment"，我觉得不会是。

原因很简单：第一次的震撼，本质上是信息差带来的。

2025 年初 V3/R1 横空出世的时候，整个行业的预设还是"顶级大模型是美国科技巨头的专属游戏"。DeepSeek 用一个训练成本只有 GPT-4o 零头的模型打出同等性能，打的是认知，不是参数。那种震撼是无法复制的——因为它只能发生一次。

现在的市场环境完全不同了。所有人都已经默认 DeepSeek 有能力做出顶级模型，V4 是"预期中的进化"，不是"意料之外的颠覆"。就算 V4 的 benchmark 全面超越 GPT-5，反应也会是"不出所料"，而不是"怎么可能"。

更何况，这次 V4 面对的对手阵容也截然不同：GPT-5 已经发布，Claude Opus 4.6 在推理上大幅跃升，Gemini 2.5 Pro 在代码和长上下文上同样表现抢眼。整个前沿模型的水位都在涨，V4 要制造 moment，需要的不只是"比上一代强"，而是"比所有人都强很多"——这个门槛比 2025 年初高出了一个量级。