一条404错误,泄露了新模型
2月2日,有开发者在调用Google Vertex AI的接口时,发现了一个奇怪的模型ID:
claude-sonnet-5@20260203
访问结果是404 Not Found。
这个错误信息看起来没什么,但对熟悉云服务的人来说,意思很明确——模型已经部署在谷歌的基础设施里了,只是还没对外开放。
随后,AI圈知名博主Pankaj Kumar直接确认:Claude Sonnet 5的代号是Fennec,已经在Google基础设施中,发布时间很可能就是2026年2月3日。
也就是说,最快这两天就能用上。
性能怎么样?先看数据
按照泄露出来的内部测试数据,Claude Sonnet 5在多个基准测试中的表现,已经超过了Claude Opus 4.5。
但它的定位却是Sonnet,也就是中端系列。这意味着,Anthropic用中端模型的价格,做出了旗舰级的性能。
最值得关注的是编程能力。
在SWE-Bench这个测试上,Claude Sonnet 5的得分超过了80.9%。作为对比,此前市面上最高分是74.4%。
SWE-Bench是什么?简单说,就是让AI去解决真实的GitHub问题——修bug、重构代码、补测试、跑CI流程等等。
80.9%的得分意味着,它能独立完成大部分软件工程师日常会遇到的任务。不只是写代码,而是能交付可用的代码。
价格便宜一半,上下文长十倍
更让人意外的是价格。
Claude Sonnet 5的推理成本,只有Claude Opus 4.5的50%。
原因在于,它是直接在谷歌TPU上训练和优化的。别人还在为H100显卡抢破头的时候,Anthropic早就换了条路。
除了价格优势,Sonnet 5的上下文窗口长达100万tokens,运行速度也有提升,延迟更低。
100万tokens是什么概念?你可以把整个项目的代码库一次性塞进去。它不是简单地”看文件”,而是理解全局架构之后再动手。
对于大型项目、遗留系统、或者那些没人敢碰的老代码来说,这个功能简直是救命稻草。
早期测试:效果确实不错
现在已经有一些早期测试者拿到了访问权限。
有人让Sonnet 5用ASCII字符画一张世界地图,结果生成的版本是他见过最完整、最详细的。
还有人测试了UI渲染和复杂代码构建,Sonnet 5都表现得很流畅。
当然,这些都是单个任务的测试。真正让人关注的,是它的多智能体协作能力。
Dev Team模式:一个人变成一个团队
Claude Sonnet 5最大的变化,是推出了一种叫”Dev Team”的模式。
在这个模式下,你只需要给一句需求,Sonnet 5会自动生成多个子智能体,然后并行协作完成开发。
这些子智能体会同时工作、互相校验,最终输出的不是一段代码,而是一个完整可用、可测试、可迭代的功能模块。
听起来有点玄乎,但已经有人实测过了。
实测案例:让AI自己组建开发团队
有个开发者做了这样一个测试:
他给Claude一个需求——为一个命令行工具创建Web前端,功能是从X(推特)上下载视频。
然后,他让Claude读取一个plan.md文件,要求它拆分任务,用多智能体的方式执行。
一开始,系统里没有任何自定义的子智能体。
但任务开始后,Claude自动创建了:
Team Leader(团队负责人)
Front-end Builder(前端开发)
Backend Builder(后端开发)
Component Builder(组件开发)
QA Tester(测试工程师)
这些智能体全部并行工作,状态实时可见。你甚至可以点进任意一个智能体,查看它的system prompt,看看它”脑子里”在想什么。
更夸张的是,任务进行到一半,Claude发现人手不够,又自己生成了:
API Server Agent
前端构建Agent
CSS专项Agent
API集成Agent
智能体数量直接从5个膨胀到8个,而且全程无人干预。
任务结束后,Claude还输出了项目总结和执行报告两份文件。这已经是工程管理级别的产出了。
蜂群模式:藏在代码里的秘密功能
其实在几天前,就有人在Claude Code的代码里发现了一个隐藏功能——Swarm(蜂群模式)。
爆料的人叫Mike Kelly,他在X上放出了一个Fork项目,叫”Claude Sneak Peek”,供大家试用。
所谓Swarm,就是一个”总指挥”AI,加上一群随叫随到、即用即走的专业子智能体,构成一套协作系统。
这套系统有几种运作模式:
层级式(Hierarchical):总指挥 → 组长 → 执行者
依赖式(Dependency):任务A完成,才能启动任务B
广播式(Broadcast):一个信息,所有子agent同步接收
消息系统(Messaging System):agent之间可以互相通信
这样一来,所有AI就像一个公司一样运作了。
为什么这个功能还没开放?
既然功能这么强,为什么Anthropic还没正式开放?
原因很简单:太危险了。
这个超级调度器能读取你的全部上下文,能自己决定创建多少个子智能体,能自己分配任务。如果没有足够的安全机制,很容易被滥用。
所以现在只有少数测试者能用,普通用户还得等。
但可以预见的是,一旦Swarm真正开放,Claude Code将不再只是一个写代码的AI,而是一个能自己组建研发团队的系统。
时间点很微妙:正面对抗OpenAI
Anthropic选择这个时间点发布Sonnet 5,时机很微妙。
就在这几天,OpenAI的CEO奥特曼已经预告,接下来是Codex全家桶的发布月。
Anthropic选在这个节骨眼上发布新模型,意图很明显——正面竞争。
而它之所以有这个底气,背后是钱。
在2026年1月底,Anthropic完成了超过100亿美元的融资,估值达到3500亿美元,最终融资规模可能达到200亿。
根据Menlo Ventures在2025年第四季度的报告,Anthropic在企业市场的占有率已经达到40%,远超OpenAI的27%和谷歌的21%。
而且仅仅半年时间,Claude Code的年化收入就突破了10亿美元。
💡 最近处理AI相关的事情都在ChatTools (https://chattools.top) 上搞定,Claude4.5、GPT5.2都能用,关键是免费还不用折腾网络。
📰 平时会逛逛 AI Inking (https://aiinking.com) 看看AI圈有什么新动向,信息更新挺及时的。