目前越大的模型对系统提示词的响应越差,或你需要结构化的提示词才能修改模型输出的范式。OpenRouter一类平台可以低成本体验所有最大模型的效果,所以自己去测一测的意义比单独问要很多。不要以为存在最好的提示词范式。我做AI 4 Science,实现路径是Agent+人手建模。我自己搭建框架使用的API主要来源是OpenRouter。借助第三方转发后的体感是GPT5.2 Pro >= Opus 4.5 >= GPT5.2 Codex = GPT5.2 > Gemini 2.5 Pro >> Gemini 3.0 Pro >= Grok 4.1系列。美国御三家的水平和他的收入是对齐的。自负盈亏这事情对于LLM的发展极为重要,Gemini把自己的饼摊开的原因是因他是Google家族,Grok可以搞色色是因为他是X家族的一员。国产也是如此,GLM和Minimax能显著关注运用测的原因是因为他们得自负盈亏。GPT5.2 Pro在Thinking Level为Medium和High的时候非常强大,不只是STEM厉害,Role Play也是一流。但是xhigh就很微妙了,反正我是不会用也用不好。有一点对于超大型模型,无论是GPT5.2 Pro还是Opus 4.5都对系统提示词非常敏感,基本上任何非默认提示词都会显著简短输出。此外一层就是GPT5.2 Codex了,成本比Opus 4.5低不少,有很强的工具读取能力(注意是读取),但是自主规划的能力弱于Opus 4.5。其实整个GPT5.2家族对于Xhigh的Thinking Level我用下来均是负优化,不知道OpenAI怎么用xhigh来刷分的。此外的模型其实都有一些蠢了,不做Adapter和Domain Alignment基本没发出好结果。但是,鸡立鹤群的是Gemini 3.0 Pro,注意力极差,泛化能力极差,工程能力极差,只有数学相对好。你要一个最强的订阅制模型,我认为是Anthropic的Claude搭配OpenRouter使用GPT5.2 Pro和Grok 4.1 Fast。
兰 亭 墨 苑
期货 · 量化 · AI · 终身学习