腾讯姚顺雨首篇论文提出「AI 下半场」先搞上下文学习，这意味着什么？

腾讯认真的吗？我觉得挺难的。

之前微软就有一篇文章介绍过模型在Context learning上的不足。

腾讯这篇文章，用了更加好的实验思路，更大的实验规模，以及更执着的态度，证明这事的确…很难。

主流模型几乎全部软脚。

在 CL-bench 基准测试中，即使是表现最好的模型 GPT-5.1，其任务解决率也仅为 23.7%，而所有受测模型的平均解决率仅为 17.2%。

领域知识推理（如金融、法律）：相对较好，平均解决率约25%。

规则系统应用（如编程语法、数学形式化）：解决率降至约15%。

实证发现与模拟（如从实验数据归纳规律）：最差，解决率仅约11%，因需要归纳推理而非演绎应用。

腾讯出的题目，不是我们常见的那种简单的Few-shot，什么学习新的桌游，新的编程语言，新的代码…

(╯°□°）╯︵ ┻━┻ 这尼玛…我也不行啊

题目：模型会收到一段没有任何物理背景解释的原始数据流（包含 t, x, y, z 四个维度的数值）。

要求：模型必须通过这些坐标的数值变化（如 z 轴呈线性增长，x, y 呈周期性圆周运动），意识到这是一个在磁场中做螺旋运动的电子。

表现：即使是GPT-5.1模型，虽然能算出数字，但也常因为无法清晰解释其推导出的物理假设（例如为何假设磁场沿 z 轴）或漏掉单位说明而被判定为失败。

评价：回答正确指出磁场沿z轴，但没有说明z方向的场是均匀的，也没有解释为什么平行方向的速度分量会随时间近似线性增加。结果：0分

上面这个任务的评价，我觉得带着某种主观“恶意”。就是你和某位老师双向厌恶，老师为了让你得59分，绞尽脑汁的那种。

这里还有一个特殊的案例，模型被训练数据干扰，导致任务失败。

案例：EZLang 编程。

论文发明了一种全新的、极简但有特定语法约束的编程语言 EZLang。模型必须立即学会该语言的 print with 语法、特定的变量定义方式和循环逻辑，去编写一个定时监控程序。

软脚原因：很多模型在这里会“习惯性”地写出带有预训练痕迹（比如 Python 或 C 的语法）的代码，或者为了方便而擅自修改题目要求的 30 分钟间隔逻辑，导致任务失败。

虽然这个测试充满了“恶意”，堆料相当足。

规模：包含 500 个复杂情境、1,899 个任务和 31,607 条“丧心病狂”的验证准则。

分类：将任务分为四大类，共 18 个子类：

领域知识推理（如金融、医疗、法律咨询）。

规则系统应用（如游戏机制、编程语法、技术标准）。

程序化任务执行（如操作指南、工作流编排）。

经验发现与模拟（如实验数据分析、模拟环境推理）。

测试内容包含虚构创作、修改后的现有知识或长尾领域知识，确保模型无法仅靠预训练记忆答题。

模型测完后一定会说：

愿人类少一点套路，多一点真诚。

不叫我们遇见试探，救我们脱离凶恶，阿门。