腾讯认真的吗?我觉得挺难的。
之前微软就有一篇文章介绍过模型在Context learning上的不足。
腾讯这篇文章,用了更加好的实验思路,更大的实验规模,以及更执着的态度,证明这事的确…很难。
主流模型几乎全部软脚。
在 CL-bench 基准测试中,即使是表现最好的模型 GPT-5.1,其任务解决率也仅为 23.7%,而所有受测模型的平均解决率仅为 17.2%。
领域知识推理(如金融、法律):相对较好,平均解决率约25%。
规则系统应用(如编程语法、数学形式化):解决率降至约15%。
实证发现与模拟(如从实验数据归纳规律):最差,解决率仅约11%,因需要归纳推理而非演绎应用。
腾讯出的题目,不是我们常见的那种简单的Few-shot,什么学习新的桌游,新的编程语言,新的代码…
(╯°□°)╯︵ ┻━┻ 这尼玛…我也不行啊
题目:模型会收到一段没有任何物理背景解释的原始数据流(包含 t, x, y, z 四个维度的数值)。
要求:模型必须通过这些坐标的数值变化(如 z 轴呈线性增长,x, y 呈周期性圆周运动),意识到这是一个在磁场中做螺旋运动的电子。
表现:即使是GPT-5.1模型,虽然能算出数字,但也常因为无法清晰解释其推导出的物理假设(例如为何假设磁场沿 z 轴)或漏掉单位说明而被判定为失败。
评价: 回答正确指出磁场沿z轴,但没有说明z方向的场是均匀的,也没有解释为什么平行方向的速度分量会随时间近似线性增加。结果:0分
上面这个任务的评价,我觉得带着某种主观“恶意”。就是你和某位老师双向厌恶,老师为了让你得59分,绞尽脑汁的那种。
这里还有一个特殊的案例,模型被训练数据干扰,导致任务失败。
案例:EZLang 编程。
论文发明了一种全新的、极简但有特定语法约束的编程语言 EZLang。模型必须立即学会该语言的 print with 语法、特定的变量定义方式和循环逻辑,去编写一个定时监控程序。
软脚原因:很多模型在这里会“习惯性”地写出带有预训练痕迹(比如 Python 或 C 的语法)的代码,或者为了方便而擅自修改题目要求的 30 分钟间隔逻辑,导致任务失败。
虽然这个测试充满了“恶意”,堆料相当足。
规模:包含 500 个复杂情境、1,899 个任务和 31,607 条“丧心病狂”的验证准则。
分类:将任务分为四大类,共 18 个子类:
领域知识推理(如金融、医疗、法律咨询)。
规则系统应用(如游戏机制、编程语法、技术标准)。
程序化任务执行(如操作指南、工作流编排)。
经验发现与模拟(如实验数据分析、模拟环境推理)。
测试内容包含虚构创作、修改后的现有知识或长尾领域知识,确保模型无法仅靠预训练记忆答题。
模型测完后一定会说:
愿人类少一点套路,多一点真诚。
不叫我们遇见试探,救我们脱离凶恶,阿门。