如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合,根本不懂意义?

先说论文里那个最扎心的实验结果:大模型分得清鸟和家具,但分不清知更鸟和企鹅谁更像鸟。

这太真实了。我们在做实际落地项目的时候,经常遇到类似的情况。你让模型做一个泛化的分类,比如把一堆新闻归类到 体育、科技、娱乐,它做得贼溜,准确率经常能飙到99%,比人还快。我们当时还沾沾自喜,觉得AGI指日可待。

但是,一旦业务方要求再细一点,比如在 科技 类目下,区分这篇软文是对产品的 深度测评 还是 软广营销,模型立马就开始胡言乱语。

为什么?因为在宏观层面,词汇的共现概率是很明显的。体育 旁边经常跟着 足球、比分、冠军;科技 旁边经常跟着 芯片、算法、发布会。这种统计规律,大模型通过海量文本的训练,捕捉得非常完美。这就是LeCun论文里说的,在粗分类任务上,LLM表现远超随机猜测,甚至和人类的分类逻辑高度对齐。

但到了细微层面,也就是那个 典型性 判断上,大模型就露馅了。

人类的认知里有一个 原型 概念。说到鸟,我们脑子里第一时间浮现的是麻雀、鸽子、知更鸟这种 有翅膀、会飞、体型小 的形象。企鹅虽然生物学分类是鸟,但在我们的认知几何空间里,它处于边缘地带。它不会飞,它游泳,它长得像个不倒翁。

而在大模型的向量空间里,它没有 视觉、没有 触觉、没有 生活体验。它判断两个词近不近,纯粹看它们在文本里是不是经常一起出现。可能在语料库里,企鹅 经常和 南极、鸟 这两个词贴在一起,所以模型觉得它和 鸟 的距离,跟 麻雀 和 鸟 的距离差不多。

这就好比一个没吃过苹果的外星人,背完了《植物学大全》。他知道苹果是蔷薇科苹果亚科的植物,但他不知道咬一口苹果那种脆裂的口感,也不知道放久了的苹果皮会皱巴巴的那种手感。

他拥有数据,但他没有 体验。

这也解释了为什么我们在做RAG检索增强生成的时候,经常发现检索回来的内容虽然关键词匹配度很高,但语义上经常是南辕北辙。因为模型理解的 相关性,是概率上的相关,不是逻辑和意义上的相关。

LeCun这篇论文最硬核的地方,是用 信息论 里的 率失真理论 来解释这个问题。

这部分理论其实是通信领域的基石,当年香农搞出来是为了解决电话线怎么传信号不失真的。没想到六七十年后,成了审判大模型的法槌。

大模型的训练目标是预测下一个token。为了把这个任务干好,它必须拼命压缩训练数据。它要把互联网上那几PB的废话、知识、代码,统统压缩进那几千亿个参数里。

压缩的核心是什么?是 去重。去掉冗余信息,保留核心规律。

这听起来很符合 奥卡姆剃刀 原理,对吧?简单即是美。

但问题来了,人类的智能演化,目标从来不是为了 压缩,而是为了 适应。

我们在几百万年的进化里,保留了大量的 冗余 和 细微差别。比如我们对人脸的情绪极其敏感,眉毛稍微动一下,眼神稍微变一点,我们就能读出对方是高兴还是嘲讽。如果按照大模型的压缩逻辑,人脸可能就被压缩成 两个眼睛一个嘴巴 的抽象符号了,因为那样最省空间,最符合统计规律。

LeCun说,LLM追求的是 极致的统计压缩,而人类追求的是 适应性语义丰富。

这就解释了那个困扰我们很久的问题:幻觉。

以前我们总觉得幻觉是模型没学好,是数据不够多。现在看来,幻觉可能是这种压缩机制的必然产物。

当模型在压缩信息的过程中,为了追求效率,它必然会丢弃掉那些 长尾 的、细微 的、但对人类来说至关重要 的 意义。当你要它输出的时候,它就在丢失了细节的模糊空间里,用概率强行拼凑一个答案出来。

举个例子,我在做医疗大模型微调的时候发现,模型经常把两种症状描述很像、但病理机制完全不同的病搞混。从统计学上看,这两段描述的文本相似度太高了,模型为了省参数,把这俩概念在向量空间里压得太近了,把它们中间那道关键的 隔离墙 给当作冗余信息压缩掉了。

对于模型来说,这是高效;对于医生来说,这是事故。

如果你对这块的底层理论感兴趣,真心推荐去翻翻 Tishby 的 信息瓶颈理论 相关的论文。虽然满篇都是数学公式,比较枯燥,但它能让你从根本上理解深度学习到底在学什么。它会告诉你,为什么有些东西,单纯靠堆数据、堆算力,模型是永远学不会的。

LeCun这次其实是在给 OpenAI 那边的 Scaling Law 泼冷水。

现在整个行业都在赌,只要算力足够大,数据足够多,模型就能涌现出一切智能,甚至产生自我意识。LeCun说,拉倒吧。

你把一堆这种 统计鹦鹉 堆得再大,它也变不成人类。因为它缺了一个核心模块:世界模型。

这是LeCun最近几年一直在推崇的概念,也是我非常认同的一个方向。

真正的智能,得像人一样,脑子里有个世界的模拟器。

我知道如果我松手,手里的玻璃杯会掉地上碎掉。这是因果律,不需要我读遍全世界关于杯子的书,我通过物理交互就能学会。我知道那是一只猫,虽然它躲在沙发后面只露出了半截尾巴。这是物体恒常性。我知道我在会议上当众顶撞老板,明天可能就要被穿小鞋。这是社会推演。

这些能力,不是靠统计下一个词的概率得来的,是靠 感知 和 交互 得来的。

现在的LLM,就像是一个被关在黑屋子里的人,只能通过门缝递进来的纸条(文本)来了解世界。它读了关于苹果的一万种描述,但它从来没见过苹果,没摸过苹果。

所以LeCun认为,未来的路不在单纯的 自回归语言模型 上,而在 JEPA 这种联合嵌入预测架构上。这种架构不预测具体的token(因为那太浪费算力且容易出错),它预测的是抽象的特征表示。

这就像我们看电影,我们记不住每一帧画面的像素RGB值,但我们记得剧情走向,记得人物冲突,记得那种紧张的氛围。这才是高级的智能,这才是抓住了 意义 的压缩,而不是抓住了 概率 的压缩。

建议大家去读一下LeCun在2022年发的那篇长文 A Path Towards Autonomous Machine Intelligence。那简直是他的技术宣言,比现在市面上那些鼓吹AGI马上就要统治人类的营销文有营养一万倍。读完你会明白,为什么作为深度学习三巨头之一,他会这么瞧不上现在的GPT路线。

理论扯了一大堆,落地到咱们实际工作和职业发展上,这意味着什么?

我有几条非常直接的建议,都是真金白银砸出来的教训。

第一,别把大模型当神,把它当 接口。

在设计系统架构的时候,千万别指望LLM去处理核心的逻辑推理和严谨的知识判断。它就是个 交互层 和 胶水层。

你让它做做用户意图识别,做做文本润色,做做非结构化数据的提取,这些它擅长。但如果涉及到核心业务数据,比如算财务报表、做医疗决策、写复杂的法律合同条款,一定要外挂 规则引擎 或者 知识图谱。

这就是为什么现在 RAG 和 向量数据库 这么火。本质上,我们是在用外部的存储(显式记忆)来弥补模型压缩带来的记忆丢失。我们要建立自己的 知识库,把精确的知识存在向量数据库里,让大模型去 查,而不是让它去 想。

这里顺便提一嘴,选向量数据库的时候别光看跑分,要看对混合搜索的支持程度。像 Milvus 或者 Pinecone 这些工具,现在的关键能力都在于怎么把 关键词搜索 和 向量搜索 结合好,因为纯向量搜索有时候在精确匹配上真的很蠢。

第二,不要迷信 提示词工程。

前两年这个概念被吹得神乎其神,好像学会了写Prompt就能年薪百万。现在你看,凉了吧?

提示词工程本质上是在摸黑调参,是在试探这个统计模型的概率分布边界。这东西没有护城河,而且随着模型能力的提升,简单的Prompt就能搞定大部分事。

真正的护城河是 数据质量 和 Agent工作流 的设计。

你得去搞清楚如何清洗出高质量的SFT数据,如何设计精妙的 Agent 拆解任务流程。比如 LangChain 或者 AutoGPT 这种思路,把一个大任务拆解成 思考、搜索、执行、反思 几个步骤,用代码逻辑把大模型串起来。这才是硬功夫。

想深入了解这种工作流怎么搭建,可以参考 字节内部Agent实践手册.pdf。看看大厂是怎么在电商、办公这些复杂业务里,把“工具调用”和“API集成”玩出花的。你会发现,真正的Agent不是简单的对话,而是一个严密的工程系统。

第三,关注 神经符号人工智能。

这可能是下一个大趋势。纯神经网络(像LLM)擅长感知和模糊匹配,符号AI(像以前的专家系统)擅长逻辑和推理。LeCun的想法其实有点往这方面靠的意思,就是要有结构化的、理性的模块来约束那个疯疯癫癫的神经网络。

我们在做一些复杂场景的时候,已经开始尝试把 LLM 和 知识图谱 结合起来。知识图谱提供结构化的逻辑骨架,LLM提供流畅的自然语言肉身,这俩是绝配。

LeCun这老头子虽然有时候说话冲,在社交媒体上经常跟人对喷,甚至被网友嘲讽酸葡萄心理,但他确实是人间清醒。

大模型确实改变了我们和计算机交互的方式,极大地降低了内容生成的门槛。我自己每天也用 Copilot 写代码,用 ChatGPT 写邮件,效率提升杠杠的。

但是,不要把工具的便利性,误认为是工具的 自主意识。

它不懂意义,它只是记住了海量的词语搭配概率。它不知道你在难过,它只是根据上下文输出了 我很抱歉听到这个消息 这段高概率的文本序列。

这篇论文最大的价值,就是给我们泼了一盆冷水,让我们从AGI的狂热幻觉中醒过来,脚踏实地地去看看:这个黑盒子的边界到底在哪里?它能干什么?不能干什么?

承认LLM的局限性,反而是我们用好它的第一步。

未来的机会属于那些能驾驭工具,而不是盲目崇拜工具的人。咱们还得继续啃论文,继续写代码,继续在那些由于 压缩 而丢失的 语义细节 里,寻找真正的价值。

最后,推荐大家有空去读读 Judea Pearl 的 The Book of Why,讲因果推断的。如果你觉得Pearl的书太偏哲学,想要那种能直接上手写Python代码的实战指南,也可以去看Matheus Facure的 Causal Inference for the Brave and True 。因果推断是大模型目前最欠缺的一块拼图,也是我们人类智能最后的堡垒之一。

推荐两本让新手迅速“开窍”的因果推断神书!(含PDF下载)