为什么 LLM 仅预测下一词，就能「涌现」出高级能力？

表面是 Next One，实则是 Next N

虽然 Pre-training 的 Loss 仅针对当前 Token 计算，但为了实现精准预测，模型的 Hidden States 必须隐含对后续内容的规划。这就像开车过弯，当下的操作虽只是转动方向盘，但大脑其实已经预判了未来几十米的轨迹。从机制上看，推理 Next Two 时，历史的大部分 KV Cache 实际上早在 Next One 阶段就已确定。这意味着虽然是在做单步生成，但内部参数已经为后续序列做好了准备。

这一点在 Post-Training 阶段尤为明显：RL 的 Reward 是基于完整的 Token List（整段生成结果）给出的。这种针对最终结果的反馈，进一步强迫模型在生成当前 Token 时，必须具备对未来的全局规划能力。

Next One是动作空间，Next N是奖励维度。

GPT的NTP是一个高效的文本生成任务：生成是理解的最高级形式

给GPT找一个参照物——BERT，才能看出它的神奇特质。在参数量不大的早期，GPT和BERT分别代表了生成模型和理解模型，并且同样参数量级下，GPT的casual attention在理解任务上完全不敌BERT的full attention。

但是随着参数和数据的Scaling Up，迎来了GPT-3时刻：生成和理解任务统一并远远超越了BERT。

我觉得包括几点：

GPT自回归的设计（casual attention+next token prediction）能非常高效地利用预料中每一个token，为Transformer提供训练梯度，BERT的“完形填空”任务的预料利用效率可能只有不到20%。 GPT的设计，适合高效地对接所有的文本语料，进行数据Scaling Up，构建世界模型。生成任务比理解更难，Scaling Limit更高，并且通过“生成”带动了“理解”，实现了生成和理解的统一和超越。类比于人，“理解”就是“听和读”，“生成”就是“说和写”。费曼学习法被公认为世界上最高效的学习方法之一，它核心理念是“如果你不能简单地把一个知识解释清楚，那就说明你还没有真正理解它。” 为了能讲清楚，它必须先理解清楚，这是人类的“生成”带动“理解”的例子。

“生成是理解的最高级形式”。只有当模型建立了一个足够完善的世界模型，它才能在概率空间中坍缩出那个唯一正确的Next Token。

再对比T5，它由Encoder+Decoder组成，再NMT（Neural Machine Translation）任务上也显示出了Scaling Law——翻译任务上的 cross-entropy loss 也随模型 / 数据呈幂律下降。更细致地Scaling Law研究分别取放大Encoder和Decoder参数：单独放大 Encoder 或 Decoder，幂律斜率和最优点都不一样，一般是多给 Decoder 算力更划算，Encoder 放太大收益会更快递减。也就是说Scaling那个做Next One生成的参数量更划算！再次说明了，生成是驱动理解的，是理解的最高形式！后来T5因为拖着个Encoder（LM模型的工程拖累），所以并不适合作为通益模型的架构。

在视觉领域，理解与生成长期依赖两套完全不同的体系：理解模型多以 ViT 及其自监督变体为主，生成模型则以 Diffusion 为核心，二者在网络结构与训练目标上都不统一。这与 NLP 形成鲜明对比——GPT 只凭一个简单的 Next Token Prediction 就同时逼出了理解与生成能力，并随着规模扩展出强通用智能。

目前 CV 也在寻找“视觉版 NTP”：包括 Masked Image Modeling、自回归式视觉 token 生成、多模态统一建模，以及 Transformer 化的扩散模型等方向，都在尝试用一个通用框架同时解决理解与生成。但迄今仍没有出现一个像 NTP 那样优雅、高效、可大规模扩展的单一任务。

所谓的“涌现”，可能是测评指标不够平滑带来的错觉

就像养一个小孩你会觉得它突然会走了，突然会说话了，但是他的肌肉力量和语言能力可能是平缓发展的，只是我们评估能力是看最终的那个走出的第一步和说出的第一句话。

大模型也是一样，Loss 一直在降，能力一直在涨，测评指标却是跳变的，最后惊呼“涌现”了。

关于这点的研究证据：斯坦福大学团队在 NeurIPS 2023 发表的论文《Are Emergent Abilities of Large Language Models a Mirage》详细论证了这一点。研究发现，所谓的“涌现曲线”完全取决于你用什么尺子去量。

如果使用 Exact Match（完全匹配，对错 0/1 分）这种非线性指标，就会看到陡峭的“涌现”。一旦换成 Token Edit Distance 或 Brier Score 这种平滑的线性指标，那条陡峭的曲线瞬间就变平了，模型的能力其实是随着规模线性提升的。虽然有上面的说法，我觉得还是存疑：是否存在涌现，或涌现背后的机制。

对比涌现（Emergence），更神奇和值得深究的是顿悟（Grokking）。

涌现（Emergence）和顿悟（Grokking）时长会被搞混，如果严格区分：Grokking 可以被视为一种“时间维度”上的涌现。