虽然 Pre-training 的 Loss 仅针对当前 Token 计算,但为了实现精准预测,模型的 Hidden States 必须隐含对后续内容的规划。这就像开车过弯,当下的操作虽只是转动方向盘,但大脑其实已经预判了未来几十米的轨迹。 从机制上看,推理 Next Two 时,历史的大部分 KV Cache 实际上早在 Next One 阶段就已确定。这意味着虽然是在做单步生成,但内部参数已经为后续序列做好了准备。
这一点在 Post-Training 阶段尤为明显:RL 的 Reward 是基于完整的 Token List(整段生成结果)给出的。这种针对最终结果的反馈,进一步强迫模型在生成当前 Token 时,必须具备对未来的全局规划能力。
Next One是动作空间,Next N是奖励维度。
给GPT找一个参照物——BERT,才能看出它的神奇特质。在参数量不大的早期,GPT和BERT分别代表了生成模型和理解模型,并且同样参数量级下,GPT的casual attention在理解任务上完全不敌BERT的full attention。
但是随着参数和数据的Scaling Up,迎来了GPT-3时刻:生成和理解任务统一并远远超越了BERT。
我觉得包括几点:
GPT自回归的设计(casual attention+next token prediction)能非常高效地利用预料中每一个token,为Transformer提供训练梯度,BERT的“完形填空”任务的预料利用效率可能只有不到20%。 GPT的设计,适合高效地对接所有的文本语料,进行数据Scaling Up,构建世界模型。 生成任务比理解更难,Scaling Limit更高,并且通过“生成”带动了“理解”,实现了生成和理解的统一和超越。 类比于人,“理解”就是“听和读”,“生成”就是“说和写”。费曼学习法被公认为世界上最高效的学习方法之一,它核心理念是“如果你不能简单地把一个知识解释清楚,那就说明你还没有真正理解它。” 为了能讲清楚,它必须先理解清楚,这是人类的“生成”带动“理解”的例子。
“生成是理解的最高级形式”。 只有当模型建立了一个足够完善的世界模型,它才能在概率空间中坍缩出那个唯一正确的Next Token。
再对比T5,它由Encoder+Decoder组成,再NMT(Neural Machine Translation)任务上也显示出了Scaling Law——翻译任务上的 cross-entropy loss 也随模型 / 数据呈幂律下降。更细致地Scaling Law研究分别取放大Encoder和Decoder参数:单独放大 Encoder 或 Decoder,幂律斜率和最优点都不一样,一般是多给 Decoder 算力更划算,Encoder 放太大收益会更快递减。也就是说Scaling那个做Next One生成的参数量更划算!再次说明了,生成是驱动理解的,是理解的最高形式!后来T5因为拖着个Encoder(LM模型的工程拖累),所以并不适合作为通益模型的架构。
在视觉领域,理解与生成长期依赖两套完全不同的体系:理解模型多以 ViT 及其自监督变体为主,生成模型则以 Diffusion 为核心,二者在网络结构与训练目标上都不统一。这与 NLP 形成鲜明对比——GPT 只凭一个简单的 Next Token Prediction 就同时逼出了理解与生成能力,并随着规模扩展出强通用智能。
目前 CV 也在寻找“视觉版 NTP”:包括 Masked Image Modeling、自回归式视觉 token 生成、多模态统一建模,以及 Transformer 化的扩散模型等方向,都在尝试用一个通用框架同时解决理解与生成。但迄今仍没有出现一个像 NTP 那样优雅、高效、可大规模扩展的单一任务。
就像养一个小孩你会觉得它突然会走了,突然会说话了,但是他的肌肉力量和语言能力可能是平缓发展的,只是我们评估能力是看最终的那个走出的第一步和说出的第一句话。
大模型也是一样,Loss 一直在降,能力一直在涨,测评指标却是跳变的,最后惊呼“涌现”了。
关于这点的研究证据:斯坦福大学团队在 NeurIPS 2023 发表的论文 《Are Emergent Abilities of Large Language Models a Mirage》详细论证了这一点。 研究发现,所谓的“涌现曲线”完全取决于你用什么尺子去量。
如果使用 Exact Match(完全匹配,对错 0/1 分)这种非线性指标,就会看到陡峭的“涌现”。 一旦换成 Token Edit Distance 或 Brier Score 这种平滑的线性指标,那条陡峭的曲线瞬间就变平了,模型的能力其实是随着规模线性提升的。 虽然有上面的说法,我觉得还是存疑:是否存在涌现,或涌现背后的机制。
对比涌现(Emergence),更神奇和值得深究的是顿悟(Grokking)。
涌现(Emergence)和顿悟(Grokking)时长会被搞混,如果严格区分:Grokking 可以被视为一种“时间维度”上的涌现。