LLM & Agent 每日论文阅读计划-D3

日期：2026-04-10 12:56

碎碎念

最近比较忙也是好几天没更新。本来计划第三天去看GRPO的。但是发现牵扯出了PPO、RLVR、RLAIF、RLHF等一大堆我不会的强化学习内容，于是打算从大模型用的强化学习算法开始从头看起。后面继续更新慢慢深入。

今日阅读主题

标题：大模型的强化学习微调
参考资料：
1. Illustrating Reinforcement Learning from Human Feedback (RLHF) - HuggingFace Blog, 2022.12
2. Post-Training Techniques 2026 - LLM Stats Blog, 2026.03
3. GRPO: the RL Algorithm Behind DeepSeek-R1 - Cameron R. Wolfe, 2025
4. The State of LLM Reasoning Model Training - Sebastian Raschka, 2025
5. Understanding Reasoning LLMs - Sebastian Raschka, 2025
6. Reward Hacking in Reinforcement Learning - Lilian Weng, 2024.11
7. AI 101: The State of Reinforcement Learning in 2025 - Turing Post, 2025.12

TL;DR

大模型强化学习微调从 RLHF(Reinforcement Learning from Human Feedback，基于人类反馈的强化学习)出发，经历了 RLHF→RLAIF→RLVR 的范式转变。随着在 DeepSeek-R1 中证明的纯 RL+可验证奖励即可涌现的推理能力，2025 年 RL 在大模型训练流程中的定位已经彻底反转——从偏好对齐的辅助工具跃升为推理能力的核心引擎，后训练的设计和规模正在取代预训练的参数量，成为前沿大模型能力差距的主要来源。

细节阅读

一、为什么要强化学习？

post-training-techniques这篇文章把现代大模型训练过程分成了以下几个阶段：

预训练->监督微调->人类偏好对齐->推理强化学习

其中强化学习既可以用来做人类偏好对齐也可以用来做推理强化学习。

用途1：偏好对齐

预训练模型经过训练学会了怎么补全文本，但不知道什么回答是「好的」——它可能给出有害内容、编造事实、或风格不合适。传统损失函数（交叉熵）和自动指标（BLEU/ROUGE）都无法捕捉「有帮助、诚实、无害」这类主观且多维的人类偏好。