Huanxuan Liao’s Blog | Notion

Huanxuan Liao | Website

Daily

Life

Alignment Guidebook

How Do Language Models put Attention Weights over Long Context?

Policy Gradient, Sequence, and Token— Part I: Basic Concepts

Policy Gradient, Sequence, and Token— Part II: Learner-Sampler Mismatch