GPT-1 논문 한눈에 보기
- 핵심 아이디어: 대규모 비라벨 텍스트로 좌→우(단방향) 언어모델을 먼저 사전학습(pre-training)하고, 각 다운스트림 과제에는 최소한의 변경으로 미세조정(fine-tuning) 한다.
- 아키텍처: Transformer “디코더”(multi-head self-attention + FFN)만 쌓은 구조. 사전학습은 표준 언어모델(다음 토큰 예측) 목적함수로 수행.
- 데이터셋: BooksCorpus(장편 소설 7천여 권, 긴 연속 텍스트로 장거리 의존 학습에 유리).
- 파인튜닝 요령: 과제별로 입력을 하나의 토큰 시퀀스로 변환하는 “task-aware input transformation”(예: 문장쌍엔 구분 토큰으로 연결, QA는 문맥·질문·보기들을 구분 토큰으로 잇기). 모델은 동일하고 선형 분류기만 추가.
- 효과: NLI/QA/유사도/분류 등 12개 언어이해 과제 중 9개에서 SOTA 갱신(당시 기준).
Transformer ↔ GPT-1 ↔ BERT: 무엇이 같고, 무엇이 다른가?
공통의 뿌리: Transformer
- 세 모델 모두 Self-Attention 기반 Transformer를 사용.
- Transformer는 인코더–디코더 구조와 멀티헤드 어텐션으로 RNN/CNN 없이 병렬 학습을 가능케 한 원천 기술. (arXiv)
분기점 1 — 어떤 “절반”을 쓰는가?
- GPT-1: 디코더 전용(좌→우 마스킹된 self-attention). “생성(다음 토큰 예측)”에 최적.
- BERT: 인코더 전용(양방향 self-attention). “이해(양방향 문맥)”에 최적. (arXiv)
분기점 2 — 사전학습 목표(Objective)
- GPT-1: 언어모델링(LM) — 다음 토큰을 예측하는 단방향 생성 목적. 간단·보편적이며 생성 태스크로 자연스레 확장.
- BERT: MLM(마스크드 언어모델) + NSP(문장연속성) — 양방향 문맥을 학습해 문장·문맥 관계를 잘 이해. (이후 NSP는 필요성 논쟁 있지만, 원 논문엔 포함) (arXiv)
분기점 3 — 입력 구성과 파인튜닝
- GPT-1: 과제별 입력을 하나의 시퀀스로 재구성(시작/구분 토큰 삽입) → 동일 모델 위에 선형층만 추가해 파인튜닝. 설계 변경이 거의 없음.
- BERT: [CLS], [SEP], 세그먼트 임베딩 등을 써서 인코더 입력을 구성하고, 과제에 맞춰 출력 헤드만 교체해 파인튜닝. (arXiv)
분기점 4 — 데이터