BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Notion

1. 논문 개요

저자: Jacob Devlin, Ming‑Wei Chang, Kenton Lee, Kristina Toutanova 등. (arXiv)
발표: arXiv 2018 10월 제출 (v2 2019년5월) (arXiv)
핵심 아이디어: 레이블이 없는 대량의 텍스트로부터 양방향(bidirectional) Transformer 인코더 표현을 사전학습(pre-training)하고, 이를 다양한 다운스트림 자연어처리(NLP) 과제에 소폭의 변화(fine-tuning) 만으로 적용 가능하도록 설계했다. (arXiv)
대표 성과: GLUE 벤치마크, MultiNLI, SQuAD 등 여러 과제에서 state-of-the-art 성능을 달성. (arXiv)

2. 주요 구성 및 방법

2.1 아키텍처

BERT는 Transformer 구조 중 인코더(encoder) 부분만을 사용한 모델이다. “Deep Bidirectional Transformers”라는 이름이 말해주듯, 여러 층(layers)의 Transformer 인코더가 쌓여 있다. (ACL 앤솔로지)
입력 토큰(token) 임베딩 + 위치 인코딩 + 세그먼트(segment) 인코딩 등을 포함.
각 층에서 Self-Attention → Feed-Forward → LayerNorm & 잔차 연결(residual) 형태가 반복된다. (Transformer 논문의 인코더 구조를 거의 그대로 차용)

2.2 사전학습(objectives)

BERT는 두 가지 주요 사전학습 목표(objective)를 사용한다:

Masked Language Model (MLM): 입력 문장에서 일부 토큰을 [MASK] 토큰으로 바꾸고, 모델이 그 원래 토큰을 예측하도록 한다. 이 방식으로 양방향 컨텍스트(left + right)를 동시에 고려할 수 있다. (ACL 앤솔로지)
Next Sentence Prediction (NSP): 두 문장이 연속하는 문장인지 아닌지를 맞추는 과제. A → B 순서인지, 무작위 문장 B인지 구분하게 한다. (ACL 앤솔로지)

2.3 파인튜닝(Fine-tuning)

사전학습된 BERT 위에 **단 하나의 출력 레이어(output layer)**만 추가하고, 다운스트림 과제(예: 문장 분류, 질의응답(QA), 언어추론(NLI) 등)에 맞춰 전체 모델을 미세조정(fine-tune) 한다. (arXiv)
이 방식은 이전의 언어표현모델(pre-trained representations) 대비 아키텍처 수정이 거의 없거나 매우 적은 상태에서 강력한 성능을 냈다.

3. Transformer 논문과의 연관성 및 차이점