사전에 알면 좋은 내용들
Abstract
- 모델 사이즈를 줄이기 위한 또다른 모델 distillation에 대한 내용
- 기존에 Distill-BERT, Tiny-BERT, Mobile-BERT 등이 나와있었음
- Distillation을 Self-Attention(SA)을 활용하여 해결
- 이 논문에서는 작은 모델이 Self-Attention을 따라하도록 하는도록 하는 것이 목적
- self-attention의 value를 scaled dot product 하여 knowledge distillation에 활용
- key-query를 가지고 self-attention을 만들었다면 value-value를 가지고 self-attention을 만들었다고 보면 됨
- query-key attention과는 어떤 다른 knowledge를 student에게 전달해주는지)
- teacher assistant라는 방식 도입
- teacher 모델을 돕는 모델
- distill을 하는데 어떤 도움을 주는지
논문에서 살펴볼 만한 포인트
- 이미 나온 모델들에 비해 학습 방식이 간단하다.
- 모델 사이즈를 조절하는 하이퍼파라메터의 제약이 적어졌다.
Main Contents
Knowledge Distillation

- Teacher 모델의 feature를 soft label (0~1 사이의 값으로 표현된 label)와 같이 Student 모델에 전이 시키는 학습
- 동일한 학습 데이터에 대해서 Teacher 모델과 Student 모델 feature 간의 로스를 표현하는데, 주로 MSE나 KLD를 많이 활용
- 주로 Masked Language Model prediction이나 임베딩 outputs, self-attention 분포 그리고 매 레이어에서 출력된 hidden-feature들을 활용하여 Distillation을 함
Key Ideas
