https://arxiv.org/pdf/2306.08543

Gu, Y., Dong, L., Wei, F., & Huang, M. (2023). MiniLLM: Knowledge distillation of large language models. arXiv preprint arXiv:2306.08543.

초록

지식 증류(Knowledge Distillation, KD)는 대형 언어 모델(LLM)의 높은 계산 비용을 줄이기 위한 유망한 기술입니다. 그러나 기존의 KD 기법은 주로 화이트박스 분류 모델에 적용되거나, ChatGPT와 같은 블랙박스 모델 API를 흉내 내는 작은 모델을 학습시키는 데에 한정되어 있습니다.

오픈소스 LLM이 점점 보편화되는 흐름 속에서, 화이트박스 LLM의 지식을 소형 모델로 효과적으로 전달하는 방법은 아직 충분히 탐색되지 않았습니다. 이에 본 연구는, 대형 언어 모델을 더 작은 언어 모델로 증류하기 위한 새로운 KD 접근법을 제안한다

기존 KD 방식에서 사용하던 정방향 Kullback-Leibler 발산(Forward KLD) 대신, 본 연구는 역방향 KLD(Reverse KLD)를 도입합니다. 역방향 KLD는 생성형 언어 모델에 더 적합하며, 학생 모델이 교사 모델의 낮은 확률 영역을 과도하게 학습하여 과적합되는 문제를 방지한다

또한, 이러한 역방향 KLD 목적을 효과적으로 학습하기 위한 최적화 기법도 함께 제시합니다. 이 방식으로 학습된 학생 모델들을 MiniLLM이라 명명합니다.

다양한 instruction-following(지시문 기반 응답) 상황에서의 실험을 통해, MiniLLM은 다음과 같은 강점을 보였습니다:

이 방식은 120M부터 13B 파라미터 규모의 다양한 모델 계열에 적용 가능하며, 관련된 코드, 데이터, 체크포인트는 아래 GitHub 링크에서 제공됩니다:

MiniLLM: 대형 언어 모델의 효율적 지식 증류 기법

1. 연구 배경 및 목적

최근 GPT-3, GPT-4와 같은 초대형 언어 모델의 등장으로 자연어 처리(NLP) 기술이 획기적으로 발전하였으나, 이러한 모델들은 추론에 과도한 계산 자원을 요구하고, 엣지 디바이스나 모바일 환경에 적용하기 어려운 한계를 갖고 있다. 이에 따라, 대형 언어 모델의 능력을 유지하면서도 소형 모델에 지식을 효율적으로 전이하는 방법이 중요한 연구 주제로 부상하고 있다.

기존의 지식 증류(Knowledge Distillation) 방식은 주로 분류 기반 태스크에 적용되거나, 블랙박스 모델의 출력을 단순히 모방하는 수준에 머무는 경우가 많았다. 반면, 본 논문은 오픈소스 기반의 화이트박스 LLM을 대상으로, 생성형 언어 모델에 특화된 증류 방식을 제안함으로써 이러한 한계를 극복하고자 하였다.