1. LLM definition
2. Mixture of Experts
Motivation: 왜 MoE(Mixture of Experts)인가?
거대한 모델의
모든 파라미터가 항상 필요한 것은 아니다
실제 추론 시에는:
입력 $x$에 대해
모델 전체 중 일부 파라미터만
의미 있게 기여함
즉,
매 입력마다
활성화되는 부분(subset)
이 다름
목표:
모델 용량(capacity)은 크게 유지
계산량(computation)은 작게 사용
→
필요한 부분만 선택적으로 사용하자
는 아이디어가 MoE의 출발점
MoE 개요 (Mixture of Experts)
MoE는 하나의 모델이 아니라:
여러 전문가(expert) 모델 + 이를 선택하는 게이트(gate) 구조
구성 요소