[AWQ: ACTIVATION-AWARE WEIGHT QUANTIZATION FOR ON-DEVICE LLM COMPRESSION AND ACCELERATION](AWQ: ACTIVATION-AWARE WEIGHT QUANTIZATION FOR ON-DEVICE LLM COMPRESSION AND ACCELERATION)
Lin, J., Tang, J., Tang, H., Yang, S., Chen, W. M., Wang, W. C., ... & Han, S. (2024). Awq: Activation-aware weight quantization for on-device llm compression and acceleration. Proceedings of Machine Learning and Systems, 6, 87-100.
결론
<aside> 💡
문제: 대형 언어 모델(LLM)은 성능은 뛰어나지만, 크기가 너무 커서 엣지 디바이스에 탑재하기 어렵다.
제안: AWQ (Activation-aware Weight Quantization) 라는 저비트 weight-only 양자화 방법을 제안.
핵심 아이디어:
장점:
역전파나 재구성 없이 동작
다양한 도메인/모달리티에 일반화
instruction-tuned 및 멀티모달 LLM에도 적용 가능
추론 엔진: 함께 제안된 TinyChat은 데스크탑·모바일 GPU에서 3배 이상 속도 향상을 실현하고, LLaMA-2 70B 모델도 모바일에 배포 가능하게 함. </aside>
결론
<aside> 💡
양자화(Quantization): 모델의 파라미터(가중치/활성화)를 float32 또는 float16에서 INT4/INT8과 같은 정수로 변환하여, 모델 크기 감소 및 추론 속도 향상을 꾀하는 기술.