[AWQ: ACTIVATION-AWARE WEIGHT QUANTIZATION FOR ON-DEVICE LLM COMPRESSION AND ACCELERATION](AWQ: ACTIVATION-AWARE WEIGHT QUANTIZATION FOR ON-DEVICE LLM COMPRESSION AND ACCELERATION)

Lin, J., Tang, J., Tang, H., Yang, S., Chen, W. M., Wang, W. C., ... & Han, S. (2024). Awq: Activation-aware weight quantization for on-device llm compression and acceleration. Proceedings of Machine Learning and Systems6, 87-100.

번역

결론

<aside> 💡

문제: 대형 언어 모델(LLM)은 성능은 뛰어나지만, 크기가 너무 커서 엣지 디바이스에 탑재하기 어렵다.

제안: AWQ (Activation-aware Weight Quantization) 라는 저비트 weight-only 양자화 방법을 제안.

핵심 아이디어:

장점:

<aside> 💡


배경지식


양자화(Quantization): 모델의 파라미터(가중치/활성화)를 float32 또는 float16에서 INT4/INT8과 같은 정수로 변환하여, 모델 크기 감소 및 추론 속도 향상을 꾀하는 기술.