초록
대형 언어 모델(LLM)은 다양한 인공지능 응용 분야에 혁신을 가져왔습니다. 이제 온디바이스(On-device) LLM의 중요성이 점점 커지고 있습니다. LLM을 엣지 디바이스(예: 스마트폰)에서 직접 실행하면 클라우드 컴퓨팅 비용을 절감하고 사용자 개인정보를 보호할 수 있습니다. 하지만 거대한 모델 크기와 제한된 하드웨어 자원은 LLM 배포에 심각한 도전 과제가 됩니다.
우리는 이러한 문제를 해결하기 위해 AWQ(Activation-aware Weight Quantization) 라는 저비트 가중치 전용 양자화 방식의 하드웨어 친화적 접근법을 제안합니다. AWQ는 모든 가중치가 동일하게 중요한 것이 아님을 발견했으며, 상위 1%의 중요한 가중치만 보호해도 양자화 오차를 크게 줄일 수 있음을 보였습니다. 중요한 가중치 채널을 식별하기 위해서는 가중치 자체가 아닌 활성화 분포(activation distribution)를 참고해야 합니다.
또한, 하드웨어 효율이 낮은 혼합 정밀도(mix-precision) 양자화를 피하기 위해, 우리는 중요 채널의 스케일을 증가시키면 양자화 오차가 줄어든다는 수학적 이론을 도출하였습니다. AWQ는 동등한 변환을 통해 중요한 가중치 채널을 스케일링하여 보호하며, 이 스케일은 오프라인에서 수집된 활성화 통계를 기반으로 결정됩니다.
AWQ는 역전파(backpropagation)나 재구성 과정 없이 동작하므로, 다양한 도메인과 모달리티에도 잘 일반화되어 학습 데이터에 과적합되지 않습니다. 그 결과, 다양한 언어 모델링 및 도메인 특화(예: 코딩, 수학) 벤치마크에서 기존 방법보다 우수한 성능을 보여줍니다. 특히, 지시 조정된(instruction-tuned) 언어 모델과 멀티모달 언어 모델에 대해서도 뛰어난 양자화 성능을 보여주는 최초의 접근법입니다.
AWQ와 함께 우리는 TinyChat이라는 4비트 온디바이스 LLM/VLM에 최적화된 효율적이고 유연한 추론 프레임워크도 구현했습니다. 커널 융합과 플랫폼 인지(weight packing) 기술을 통해, Huggingface의 FP16 구현 대비 데스크탑 및 모바일 GPU에서 3배 이상의 속도 향상을 제공합니다. 나아가, Llama-2 70B 모델을 모바일 GPU에 배포할 수 있는 가능성까지 열어줍니다.
대형 언어 모델(LLM)을 엣지 디바이스(스마트폰, 차량, IoT 등)에 직접 배포하는 것은 매우 중요합니다. 온디바이스 실행은 클라우드 서버로 데이터를 전송할 필요가 없어 지연 시간이 줄고, 오프라인에서도 작동할 수 있어 가상 비서, 챗봇, 자율주행 등 실시간 응용에 적합합니다. 또한, 중앙 집중형 클라우드 인프라 유지 비용도 절감되며, 민감한 정보를 로컬에 저장함으로써 보안성도 향상됩니다.
하지만, 트랜스포머 기반 LLM은 모델 크기가 매우 커 배포가 어렵습니다. 예를 들어, GPT-3는 175억 개의 파라미터를 가지며, FP16 기준으로 약 350GB 메모리를 차지합니다. 이는 최신 B200 GPU(192GB)조차 감당하기 어려울 정도이며, 엣지 디바이스에서는 불가능에 가깝습니다.
이를 해결하기 위해 저비트(weight-only) 양자화가 대안이 될 수 있지만, 이는 쉬운 일이 아닙니다. **양자화 인식 학습(QAT)**은 높은 비용이 들고, **사후 양자화(PTQ)**는 낮은 비트 수에서는 정확도 손실이 큽니다. 기존 GPTQ와 같은 방식은 재구성 과정에서 보정 데이터셋에 과적합(overfitting) 되어 일반화 성능이 저하되는 문제가 있습니다.
이 논문에서는 AWQ(Activation-aware Weight Quantization) 라는 새로운 저비트 양자화 방법을 제안합니다. 이 방법의 핵심 아이디어는:
AWQ를 실제 디바이스에 적용하기 위해 저자들은 TinyChat이라는 경량 추론 프레임워크를 개발했습니다. 주요 특징: