논문 : https://arxiv.org/pdf/2210.17323

Frantar, E., Ashkboos, S., Hoefler, T., & Alistarh, D. (2022). Gptq: Accurate post-training quantization for generative pre-trained transformers. arXiv preprint arXiv:2210.17323.

번역

배경

Quantization 연구의 한계

GPTQ 제안

PTQ 방법론 3, 4 비트로 양자화하여도 손실 거의 없음 (low bit Quantization 성능) 2 비트에서도 안정적인 성능을 보임 (lower bit Quantization 성능) 수백억개의 초대규모 모델도 4시간 내에 PPL 증가 없이 양자화 가능 (학습 효율성)