GPTQ.ipynb

GPTQ 모델 Perplexity 비교 실험

사용한 모델

모델 이름 Hugging Face ID 비고
LLaMA TheBloke/Llama-2-7B-GPTQ 4bit GPTQ
OPT iproskurina/opt-1.3b-GPTQ-4bit-g128 4bit GPTQ
BLOOM 시도했으나 실패 찾지 못해 실행을 못함

테스트 문장은 랜덤하게 추출

한문장에 대해서 다양한 문장 구성으로 설명형, 의문형, 명령형, 일상어, 부정문 등

texts = [
    "GPTQ는 무엇인가요?",
    "GPTQ는 정확도를 얼마나 유지할 수 있을까?",
    "GPTQ를 적용한 모델을 실행하세요.",
    "GPTQ가 뭐야? 그냥 빨라진 거야?",
    "GPTQ는 항상 좋은 선택이 아닐 수도 있다.",
    "GPTQ는 memory efficient한 방식이다.",
    "GPTQ는 사후 학습 없이도 효과적으로 모델을 압축해준다.",
    "GPTQ는 Transformer 기반 모델을 위한 경량화 방법입니다.",
    "GPTQ를 사용하면 모델 성능이 완전히 유지될 수 있을까요?",
    "GPTQ는 별도의 재학습 없이도 대규모 언어 모델을 압축하고 빠른 추론을 가능하게 만든다."
]

image.png

  1. LLaMA가 특정 문장에서 매우 높은 Perplexity를 보임
  1. 대부분의 문장에서는 LLaMA와 OPT 모두 안정적인 Perplexity