LLaMA-2 GPTQ와 OPT GPTQ 모델을 로딩하여 동일 문장에 대해 Perplexity(혼란도)를 측정
문장 길이, 도메인, 문체에 따라 양자화된 LLM이 얼마나 일관되게 반응하는지 실험
GPTQ 논문(arXiv:2210.17323)에 나온 방법처럼
LLaMA-2 7B GPTQ와 OPT-1.3B GPTQ 모델을 사용해
Perplexity(PPL) 기준으로 성능 비교 실험 진행
실험 문장은 기술, 의료, 일상 대화, 문학 등 다양한 분야의 문장 10개
결과:
"memory efficient"
같은 표현은 LLaMA가 390 이상 PPL 급등 → 모델 특성 민감도 확인BLOOM GPTQ 모델은 Hugging Face에 없음 → 실험 불가
모델 이름 | Hugging Face ID | 비고 |
---|---|---|
LLaMA | TheBloke/Llama-2-7B-GPTQ |
4bit GPTQ |
OPT | iproskurina/opt-1.3b-GPTQ-4bit-g128 |
4bit GPTQ |
BLOOM | 시도했으나 실패 | 찾지 못해 실행을 못함 |
한문장에 대해서 다양한 문장 구성으로 설명형, 의문형, 명령형, 일상어, 부정문 등
texts = [
"GPTQ는 무엇인가요?",
"GPTQ는 정확도를 얼마나 유지할 수 있을까?",
"GPTQ를 적용한 모델을 실행하세요.",
"GPTQ가 뭐야? 그냥 빨라진 거야?",
"GPTQ는 항상 좋은 선택이 아닐 수도 있다.",
"GPTQ는 memory efficient한 방식이다.",
"GPTQ는 사후 학습 없이도 효과적으로 모델을 압축해준다.",
"GPTQ는 Transformer 기반 모델을 위한 경량화 방법입니다.",
"GPTQ를 사용하면 모델 성능이 완전히 유지될 수 있을까요?",
"GPTQ는 별도의 재학습 없이도 대규모 언어 모델을 압축하고 빠른 추론을 가능하게 만든다."
]
예: "GPTQ는 memory efficient한 방식이다."
→ LLaMA는 한영 혼용 표현에서 크게 혼란스러워했음
→ 반면 OPT는 상대적으로 안정적