https://colab.research.google.com/drive/15C0gN10GivoVhr9F0opFAV4dSDo9Jj1p#scrollTo=ApuMzzZOu3Db
MMLU 테스트 leaderboard
https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard
TinyLlama vs Pythia-1B 성능 비교 / MMLU 로 테스트


왜 TinyLlama의 정확도가 낮을까?
1. TinyLlama는 Chat용 fine-tuning이 된 모델
TinyLlama/TinyLlama-1.1B-Chat-v1.0
은 대화형(friendly chatbot) 목적에 맞춰 finetune된 모델입니다.
- MMLU는 지식 기반 + 시험형 문제 풀이(MCQ)인데, TinyLlama는 그런 환경에서 훈련된 적이 없습니다.
2. MMLU처럼 정확한 판단을 요구하는 문제에는 instruction tuning이 필수
- MMLU 문제는 대부분 다음과 같은 특성을 갖고 있습니다:
- 정답이 확실히 하나 있음
- 논리/지식/개념 기반
- 여러 선택지 중 정확한 것 고르기
- 이런 문제에 잘 작동하려면 MMLU 형태로 학습을 받은 모델이 필요합니다.
3. TinyLlama의 pretraining token 수가 적음
- TinyLlama는 1.5조 토큰으로 훈련된 상대적으로 소형 모델입니다.
- MMLU를 푸는 데 필요한 세계 지식과 추론 능력을 충분히 갖추기엔 부족할 수 있어요.