https://colab.research.google.com/drive/15C0gN10GivoVhr9F0opFAV4dSDo9Jj1p#scrollTo=ApuMzzZOu3Db

MMLU 테스트 leaderboard

https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard

TinyLlama vs Pythia-1B 성능 비교 / MMLU 로 테스트

스크린샷 2025-03-25 오후 2.26.21.png

스크린샷 2025-03-25 오후 2.28.56.png

왜 TinyLlama의 정확도가 낮을까?

1. TinyLlama는 Chat용 fine-tuning이 된 모델

2. MMLU처럼 정확한 판단을 요구하는 문제에는 instruction tuning이 필수

3. TinyLlama의 pretraining token 수가 적음