3주차 | Notion

MMLU 테스트 leaderboard

TinyLlama vs Pythia-1B 성능 비교 / MMLU 로 테스트

스크린샷 2025-03-25 오후 2.26.21.png

스크린샷 2025-03-25 오후 2.28.56.png

왜 TinyLlama의 정확도가 낮을까?

TinyLlama/TinyLlama-1.1B-Chat-v1.0은 대화형(friendly chatbot) 목적에 맞춰 finetune된 모델입니다.
MMLU는 지식 기반 + 시험형 문제 풀이(MCQ)인데, TinyLlama는 그런 환경에서 훈련된 적이 없습니다.

MMLU 문제는 대부분 다음과 같은 특성을 갖고 있습니다:
- 정답이 확실히 하나 있음
- 논리/지식/개념 기반
- 여러 선택지 중 정확한 것 고르기
이런 문제에 잘 작동하려면 MMLU 형태로 학습을 받은 모델이 필요합니다.