연구 주제

On-Device LLM 모델 경량화 및 최적화 기술

(Quantization, LoRA, Knowledge Distillation 등)

연구 목표

최신 LLM 경량화 기법 학습 및 구현
TinyLlama, Pythia 등 소형 모델 실험
양자화, 지식 증류를 통한 온디바이스 최적화 이해

주차별 활동 요약

1주차

On-Device LLM 개요 및 최신 경량화 기법 조사
TinyLlama 관련 논문 리뷰

2주차

TinyLlama 실습 (프롬프트 포맷, generate() 파라미터 실험)
반복·오류 응답 개선 시도

3~4주차

TinyLlama vs Pythia-1B 성능 비교 (MMLU 벤치마크)
Chat 기반 vs Text 기반 모델 차이 분석

5~6주차

AWQ 논문 분석 및 4bit 양자화 실습
FP16 대비 속도·정확도 비교

8~9주차

GPTQ 논문 학습 및 적용 모델 실험
LLaMA-2 GPTQ vs OPT GPTQ Perplexity 비교

10~11주차

Knowledge Distillation 기본 개념 학습
MNIST, CIFAR-100 실험 및 Attention Transfer 논문 리뷰

12주차

MiniLLM 논문 리뷰 (Reverse KLD 기반 증류 전략)
기존 증류 방식의 한계 및 개선점 정리

최종 성과

On-Device LLM 경량화 핵심 기술(양자화, 지식 증류, LoRA 등) 학습 및 구현 경험