연구 주제
On-Device LLM 모델 경량화 및 최적화 기술
(Quantization, LoRA, Knowledge Distillation 등)
연구 목표
- 최신 LLM 경량화 기법 학습 및 구현
- TinyLlama, Pythia 등 소형 모델 실험
- 양자화, 지식 증류를 통한 온디바이스 최적화 이해
주차별 활동 요약
1주차
1주차
- On-Device LLM 개요 및 최신 경량화 기법 조사
- TinyLlama 관련 논문 리뷰
2주차
2주차
- TinyLlama 실습 (프롬프트 포맷, generate() 파라미터 실험)
- 반복·오류 응답 개선 시도
3~4주차
3주차
4주차
- TinyLlama vs Pythia-1B 성능 비교 (MMLU 벤치마크)
- Chat 기반 vs Text 기반 모델 차이 분석
5~6주차
5주차
6주차
- AWQ 논문 분석 및 4bit 양자화 실습
- FP16 대비 속도·정확도 비교
8~9주차
8주차
9주차
- GPTQ 논문 학습 및 적용 모델 실험
- LLaMA-2 GPTQ vs OPT GPTQ Perplexity 비교
10~11주차
10주차
11주차
- Knowledge Distillation 기본 개념 학습
- MNIST, CIFAR-100 실험 및 Attention Transfer 논문 리뷰
12주차
12주차
- MiniLLM 논문 리뷰 (Reverse KLD 기반 증류 전략)
- 기존 증류 방식의 한계 및 개선점 정리
최종 성과
- On-Device LLM 경량화 핵심 기술(양자화, 지식 증류, LoRA 등) 학습 및 구현 경험