1주차 | Notion

논문

TinyLlama: An Open-Source Small Language Model

스크린샷 2025-03-11 오후 3.17.06.png

Zhang, P., Zeng, G., Wang, T., & Lu, W. (2024). Tinyllama: An open-source small language model. arXiv preprint arXiv:2401.02385.
https://arxiv.org/pdf/2401.02385

모델 및 구현 사례 정리 레포

2-3주

배경지식

LLM: 대규모 언어 모델, 자연어를 이해하고 생성하는 AI 기술

지식 증류(Knowledge Distillation) : 기계 학습에서 큰 모델의 지식을 작은 모델로 전달하는 기술

양자화(Quantization) : 모델의 가중치와 활성화를 고정밀도 데이터 표현(F32)에서 저정밀도 데이터 표현으로 변환하는 모델 압축 기술

→ 더 적은 메모리를 사용, 적은 저장 공간이 필요, 에너지 효율적, 빠른 추론, LLM을 더 다양한 장치에서 실행 ****

PTQ(훈련 후 양자화): 이미 훈련된 LLM을 양자화하는 기술
QAT(양자화 관련 훈련): 양자화를 고려해 데이터를 사용하여 모델을 세밀하게 조정하는 방법
양자화의 장단점
- 장점
  - 모델 크기의 감소
  - 스케일 가능성의 증가
  - 더 빠른 추론
- 단점
  - 정확도 손실: 정밀도 손실이 발생 가능성, 양자화가 더 "적극적"일수록(예: 4비트, 3비트 등) 정확도 손실이 커짐

LoRA : (Low-Rank Adaptation) : Microsoft 새로운 작업(요청 및 추론)을 위해 LLM을 효율적으로 미세조정하는 기술