논문

TinyLlama: An Open-Source Small Language Model

스크린샷 2025-03-11 오후 3.17.06.png

https://nexa.ai/edge-llms-survey

모델 및 구현 사례 정리 레포

https://github.com/NexaAI/Awesome-LLMs-on-device

2-3주


배경지식

LLM: 대규모 언어 모델, 자연어를 이해하고 생성하는 AI 기술

지식 증류(Knowledge Distillation) : 기계 학습에서 큰 모델의 지식을 작은 모델로 전달하는 기술

양자화(Quantization) : 모델의 가중치와 활성화를 고정밀도 데이터 표현(F32)에서 저정밀도 데이터 표현으로 변환하는 모델 압축 기술

→  더 적은 메모리를 사용, 적은 저장 공간이 필요, 에너지 효율적, 빠른 추론, LLM을 더 다양한 장치에서 실행 ****

LoRA : (Low-Rank Adaptation) : Microsoft 새로운 작업(요청 및 추론)을 위해 LLM을 효율적으로 미세조정하는 기술