<aside> 🌍 갤럭시 폴드6에서 인터넷 없이 동작하는 오프라인 여행 가이드 AI. QLoRA 파인튜닝 한계 실증 + RAG 100% 달성. (진행 중 — 6/14 여행 출발)
</aside>
| 지표 | 값 |
|---|---|
| 팩트 정확도 (35문제) | 100% (RAG v3) |
| 응답 속도 | 12ms 평균 |
| 패키지 크기 | 135MB (ONNX 113 + FAISS 2.7 + SQLite 3.9) |
| Q&A 데이터 | 1,818건 (바르셀로나/파리/스위스) |
| QLoRA 실험 | 8에폭 + 10가지 논문 기반 기법 (전부 54.3% 이하) |
| 학습 시간 | 2시간 10분 (RTX 5070 Ti) |
| 종합 테스트 | 55문제 94.5% / 스트레스 104문제 99% |
| 상태 | ⏳ 진행 중 (Phase 1 완료, Termux 배포 대기) |
| 레이어 | 기술 |
|---|---|
| 모델 학습 | Gemma 4 E4B + Unsloth + QLoRA (r=16, 4-bit) |
| 임베딩 | ONNX e5-small-ko (384차원, 113MB) |
| 벡터 검색 | FAISS IndexFlatIP (cosine similarity) |
| 데이터 저장 | SQLite (1,818 Q&A) |
| 서버 | Python HTTP (Termux 배포용, 포트 8080) |
| GPU | RTX 5070 Ti 16GB (VRAM OC +2000MHz) |
| 타겟 | Galaxy Z Fold6 (12GB RAM, Snapdragon 8 Gen 3) |
질문 → [인텐트 분류]
├── 긴급 → SQLite 직접 반환 (100% 정확)
├── FAQ → 정규식 매칭
└── 일반 → ONNX 임베딩 → FAISS 검색 → 사전 작성 답변 (12ms)
LLM 없음 — 임베딩 + 검색만으로 100% 달성
<aside> 🔬 r=16 QLoRA(0.46% 파라미터)로는 숫자/가격/주소 암기가 물리적으로 불가능함을 10가지 논문 기반 실험으로 증명
</aside>
| 접근 | 최고 결과 | 비고 |
|---|---|---|
| QLoRA ep6 (최고점) | 54.3% (19/35) | Loss 하락해도 정확도 정체 |
| 10가지 후처리 실험 | 전부 ≤54.3% | ICML/ICLR/NeurIPS 기법 |
| RAG v1 (기본 검색) | 51.4% | LLM과 비슷 |
| RAG v3 (보강 19건) | 100% ★ | 답변 추가만으로 |
| 지표 | QLoRA LLM | RAG 검색 |
|---|---|---|
| 팩트 정확도 | 54.3% | 100% |
| 응답 속도 | ~10초 | 12ms (770배) |
| 크기 | 5GB VRAM | 135MB (37배) |
| 할루시네이션 | 25% | 0% |
| 확장성 | 재학습 필요 | 답변 추가만 |
1. 10가지 논문 실험으로 QLoRA 한계를 실증 — 단순 실패가 아닌 근본 원인 분석 (가중치 공간 용량 부족)
2. 135MB로 완전 오프라인 동작 — 폴드6 Termux에서 인터넷 없이 12ms 응답
3. Base model 지식 분석 — LLM이 이미 아는 것(역사 95%) vs 모르는 것(가격 0%)을 분리하여 최적 아키텍처 설계
• Termux 실전 배포 테스트 (6/14 여행 전) • Phase 2: Android Kotlin 앱 (LiteRT-LM + NPU 가속) • Qwen3 4B 학습 비교 • 여행 중 실사용 피드백 → 답변 풀 보강