<aside> 🌍 갤럭시 폴드6에서 인터넷 없이 동작하는 오프라인 여행 가이드 AI. QLoRA 파인튜닝 한계 실증 + RAG 100% 달성. (진행 중 — 6/14 여행 출발)

</aside>


핵심 성과

지표
팩트 정확도 (35문제) 100% (RAG v3)
응답 속도 12ms 평균
패키지 크기 135MB (ONNX 113 + FAISS 2.7 + SQLite 3.9)
Q&A 데이터 1,818건 (바르셀로나/파리/스위스)
QLoRA 실험 8에폭 + 10가지 논문 기반 기법 (전부 54.3% 이하)
학습 시간 2시간 10분 (RTX 5070 Ti)
종합 테스트 55문제 94.5% / 스트레스 104문제 99%
상태 ⏳ 진행 중 (Phase 1 완료, Termux 배포 대기)

기술 스택

레이어 기술
모델 학습 Gemma 4 E4B + Unsloth + QLoRA (r=16, 4-bit)
임베딩 ONNX e5-small-ko (384차원, 113MB)
벡터 검색 FAISS IndexFlatIP (cosine similarity)
데이터 저장 SQLite (1,818 Q&A)
서버 Python HTTP (Termux 배포용, 포트 8080)
GPU RTX 5070 Ti 16GB (VRAM OC +2000MHz)
타겟 Galaxy Z Fold6 (12GB RAM, Snapdragon 8 Gen 3)

아키텍처 — LLM 없는 RAG

질문 → [인텐트 분류]
  ├── 긴급 → SQLite 직접 반환 (100% 정확)
  ├── FAQ → 정규식 매칭
  └── 일반 → ONNX 임베딩 → FAISS 검색 → 사전 작성 답변 (12ms)

LLM 없음 — 임베딩 + 검색만으로 100% 달성

핵심 실험 — QLoRA의 한계 실증

<aside> 🔬 r=16 QLoRA(0.46% 파라미터)로는 숫자/가격/주소 암기가 물리적으로 불가능함을 10가지 논문 기반 실험으로 증명

</aside>

접근 최고 결과 비고
QLoRA ep6 (최고점) 54.3% (19/35) Loss 하락해도 정확도 정체
10가지 후처리 실험 전부 ≤54.3% ICML/ICLR/NeurIPS 기법
RAG v1 (기본 검색) 51.4% LLM과 비슷
RAG v3 (보강 19건) 100% ★ 답변 추가만으로

QLoRA vs RAG 최종 비교

지표 QLoRA LLM RAG 검색
팩트 정확도 54.3% 100%
응답 속도 ~10초 12ms (770배)
크기 5GB VRAM 135MB (37배)
할루시네이션 25% 0%
확장성 재학습 필요 답변 추가만

차별점

1. 10가지 논문 실험으로 QLoRA 한계를 실증 — 단순 실패가 아닌 근본 원인 분석 (가중치 공간 용량 부족)

2. 135MB로 완전 오프라인 동작 — 폴드6 Termux에서 인터넷 없이 12ms 응답

3. Base model 지식 분석 — LLM이 이미 아는 것(역사 95%) vs 모르는 것(가격 0%)을 분리하여 최적 아키텍처 설계


⏭️ 다음 단계

• Termux 실전 배포 테스트 (6/14 여행 전) • Phase 2: Android Kotlin 앱 (LiteRT-LM + NPU 가속) • Qwen3 4B 학습 비교 • 여행 중 실사용 피드백 → 답변 풀 보강