[Achat] — [ rule base Agentic chatbot ]

"8GB VRAM 제약 환경에서 파인튜닝부터 Windows 배포까지 전 과정을 혼자 완성한 경량 로컬 AI 캐릭터 챗봇 — LoRA·RAG·CI/CD 포함”

기간/형태: [2026.03.13] ~ [2026.04.29] 약 한달 반 / [개인 작업]
개발환경: Linux (WSL2 / Ubuntu) / RTX 5060ti (VRAM 8GB) / RAM 8GB / Python 3.11 / VSCode
시연영상: https://youtu.be/4QDbBlVE9Cc
링크: Repo [https://github.com/lyeum/Achat] || 작업로그_https://github.com/lyeum/Achat/tree/main/docs/plan

1) 목표: RuleBase로 편의를 위한 일부 기능 + 자유로운 대화가 가능한 경량 챗봇 개발

개발의 시작점 AI에게 개인 PC에 대한 권한을 넘겨서 파일 삭제나 정리같은 작업을 하기엔 여러모로 제약과 불안감이 있고, chatbot이라는게 모델 자체가 무거워서 일반 PC(노트북이나 구세대 PC)에서 사용하기엔 기기 부담이 크다고 느꼈던 경험이 있습니다. 그래서 이를 해결하고자 **“적당한 성능과 경량화를 장점으로 한 Agentic Chatbot을 만들어 보는게 어떨까”**라고 생각한 것을 계기로, 개발을 진행하게 되었습니다.
기술스택

영역	기술	용도
LLM (dev)	`transformers` + Qwen2.5-3B-Instruct	학습·개발 환경 GPU 추론
LLM (deploy)	`llama-cpp-python` + GGUF Q4_K_M	Windows CPU 추론
파인튜닝	`peft` LoRA (r=32, α=64)	캐릭터 말투·성격 학습
양자화	`bitsandbytes` NF4 (double quant)	VRAM 절감 (dev 환경)
연속학습	EWC (Fisher Information Matrix)	Catastrophic Forgetting 방지
임베딩	`sentence-transformers` BAAI/bge-m3	장기 메모리·RAG 벡터화
벡터 DB	`chromadb` PersistentClient	장기 메모리 / RAG / 프롬프트 가이드
로컬 검색	SQLite FTS5 (표준 `sqlite3`)	파일 전문 검색 (증분 인덱싱)
UI	`PySide6` + QML	플로팅 프레임리스 UI
이미지 처리	`Pillow`	파일 형식 변환 도구
패키지 관리	`uv`	dev/deploy 의존성 분리 관리
CI	GitHub Actions + `ruff`	lint·데이터 파이프라인 검증
CD	GitHub Actions + PyInstaller + Inno Setup	Windows exe 인스톨러 자동 빌드·릴리즈
학습 데이터	JSONL + `build_dataset.py`	카테고리별 SFT 데이터 파이프라인
로깅	`loguru`	stderr 출력 (deploy 파일 로그 없음)

2) 아키텍처/구현 요약

구조
Architecture
Chroma DB
핵심 알고리즘
대화 모드
기능모드
모니터링 봇

3) 과정중 발생한 주요 BUG

[BUG_01: OOM 문제]
[BUG_02: LLM 대화품질 확보 ]
[BUG_03: IBUS 한글입력 문제]
[BUG_04: 호환성 이슈]
[BUG_05: 배포 이슈]

4) 목표 대비 성과

Before ⇒ After

지표	Before	After	변화
앱 초기 RAM 점유	~2,730 MB	~1,027 MB	-62%
VRAM 여유 헤드룸	622 MB	977 MB	+355 MB
턴당 LLM 호출 횟수	2회 (대화 + 나레이션)	1회	-50%
LoRA eval_loss	1.687 (v7)	1.54 (v11)	-8.7%
전체 자동화 테스트	240개 (기능개선 완료 시점)	475개	+235개
AI-tell 표현	발생	0건/10	완전 억제

앱 초기 RAM 점유 62% 절감 (2,730MB → 1,027MB), VRAM 여유 +355MB 확보, 턴당 LLM 호출 50% 감소, LoRA eval_loss 1.687 → 1.54, 자동화 테스트 240 → 475개, AI 어투 표현 완전 억제(0건/10). eval_loss가 더 낮은 v12 대신 실환경 테스트 기반으로 v11 채택 — 수치보다 실사용 품질을 우선한 판단.

5) 후기

DB의 역할 변경 +기능모드 확장 ⇒ Agentic 대화로의 확장 가능성

Tool 모듈 구조 덕분에 Python 라이브러리와 파일시스템 접근 권한이 있는 영역이라면 기능 추가가 열려 있습니다. 현재는 캐릭터 시뮬레이션 챗봇에 국한되어 있으나, 캐릭터성 제약을 해제하고 Agent 발화 중심으로 학습 데이터를 재구성하면 이 구조 그대로 Local Agent로 전환할 수 있습니다. 추가로 RAG 범위를 세계관에서 로컬 개인 데이터로 확장하면 파일 검색·문서 요약·업무 자동화를 아우르는 개인 업무 효율화 도구로도 응용 가능합니다.

기능/대화 모드 어댑터 분리 미구현

현재는 단일 LoRA 어댑터가 대화와 기능 모드(JSON 파라미터 추출) 두 역할을 모두 담당합니다. 역할별로 어댑터를 분리하면 각 모드에 특화된 학습이 가능해 품질 향상을 기대할 수 있지만, 배포 환경이 GGUF 단일 병합 파일 기반이라 런타임 어댑터 교체가 구조적으로 불가능했고, dev 환경(transformers)에서도 어댑터 재로드 시 VRAM 이중 점유 문제가 재현될 수 있어 반려하게 되었습니다.

할루시네이션 문제 미해결

개발 환경 제약과 3B 모델의 용량 한계로 학습 데이터가 절대적으로 부족해, 대화 턴이 길어질수록 할루시네이션이 불가피합니다. LoRA가 전체 파라미터의 약 1%만 학습하는 구조인 만큼, 베이스 모델이 커버하지 못한 한국어 표현 폭의 한계도 그대로 남습니다. 이에 대한 해결책으로 강화학습을 검토했지만, 이를 위해 필요한 로그 데이터 확보와 품질 고도화를 개인 프로젝트 규모에서 병행하기엔 현실적으로 역부족이었습니다.