CTRL_F 기업 내부 정보보호 AI 어시스턴트

KPI 기반 성능 평가 보고서 (v1.0)

프로젝트명: CTRL_F – 기업 내부 정보보호 AI 어시스턴트
버전: v1.0 (임베딩·LLM 1차 선정 기준)
평가 기간: 2025-12-01 ~ 2025-12-09
작성일: 2025-12-10
작성자: 모인지
평가 대상 구성요소
- 임베딩: jhgan/ko-sroberta-multitask 외 4종 후보
- LLM: Qwen/Qwen2-7B-Instruct, Qwen/Qwen2.5-7B-Instruct, meta-llama/Meta-Llama-3-8B-Instruct
- RAG 파이프라인: ko-sroberta 임베딩 + cosine similarity Top-5
- AI Gateway: OpenAI 호환 API (vLLM 기반)

1. Executive Summary

1.1 한 줄 요약

CTRL_F RAG 시스템은 사규·교육 도메인 130문항 기준으로

Retrieval P@1 ≈ 0.73, MRR ≈ 0.75
LLM Faithfulness ≈ 0.70, Answer Relevancy ≈ 0.90(Qwen2.5 기준)

수준을 달성하여, 우리가 정의한 1차 KPI 목표(P@1 ≥ 0.70, F ≥ 0.70, R ≥ 0.80)를 전반적으로 만족하였다.

이에 따라, 기본 LLM은 Qwen2.5-7B, 기본 임베딩은 ko-sroberta로 선정하는 것을 권고한다.

1.2 핵심 결론

임베딩
- jhgan/ko-sroberta-multitask가 P@1, MRR, NDCG@5에서 가장 안정적으로 상위 성능을 보여기본 임베딩 모델로 선정.
LLM – 1단계(속도·길이 기준)
- Llama3-8B가 가장 빠르고, Qwen2-7B가 가장 상세한 답변을 생성.
- Qwen2.5-7B는 속도·설명력 균형 관점에서 가장 적절하여, 직원용 챗봇 기본 LLM 후보로 선정.