LLM 모델 비교 평가 보고서 (1단계: 응답 속도·답변 길이 중심) | Notion

프로젝트: CTRL-F (기업 내부 정보보호 AI 어시스턴트)

평가일시: 2024-12-09

평가자: 모인지

1. 평가 개요

1.1 평가 목적

기업 내부 문서 기반 RAG 시스템에 적합한 LLM 모델 후보를 선정하기 위해
여러 LLM을 동일한 RAG 환경에서 실행하여 **응답 속도, 답변 길이, 기본적인 안정성(실패율)**을 비교한다.

1.2 평가 범위

대상: 내부 RAG 시스템에서 사용 가능한 오픈소스 LLM 3종
- Qwen/Qwen2-7B-Instruct
- Qwen/Qwen2.5-7B-Instruct
- meta-llama/Meta-Llama-3-8B-Instruct (이하 Llama3-8B)
이번 보고서는 1단계 비교로서,
- 주로 응답 시간과 답변 길이에 초점을 맞춘다.
- 답변 정확도·충실성·안전성은 정량 평가하지 않았으며, 2단계(RAGAS + 휴먼 평가)에서 별도 수행할 예정이다.

2. 평가 환경 및 공통 조건

2.1 시스템 환경

서버: 58.127.241.84
임베딩 모델: jhgan/ko-sroberta-multitask (포트 1234)
LLM 서버: vLLM (포트 1235, OpenAI 호환 API)
문서 청킹: 300자 단위, 오버랩 30자
검색 방식: 코사인 유사도 기반 Top-5 검색

2.2 공통 RAG 조건