프로젝트: CTRL-F (기업 내부 정보보호 AI 어시스턴트)
평가일시: 2024-12-09
평가자: 모인지
1. 평가 개요
1.1 평가 목적
- 기업 내부 문서 기반 RAG 시스템에 적합한 LLM 모델 후보를 선정하기 위해
- 여러 LLM을 동일한 RAG 환경에서 실행하여
**응답 속도, 답변 길이, 기본적인 안정성(실패율)**을 비교한다.
1.2 평가 범위
- 대상: 내부 RAG 시스템에서 사용 가능한 오픈소스 LLM 3종
- Qwen/Qwen2-7B-Instruct
- Qwen/Qwen2.5-7B-Instruct
- meta-llama/Meta-Llama-3-8B-Instruct (이하 Llama3-8B)
- 이번 보고서는 1단계 비교로서,
- 주로 응답 시간과 답변 길이에 초점을 맞춘다.
- 답변 정확도·충실성·안전성은 정량 평가하지 않았으며,
2단계(RAGAS + 휴먼 평가)에서 별도 수행할 예정이다.
2. 평가 환경 및 공통 조건
2.1 시스템 환경
- 서버: 58.127.241.84
- 임베딩 모델: jhgan/ko-sroberta-multitask (포트 1234)
- LLM 서버: vLLM (포트 1235, OpenAI 호환 API)
- 문서 청킹: 300자 단위, 오버랩 30자
- 검색 방식: 코사인 유사도 기반 Top-5 검색
2.2 공통 RAG 조건