RAGAS 평가 보고서

1. 평가 개요

항목	내용
평가 일시	2024-12-12 ~ 2024-12-16
평가 대상	RAG 파이프라인 답변 품질
RAG 모델	Qwen/Qwen2-7B-Instruct
Judge LLM	Qwen/Qwen2.5-7B-Instruct
임베딩 모델	jhgan/ko-sroberta-multitask
총 평가 문항	130개 (44개 배치)
유효 배치	37개 (84%)

2. 평가 결과 요약

2.1 전체 점수

메트릭	점수	평가	비고
Faithfulness	0.6492 (65%)	양호	답변이 컨텍스트 기반인지
Answer Relevancy	0.6022 (60%)	양호	답변이 질문에 적절한지
Context Precision	0.0045 (0.5%)	매우 낮음	검색된 문서의 정확도
Context Recall	0.0182 (2%)	매우 낮음	필요 정보 검색률

2.2 점수 분포

메트릭	최소	최대	평균
Faithfulness	0.22	1.00	0.65
Answer Relevancy	0.25	0.91	0.60
Context Precision	0.00	0.20	0.005
Context Recall	0.00	0.80	0.02

3. 분석 결과

3.1 LLM 답변 품질 (양호)

Faithfulness (65%): LLM이 주어진 컨텍스트를 기반으로 답변을 생성하는 능력이 양호합니다.

최고 점수 배치: 1.00 (완벽한 충실도)
대부분의 배치가 0.5 이상의 점수를 기록

Answer Relevancy (60%): 질문에 대한 답변의 적절성이 양호합니다.

질문 의도를 파악하고 관련 있는 답변 생성
일부 답변에서 과도한 추론 또는 불필요한 정보 포함

3.2 검색 품질 (문제 발견)

Context Precision (0.5%) 및 Context Recall (2%) 가 매우 낮습니다.