RAGAS 평가 보고서

1. 평가 개요

항목 내용
평가 일시 2024-12-12 ~ 2024-12-16
평가 대상 RAG 파이프라인 답변 품질
RAG 모델 Qwen/Qwen2-7B-Instruct
Judge LLM Qwen/Qwen2.5-7B-Instruct
임베딩 모델 jhgan/ko-sroberta-multitask
총 평가 문항 130개 (44개 배치)
유효 배치 37개 (84%)

2. 평가 결과 요약

2.1 전체 점수

메트릭 점수 평가 비고
Faithfulness 0.6492 (65%) 양호 답변이 컨텍스트 기반인지
Answer Relevancy 0.6022 (60%) 양호 답변이 질문에 적절한지
Context Precision 0.0045 (0.5%) 매우 낮음 검색된 문서의 정확도
Context Recall 0.0182 (2%) 매우 낮음 필요 정보 검색률

2.2 점수 분포

메트릭 최소 최대 평균
Faithfulness 0.22 1.00 0.65
Answer Relevancy 0.25 0.91 0.60
Context Precision 0.00 0.20 0.005
Context Recall 0.00 0.80 0.02

3. 분석 결과

3.1 LLM 답변 품질 (양호)

Faithfulness (65%): LLM이 주어진 컨텍스트를 기반으로 답변을 생성하는 능력이 양호합니다.

Answer Relevancy (60%): 질문에 대한 답변의 적절성이 양호합니다.

3.2 검색 품질 (문제 발견)

Context Precision (0.5%)Context Recall (2%) 가 매우 낮습니다.