| 항목 | 내용 |
|---|---|
| 평가 일시 | 2024-12-12 ~ 2024-12-16 |
| 평가 대상 | RAG 파이프라인 답변 품질 |
| RAG 모델 | Qwen/Qwen2-7B-Instruct |
| Judge LLM | Qwen/Qwen2.5-7B-Instruct |
| 임베딩 모델 | jhgan/ko-sroberta-multitask |
| 총 평가 문항 | 130개 (44개 배치) |
| 유효 배치 | 37개 (84%) |
| 메트릭 | 점수 | 평가 | 비고 |
|---|---|---|---|
| Faithfulness | 0.6492 (65%) | 양호 | 답변이 컨텍스트 기반인지 |
| Answer Relevancy | 0.6022 (60%) | 양호 | 답변이 질문에 적절한지 |
| Context Precision | 0.0045 (0.5%) | 매우 낮음 | 검색된 문서의 정확도 |
| Context Recall | 0.0182 (2%) | 매우 낮음 | 필요 정보 검색률 |
| 메트릭 | 최소 | 최대 | 평균 |
|---|---|---|---|
| Faithfulness | 0.22 | 1.00 | 0.65 |
| Answer Relevancy | 0.25 | 0.91 | 0.60 |
| Context Precision | 0.00 | 0.20 | 0.005 |
| Context Recall | 0.00 | 0.80 | 0.02 |
Faithfulness (65%): LLM이 주어진 컨텍스트를 기반으로 답변을 생성하는 능력이 양호합니다.
Answer Relevancy (60%): 질문에 대한 답변의 적절성이 양호합니다.
Context Precision (0.5%) 및 Context Recall (2%) 가 매우 낮습니다.