✍️ 답변:
src/evaluation.py 및 evaluation_dataset_builder.py 구현
정답셋(Ground Truth)과 AI 답변을 비교하여 정확도를 측정하는 로직 작성
LLM을 심판(Judge)으로 활용하는 평가 프롬프트 설계
평가 데이터셋 생성은 되지만, 채점 기준이 모호하여 프롬프트 튜닝이 필요합니다.
✍️ 답변:
단순 텍스트 일치보다는 "의미적 일치"를 보라고 LLM Judge에게 지시 사항을 추가했습니다. (예: 1억 = 100,000,000, 문서의 유형에 대해서 물어보면 hwp 및 입찰제안서 둘다 맞다고 표현)