[1] 오늘 날짜 / 이름 / 팀명


[2] 오늘 맡은 역할 및 구체적인 작업 내용

✍️ 답변:

src/evaluation.py 및 evaluation_dataset_builder.py 구현

정답셋(Ground Truth)과 AI 답변을 비교하여 정확도를 측정하는 로직 작성

LLM을 심판(Judge)으로 활용하는 평가 프롬프트 설계

[3] 오늘 작업 완료도 체크

평가 데이터셋 생성은 되지만, 채점 기준이 모호하여 프롬프트 튜닝이 필요합니다.

[4] 오늘 협업 중 제안하거나 피드백한 내용이 있다면?

✍️ 답변:

단순 텍스트 일치보다는 "의미적 일치"를 보라고 LLM Judge에게 지시 사항을 추가했습니다. (예: 1억 = 100,000,000, 문서의 유형에 대해서 물어보면 hwp 및 입찰제안서 둘다 맞다고 표현)