작성자: 이소윤
1. 오늘의 목표 (Plan)
- [x] eval_dataset_sy.yaml도 동일 기준(원문 기반 page 검증)으로 추가 점검해 공통 질문셋으로 single_doc 개, multi_doc 2개, comparison 2개 뽑는다.
- [x] dev에 리트리버 파트 올리고, 파싱 파트와 에러 없이 이어지는지 확인한다.
- [x] 평가 파이프라인을 dev 기준으로 맞춘 뒤 재평가 결과를 확인한다.
- [x] 리트리버 관점의 실패 케이스를 분류해 성능 개선 포인트를 도출한다.
- [x] 리트리버 문서 구조를 정리하고 커밋/푸시 상태를 안정화한다.
2. 오늘 내가 한 일 (Work Done)
- origin/dev 기준으로 리베이스/동기화 후 충돌을 정리하고 dev에 반영된 상태로 맞췄다.
- 리트리버/응답 품질 개선 코드(동적 CSV 답변 보강, 답변 길이/형식 정리)를 반영했다.
- 평가 스크립트와 지표 처리(특히 data_list.csv short-circuit 케이스)를 dev 기준으로 맞추고 리포트를 재생성했다. (eval_retrieval.py, eval_results_current.json, eval_report_current.html)
- 리트리버 문서 위치를 정리했다. (retriever_v3.1 문서를 docs/retriever로 이동)
- 현재 리포트 기준으로 리트리버 실패 유형을 분류했다(소스 미탐색 / top-k 랭킹 실패 / 소스 hit 후 스팬 회수 실패 / 멀티문서 다양성 부족 / 지표 괴리)
- dev와 로컬 차이 여부 및 재평가 시 변동 요인(LLM Judge 변동, 로컬 Chroma 상태, env 차이)을 점검해 공유했다.
🌟 오늘 팀에 기여한 부분
- 리트리버 파트 dev로 merge한 후, 계속 실험
3. 오늘의 인사이트 / 배운 점 (Insights)