{2026.02.25} (조퇴)

작성자: 이소윤

1. 오늘의 목표 (Plan)

[x] eval_dataset_sy.yaml도 동일 기준(원문 기반 page 검증)으로 추가 점검해 공통 질문셋으로 single_doc 개, multi_doc 2개, comparison 2개 뽑는다.
[x] dev에 리트리버 파트 올리고, 파싱 파트와 에러 없이 이어지는지 확인한다.
[x] 평가 파이프라인을 dev 기준으로 맞춘 뒤 재평가 결과를 확인한다.
[x] 리트리버 관점의 실패 케이스를 분류해 성능 개선 포인트를 도출한다.
[x] 리트리버 문서 구조를 정리하고 커밋/푸시 상태를 안정화한다.

origin/dev 기준으로 리베이스/동기화 후 충돌을 정리하고 dev에 반영된 상태로 맞췄다.
리트리버/응답 품질 개선 코드(동적 CSV 답변 보강, 답변 길이/형식 정리)를 반영했다.
평가 스크립트와 지표 처리(특히 data_list.csv short-circuit 케이스)를 dev 기준으로 맞추고 리포트를 재생성했다. (eval_retrieval.py, eval_results_current.json, eval_report_current.html)
리트리버 문서 위치를 정리했다. (retriever_v3.1 문서를 docs/retriever로 이동)
현재 리포트 기준으로 리트리버 실패 유형을 분류했다(소스 미탐색 / top-k 랭킹 실패 / 소스 hit 후 스팬 회수 실패 / 멀티문서 다양성 부족 / 지표 괴리)
dev와 로컬 차이 여부 및 재평가 시 변동 요인(LLM Judge 변동, 로컬 Chroma 상태, env 차이)을 점검해 공유했다.