작성자: 이소윤
1. 오늘의 목표 (Plan)
- [x] 오늘 도출한 리트리버 개선 5개 항목을 우선순위대로 구현한다.
- 소스 랭킹 실패(정답 소스가 너무 뒤에 있음)
- 소스는 맞았지만 “정답 스팬” 회수 실패
- 도면/표 기반 질의 대응 부족
- 멀티문서 질의의 다양성 제약 부족
- 진단 정확도(평가 지표) 보정 필요
- [x] 구현 후 dev 기준 동일 데이터셋/동일 설정으로 A/B 재평가해 지표 변화(Recall, MRR, AC)를 확인한다.
- [x] 리트리버 개선 효과와 프롬프트/생성 영향 범위를 분리해 기록한다.
2. 오늘 내가 한 일 (Work Done)
- 단일 문서 질의에서 소스 랭킹/폴백 정밀도 개선 로직을 반영했다. (048d68a)
- 사실형 질의에서 정답 스팬 근처 청크를 우선 노출하도록 anchor chunk 승격 로직을 추가했다. (d6ca724)
- source/org/type 메타 정규화와 RETRIEVER_ASSET_SIDECAR_ENABLED=false 기본값을 적용해 실행 환경 차이를 줄였다. (f5cc477)
- source 기반 fallback 경로와 평가 스크립트 정렬(align) 패치를 적용했다. (e5a18a4)
- 표/이미지/사실형 질의 성격에 따라 동적으로 경로를 나누는 retrieval strategy routing을 리팩터링했다. (d758ebe)
- CSV source 보존, 멀티 소스 hit_position 계산 안정화(확장자/표기 변형 대응)를 반영했다. (07013fc)
- evidence rerank + chunk-aware dedupe를 유지해 상위 검색 노이즈를 줄였다. (f5f3d31)
- 평가 지표에 chunk 단위 recall 및 라벨을 추가해 리트리버 영향과 생성 영향 분리 관측 기반을 만들었다. (c74f099)
- dev 기준 full20 재평가 결과 HTML을 생성해 동일 조건 비교 산출물을 남겼다. (53a498a)
🌟 오늘 팀에 기여한 부분
- dev 브런치에 리트리버 성능 개선 실험을 맡아서 이어갔다.