작성자: 이소윤
1. 오늘의 목표 (Plan)
- [x] 2/26 패치 묶음을 기준선으로 고정하고, 실패 문항(특히 표/이미지, 멀티문서)만 부분 재평가해 원인별로 분해한다.
- [x] 리트리버 개선 효과와 프롬프트/생성 영향 범위를 커밋 단위로 분리해 최종 실험 로그에 반영한다.
- [x] 성능 개선이 확인된 패치만 유지하고, 개선이 약한 패치는 롤백 후보로 정리한다.
2. 오늘 내가 한 일 (Work Done)
- 실패 문항 중심으로 부분 재평가를 반복했고(#017, #019, #020), 이후 full20 재평가 리포트까지 갱신해 원인 분해 근거를 확보했다. (eval_report_current*, eval_results_current* 산출물 갱신, b1e3439, 53a498a 계열 작업)
- 리트리버/프롬프트/생성 영향 범위를 커밋 단위로 분리해 실험 로그를 재구성했다. 최종적으로 ab_presentation_reordered_with_latency_track.md에 실험 로그를 통합 정리했다.
- 개선 효과가 약한 패치는 유지하지 않고, “개선 없음” 결과를 문서에 명시해 롤백/보류 후보로 분리했다.
- 팀원의 dev브런치 App 동기화 과정에서 dev가 꼬인 구간을 정리했다. sync(app) 적용 후 문제 발생을 확인하고 Revert로 복구한 뒤 필요한 변경만 선별 반영했다.
- CSV 요약이 중간 절단되는 문제를 수정했다. 단순 [:N] 절단 대신 길이 제한 내 완결형 요약 생성 로직으로 변경했다. (1761216)
- CSV 요약이 비어 있을 때 응답 품질이 떨어지는 케이스를 막기 위해, 해당 경우 RAG fallback 경로를 추가했다. (2f33c02)
🌟 오늘 팀에 기여한 부분
- 발표 자료 PPT를 만들기 위해 Genspark 유료 결제하여 1차 완성하였다.
- 다음 주 발표자로 사다리타기 당첨되어… 발표를 맡게 되었다.
3. 오늘의 인사이트 / 배운 점 (Insights)
- 실패 문항 부분 재평가를 먼저 돌려 원인을 좁힌 뒤 full20으로 확장하는 순서가 가장 효율적이었다.