작성자: 이소윤
1. 오늘의 목표 (Plan)
- [x] 팀 공통 평가셋(eval_020) 생성을 위한 개인 평가셋 생성
- [x] only 표 질문 1~2개, 원본과 함께 공유
- [x] eval_020 전용이 아닌 동적 규칙으로, 비교질의에서 “양쪽 엔티티 최소 1개 소스 포함” 보장 로직을 리트리버 후처리에 추가 검증
- [x] 현재 로컬 프롬프트 구조 점검
- [x] 재청킹 후 점수 낮아진 원인 파악 후 개선
2. 오늘 내가 한 일 (Work Done)
- 재청킹 이후 점수 저하 원인이 재청킹 보다는 ‘생성 품질’에 있음을 정성적으로 확인
- llm 답변 프롬프트 변경(불용어 정규화, 질문자에게 안내하는 멘트로 수정)
- rich_pdf_extract.py에 _is_rendered_on_page()를 추가하고, 실제 렌더된 이미지(xref)만 asset으로 저장하도록 수정
- eval_dataset_sy.yaml의 ground_truth.page를 문항별로 원문/이미지 확인 후 대거 교정
- multi_doc/comparison 문항이 sources 2건으로 평가되도록 확인하고, 리포트에서 ground_truth_sources 기반 표시가 유지되도록 확인
- 공통 작업을 위해 파싱 파트 작업 내용을 기반으로 dev 브런치에 푸시할 리트리버 부분 미리 만들어 둠
🌟 오늘 팀에 기여한 부분
- 공통 질문셋의 multi_doc/comparison 문항에 source 문서가 2개여야하는데, 1개임을 발견하여 정정되도록 함
3. 오늘의 인사이트 / 배운 점 (Insights)