{2026.02.06} | Notion

작성자: 이소윤

1. 오늘의 목표 (Plan)

HWP 실패 2건을 PDF 변환으로 우회하여 전체 데이터 텍스트 추출 완료(98/100 → 100/100 수준으로 보완).
전체 데이터 기준으로 A(일반) 청킹 + B(rich) 추출/청킹 완료.
Dense 인덱스 A/B 재생성 후 Hybrid(B) 평가 기준 확정.
Hybrid(B) + rule rerank가 성능 최선(1.400)임을 확인.
eval_queries_v2.jsonl 6→20개 확장 및 B 기준 gold 재구성(eval_queries_v2_rich.jsonl) 완료.
쿼리 문구에 기관명/사업명 포함하도록 자동 수정.
스트림릿 대시보드(streamlit_app.py) 구축 및 가시성 개선(요약/필터/expander/썸네일/골드매칭).