{2026.02.21} (연휴)

작성자: 이소윤

1. 오늘의 목표 (Plan)

[x] 설 연휴 쉬고, 다시 작업 새롭게 보는 마음으로 시작하기
[x] main.py 실행하여 Langfuse로 노드별 로그 보기
[x] 하이브리드 리트리버 기준 설정을 확정하고, 실험용 질문셋/실행 경로 정리
[x] no-org 질의 할루시네이션을 줄이기 위한 앱 동작을 보완
[x] 청킹 파라미터(800/80, 1000/100, 1200/120) 비교 후 기준값 확정
[x] Chroma 리트리버 실험을 위해 청킹 파라미터를 낮춰(500/60) 인덱스를 재구축하고 성능 비교까지 진행
[x] 추가로 700/90 조건도 같은 방식으로 비교 가능한 상태까지 만들기

2. 오늘 내가 한 일 (Work Done)

main 구조 완전 적용 후, 로컬과 다른 포인트 4가지 정리

A. 데이터 적재
- main 기본: 앱 기동 시 적재 중심(일체형)
- 우리 선택: 배치+증분 하이브리드
- 이유: 문서량/평가 반복이 많아 기동속도·재현성·운영안정성 우선
- 기대효과: 앱 응답 안정, 인덱스 관리 명확
B. 검색 구조
- main 기본: 단순 벡터 검색 중심
- 우리 선택: hybrid retrieval + 메타 필터 + rule rerank
- 이유: RFP 질의는 기관명/숫자/기간/비율 같은 정밀 질의가 많음
- 기대효과: 오탐 감소, 근거 청크 회수율 개선
C. 평가
- main 기본: 경량/문서 중심
- 우리 선택: chunk recall + source recall + answer eval 3축
- 이유: 답변 품질만 보면 retrieval 병목을 놓치고, retrieval만 보면 체감 품질을 놓침
- 기대효과: 병목 지점 분리 진단 가능
D. 설정/관측
- main 기본: 단순 config + LangSmith 중심
- 우리 선택: 단순 config 유지 + Langfuse 단일화
- 이유: 팀 공통 관측 백엔드 통일이 분석/회고 효율적
- 기대효과: trace 분산 방지, 협업 디버깅 속도 향상
hybrid_alpha 기본값을 코드/설정 전반에 반영하고(1.0), 실행 경로와 문서를 동기화
main.py에 기관 미지정 질의 시 재질문하고 기관 컨텍스트를 세션에 유지/갱신하는 로직 추가
장/단문 10개씩 질문셋을 재생성
- eval_queries_long_q10.jsonl
- eval_queries_short_q10.jsonl
- eval_queries_qmix_q20.jsonl
하이브리드 청킹 실험(800/80, 1000/100, 1200/120)을 비교했고, 하이브리드 기준 최적은 1000/100으로 확인
joined metadata 영향으로 점수 변동이 발생한 구간을 점검하고, gold_bonus의 metadata 가중치를 완화(meta_tuned)
OpenAI 쿼터(429) 이슈 대응으로, alpha=1.0일 때 불필요한 dense 임베딩 API 호출을 생략하도록 최적화
text-embedding-3-small로 Chroma 인덱싱 완료:
- data_index/chroma_B_500_60
- 컬렉션 rfp_b_500_60_oai2
- lock 파일에 모델 고정 확인
- notebooks/data_chunks_rich_700_90 • 700/90 인덱싱은 OpenAI 쿼터 부족으로 중단됨(진행 불가 상태 확인).

1. 오늘의 목표 (Plan)

2. 오늘 내가 한 일 (Work Done)

A. 데이터 적재

B. 검색 구조

C. 평가

D. 설정/관측