1) 2026-02-02
- 저장소 초기화.
- 실제 작업:
README.md, LICENSE, .gitignore 생성/정리.
- 의미: 팀 공용 개발 저장소의 기본 규칙과 문서 뼈대를 세움.
2) 2026-02-03
- 개발 환경 통일 작업.
- 실제 작업:
pyproject.toml, uv.lock, .python-version 정리로 파이썬/의존성 기준 버전 통일.
notebooks/template.ipynb의 데이터 접근 경로를 팀 공유 드라이브 기준으로 수정.
- 의미: 팀원 간 "돌아가는 환경" 불일치 문제를 선제적으로 정리.
3) 2026-02-04
- 데이터 경로/동기화 체계 정비.
- 실제 작업:
DATA_DIR 및 관련 경로를 재설정하고 lock 파일 업데이트.
- 템플릿 노트북에서 경로 참조를 실사용 구조에 맞춤.
- 의미: 로컬/공유 스토리지 혼용에 따른 경로 오류를 줄임.
4) 2026-02-10
- 베이스라인에서 "평가 가능한 파이프라인"으로 전환.
- 실제 작업:
- 채점 통합 커밋:
gold_evidence.csv, gold_fields.jsonl, questions.csv를 포함한 평가 데이터셋 연결.
- 파이프라인 통합 커밋: 전처리→검색/생성→성능 측정을 한 흐름으로 묶고 대용량
ALL_DATA*.json 반영.
- 메타데이터 업로드 커밋:
01/02/03 단계 메타 JSON 추가.
- 의미: 실험을 "아이디어 검증"이 아닌 "재현 가능한 수치 비교" 단계로 올림.
5) 2026-02-12
- 데이터 구조 v5로 개편.
- 실제 작업:
ALL_DATA_v5*, all_metadata, all_hierarchies 등 대규모 데이터 자산 반영.
- 전처리/파싱 테스트 노트북(
pp_ocr, pp_camelot 등) 확장.
- 의미: 문서 구조화 품질(텍스트/표/섹션)을 실험 가능한 단위로 확장.