작성자: 이소윤
1. 오늘의 목표 (Plan)
2. 오늘 내가 한 일 (Work Done)
- HWP 원본 96개를 GCP VM에서 LibreOffice+h2orestart로 PDF 변환(94개 성공, 2개 실패 확인)
- VM에 한글 폰트 설치 후 재변환하여 글자 깨짐 문제 해결
- 변환된 PDF 94개를 로컬로 rsync 다운로드
- 기존 PDF 4개 + 수동 변환 2개(실패 파일)까지 합쳐 data/pdf_raw 구성
- 전체 PDF(100개) 대상으로 rich 추출 수행 및 누락 13개 재추출 완료
- rich 결과 최종 MD 100 / MANIFEST 100 / MISSING 0 확인
🌟 오늘 팀에 기여한 부분
3. 오늘의 인사이트 / 배운 점 (Insights)
- LibreOffice 변환 품질은 폰트 설치 여부가 핵심(한글 깨짐 방지 필수)
- Colab 환경은 HWP import 필터 부재로 실제 변환이 불가
- 대량 파일 업로드는 rsync가 가장 안정적이며 콘솔 업로더는 실패율이 높음
- rich 추출 누락은 재추출로 대부분 복구 가능