1. 실험 기록지

날짜 변경 내용 결과 점수 (Recall / Faithfulness 등) 한줄 평
12/31 baseline ‘faithfulness': 0.7551, 'answer_relevancy': 0.5270, 'context_precision': 0.5524, 'context_recall': 0.6875 검색을 너무 많이 가져오고
Grader는 관대하고,
Generator는 컨텍스트를 충분히 길게 읽고 설명하는 상태
12/31 더 적은 문서를 가져오도록 수정

2. 데이터로더 비교실험

“한국원자력연구원_한국원자력연구원 선량평가시스템 고도화.hwp”으로 4가지 로드 방식을 비교해보았다.

  1. olefile로 hwp 로드
  2. pypdf
  3. mupdf
  4. pdfplumber

=== PDF 추출 성능 비교 (1개 파일 기준) === [pypdf] 추출 시간: 3.67초, 길이: 42491 [mupdf] 추출 시간: 0.16초, 길이: 44808 [pdfplumber] 추출 시간: 6.80초, 길이: 43235

표 형태 출력 비교

image.png

  1. 페이지 6

image.png

  1. 페이지 12

🧠 엔진별 특성 차이가 발생한 기술적 이유

문제 현상 원인
pypdf: 모든 문장이 붙음 PDF에서 텍스트 좌표를 해석하지 못함. 순서 보존 불가
mupdf: 줄바꿈 자연스러움 PDF 렌더링 엔진 수준으로 구조를 재해석함
pdfplumber: 표는 좋은데 문단은 불안정 표 감지는 뛰어나나 전체 레이아웃 분석은 제한적
olefile이 최고 품질 HWP 내부 스트림(TEXT Tag 67)을 직접 해석하기 때문

🏆 총평 (이 페이지 기준)

엔진 텍스트 품질 사용 추천도 비고
olefile(HWP) ⭐⭐⭐⭐⭐ 최고 구조 보존 완벽
PyMuPDF ⭐⭐⭐⭐☆ 매우 추천 PDF 중 최상
pdfplumber ⭐⭐⭐⭐ 조건부 추천 표 중심 문서에 강함
pypdf ⭐☆☆☆☆ 비추천 구조 완전 파괴