✍️ 답변:
ㆍ✅ PDF 텍스트 추출 파이프라인 구축
기본적으로 PyMuPDF(fitz)를 사용하여 텍스트 추출
일부 PDF에서 발생하는 구조 오류 대응을 위해 pdfplumber fallback 방식 적용
ㆍ✅ 전처리 필터 설계 및 구현
줄 단위 처리 방식으로 전처리 파이프라인 구성
문서 메타 정보 제거
(문서번호, 개정번호, 발행일, 페이지 등)
목차성 라인 및 문단 시작 번호/기호 제거
특수문자 보호 로직 적용
소수점 (예: 4.5)
금액 쉼표 (예: 1,000)
S/W
e-mail
ID 내 하이픈 (예: SFR-학사-040)
ㆍ✅ 전처리 결과 검증
샘플 PDF 및 복수 PDF 테스트 수행
필터 적용 결과 비교(Before / After) 확인
ㆍ✅ 전체 데이터 처리 및 저장
모든 PDF에 전처리 적용
_processed.txt 형태로 결과 파일 생성 및 저장
---------------------------------------------------
[요약]
✅ PDF → 텍스트 추출 안정화 완료 (fallback 포함)
✅ 전처리 필터 로직 1차 완성
✅ 전체 PDF 데이터에 대한 전처리 결과물 생성 완료
📌 간단한 근거:
코드 작성은 완료했으나 내일 한번더 확인하여 마무리가 필요합니다.
✍️ 답변: