2026-04-06 | 수민

[1] 오늘 날짜 / 이름 / 팀명

날짜: 2026-04-07
이름: 수민
팀명:

[2] 오늘 맡은 역할 및 구체적인 작업 내용

✍️ 답변:

ㆍ✅ PDF 텍스트 추출 파이프라인 구축 
		기본적으로 PyMuPDF(fitz)를 사용하여 텍스트 추출
		일부 PDF에서 발생하는 구조 오류 대응을 위해 pdfplumber fallback 방식 적용
ㆍ✅ 전처리 필터 설계 및 구현
		줄 단위 처리 방식으로 전처리 파이프라인 구성
		문서 메타 정보 제거
		(문서번호, 개정번호, 발행일, 페이지 등)
		목차성 라인 및 문단 시작 번호/기호 제거
		특수문자 보호 로직 적용
			소수점 (예: 4.5)
			금액 쉼표 (예: 1,000)
			S/W
			e-mail
			ID 내 하이픈 (예: SFR-학사-040)
ㆍ✅ 전처리 결과 검증
	샘플 PDF 및 복수 PDF 테스트 수행
	필터 적용 결과 비교(Before / After) 확인
ㆍ✅ 전체 데이터 처리 및 저장
	모든 PDF에 전처리 적용
	_processed.txt 형태로 결과 파일 생성 및 저장
	
	---------------------------------------------------
	[요약]
	✅ PDF → 텍스트 추출 안정화 완료 (fallback 포함)
	✅ 전처리 필터 로직 1차 완성
	✅ 전체 PDF 데이터에 대한 전처리 결과물 생성 완료

[3] 오늘 작업 완료도 체크 (하나만 체크)

[ ] 🔴 0%
[ ] 🟠 25%
[ ] 🟡 50%
[x] 🔵 75%
[ ] 🟢 100%

📌 간단한 근거:

코드 작성은 완료했으나 내일 한번더 확인하여 마무리가 필요합니다.

[4] 오늘 협업 중 제안하거나 피드백한 내용

✍️ 답변: