[1] 오늘 날짜 / 이름 / 팀명


[2] 오늘 맡은 역할 및 구체적인 작업 내용

✍️ 답변:

EDA 진행을 위해 PDF, HWP, DOCX 파일의 텍스트 추출을 시도했습니다.

파일 포맷별로 추출 방식을 적용하며 데이터를 불러왔고,
특히 DOCX 파일의 경우 표 형태의 데이터가 많아
기존 paragraph 기반 추출 방식의 한계를 확인했습니다.

이에 따라 표 데이터까지 포함하여 텍스트를 추출하도록 로직을 수정하였고,
추출 과정에서 일부 문서에서 인코딩 깨짐 및 텍스트 품질 문제가 발생하는 것도 확인했습니다.

[3] 오늘 작업 완료도 체크 (하나만 체크)

📌 간단한 근거:

전체 데이터 로드 및 텍스트 추출은 진행했으나,
데이터 품질 문제(깨짐, 구조 차이)가 있어 추가 정제가 필요한 상태입니다.

[4] 오늘 협업 중 제안하거나 피드백한 내용

✍️ 답변: