EDA 진행을 위해 데이터 구조를 파악하고, PDF 및 HWP 파일에서 텍스트를 추출하여 분석을 수행하였다.
문서 길이 분포를 확인하고, 짧은 문서와 긴 문서를 구분하여 데이터 특성을 파악하였다.
또한 일부 문서의 텍스트를 직접 확인하여 추출 상태와 정보 포함 여부를 점검하였다.
📌 간단한 근거:
데이터 로딩 및 기본적인 EDA는 완료했으며,
텍스트 기반 분석까지 일부 진행하였으나 추가적인 분석 및 정리는 더 필요한 상태이다.
단순 파일 크기나 개수 확인이 아닌, 텍스트 내용을 기반으로 비교하는 EDA가 필요하다는 의견을 제시하였다.