✍️ 답변:
#✅회의록 작성
#⚠필터 작업(1차 구현 완료, 일부 개선 필요)
📌목표: 전처리 기반 데이터 정제 및 이상치 제거 1차 구현
##1. 텍스트 정제 코드 구현
ㆍ✅TAB(\\t) → 공백 변환
ㆍ✅줄바꿈(\\n) → 공백 처리
ㆍ✅여러 개 공백 → 하나로 정리
예시)
ㆍ원본:
"1.\\n사업 목적\\t...\\n\\n요구사항"
ㆍ정제 후:
"1. 사업 목적 ... 요구사항"
✔ 결과 : 문장 깨짐 없이 읽을 수 있는 상태
---
##2. 노이즈 제거 (이상치 필터 1차 적용)
“문장 나누기”가 아니라 쓸모없는 텍스트 제거
ㆍ✅특수문자만 있는 라인 제거
→ ex: "----", "***"
ㆍ✅의미 없는 짧은 텍스트 제거
→ ex: 1~2글자 단독 라인
ㆍ⚠숫자/기호 위주 텍스트 제거 ← (부분 적용됨 / 기준 미완성)
→ ex: "12345", "### 1.2.3"
✔ 결과 : 키워드 추출에 방해되는 쓰레기 데이터 제거
---
##3. 필터 적용 결과 문제점 확인
ㆍ약어(S/W → S W) 깨짐
ㆍ요구사항 ID(SFR-xxx → 분리됨)
ㆍ소수점(4.5 → 45) 손실
ㆍ목차 번호 구조(2.6.1 → 1) 손실
✔ 원인 : 특수문자 제거 규칙 과도 적용
✔ 향후 : 예외 처리 규칙 추가 필요
---
##4. “분리 가능한 상태” 만들기
※ 문장 분리 수행 아님
ㆍ✅문단 깨짐 제거
ㆍ✅이상한 줄바꿈 제거
ㆍ✅문장 연결 자연스럽게 만들기
예시)
ㆍBefore:
"사업 목적\\n\\n본 사업은...\\n\\n요구 사항\\n..."
ㆍAfter:
"사업 목적 본 사업은... 요구 사항 ..."
✔ 결과 : 박수성 / 최지훈님이 바로 사용할 수 있는 데이터 상태 만들기
---
##5. 샘플 데이터로 테스트
ㆍ✅PDF 추출 텍스트 1~2개 가져오기
ㆍ✅전처리 함수 적용 후 결과 확인
ㆍ✅줄바꿈 자연스럽게 제거됐는지
ㆍ✅텍스트 읽히는지
ㆍ⚠ 약어(S/W), 소수점(4.5), ID(SFR-xxx) 등 주요 오류 확인됨 → 수정 필요
---
##6. 결과 비교 정리 (팀 공유용)
ㆍ❌before / after 비교 만들기 → 미작성 (추후 팀 공유 예정)
ㆍ❌어떤 기준 적용했는지 정리 → 미작성 (추후 팀 공유 예정)
예시:
ㆍ[Before]
"사업 목적\\n\\n..."
ㆍ[After]
"사업 목적 ..."
✔ 결과 : 팀내 작업 내용 공유 및 후속 작업 연계
📌 간단한 근거:
텍스트 정제 및 1차 필터 구현은 완료했으나,
약어(S/W), 소수점(4.5), 요구사항 ID(SFR-xxx), 목차 번호 구조 등에서
필터 적용 오류가 발생하여 후속 수정이 필요한 상태입니다.
✍️ 답변: