[1] 오늘 날짜 / 이름 / 팀명


[2] 오늘 맡은 역할 및 구체적인 작업 내용

✍️ 답변:

#✅회의록 작성

#⚠필터 작업(1차 구현 완료, 일부 개선 필요)
📌목표: 전처리 기반 데이터 정제 및 이상치 제거 1차 구현

##1. 텍스트 정제 코드 구현
ㆍ✅TAB(\\t) → 공백 변환  
ㆍ✅줄바꿈(\\n) → 공백 처리 
ㆍ✅여러 개 공백 → 하나로 정리 
    예시) 
    ㆍ원본:
        "1.\\n사업 목적\\t...\\n\\n요구사항"
    ㆍ정제 후:
        "1. 사업 목적 ... 요구사항"
        
✔ 결과 : 문장 깨짐 없이 읽을 수 있는 상태

---
##2. 노이즈 제거 (이상치 필터 1차 적용)
“문장 나누기”가 아니라 쓸모없는 텍스트 제거
ㆍ✅특수문자만 있는 라인 제거
    → ex: "----", "***"
ㆍ✅의미 없는 짧은 텍스트 제거
    → ex: 1~2글자 단독 라인
ㆍ⚠숫자/기호 위주 텍스트 제거 ← (부분 적용됨 / 기준 미완성)
    → ex: "12345", "### 1.2.3"
    
✔ 결과 : 키워드 추출에 방해되는 쓰레기 데이터 제거
---
##3. 필터 적용 결과 문제점 확인
ㆍ약어(S/W → S W) 깨짐
ㆍ요구사항 ID(SFR-xxx → 분리됨)
ㆍ소수점(4.5 → 45) 손실
ㆍ목차 번호 구조(2.6.1 → 1) 손실

✔ 원인 : 특수문자 제거 규칙 과도 적용
✔ 향후 : 예외 처리 규칙 추가 필요

---
##4. “분리 가능한 상태” 만들기 
※ 문장 분리 수행 아님
ㆍ✅문단 깨짐 제거 
ㆍ✅이상한 줄바꿈 제거
ㆍ✅문장 연결 자연스럽게 만들기
    예시)
    ㆍBefore:
        "사업 목적\\n\\n본 사업은...\\n\\n요구 사항\\n..."
    ㆍAfter:
        "사업 목적 본 사업은... 요구 사항 ..."

✔ 결과 : 박수성 / 최지훈님이 바로 사용할 수 있는 데이터 상태 만들기

---
##5. 샘플 데이터로 테스트
ㆍ✅PDF 추출 텍스트 1~2개 가져오기
ㆍ✅전처리 함수 적용 후 결과 확인
ㆍ✅줄바꿈 자연스럽게 제거됐는지
ㆍ✅텍스트 읽히는지
ㆍ⚠ 약어(S/W), 소수점(4.5), ID(SFR-xxx) 등 주요 오류 확인됨 → 수정 필요

---
##6. 결과 비교 정리 (팀 공유용)
ㆍ❌before / after 비교 만들기 → 미작성 (추후 팀 공유 예정)
ㆍ❌어떤 기준 적용했는지 정리 → 미작성 (추후 팀 공유 예정)
    예시:
    ㆍ[Before]
        "사업 목적\\n\\n..."
    ㆍ[After]
        "사업 목적 ..."
✔ 결과 : 팀내 작업 내용 공유 및 후속 작업 연계

[3] 오늘 작업 완료도 체크 (하나만 체크)

📌 간단한 근거:

텍스트 정제 및 1차 필터 구현은 완료했으나,
약어(S/W), 소수점(4.5), 요구사항 ID(SFR-xxx), 목차 번호 구조 등에서
필터 적용 오류가 발생하여 후속 수정이 필요한 상태입니다.

[4] 오늘 협업 중 제안하거나 피드백한 내용

✍️ 답변: