자료

자연어처리 - 1. 텍스트 데이터 전처리.zip

1. HTML 태그 및 특수문자 제거 (정규표현식)

  1. 정규 표현식이 뭔가요?

  2. HTML 태그 제거

  3. 구두점 및 특수문자 제거

2. (영어의 경우) 대문자 → 소문자

3. 토큰화(tokenization)

4. 불용어처리

5. 어간 추출 (goes → go) (영어의 경우)