코랩을 활용한
목표설정
- 네이버 영화 리뷰 데이터셋을 이용해서 긍정 / 부정을 판별하는 분류기를 만들어보자!
- TF-IDF방법을 이용해서 토큰화
- 한국어 전용 (Konlpy) 형태소 분석기
- 단어별 긍/부정 정보를 시각화
토큰화
vectorizer - 대상을 벡터화시켜주는 도구
- 벡터화: 텍스트나 이미지처럼 '비수치적' 데이터를 숫자(배열로 벡터로 바꾸는 방향)로 바꾸는 과정
- 기계 학습 분야에서 주로 텍스트 데이터를 분석하기 위해서
- 여러 머신러닝/딥러닝 모델을 학습시키기 위해서 텍스트나 다른 형태의 벡터화/수치화가 필요하다
BOW(Bag of Words) - 단어가방
문서를 벡터로 변환하는 가장 기본적인 방법
문서 내의 모든 단어를 모아서 가방 안에 넣고 어떤 단어가 들어있는지 리스트/딕셔너리 형태로 나타내는 방법
TF-IDF Vectorizer는 기본적으로 어절 단위(문장을 이루는 토막)로 끊어주기 때문에 한국어 특성상 파악이 어렵다
더 작은 단위인 형태소 단위로 나누어야 한다
한국어 형태소 분석기 사용
한국어 특성에 맞춰 개발된 분석기 사용
예제 코드