코랩을 활용한

목표설정

토큰화

vectorizer - 대상을 벡터화시켜주는 도구

BOW(Bag of Words) - 단어가방

문서를 벡터로 변환하는 가장 기본적인 방법 문서 내의 모든 단어를 모아서 가방 안에 넣고 어떤 단어가 들어있는지 리스트/딕셔너리 형태로 나타내는 방법

TF-IDF Vectorizer는 기본적으로 어절 단위(문장을 이루는 토막)로 끊어주기 때문에 한국어 특성상 파악이 어렵다 더 작은 단위인 형태소 단위로 나누어야 한다 한국어 형태소 분석기 사용 한국어 특성에 맞춰 개발된 분석기 사용

예제 코드