컴퓨터가 인간의 언어를 이해할 때, 컴퓨터가 이해할 수 있도록 숫자로 변환하는 과정이 필요하다. 여기서 인간의 언어를 ‘자연어’라고 한다. 컴퓨터는 숫자로 처리하고 숫자로 이해하기 때문에, 자연어를 숫자로 처리해주어야 한다. 이 처리 과정을 자연어 전처리라고 한다.

자연어 처리(NLP, Natural Language Processing)에서 전처리 과정에 텍스트를 벡터로 변환하는 **벡터화(Vetorization)**라는 과정이 있다.

<aside> 🌊 전처리 과정 (in Text Mining)


  1. 텍스트 데이터 전처리 과정
    1. 텍스트 정제 Text Cleaning
    2. 텍스트 토큰화 Tokenizing
    3. 불용어 제거 Removing Stopwords
    4. 표제어 및 어간 추출 Lemmatizing & Stemming
  2. 벡터화
    1. BoW Bag of Words
    2. 임베딩 Embedding </aside>

이번엔, 전처리 과정 중 벡터화에 관련된 내용만 살펴볼 예정이다.

벡터화의 방식에는 크게 두 가지 방식이 있는데, 콜아웃에 적었다시피 BoW (Bag of Words) 방식과 임베딩 (Embedding)방식 이 둘로 나뉘게 된다.