자연어처리 - 2. NLTK.zip

0. NLTK와 NLTK 데이터 설치

1. NLTK 주요 기능(메서드)들

  1. corpus

  2. tokenize

    1. word_tokenize

      : 단어와 특수문자 등을 토큰으로 분해하느는 메서드\

    2. sent_tokenize

      : 구두점 단위로 문장을 구분하여, 문장 단위로 텍스트를 나누는 메서드

  3. pos_tag

  4. concordance

  5. similar

    텍스트 내 단어의 분포적 유사성을 바탕으로 가장 가까운 단어들을 보여줌.

    → 분포적 유사성을 보이는 단어를 찾는 것이기 떄문에 잘 쓰이지 않음.

  6. plot

    단어 토큰 리스트에 대하여 빈도분석을 한 결과를 line chart로 시각화