(2) 영어 자연어 처리 패키지 NLTK

corpus
- 말뭉치(corpus) 데이터를 다운로드
  
  말뭉치에는 book과 gutenberg가 있고,
  
  book.open('텍스트 제목')
  
  gutenberg.open('텍스트 제목') 방식으로 불러옴.
tokenize
- 텍스트를 토큰화할 때 쓰이는 메서드
1. word_tokenize
  
  : 단어와 특수문자 등을 토큰으로 분해하느는 메서드\
2. sent_tokenize
  
  : 구두점 단위로 문장을 구분하여, 문장 단위로 텍스트를 나누는 메서드
pos_tag
- 토큰화된 단어들에 대하여, 각각의 단어의 품사가 무엇인지 태깅
- ('단어', '품사')로 된 튜플로 이루어진 리스트를 반환
concordance
- 인자로 넣은 단어가 텍스트 내에서 어느 문맥으로 쓰였는지 보여줌.
- 해당 단어 전후로 몇 글자를 출력하여 어느 문맥에 쓰였는지 파악
similar

텍스트 내 단어의 분포적 유사성을 바탕으로 가장 가까운 단어들을 보여줌.

→ 분포적 유사성을 보이는 단어를 찾는 것이기 떄문에 잘 쓰이지 않음.
plot

단어 토큰 리스트에 대하여 빈도분석을 한 결과를 line chart로 시각화