corpus
말뭉치(corpus) 데이터를 다운로드
말뭉치에는 book과 gutenberg가 있고,
book.open('텍스트 제목')
gutenberg.open('텍스트 제목') 방식으로 불러옴.
tokenize
word_tokenize
: 단어와 특수문자 등을 토큰으로 분해하느는 메서드\
sent_tokenize
: 구두점 단위로 문장을 구분하여, 문장 단위로 텍스트를 나누는 메서드
pos_tag
토큰화된 단어들에 대하여, 각각의 단어의 품사가 무엇인지 태깅
('단어', '품사')로 된 튜플로 이루어진 리스트를 반환
concordance
similar
텍스트 내 단어의 분포적 유사성을 바탕으로 가장 가까운 단어들을 보여줌.
→ 분포적 유사성을 보이는 단어를 찾는 것이기 떄문에 잘 쓰이지 않음.
plot
단어 토큰 리스트에 대하여 빈도분석을 한 결과를 line chart로 시각화