참고: https://webnautes.tistory.com/1394
형태소 분류기 클래스의 종류 (5가지)
Kkma or Okt를 주로 사용함
어떤 걸 써야 할까요?
품사를 태깅하지 않고, 형태소 단위로 텍스트를 토큰화 하는 작업.
텍스트 중 명사로 태깅된 형태소만 불러오는 작업
nltk의 pos.tag와 유사
품사 태깅이 가능함 - 명사, 동사, 형용사, 조사 등등
→ 이를 활용하여 분석에 쓰이지 않는 품사(ex. 조사)들은 따로 제거가 가능함
말뭉치
# Kolaw 말뭉치 로드
>>> from konlpy.corpus import kolaw
>>> c = kolaw.open('constitution.txt').read()
>>> print c[:10]
대한민국 헌법
유구한 역사와
# Kobill 말뭉치 로드
>>> from konlpy.corpus import kobill
>>> d = kobill.open('1809890.txt').read()
>>> print d[:15]
지방공무원법 일부개정법률안