(4) 자연어 처리 활용 - 감성분석

분석기법 (1) 비지도학습 기반 감성분석

0. 개요

IMDB 영화평 데이터

labeledTrainData.tsv
보통 label이 분류되어있지 않은 데이터에 활용
비지도 감성분석은 Lexicon 기반
- Lexicon이란? 일반적으로는 어휘집을 의미하나, 이 파트에서는 긍정감성(positive) 혹은 부정감성(negative)의 정도를 의미하는 수치를 가진 감성 사전으로써 활용할 예정임
- 위의 수치들을 '감성 지수(Polarity Score)'로 표현 가능
대표 패키지 NLTK
- WordNet 모듈 : semantic분석을 제공하는 영어 어휘 사전
- semantic : 문맥상 의미
  
  ex) present는 선물? 현재?
- 따라서, 개별 단어를 이러한 문맥상 의미를 담고 있는 'Synset' 이라는 개념으로 표현함

SentiWordNet

(0) ipynb :

SentiWordNet.ipynb

(1) 개념 : NLTK의 WordNet과 유사하게 WordNet의 감성 단어 사전을 구현한 것

(2) WordNet 활용
- Synset 객체 형성
- 어휘 간 관계 확인
(3) 감성지수와 객관성 지수
- SentiSynset은 감성지수와 그 반대인 객관성 지수를 지님
- 감성 지수는 긍정 감성 지수(positive)와 부정 감성 지수(negative)로 구성
(4) SentiWordNet을 이용한 영화 감상평 감성 분석
- Document를 Sentence 단위로 분해
- Sentence를 Word단위로 분해(=토큰화)
- 토큰에 품사 tagging
- 품사가 tagging된 단어 기반으로 synset객체와 senti_synset객체 생성
- senti_synset를 통해 긍정, 부정 감성 지수를 구하고 총점이 특정 값 이상이면 긍정 감성, 미만이면 부정 감성으로 분류
(5) 한계
- 예측 성능이 그리 뛰어나지 않음
VADER

(0) ipynb :

vader.ipynb

(1) 개념
- 10명의 사람이 해당 단어에 매긴 감정점수를 기반
- 두 번째 컬럼이 평균
- 한 글자로 이루어진 단어는 제외
  
  ex) i, a, ..
- 부정적 동사가 있으면 -0.74의 가중치를 곱함 ex) cannot, aren't
- 대문자는 강조의 의미로 positive일 경우 +0.733, nagative인 경우 -0.733
- 부사같은 단어들은 명사에 가중치를 부여. positive일 경우 +0.293, negative일 경우 -0.293
- 수식어의 위치에 따라 다른 가중치가 부여됨, 단어와 가까운 수식어가 더 높은 점수를 받음
- but의 경우 내용의 반전이기 때문에 단어의 앞에 있을 경우 0.5를 곱하고 뒤에 있을경우 1.5를 곱함
- 이렇게 계산된 값을 -1~1 사이로 normalize함
(2) 활용
- Sentiment Intensity Analyzer클래스로 감성분석하기
- 미세한 차이에 따른 강도 변화 확인
  
  ex) 대문자와 소문자
- emoji도 가능!
(3) Sentiwordnet과의 비교
- 정확도가 약간 향상, 재현율은 매우 크게 향상

3. Pattern

아직 파이썬3버전에서는 완벽하게 지원하지 않음

분석기법 (2) 지도학습 기반 감성분석

학습 데이터와 타깃 레이블 값을 기반으로 감성 분석 학습을 수행 ex) 로지스틱 회귀, 딥러닝
학습한 모델로 다른 데이터의 감성분석을 예측하는 방식
머신러닝을 이용할 수 있게 텍스트데이터를 숫자 데이터로 변환 ex) CountVectorizer, TF-IDF Vectorizer 등등

CountVectorizer

단어들의 카운트(출현 빈도)로 text를 벡터화
fit method를 이용 길이가 1인 단어, 마침표는 제외

corpus = [
    '한글도 되나요?',
    '한글은 안 되는 거 같은데',
    '안 되나요',
    '영어는 되나요?',
    '영어는 되네요'
]
vect = CountVectorizer()
vect.fit(corpus)
vect.vocabulary_

transform method를 이용해서 변환

vect.transform(['한글도 되나요?']).toarray()

숫자가 클수록 중요한 단어로 인식

TF-IDF Vectorizer
- 단어 빈도-역 문서 빈도xj
- 기존의 CountVectorizer는 단어의 빈도수를 기반으로 하기 때문에, 의미없는 조사, 관사 등의 높은 수치를 부여할 수 있음
- 이러한 단점을 해결하기 위해 여러 문서(문장)에서 많이 등장하는 단어(a, the)들은 패널티를 부여
- 반대로 하나의 문서에서 많이 나오는 단어가 여러문서에서 많이 등장하지 않는다면 그 단어는 문서에서 중요한 비중을 차지
- TF 1개 문서 안에서 특정 단어의 등장 빈도 숫자가 클수록 의미가 있음
- DF 특정단어가 나타나는 문서 수
- IDF 전체문서수에 DF를 나누고 log로 스케일한 값, 큰 값이 작은 값으로 확 줄어들기 때문에 많이 등장하는 단어에 패널티를 부여할 수 있음
$$ idf = log(n/(1+df)) $$
- TF-IDF TF와 IDF를 곱한 값, 단어별로 가중치를 부여해서 중요한 값이 큰 값을 가짐
```
corpus = [
    '한글도 되나요',
    '한글은 안 되는 거 같은데',
    '안 되나요',
    '영어는 되나요',
    '영어는 되네요'
]
tfvect = TfidfVectorizer()
tfvect.fit(corpus)
tfvect.transform(['한글도 되나요']).toarray()
```
IMDB 영화평 데이터
한글 데이터에도 적용해보기