3장_분류
3.3 성능 측정
- 분류기 평가는 회귀 모델보다 더 어렵고, 다양한 지표가 사용된다.
3.3.1 교차 검증을 사용한 정확도 측정
3.3.2 오차 행렬(Confusion Matrix)
3.3.3 정밀도와 재현율
3.3.4 정밀도/재현율 트레이드오프
3.3.5 ROC 곡선
3.4 다중 분류
- 이진 분류기 : 두 개의 클래스 구별
- 다중 분류기 : 둘 이상의 클래스 구별
- OvR/OvA(One vuersus the rest/All)
- 각 클래스에 대해 이진 분류기를 훈련 시킴
(MNIST 예시: 10개의 이진 분류기가 각각 ‘0이다/아니다’ 등의 점수 계산
- 각 분류기기의 결정 점수 중 가장 높은 것을 클래스로 선택
- 대부분의 이진 분류 알고리즘에서 선호
- OvO(One versus One)
- 각 클래스 쌍마다 이진 분류기를 훈련
(MNIST 예시: 0과 1을 구별, 0과2를 구별하는 분류기… 등 모든 가능한 짝에 대해 분류기 생성)
- 클래스가 N개이면, 분류기는 N x (N-1)/2 개가 필요
- 장점: 각 분류기의 훈련에 전체 훈련 세트 중 구별할 두 클래스에 해당하는 샘플만 있으면 됨 (작은 훈련 세트에서 많은 분류기 훈련)
→ 훈련 세트 크기에 민감한 알고리즘에서는 더 빠를 수 있음
3.5 오류 분석
데이터 준비 단계에서 여러 모델을 시험해보고 가능성이 높은 모델을 하나 찾았다면 이 모델의 성능을 향상시키기 위해 생성된 오류의 종류를 분석
(1) 오차 행렬 시각화
(2) 오차 행렬 정규화