3장_분류

3.3 성능 측정

분류기 평가는 회귀 모델보다 더 어렵고, 다양한 지표가 사용된다.

3.3.1 교차 검증을 사용한 정확도 측정

3.3.2 오차 행렬(Confusion Matrix)

3.3.3 정밀도와 재현율

3.3.4 정밀도/재현율 트레이드오프

3.3.5 ROC 곡선

3.4 다중 분류

이진 분류기 : 두 개의 클래스 구별
다중 분류기 : 둘 이상의 클래스 구별
- OvR/OvA(One vuersus the rest/All)
  - 각 클래스에 대해 이진 분류기를 훈련 시킴 (MNIST 예시: 10개의 이진 분류기가 각각 ‘0이다/아니다’ 등의 점수 계산
  - 각 분류기기의 결정 점수 중 가장 높은 것을 클래스로 선택
  - 대부분의 이진 분류 알고리즘에서 선호
- OvO(One versus One)
  - 각 클래스 쌍마다 이진 분류기를 훈련 (MNIST 예시: 0과 1을 구별, 0과2를 구별하는 분류기… 등 모든 가능한 짝에 대해 분류기 생성)
  - 클래스가 N개이면, 분류기는 N x (N-1)/2 개가 필요
  - 장점: 각 분류기의 훈련에 전체 훈련 세트 중 구별할 두 클래스에 해당하는 샘플만 있으면 됨 (작은 훈련 세트에서 많은 분류기 훈련) → 훈련 세트 크기에 민감한 알고리즘에서는 더 빠를 수 있음

3.5 오류 분석

데이터 준비 단계에서 여러 모델을 시험해보고 가능성이 높은 모델을 하나 찾았다면 이 모델의 성능을 향상시키기 위해 생성된 오류의 종류를 분석

(1) 오차 행렬 시각화

(2) 오차 행렬 정규화