Overfitting and Generalization
Best Model Selection
우리는 다양한 모델을 설정할 수 있다. → KNN, 다항함수 모델.. 등등
하지만, 나는 최고의 모델을 찾아 설정하고 싶다.
Best의 의미가 무엇일까?
0차 다항식? 1차 다항식? 아니면 Error가 없이 딱 들어맞는 것?
Overfitting vs Generalization
⚡ 둘 중 어느것이 데이터에 최고일까? (더좋을까?)

- 0차 < 1차 더 정확하게 데이터를 설명함 → 차수가 높아지면 더 좋을까?
그렇다면 9차 다항 회귀는 어떨까?

- Training error가 0이네 ! → Best일거야 !
❓ 과연 그럴까?


- Underfit : Test E, Train E 둘다 Large
- Overfit : Test E는 Large, Train L는 Small
- 따라서, Test Error가 small인 3번째 모델이 Best model이다! → Generalization이 잘 된 모델
- Good Generalization 좋은 일반화 : 훈련 데이터뿐만 아니라, 새로운 데이터도 잘 예측함(오차 작음)