Linear & Polynomial Regression
Linear Regression 선형 회귀
그렇다면 우리는 주어진 데이터 가장 잘 설명할 수 있는 최고의 경계선을 어떻게 찾을 수 있을까?
→ Linear Regression : 주어진 데이터를 설명할 수 있는 최적의 직선 모델을 찾아 값을 예측하는 과정

-
점 3개가 주어졌다고 생각해보자. 그랬을 때 best-fit line을 f(x)라고 해보자.
- w = (w0, w1)은 계수다. w를 찾아내는 것이 목표
점 3개 모두 각 x값에 대해서 y값이 경계선(직선)과 최대한 가까워야만 직선이 주어진 데이터를 더 잘 설명한다고 할 수 있을 것이다.
→ 최대한 가까울려면 각 x값에 대해서 f(x)와 y사이의 직선 거리가 최소가 되어야 한다.
- 직선거리라 단순 - 빼기로 구현이 가능하고, 절댓값보다는 제곱이 더 계산에 편리하다.
공식은 다음과 같다.

Error Function

- 직선거리 제곱의 최소화를 위해 각 데이터에 대한 직선거리 제곱을 모두 합한 함수 E를 정의했다.
- E를 직접 점을 대입해서 구한 값은 위와 같다.
- 함수 E는 w에 대한 최고차항이 양수인 2차 함수다. (x,y)는 대입을 통해 상수처럼 취급 됌
- 어떤 함수가 최솟값을 갖는 지점을 알고 싶으면 기울기가 0인 지점을 찾으면 된다. → 미분

- 이렇게 해서 w를 찾을 수 있다.
- w를 원래 f(x)에 대입해주면 데이터를 가장 잘 설명할 수 있는 직선 모델을 찾은 것이다.

질문이 있어!
만약 f(x)가 직선이 아닌 다른 2차 함수와 같은 곡선이면 어떻게 해?

→ 그래도 상관 없다. 위의 E 식에서 f에 x,y값을 대입하면 w에 대한 1차 선형 함수가 나올 것이다.