Intro
- 이 그래프에서 오차가 가장 작은 점은
- 기울기 a가 m 위치에 있을 때
- m 값을 구하려면 임의의 한 점($a_1$)을 찍고 이 점을 m에 가까운 쪽으로 점점 이동($a_1\rightarrow a_2\rightarrow a_3$)시키는 과정이 필요하다
경사 하강법(gradient descent)
- 그래프에서 오차를 비교하여 가장 작은 방향으로 이동시키는 방법
- 미분 기울기를 이용
1. 경사 하강법의 개요
-
미분
-
최솟값 m에서의 순간 기울기
- 꼭짓점의 기울기는 x축과 평행한 선
- 기울기가 0이다
- 할일은
미분 값이 0인 지점
을 찾는 것
- $a_1$에서의 미분을 구한다
- 구해진 기울기의 반대 방향으로 얼마간 이동시킨 $a_2$에서 미분을 구한다
- 위에서 구한 미분 값이 0이 될 때까지 반복한다
- 경사 하강법은 이렇게 반복적으로 기울기 a를 변화시켜서 m의 값을 찾아내는 방법
2. 학습률 (learning rate)
- 기울기의 부호를 바꿔 이동시킬 때 적절한 거리를 찾지 못해 너무 멀리 이동시키면 a값이 한 점으로 모이지 않고 치솟아 버린다.
학습률
- 이동 거리를 정해주는 것
- 딥러닝에서 학습률의 값을 적절히 바꾸면서 최적의 학습률을 찾는 것은 중요한 최적화 과정 중 하나이다.
경사 하강법
- 오차의 변화에 따라 이차 함수 그래프를 만들고 적절한 학습률을 설정해 미분 값이 0인 지점을 구하는 것