SGD: Stochastic gradient descent(확률적 경사 하강법)

GD에서는 모든 데이터를 고려하여 미분 값을 계산한다.

하지만 미분 값 계산은 각 데이터에 대해 개별적으로 이루어지기 때문에, 반드시 모든 데이터를 한 번에 확인할 필요는 없다.

따라서, 일부 데이터만 활용하여 미분 값을 계산하여 연산량을 줄일 수 있다.

패턴 모드와 미니 배치 모드의 경사 하강법에는 랜덤 샘플링이 적용되기 때문에, Stochastic(확률적)이라는 수식어를 붙인다.

데이터를 무작위로 선택하여 훨씬 적은 데이터셋으로 평균 값을 추정할 수 있다.

패턴 모드

샘플 하나에 대해 전방 계산을 수행하고 오류에 따라 바로 매개변수 갱신

패턴 별로 매개변수 갱신

epoch가 시작할 때 샘플을 뒤섞어 랜덤 샘플링 효과 발생

하나의 샘플을 확인한 후, 정보를 반영하여 바로 한 걸음 움직인다.

반복이 충분하면 SGD가 효과를 볼 수 있지만, 노이즈가 매우 심해 최저점을 찾지 못할 수도 있다.
미니 배치모드(딥러닝)

배치 모드와 패턴 모드의 중간

훈련 집합을 일정한 크기의 부분 집합으로 나눈 다음 부분 집합별로 처리

부분 집합으로 나눌 때 랜덤 샘플링을 적용한다.

계산 속도가 훨씬 빠르다.

Local Minima에 빠지지 않고, Global Minima에 수렴할 가능성이 더 높다.

batch size

미니배치 모드에서의 매개변수.

배치 크기를 작게 두는 것이 Generalization 성능이 좋다.

배치사이즈가 너무 커지면 Sharp Minimum에 빠지게 된다.

Flat Minimum은 Generalization 성능이 좋다.

반대로, 배치사이즈가 작을수록 noise의 영향력이 커지므로 Sharp Minimum에서 탈출할 확률이 높다.

참고 논문 : On Large-batch Training for Deep Learning : Generalization Gap and Sharp Minima, 2017