초록
<aside>
<img src="/icons/pencil_gray.svg" alt="/icons/pencil_gray.svg" width="40px" />
</aside>
도입
기존의 이미지 인식 연구는 수만 장 수준의 작은 데이터 셋에 의존했으나, 현실의 복잡한 객체들을 인식하기에는 한계가 있었음
ImageNet과 같이 수백만 장의 라벨링된 고해상도 이미지를 포함하는 대규모 데이터 셋의 수집이 가능해짐 → 이렇게 늘어난 객체들을 학습하기 위해 대규모 학습 용량을 가진 모델이 필요했음
CNN은 층 깊이와 너비를 조절 가능하여 이를 통제하는 최적의 모델로 선택됨
기존 연구와의 차별점
- ReLU 함수 최초 도입: 기존 신경망의 포화 비선형 함수를 비포화 비선형 함수인 ReLU로 대체하여 대규모 CNN의 훈련 속도를 획기적으로 개선함.
- 다중 GPU 병렬 훈련: 120만 개의 훈련 예제와 6,000만 개의 파라미터를 가진 모델을 단일 GPU로는 처리할 수 없어, 두 개의 GPU에 분산하여 병렬 훈련하는 구조를 설계함.
- 과적합 방지 기법: 모델 크기로 인한 과적합을 방지하기 위해 데이터 증강과 드롭아웃 정규화 기법을 도입함.
아키텍처

5개의 합성곱 계층과 3개의 완전 연결 계층으로 구성된 총 8개의 층을 가짐
- 마지막 완전 연결 계층의 출력은 1000-way Softmax로 전달되어 1,000개 클래스 라벨에 대한 분포를 생성함.
- GPU 분산 구조**:** 네트워크의 커널을 두 개의 GPU에 나누어 배치하며, 특정 계층에서만 통신하도록 설계함.
- 2, 4, 5번째 합성곱 계층의 커널은 동일 GPU 내 이전 계층의 커널 맵과만 연결됨.
- 3번째 합성곱 계층과 모든 완전 연결 계층은 이전 계층의 모든 뉴런과 연결됨.
- 1, 2번째 합성곱 계층 직후에 응답 정규화계층이 배치됨.
- 정규화 계층 직후와 5번째 합성곱 계층 직후에 최대 풀링 계층이 위치함.
- 모든 합성곱 계층 및 완전 연결 계층의 출력에 ReLU 비선형성이 적용됨.
주요 기법 및 수식