초록

<aside> <img src="/icons/pencil_gray.svg" alt="/icons/pencil_gray.svg" width="40px" />

</aside>

도입

기존의 이미지 인식 연구는 수만 장 수준의 작은 데이터 셋에 의존했으나, 현실의 복잡한 객체들을 인식하기에는 한계가 있었음

ImageNet과 같이 수백만 장의 라벨링된 고해상도 이미지를 포함하는 대규모 데이터 셋의 수집이 가능해짐 → 이렇게 늘어난 객체들을 학습하기 위해 대규모 학습 용량을 가진 모델이 필요했음

CNN은 층 깊이와 너비를 조절 가능하여 이를 통제하는 최적의 모델로 선택됨

기존 연구와의 차별점

ReLU 함수 최초 도입: 기존 신경망의 포화 비선형 함수를 비포화 비선형 함수인 ReLU로 대체하여 대규모 CNN의 훈련 속도를 획기적으로 개선함.
다중 GPU 병렬 훈련: 120만 개의 훈련 예제와 6,000만 개의 파라미터를 가진 모델을 단일 GPU로는 처리할 수 없어, 두 개의 GPU에 분산하여 병렬 훈련하는 구조를 설계함.
과적합 방지 기법: 모델 크기로 인한 과적합을 방지하기 위해 데이터 증강과 드롭아웃 정규화 기법을 도입함.

아키텍처

5개의 합성곱 계층과 3개의 완전 연결 계층으로 구성된 총 8개의 층을 가짐

마지막 완전 연결 계층의 출력은 1000-way Softmax로 전달되어 1,000개 클래스 라벨에 대한 분포를 생성함.
GPU 분산 구조**:** 네트워크의 커널을 두 개의 GPU에 나누어 배치하며, 특정 계층에서만 통신하도록 설계함.
- 2, 4, 5번째 합성곱 계층의 커널은 동일 GPU 내 이전 계층의 커널 맵과만 연결됨.
- 3번째 합성곱 계층과 모든 완전 연결 계층은 이전 계층의 모든 뉴런과 연결됨.
1, 2번째 합성곱 계층 직후에 응답 정규화계층이 배치됨.
정규화 계층 직후와 5번째 합성곱 계층 직후에 최대 풀링 계층이 위치함.
모든 합성곱 계층 및 완전 연결 계층의 출력에 ReLU 비선형성이 적용됨.

주요 기법 및 수식