Label을 보존하는 변환을 통해 인위적으로 훈련 데이터 셋의 크기를 늘려 과적합을 줄이는 기법.
이 과정은 GPU가 이전 배치를 훈련하는 동안 CPU에서 파이썬 코드로 변환 이미지를 생성하므로, 변환된 이미지를 디스크에 저장할 필요가 없음
CNN 논문에서는 두 가지 방식을 사용함.
- 이미지 이동 및 좌우 반전 (Translations and Horizontal Reflections)
- $256 \times 256$ 크기의 원본 이미지에서 $224 \times 224$ 크기의 패치를 무작위로 추출하고 좌우 반전하여 훈련에 사용함. → 훈련 세트의 크기를 증가
- 테스트 시에는 이미지의 4개 모서리와 중앙에서 5개의 패치를 추출하고, 각각을 좌우 반전하여 총 10개의 패치를 생성함.
- 10개 패치에 대한 소프트맥스 예측값을 평균 내어 최종 결과를 도출함.
- RGB 채널 강도 변경 (Altering RGB Intensities)
- ImageNet 훈련 셋 전체의 RGB 픽셀 값에 대해 주성분 분석(PCA)을 수행함.
- 찾아낸 주성분에 고유값과 평균 0, 표준편차 0.1인 가우시안 무작위 변수를 곱한 값을 기존 픽셀에 더함.
- 이를 통해 객체의 정체성이 조명의 강도나 색상 변화에 영향받지 않는다는 자연 이미지의 중요한 특성을 모델이 학습하게 됨.
- 이 방식으로 Top-1 에러율을 1% 이상 감소시킴.