1. Introduction
- Semantic segmentation은 computer vision에서 중요하고 흥미로운 분야이지만, 각 class 별로 labeling된 데이터가 필요함
→ weakly supervised method로 해결가능, 하지만 아직 좋은 성능이 나오지 않음
- Pixel-level annotation은 fully supervised semantic segmentation으로 object의 경계에 대한 신뢰도 높은 결과를 도출하고, components 사이의 관계를 얻게 함
- 하지만 Image-level annotation으로 segmentation network를 학습시키는 것은 어려움!
→ Weakly labeled data는 특정 class의 존재 유무만 가리키고 위치나 경계에 대한 정보는 나타내지 않기 때문
→ 그래서 대부분 weakly supervised method는 classification network에서 얻어진 localization map에 의존함
→ 하지만! 그 localization map도 정확한 경계에 대한 표현은 없고, 작은 discriminative 부분에 집중되어있음
FickleNet
- (a) CNN의 hidden unit의 random combination을 이용해 여러 가지의 localization map 생성!
- (b) 각 sliding window position에서 random으로 hidden unit들을 선택

- Sliding window position에서 모든 hidden unit을 선택하는 것 (deterministic approach)은 foreground와 background를 혼동하는 smoothing effect를 만들어 냄
→ 두 영역을 activate 또는 deactivate로 나타냄!
- Hidden unit을 random selection하는 것 (stochastic approach)은 object를 sharply하게 설명하는 다른 모양의 영역들을 생성
→ Random selection하는 FickleNet은 다른 dilation rate의 dilated convolution의 kernel의 모양을 포함하기 때문에, dilated convolution의 기능을 하는 것과 다름없음!
→ Dilated convolution이 각기 다른 dilation rate를 필요로 하는 것과 달리, square array에 대해 제한이 없는 FickleNet은 하나의 network로 다른 scale과 shape으로 object를 매칭!
- 각 sliding window position에서 random hidden unit을 선택하는 것은 CUDA level에서 최적화된 operation이 아님! (selecting, convolving 연산으로 많은 iteration이 필요)
→ FickleNet을 동작시키기 위해 selection 전에 feature map을 확장시켜서 convolution function을 사용할 수 있음! (overlapping 방지!)
→ 확장된 feature map에 dropout을 적용하고, kernel size와 같은 stride로 convolution을 수행
→ 이 연산은 시간을 절약할 뿐 아니라, back-propagate를 위한 parameter가 유지되기 때문에 GPU 메모리도 증가하지 않음
- 많은 network에서 학습 시 stochastic regularization을 적용하지만, inference 시엔 보통 배제함
→ 하지만 FickletNet에서는 inference시에도 포함해서 다양한 localization map을 생성
→ FickleNet으로 생성된 localization map은 segmentation network의 학습에서 pseudo-label로 사용
2. Related Work
- Weakly supervised semantic image segmentation에 대해 최근 소개되는 방법들은 좋은 결과를 내고 있음
- **Class activation map(CAM)**은 image-level annotation으로 pixel을 분류하는 좋은 시작
→ CAM은 neural net에서 각 hidden unet이 classification score에 기여함을 발견
→ 하지만, CAM은 object의 small discriminative region에 집중되는 경향이 있음
→ 최근 소개된 weakly supervised method는 CAM의 region을 확장함
2.1. Image-level Processing