https://s3-us-west-2.amazonaws.com/secure.notion-static.com/73245338-d1bb-496f-912b-087396e2f030/Untitled.png

Abstract

우리는 이미지의 작은 영역에서 joint offset 위치를 추정하게끔 학습된 효율적인 '자세 refinement' 모델을 제안한다.

Refinement 모델은 사람 관절 위치 추정의 정확도를 향상시키기 위해 최신 ConvNet 모델[21]의 cascade 방식으로 학습된다.

1. Introduction

Human body part localization Task의 최근 성능은 CNN 아키텍쳐와 크고 방대한 데이터셋이 가능해짐으로써 향상되었다. CNN 구조에 사용되는 strided-pooling layer를 사용함으로써 local input transformation에 대한 불변성을 향상시킬 수 있다. 이러한 방법은 image classification에서 중요하며, 계산 복잡도를 줄이면서 over-training 하는 것을 막을 수 있다.

이 논문에서는 큰 연산 없이 단안 RGB 이미지에서 높은 공간 정확도를 달성하는 사람의 관절을 효율적으로 찾아내기 위한 CNN 아키텍쳐를 제안한다.

이 모델은 높은 공간 정확도를 유지하면서 계산 효율성을 위해 더 많은 pooling을 사용할 수 있다.

Coarse한 body part localization을 위해서 CNN 아키텍쳐를 제안한다. 이 네트워크는 저해상도 per-pixel 히트맵을 출력하며, 이는 각 위치에서 관절이 있을 가능성(우도, likelihood)를 나타낸다.

우리는 노이즈와 local image transformation에 대한 invariance를 향상시키고, 차원 감소를 위해 convolutional 아키텍쳐에서의 max-pooling 레이어의 역할을 정성적으로 평가와 논의하기 위한 플 랫폼으로써 이 아키텍쳐를 사용한다.

Localization 정확도를 향상시키기 위해 coarse heat-map regression model의 hidden layer CNN feature를 재사용하는 네트워크 아키텍쳐를 제안한다.

이 모델들의 joint 학습을 통해서, 우리는 최근 SOTA 성능을 달성하였다.

3. Coarse Heat-Map Regression Model

3.1. Model Architecture

Coarse Heat-map regression model은 3개 레벨의 RGB 가우시안 피라미드 이미지를 입력으로 하고, 출력은 heat-map으로 픽셀마다 각 관절이 위치할 가능성(likelihood)를 나타낸다.

위 그림에서는 네트워크의 입력을 2개 층의 Pyramid Images로 표현함.

위 그림에서는 네트워크의 입력을 2개 층의 Pyramid Images로 표현함.