[2014_CVPR] DeepPose: Human Pose Estimation via Deep Neural Networks

Abstract

이 논문은 딥러닝 기반의 사람의 자세 추정 방법을 제안한다. 자세 추정은 신체 관철에 대한 딥러닝 기반의 회귀 문제로 나타내어진다. 논문은 Cascade 방식의 딥러닝 regressor로 높은 정확도를 얻었다. 이 방법은 자세에 대한 전체론적인 추론이라는 장점이 있으며, 단순하지만 딥러닝을 활용하는 매우 강력한 포뮬레이션이다.

1. Introduction

자세 추정 문제는 strong articulations(?? 강한 관절??), 작고 거의 보이지 않는 관절과 가려지거나 맥락을 찾아야 하는 이유 문제로 매우 도전적인 문제영역이다.

우리는 자세 추정 문제를 결합 회귀 문제(joint regression problem)로 공식화 하였다. 신체의 각 관절의 위치는 전체 이미지를 입력으로 하는 7개 층의 일반적인 Convolution DNN을 통해 회귀(regressed)된다. 이러한 포뮬레이션에는 두가지 이점이 있다.

첫번째, DNN은 각 신체 관절에 대해서 전체 context를 capture할 수 있다. 두번째, 이 방법은 Graphical 모델 기반의 방법에 비해 훨씬 단순하다. - Feature Representation와 검출기(detector)를 디자인할 필요 없다.

논문에서는 cascade 방식의 딥러닝 자세 추정기를 제안한다. 이러한 cascade는 joint localization의 정밀도를 높힐 수 있다.

전체 이미지에 대한 초기 자세를 추정하는 것으로 시작한다.
고해상도의 부분 이미지를 통해 joint 예측치를 정제하는 DNN 기반의 regressor를 학습한다.

3. Deep Learning Model for Pos Estimation

k : # of body joints x : Image data y : Ground truth pose vector y_i : (x, y) coordinate of the i th joint

우리는 자세 벡터의 모든 k개 신체 관절의 위치를 encode하여 아래와 같이 나타냄

이때 y_i의 좌표는 아래 식과 같이 normalize한 N(y_i, b)로 사용되며, 이때 b는 사람의 신체에 대한 바운딩박스를 의미한다.

b = (b_c, b_w, b_h), b_c : center of bounding box, b_w : width of b, b_h : height of b

그리고 동일한 정규화 과정을 Pose Vector 인자 모두에 적용하여 normalized pose vector를 얻는다.