제목: SlowFast Spatial-Temporal_Transformer

작성자: Hyeonu Seol (설현우)

Undergraduate Student, Tech University of Korea, shw8128@tukorea.ac.kr


0. 요약

성능 향상을 위한 Two Stream Spatial-Temporal Transformer 연구

0-1. 연구 목적

<aside>

행동 사전 지식을 활용해 모델의 학습 효율성을 높이고 Two Stream의 SlowFast 구조를 사용하여 정확도와 효율성의 균형을 달성하고자 한다.

</aside>

0-2. 제안 방법론

<aside>

Two Stream에서 처리하는 방식에 차이를 둔다. 그리고 이 두 Stream 사이에 Connection을 두어 상호 정보 교환을 통해 시공간 특징을 융합한다.

  1. Fast Stream: 높은 시간 해상도와 낮은 채널 수를 가진 Stream이다. 급격한 움직임을 포착한다.
  2. Slow Stream: 낮은 시간 해상도와 높은 채널 수를 가진 Stream이다. 전체적이고 의미적인 정보를 학습한다.
  3. GRL: Gradient Reversal Layer를 통해 피험자 및 시점 변화에 강건한 도메인 불변 특징을 학습한다.
  4. Input Feature: 12차원 벡터(Bone, Velocity, Relative Center, Relative to Other)를 사용하여 모델이 얕은 구조에서도 행동 패턴을 쉽게 학습하도록 유도한다. </aside>

0-3. 핵심 결과

<aside>

NTU RGB+D 데이터셋에서 다른 모델 대비 낮은 성능을 달성했고 큰 연산량 절감 효과도 보지 못했다.

</aside>

모델 이름 정확도 (Xview) $\mathbb{E}_1$ 정확도 (Xsub) $\mathbb{E}_1$ 파라미터 수 연산량
Ours 91.19% 85.54% 1.89M 3.28G
Skateformer 97% 92.6% 2.03M 3.62G
HD-GCN 95.7% 90.6% 1.66M 3.44G
FR-Head(GCN) 95.3% 90.3% 1.45M 3.60G

0-4. 실험 분석 및 한계

<aside>

Transformer 모델인 SkateFormer에 비해 연산량과 파라미터 수가 낮지만 정확도가 5.81%, 7.16%p 낮다. 그리고 GCN 기반 모델들에 비해 파라미터 수는 많고 연산량은 적지만 정확도가 약 4.6%p, 5%p 낮다.

이 모델은 Two Stream을 통해 모델이 보는 시간축을 다르게 해서 행동 인식 정확도를 향상시키고자 했으나 높은 정확도를 달성하지 못했다.

</aside>

1. Abstract

<aside>

이 연구는 Skeleton-based Action Recognition의 정확도와 연산 효율성을 확보하기 위해 SlowFast Spatial-Temporal Transformer 모듈을 제안한다. 이 모델은 원시 좌표 대신 척추 길이로 정규화된 12채널의 물리학적 특징 벡터인 Bone, Velocity, Relative Center, Relative To Other Vector를 입력으로 사용한다. 이를 통해 신체 구조의 위상 정보와 움직임 정보를 명시적으로 학습한다.

제안하는 네트워크는 시간적 해상도와 채널 용량을 비대칭적으로 설계한 두 개의 스트림으로 구성된다. Fast Stream은 높은 시간 해상도(T/2)와 낮은 채널 차원을 유지하여 급격한 움직임을 포착하며, Slow Stream은 낮은 시간 해상도(T/4)와 깊은 채널 차원을 통해 거시적인 행동의 의미를 학습한다. 두 스트림은 측면 연결을 통해 상호 정보를 교환하며 시공간적 특징을 통합한다. 또한, 피험자 및 시점의 변화에 강건한 특징을 학습하기 위해 Gradient Reversal Layer (GRL)를 적용하여 도메인 불변성을 강화하였다.

NTU RGB+D 60 데이터셋을 이용한 실험 결과, 제안 모델은 X-View 91.19%, X-Sub 85.54%의 정확도를 달성하였다. 특히 3.28 GFLOPs의 낮은 연산량과 200 FPS의 빠른 처리 속도를 기록하여, 경량화된 구조로도 높은 성능과 실시간성을 확보할 수 있음을 입증하였다.

</aside>


2. 아이디어 및 모델 구조

image.png