Multi-STMT: Multi-Level Network for Human Activity Recognition Based on Wearable Sensors

(8) Multi-STMT_Multi-Level_Network_for_Human_Activity_Recognition_Based_on_Wearable_Sensors.pdf

HAR에서 중요한 것은 단순히 센서 값을 받아 분류하는 것이 아니라 어떤 시간 구간이 중요한지, 어떤 센서 축이 중요한지, 짧은 변화와 긴 변화 패턴을 동시에 어떻게 잡을지 학습하는 것이다.

따라서 이 논문은 웨어러블 센서 기반 HAR에서 서로 비슷한 활동을 더 잘 구분하기 위해 CNN + BiGRU + Multiscale Temporal Embedding + Spatiotemporal Attention + Residual Connection 구조를 가진 Multi-STMT 모델을 제안한다.

1. 기존 문제는 무엇인가?

문제 1: 사람이 직접 feature 설계

전문가의 도메인 지식에 의한 추출된 feature는 특정 dataset에만 강하게 의존하게 됨

→ 따라서 일반화 성능이 제한, 비슷한 활동 간 차이 잡기 어려움

문제 2: 기존 CNN의 고정된 kernel size

기존 CNN은 고정된 kernel size로 행동 패턴을 추출

→ 따라서 빠른 변화가 중요한 행동과 긴 흐름이 중요한 행동을 하나의 kernel size로 다양한 시간 scale을 반영하기 어려움

문제 3: 기존 CNN-RNN의 한계

CNN이 고정된 kernel size의 사용으로 다양한 시간 scale을 반영한 특징 추출 어려움
활동별 중요한 센서 채널에 대한 중요도 부족

(walking 동작 → accelerometer, 방향 전환 동작 → gyroscope)
모든 time step이 중요하지 않음,활동에 따른 중요한 센서 채널에 대한 중요도 부족
깊은 모델에서 gradient vanishing과 feature loss 문제 발생

2. 이 논문의 핵심 아이디어(Novelty)

<aside> 💡

핵심 novelty는 HAR 센서 데이터의 특징을 시간 scale, sensor channel, time step, temporal context로 나누어 보고, 각각에 맞는 모듈을 설계

</aside>

활동마다 중요한 시간 범위가 다름 → Multiscale Temporal Embedding 방식 사용