Innovative Dual-Decoupling CNN With Layer-Wise Temporal-Spatial Attention for Sensor-Based Human Activity Recognition

< 논문 정보 >

제목 : Innovative Dual-Decoupling CNN With Layer-Wise Temporal-Spatial Attention for Sensor-Based Human Activity Recognition
게재지 : IEEE Journal of Biomedical and Health Informatics
발행일 : 2025년 2월
제안 모델 : CNN-TSFDU-LW
데이터셋 : UCI-HAR / PAMAP2 / WISDM / UNIMIB-SHAR

< 논문 분석 및 요약 >

기존 HAR 어텐션 모델들은 시간과 공간 정보를 하나의 벡터로 통합하여 처리하는 경향이 있다. 이로 인해 센서의 채널(공간)과 시점(시간) 간의 복잡한 상관관계가 단순화되어, 특정 시간에 특정 채널이 보이는 고유한 특징이 희석되는 한계을 가진다.

본 논문에서는 해당 문제의 해결을 위해 시간 정보와 공간 정보를 독립적으로 병렬 처리하는 TSFDU(Temporal-Spatial Feature Decoupling Unit)을 제안한다.

TSFDU는 시계열 데이터의 긴 흐름 속에서 **‘어느 시점에 행동이 일어났는가(시간적 의존성)’**과 **‘어느 센서 채널이 가장 큰 정보를 주는가(공간적 상관관계)’**을 분리하여 각 층마다 독립적으로 병렬 처리한다. 이렇게 얻은 시간 가중치(T)와 공간 가중치(S)를 Kronecker Product으로 하나씩 모두 각각 곱하여 **“어느 시점의 어느 센서 데이터가 행동 인식에 결정적이다”**라는 고차원적인 판단을 내릴 수 있게 한다.

또한, 연산 및 메모리 효율성을 극대화하기 위해 Layer-wise training 방식을 도입하였다. 각 층마다 Local loss block을 배치하여 TSFDU의 오차를 실시간으로 계산 및 가중치 업데이트를 처리함으로써, 기존 역전파의 ‘Backward Locking’ 문제를 해결하였다.

<aside> 💡

Novelty

결론적으로 본 논문은 ‘TSFDU’ 시공간 정보의 분리 학습을 통해 특징 추출의 퀄리티를 높였고, 동시에 ‘Layer-wise’ 각 층마다 독립적으로 학습함으로써 학습 속도와 메모리 효울성을 극대화 시켰다는 것.

</aside>

Backward Locking

< 모델 구조 및 전체 흐름 >

전체 구조

핵심 구조 : TSFDU + Local Loss Block