최근 딥러닝 기반의 Transformer 모델은 자연어처리, 이미지처리 분야뿐만 아니라 시계열 탐지 분야에서도 놀라운 성능을 발휘하고 있다. 전통적으로 시계열 데이터 분석에는 주로 ARIMA (Auto-regressive Integrated Moving average Model),RNN, LSTM 등의 통계적 방법과 딥러닝 기법들이 사용되었다. 그러나 최근에 이러한 시계열 작업들에 Transformer 모델이 도입되면서 여러 분야에서 뛰어난 성능을 나타내고 있다. Transformer 모델은 단어와 문장 간의 상대적 위치 정보를 고려하는 Attention 메커니즘을 통해 과거의 데이터 패턴을 파악하고 미래의 시계열 데이터를 예측할 수 있는 강력한 과거의 데이터 패턴을 파악하고, 이를 바탕으로 시계열 데이터에서 이상치를 효과적으로 탐지할 수 있는 강력한 도구로 자리잡았다.
Transformer 모델은 머신러닝 모델이나 예전의 딥러닝 모델들보다 개선된 점이 있다. 기존의 순환신경망 기반 모델들은 시계열 데이터를 처리할 때, 긴 시퀀스의 정보를 전달하기 어렵고 연산 속도가 느리다는 단점이 있었다. 그러나 Transformer 모델은 Attention 메커니즘을 통해 더 긴 시퀀스를 처리할 수 있으며, 병렬 처리를 통해 연산 속도를 크게 향상시켰다.
<aside> 🛠 Transformer 아키텍처에서 Attention 메커니즘은 시계열 데이터의 각 요소에 대한 가중치를 계산하는데 사용되며, 이를 통해 모델이 특정 시점의 정보에 집중하도록 돕는 기능을 수행한다. 이 메커니즘은 시계열 데이터 내의 모든 요소 간의 상호 관련성을 측정하여, 중요한 정보를 더 강조하고 덜 중요한 정보를 줄여서 모델의 전반적인 성능을 향상시킨다. Attention 메커니즘은 Transformer 아키텍처의 핵심 구성 요소로, 다양한 시계열 분석 작업에서 효과적인 결과를 보여준다. 이를 통해 예측, 분류 및 이상치 탐지와 같은 시계열 관련 문제를 더욱 정확하게 해결할 수 있게 되는 방식이다.
</aside>
비지도 학습 시계열 데이터 작업은 레이블이 없는 시계열 데이터를 분석하고 이해하는 데 초점을 맞춘다. 이러한 작업에서는 패턴이나 이상 징후를 찾아내거나, 시계열 데이터의 구조를 알아내는 것이 주요 목표이다. Transformer 모델은 어텐션 메커니즘을 활용하여 비지도 학습 시계열 데이터 작업에서도 높은 성능을 보여주며, 데이터의 복잡한 상관 관계를 파악하여 다양한 시계열 작업에 유용하게 활용되고 있다.
시계열 이상치 탐지를 위한 Transformer 기반 방법론들을 조사한 결과, Anomaly Transformer와 TransAD 두 가지 모델을 후보 모델로 선정하였다. 이 두 모델은 비슷한 시기에 출간되어서 아직 서로간의 성능을 비교한 평가지표는 없다. 두 가지 방법론에 관한 간략한 비교 설명은 아래와 같다.
링크 : https://arxiv.org/abs/2110.02642
Anomaly Transformer 방법론은 기존 다변량 시계열 데이터에서의 이상치 탐지의 한계를 지역적 시계열 특징(Prior Association)과 전반적인 시계열 특징(Series Association)을 활용하여 개선한 방법론이다.
이 모델의 아키텍처에서는 지역적 시계열 특징(Prior Association)과 전반적 시계열 특징(Series Association)을 결합하여 Association Discrepancy를 정의하고, MinMax 전략을 통해 학습하여 기존 다변량 시계열 데이터의 이상치 탐지 한계를 개선한 방법론이다. 이를 통해 정상 데이터가 다수인 시계열 데이터에서 이상치 데이터가 묻히는 경향을 줄일 수 있다. 이를 통해 RNN 기반의 시계열 데이터 분석 방법론에서 불량 데이터가 희소하고 정상 데이터가 다수인 시계열 특성 상 이상치 데이터가 묻히는 경향을 개선할 수 있다.
Anomaly Transformer architecture
해당 모델의 핵심은 Anomaly Attention으로 기존 Transformer의 Multi-head attention 대신 Anomaly Attention을 사용
Prior Association(지역적 시계열)(추가)
Series Association(전반적 시계열)
Anomaly Transformer 장점: