딥페이크(deepfake) 영상을 실시간/엣지(edge) 환경에서도 구동하는 것을 목표로, 얼굴 영역에 집중하는 비교적 단순한(lightweight) 딥러닝 파이프라인을 제안하고, 대표 벤치마크(Celeb-DF v2, DFDC)에서 성능(Accuracy, F1 등)과 효율(파라미터 수, GFLOPs, 학습 시간)을 함께 비교해 정확도-효율 균형을 제시한 연구.
출처: https://www.mdpi.com/2227-7390/13/19/3088
얼굴 crop 기반 전처리 + MobileNet v1(공간 특징) + CBAM(attention) + GRU(시간 특징) 조합으로, 더 무거운 모델(Transformer 계열, 대형 CNN+RNN 계열)과 일부 데이터셋에서 유사한 성능을 달성하면서 계산량을 줄일 수 있다.
프레임 단일 이미지 분류만으로는 한계가 있고, 영상에서 발생하는 시간적 불일치(temporal artifacts)를 반영하는 모듈이 중요함을 GRU ablation으로 제시한다.
실시간을 지향하나, 제시된 실제 처리량(FPS)은 전형적 실시간(10–20 FPS) 수준에 못 미치며, 이는 논문에서도 명시한다.