논문 요약:

딥페이크(deepfake) 영상을 실시간/엣지(edge) 환경에서도 구동하는 것을 목표로, 얼굴 영역에 집중하는 비교적 단순한(lightweight) 딥러닝 파이프라인을 제안하고, 대표 벤치마크(Celeb-DF v2, DFDC)에서 성능(Accuracy, F1 등)과 효율(파라미터 수, GFLOPs, 학습 시간)을 함께 비교해 정확도-효율 균형을 제시한 연구.

출처: https://www.mdpi.com/2227-7390/13/19/3088

1. 논문이 주장/입증하는 내용

핵심 주장

얼굴 crop 기반 전처리 + MobileNet v1(공간 특징) + CBAM(attention) + GRU(시간 특징) 조합으로, 더 무거운 모델(Transformer 계열, 대형 CNN+RNN 계열)과 일부 데이터셋에서 유사한 성능을 달성하면서 계산량을 줄일 수 있다.

논리적 근거

프레임 단일 이미지 분류만으로는 한계가 있고, 영상에서 발생하는 시간적 불일치(temporal artifacts)를 반영하는 모듈이 중요함을 GRU ablation으로 제시한다.
실시간을 지향하나, 제시된 실제 처리량(FPS)은 전형적 실시간(10–20 FPS) 수준에 못 미치며, 이는 논문에서도 명시한다.

2. LightFakeDetect 파이프라인 구성 요소와 역할

전체 처리 흐름(5단 구성)

얼굴 검출/정렬(face detection & alignment)

MTCNN으로 얼굴 검출 후 crop, 입력 크기를 224×224로 정규화

공간 특징 추출(spatial feature extraction)

MobileNet v1으로 프레임별 얼굴 특징(feature map) 추출

특징 강화(feature enhancement)