가짜 영상을 잡아라! 딥러닝이 딥페이크를 해부하다

가짜가 진짜를 흉내 내는 세상이다. 정치인도 연예인도 평범한 일반인도, 한 번 찍힌 얼굴은 누군가의 손에서 ‘딥페이크’ 영상으로 둔갑한다. 눈 깜짝할 새 가짜 뉴스가 퍼지고, 신뢰는 무너진다.

점점 더 정교해지는 딥페이크 기술에 맞서 연구진은 새로운 무기를 들고 나왔다. 인도의 벨로르 공대 연구팀은 ‘RLNet’이라는 딥러닝 모델을 만들었다. 이 모델은 ResNet과 LSTM, 두 가지 딥러닝 기법을 결합해 가짜 영상을 찾아낸다. 정교한 눈과 긴 기억력을 가진 AI 탐정이 등장한 셈이다.

가짜를 가려내는 두 개의 눈: ResNet과 LSTM

딥페이크 탐지는 ‘어디가 이상한지’를 찾는 싸움이다. 기존 방법은 주로 이미지 한 장의 픽셀, 즉 공간 정보만 봤다. 하지만 영상은 연속된 장면이 핵심이다. 한 프레임만 보고는 못 잡는 미묘한 이상 징후가 시간 흐름에 숨어있기 때문이다.

RLNet은 여기서 두 마리 토끼를 잡았다. 먼저 ResNet은 각 프레임(이미지)에서 미세한 조작 흔적을 찾는다. 빛 번짐, 질감 왜곡, 얼굴 주름의 부자연스러움 같은 디테일을 집어낸다. 이어 LSTM은 프레임 간의 흐름을 본다. 깜박임이 어색하다거나, 입 모양과 소리가 안 맞는다거나, 표정 변화가 비정상적이면 가차 없이 표시한다.

연구진은 어떻게 실험했나?

연구팀은 카글(Kaggle)에서 공개된 딥페이크 데이터셋을 활용해 모델을 훈련시켰다. 진짜 영상과 가짜 영상을 수천 개 프레임으로 잘게 쪼갠 뒤, ResNet이 공간 정보를 뽑고 LSTM이 시간 흐름을 분석한다. 이렇게 학습한 모델은 새로운 영상을 만나면 자동으로 프레임을 분석해 진짜인지 가짜인지 판단한다.

결과는 어땠을까? ResNet50과 LSTM을 결합한 RLNet 모델은 무려 95% 이상의 정확도를 기록했다. 기존에 많이 쓰이던 EfficientNet이나 단일 CNN, RNN 기반 모델보다 최대 4%가량 성능이 높았다. 특히 압축된 영상이나 새로운 제작 기술에도 잘 버텼다.

단순히 ‘잡아낸다’에서 끝나지 않는다

흥미로운 건 이 모델이 ‘왜 가짜라고 판단했는지’를 설명해준다는 점이다. 연구팀은 Grad-CAM(시각화 기술)을 활용해 AI가 주목한 얼굴 영역과 시간대를 열 지도처럼 보여줬다. 눈동자가 깜박인 순간, 입꼬리가 올라간 순간… AI의 시선이 어디 머물렀는지 사람이 직접 볼 수 있게 한 것이다.

이는 단순한 탐지 기술을 넘어, 앞으로 법적 증거로도 활용할 수 있는 중요한 단서가 된다.

아직 갈 길은 남았다

물론 RLNet에도 한계는 있다. 더 다양한 가짜 제작 기법을 만나면 성능이 떨어질 수 있다. 데이터가 부족하면 오탐율이 늘어난다. 게다가 실시간으로 돌리기엔 연산량이 만만치 않다. 연구진은 이를 개선하기 위해 모델을 가볍게 하고, 멀티모달(음성+영상) 분석까지 결합할 계획이다.

AI는 이제 딥페이크와의 싸움에서 사람의 새로운 무기가 됐다. 가짜는 점점 더 진짜 같아지지만, AI의 눈도 그만큼 날카로워진다. 진짜와 가짜, 누가 더 오래 버틸까? 싸움은 계속된다.

출처 논문
Bhandarkawthekar V, Navamani TM, Sharma R and Shyamala K (2025) Design and development of an efficient RLNet prediction model for deepfake video detection. Front. Big Data 8:1569147. https://doi.org/10.3389/fdata.2025.1569147