"붙여넣기 범죄, AI가 잡는다" — 이미지 위조 탐지 기술의 현주소

붙여넣기 범죄, AI가 잡는다": 이미지 위조 탐지 기술의 현주소

디지털 이미지, 믿어도 될까? 요즘은 사진 한 장으로 진실과 거짓이 뒤바뀌는 시대다. 누군가 사진 속 특정 부분을 복사해서 다른 곳에 붙여넣었다면? 이를 감지하지 못하면 가짜 뉴스, 조작된 과학 데이터, 심지어 법정 증거까지 조작될 수 있다. 이런 상황에서 등장한 것이 바로 인공지능, 그중에서도 합성곱 신경망(CNN)을 활용한 '복사-붙여넣기 위조(Copy-Move Forgery)' 탐지 기술이다.

하지만, 최근 한 연구는 이 기술이 그리 만능이 아님을 지적했다. "모든 데이터셋에 통하는 AI는 없다"는 냉정한 결론을 내리며, 이미지 위조 탐지 기술의 한계를 정확히 짚어낸 것이다.

사진 위조, 생각보다 흔하다

연구진이 주목한 건 '복사-붙여넣기 위조'라는 기법이다. 예컨대 전쟁터에서 촬영된 사진에서 파괴 흔적을 더 부각시키기 위해 파편 이미지를 복제해 여러 곳에 붙여넣는 방식이다. 같은 이미지 내에서 비슷한 색감과 조명으로 위조되기 때문에 일반인의 눈은 물론 기존의 단순 탐지 기술로는 구별이 어렵다.

그래서 등판한 것이 CNN 기반의 AI. 이미지를 수천, 수만 개 학습하면서 미세한 패턴을 잡아내는 능력을 갖췄다. 연구진은 이 기술이 실제로 얼마나 잘 작동하는지를 알아보기 위해 다양한 데이터셋을 실험에 사용했다.

데이터셋이 다르면 성능도 달라진다

실험에 사용된 데이터셋은 CoMoFoD(대규모, 균형 잡힌 데이터), CASIA v2(실제와 유사하되 불균형한 데이터), 그리고 Coverage(이미지 수가 적고 조작 난이도가 높은 데이터)였다.

결과는 예상 밖이었다. CoMoFoD에선 무려 95.9%의 정확도로 조작 이미지를 잡아냈지만, Coverage에선 정확도가 27.5%까지 추락했다. 같은 모델인데도 데이터셋에 따라 성능 차이가 이토록 큰 것이다. 왜 이런 차이가 났을까?

첫째, 데이터 양이 많고 조작 유형이 다양할수록 AI는 잘 배운다. CoMoFoD는 1만 장 이상으로 구성돼 학습에 유리했다. 둘째, 조작의 난이도도 영향을 미친다. Coverage는 매우 미세하고 자연스러운 조작이 많아 AI가 헷갈릴 수밖에 없었다.

AI를 더 똑똑하게 만들 수는 없을까?

연구진은 성능을 끌어올리기 위해 다양한 시도를 했다. 우선 '정규화(Regularization)' 기법으로 모델이 과하게 외우는 걸 방지하고, '데이터 증강(Data Augmentation)'을 통해 이미지 수를 늘려봤다. CoMoFoD에서는 이런 방식이 큰 도움이 되지 않았지만, CASIA v2에선 최대 2.5%의 정확도 향상이 있었다. 작은 데이터셋에서는 일정 효과가 있었던 셈이다.

그러나 놀라운 건, 일반적으로 성능을 높인다고 알려진 증강 기법이 오히려 성능을 떨어뜨리기도 했다는 점이다. 잘못 설계된 증강은 오히려 AI를 헷갈리게 만들 수 있다는 경고다. 위조 탐지라는 민감한 분야에서는 특히 조심해야 할 부분이다.

완벽한 AI는 없다, 하지만 길은 보인다

이 연구가 던지는 메시지는 명확하다. AI 기술이 아무리 뛰어나도 '모든 상황에 통하는 만능열쇠는 아니다'라는 것. 따라서 복사-붙여넣기 위조 탐지를 잘하려면, 모델만큼이나 데이터를 어떻게 고르고 구성하느냐가 중요하다는 이야기다.

연구진은 앞으로의 방향도 제시했다. 하나는 다양한 데이터셋을 동시에 학습시켜 '적응형 모델'을 만드는 것이고, 또 하나는 GAN(생성적 적대 신경망)이나 Transformer 같은 최신 기술을 도입해 위조의 흔적을 더 정밀하게 찾아내는 방법이다.

실제와 같은 이미지가 쏟아지는 시대, 무엇을 믿고 판단해야 할까. 그 기준을 세우는 일이 이제는 기술의 몫이 됐다. 그리고 그 기술은, 데이터가 만들어낸다는 사실을 잊지 말아야 한다.

---

출처 논문

Dell’Olmo, P.V.; Kuznetsov, O.; Frontoni, E.; Arnesano, M.; Napoli, C.; Randieri, C. Dataset Dependency in CNN-Based Copy-Move Forgery Detection: A Multi-Dataset Comparative Analysis. Mach. Learn. Knowl. Extr. 2025, 7, 54.