멀티모달 가짜뉴스 탐지 AI, 텍스트와 이미지를 함께 보면 정확도가 97.4%까지 올라가는 이유

새로운 AI 모델은 뉴스 문장과 사진을 동시에 분석해 가짜뉴스를 더 정확하게 찾아낸다

소셜미디어에서 가짜뉴스가 퍼지는 속도는 점점 빨라지고 있다. 과거에는 기사 제목이나 본문만 조작하면 됐지만, 최근에는 실제 사진과 비슷한 이미지를 함께 사용하거나 문맥을 교묘하게 왜곡하는 방식이 많아졌다. 그래서 단순히 텍스트만 분석하는 AI로는 가짜뉴스를 충분히 잡아내기 어려워지고 있다.

이 문제를 해결하기 위해 2026년 발표된 연구에서는 MMCN_TCMB라는 새로운 멀티모달 가짜뉴스 탐지 모델을 제안했다. 연구진은 뉴스의 문장뿐 아니라 함께 게시된 이미지까지 동시에 분석하도록 설계했다.

그 결과 정확도 97.436%, 재현율 97.988%, F1 점수 97.098%를 기록하며 기존 방법보다 우수한 성능을 보였다.

이 연구가 중요한 이유는 단순히 정확도가 높기 때문만은 아니다. AI가 텍스트와 이미지 사이의 불일치를 찾아내는 방식으로 가짜뉴스를 판별한다는 점에서 실제 SNS 환경에 더 가까운 접근법을 제시했기 때문이다.

가짜뉴스 탐지가 점점 어려워지는 이유는 텍스트와 이미지가 함께 조작되기 때문이다

초기의 가짜뉴스 탐지 연구는 대부분 기사 본문이나 제목만 분석했다.

하지만 최근 가짜뉴스는 단순한 거짓 문장이 아니다.

실제 사건 사진을 다른 사건에 끼워 넣거나, 오래된 사진을 현재 상황처럼 소개하거나, 이미지와 문장의 의미를 일부러 어긋나게 만드는 방식이 흔하게 사용된다.

예를 들어 실제 사진은 진짜지만 설명 문장이 거짓인 경우가 있다. 반대로 문장은 사실에 가까워도 이미지가 조작된 사례도 존재한다.

이런 경우 텍스트만 분석하면 진짜로 판단할 가능성이 높다.

연구진은 이러한 한계를 해결하기 위해 텍스트와 이미지를 동시에 이해하는 멀티모달 구조를 설계했다.

연구진은 문장에서 중요한 의미를 먼저 추출했다

AI가 뉴스를 읽으려면 먼저 문장을 숫자 형태로 변환해야 한다.

연구에서는 BERT를 사용해 문장을 토큰 단위로 분해했다.

BERT는 문장 속 단어를 독립적으로 보는 것이 아니라 앞뒤 문맥을 함께 고려한다. 따라서 같은 단어라도 상황에 따라 다른 의미를 이해할 수 있다.

이후 연구진은 두 가지 방법을 이용해 추가 특징을 추출했다.

첫 번째는 Word2Vec이다.

Word2Vec은 의미가 비슷한 단어를 가까운 위치에 배치하는 기술이다. 예를 들어 "대통령"과 "정부"는 서로 가깝게, "축구"와 "질병"은 멀리 배치한다.

두 번째는 TF-IGM이다.

이 방법은 특정 단어가 얼마나 중요한지를 계산한다. 단순히 자주 등장하는 단어가 아니라 특정 뉴스 유형에서 특징적으로 나타나는 단어를 찾아낸다.

이렇게 얻은 정보가 텍스트 특징으로 사용된다.

이미지는 노이즈를 제거한 뒤 딥러닝으로 분석했다

뉴스에 포함된 이미지는 바로 분석하지 않았다.

먼저 이미지 품질을 개선하는 전처리 과정을 수행했다.

연구진은 CLAHE-HE라는 기법을 사용했다.

이 방법은 사진의 밝기와 대비를 조정해 흐릿한 부분을 선명하게 만들고 불필요한 잡음을 줄인다.

그 후 ResNet이라는 딥러닝 모델이 이미지를 분석했다.

ResNet은 이미지 인식 분야에서 널리 사용되는 신경망으로 사람 얼굴, 물체, 배경 등의 특징을 효과적으로 추출할 수 있다.

결국 AI는 텍스트 특징과 이미지 특징을 각각 얻은 뒤 이를 하나의 정보로 결합한다.

AI는 텍스트와 이미지 사이의 관계를 비교하며 거짓 여부를 판단했다

이 연구의 핵심은 Cross-Attention 구조다.

기존 AI는 텍스트와 이미지를 단순히 합치는 경우가 많았다.

반면 이번 연구에서는 텍스트가 이미지를 참고하고, 이미지가 다시 텍스트를 참고하는 과정을 반복한다.

예를 들어 뉴스 문장에는 "홍수가 발생했다"고 적혀 있는데 이미지에는 맑은 하늘이 보인다고 가정해 보자.

Cross-Attention은 이런 불일치를 감지할 수 있다.

반대로 문장과 이미지가 서로 강하게 연결되어 있으면 진짜 뉴스일 가능성이 높다고 판단한다.

즉, 단순히 정보를 모으는 것이 아니라 서로의 의미를 검증하는 구조인 셈이다.

연구진은 새로운 손실함수로 학습 안정성을 높였다

논문 제목에 포함된 TCMB는 이 연구의 또 다른 핵심이다.

TCMB는 다음 세 가지 개념을 결합해 만든 새로운 손실 함수다.

Taylor Series
Sigmoid Cross Entropy
Mean Bias Error(MBE)

일반적으로 딥러닝은 학습 과정에서 손실 함수를 최소화하도록 작동한다.

문제는 기존 손실 함수가 특정 상황에서 편향되거나 학습이 불안정해질 수 있다는 점이다.

연구진은 테일러 급수를 이용해 손실 함수의 변화를 더 정교하게 추적했다.

여기에 예측 편향을 측정하는 MBE를 추가해 AI가 특정 방향으로 과도하게 치우치는 현상을 줄였다.

그 결과 학습 과정이 더 안정적으로 진행되고 최종 분류 성능도 향상됐다.

두 개의 대규모 데이터셋에서 높은 성능을 기록했다

연구진은 모델 성능을 검증하기 위해 두 개의 대표 데이터셋을 사용했다.

첫 번째는 Fakeddit 데이터셋이다.

이 데이터셋은 Reddit 게시물과 이미지 수십만 건을 포함하는 대규모 가짜뉴스 데이터다.

두 번째는 Weibo-Twitter 데이터셋이다.

중국 웨이보와 트위터 게시물을 기반으로 구성됐으며 텍스트와 이미지가 함께 포함되어 있다.

실험 결과 MMCN_TCMB는 다음과 같은 성능을 기록했다.

정확도(Accuracy): 97.436%
재현율(Recall): 97.988%
정밀도(Precision): 96.223%
F1 점수: 97.098%

이는 논문에서 비교한 기존 모델들보다 높은 수치였다.

AI는 어떤 부분을 보고 가짜뉴스라고 판단했는지 시각적으로 보여줬다

딥러닝의 가장 큰 문제 중 하나는 설명 가능성이 부족하다는 점이다.

왜 특정 뉴스를 가짜라고 판단했는지 알기 어렵다.

연구진은 이를 해결하기 위해 GradCAM을 적용했다.

GradCAM은 AI가 이미지의 어느 영역을 중요하게 봤는지 열지도 형태로 보여주는 기술이다.

논문에 제시된 결과를 보면 MMCN_TCMB는 기존 모델보다 실제로 중요한 객체와 장면에 더 집중하는 경향을 보였다.

이는 단순히 높은 정확도뿐 아니라 판단 근거도 어느 정도 설명할 수 있음을 의미한다.

텍스트와 이미지의 불일치를 찾는 능력이 가짜뉴스 탐지 성능을 높였다

이번 연구의 핵심은 단순히 더 큰 AI 모델을 만든 것이 아니다.

뉴스 문장과 이미지를 각각 분석한 뒤 두 정보가 서로 일치하는지 확인하는 과정이 성능 향상의 핵심이었다.

실제 SNS 환경에서는 이미지와 텍스트가 함께 게시되는 경우가 대부분이다.

따라서 미래의 가짜뉴스 탐지 기술은 텍스트만 보는 방식에서 벗어나 여러 형태의 정보를 동시에 이해하는 방향으로 발전할 가능성이 높다.

MMCN_TCMB 연구는 그 흐름을 보여주는 사례다. 텍스트와 이미지 사이의 관계를 이해하는 AI가 등장하면서 가짜뉴스 탐지 정확도는 한 단계 더 높아지고 있다.

출처

Banbhrani, S. K. (2026). TCMB: Cross-model multi-level cross-attention network with Taylor-based loss for multimodal fake news detection. Frontiers in Big Data, 9, 1796969. https://doi.org/10.3389/fdata.2026.1796969