BERT가 중국 가짜뉴스도 잡는다? AI가 읽어내는 거짓말의 언어

코로나19, 정치 선전, 가짜뉴스… 전 세계가 ‘허위 정보와의 전쟁’을 치르고 있다. 특히 온라인 사용자가 많은 중국은 파급력이 더욱 크다. 단순한 기계 번역이나 키워드 필터링으로는 거짓말을 걸러내기엔 역부족이다.

이 논문은 바로 그 문제에 대한 새로운 해답을 내놨다. 중국어 가짜뉴스 탐지를 위해 BERT와 로버타(RoBERTa)를 정교하게 튜닝한 AI 모델을 만든 것이다.

BERT와 로버타, 언어의 맥락을 읽다

BERT는 한 방향이 아닌 양방향으로 문장을 읽는다. 그래서 같은 단어라도 앞뒤 맥락을 반영해 뜻을 파악한다. 연구진은 여기에 그치지 않고 ‘컨텍스트 유닛 가리기(Contextual Unit Obscuration)’, ‘다중 스팬 은닉(Multi-span Concealment)’, ‘적응형 은닉(Adaptive Concealment)’ 같은 기법으로 모델의 학습 능력을 더 높였다.

간단히 말해 문장을 토막내서 일부는 가리고 일부는 보여주면서 AI가 스스로 문맥을 복원하도록 하는 방식이다. 이 과정이 반복되면 거짓 정보 특유의 언어 패턴을 더 민감하게 감지할 수 있다.

중국어는 쉽지 않다!

중국어는 단어 경계가 뚜렷하지 않고, 관용구와 신조어가 많아 영어보다 가짜뉴스 탐지가 더 어렵다. 연구팀은 이를 해결하려고 딕셔너리 기반 세그먼트와 CRF(조건부 확률장)를 함께 사용해 단어를 잘라내고, 고유명사도 따로 인식했다.

뉴스 내용 외에도 URL, 이모지 같은 특수 토큰까지 모델이 학습하도록 했다. 덕분에 단어 하나하나가 아니라 문장 흐름 전체를 놓치지 않고 파악할 수 있다.

성능은 어땠을까?

연구진은 MCFEND라는 대규모 중국어 가짜뉴스 데이터셋으로 성능을 확인했다. 실험 결과는 놀라웠다.

정확도 83.1%
정밀도 74.3% (로버타)
재현율 72.5% (BERT)

기존의 단순한 BERT 모델이나 CNN 결합 모델보다 확실히 높은 성능을 보였다. 특히 기존 RNN, GRU 기반 모델과 비교하면 격차는 더 컸다.

가짜뉴스 탐지는 기술만으로 안 된다

연구팀은 이 모델이 실시간 콘텐츠 모니터링에 쓰일 수 있다고 본다. 하지만 동시에 정책과 미디어 리터러시 교육이 함께 가야 한다고 강조했다. 기술이 아무리 똑똑해도 사람의 판단력과 비판적 사고가 없으면 거짓 정보는 계속 살아남기 때문이다.

BERT로 가짜뉴스를 잡는 시대, 그러나 마지막 필터는 결국 사람이다.

출처 논문
Lixin Yun, Sheng Yun & Haoran Xue (2025). Detecting Chinese Disinformation with Fine–Tuned BERT and Contextual Techniques. Applied Artificial Intelligence 39(1):2525127. https://doi.org/10.1080/08839514.2025.2525127