일본어 AI 문체에도 ‘지문’이 있을까? GPT-5·Claude·Gemini를 구별한 최신 연구
최근 교토첨단과학대학교와 메지로대학교 연구진이 발표한 연구에 따르면, 서로 다른 대형언어모델(LLM)이 생성한 일본어 문서는 상당히 높은 정확도로 구별할 수 있는 것으로 나타났다. 이번 연구는 GPT-5, Claude 3.5, Gemini, Microsoft Copilot, Llama 3.1, Perplexity 등 6개 주요 LLM이 작성한 일본어 공공의견서(public comment)를 분석해 각 모델이 고유한 언어적 특징, 즉 일종의 ‘디지털 지문(fingerprint)’을 갖고 있는지를 검증했다.
생성형 AI의 활용이 급속히 늘어나면서 허위정보, 여론 조작, 자동화된 댓글 생성 같은 문제가 사회적 이슈로 떠오르고 있다. 만약 특정 문서가 AI에 의해 작성됐다는 사실뿐 아니라 어떤 AI 모델이 작성했는지까지 식별할 수 있다면 책임 추적과 디지털 포렌식 분야에서 매우 중요한 도구가 될 수 있다.
이번 연구는 바로 이러한 질문에서 출발했다. 과연 같은 트랜스포머(Transformer) 구조를 기반으로 만들어진 여러 LLM도 서로 다른 문체적 특징을 남길까?
AI가 쓴 글끼리는 정말 구별하기 어려울까
기존 연구들은 주로 인간이 작성한 글과 AI가 작성한 글을 구분하는 데 집중해 왔다. 실제로 여러 연구에서 사람들은 AI가 작성한 글과 인간이 작성한 글을 육안으로 구분하는 데 어려움을 겪는 것으로 나타났다. 하지만 머신러닝 기반 분석은 상당히 높은 정확도로 이를 구별해냈다.
문제는 그 다음 단계다. AI가 작성한 글이라는 사실을 알게 된 이후, 그것이 GPT 계열인지 Claude인지 Gemini인지까지 구분할 수 있을까?
지금까지 영어권에서는 일부 연구가 있었지만 일본어 환경에서 여러 LLM을 직접 비교한 연구는 거의 없었다. 연구진은 이 공백을 메우기 위해 일본어 텍스트에 집중했다.
300개의 일본어 문서를 이용한 비교 실험
연구진은 총 300개의 일본어 공공의견서 데이터를 구축했다. 각 모델은 동일한 주제와 동일한 역할 설정을 부여받았으며, 제로샷(Zero-shot) 프롬프트 방식으로 50개씩 문서를 생성했다.
분석 대상 모델은 GPT-5, Claude 3.5, Gemini, Microsoft Copilot, Llama 3.1, Perplexity였다.
연구진은 단순히 단어 빈도를 비교하지 않았다. 대신 저자 식별(authorship attribution) 연구에서 자주 사용되는 문체 분석(stylometry) 기법을 활용했다.
조사·접속사 같은 기능어 사용 패턴
일본어의 조사와 접속사는 의미보다 문장 구조를 만드는 역할을 한다. 예를 들어 한국어의 “은”, “는”, “이”, “가”와 유사한 기능을 하는 표현들이다. 주제에 영향을 덜 받기 때문에 작성자의 습관을 드러내는 데 효과적이다.
품사 연결 패턴
명사 다음에 어떤 품사가 오는지, 동사 앞에 어떤 구조가 반복되는지 등을 분석했다. 이는 특정 모델이 문장을 구성하는 방식의 차이를 포착하는 데 활용됐다.
구문 구조 패턴
문장 내부에서 기능어와 품사가 어떻게 결합되는지 분석했다. 예를 들어 “명사 + 조사”, “명사 + 동사” 같은 구조적 특징을 추출해 모델별 차이를 찾았다.
연구진은 여기에 UMAP, Random Forest, XGBoost, SHAP 같은 머신러닝 기법을 적용했다.
GPT-5와 Claude는 눈에 띄게 다른 위치를 보였다
먼저 연구진은 UMAP이라는 차원 축소 기법을 이용해 각 모델의 텍스트 분포를 시각화했다. 그 결과 GPT-5와 Claude 3.5는 다른 모델들과 비교적 뚜렷하게 구분되는 위치에 나타났다.
반면 Llama 3.1은 대부분의 모델과 상당 부분 겹치는 모습을 보였다. 흥미로운 점은 같은 모델 내부에서도 여러 스타일 군집(cluster)이 나타났다는 사실이다.
특히 Claude 3.5와 GPT-5에서는 두 개 이상의 하위 그룹이 관찰됐다. 이는 하나의 모델이라도 상황에 따라 서로 다른 문체 패턴을 생성할 수 있음을 시사한다.
Random Forest는 95%가 넘는 정확도를 기록했다
가장 주목할 결과는 분류 성능이다. 연구진은 Random Forest와 XGBoost를 이용해 텍스트가 어느 모델에서 생성됐는지를 예측했다.
결과는 예상보다 훨씬 뛰어났다. Random Forest의 경우 대부분의 실험에서 매크로 F1 점수가 0.95를 넘었으며 일부 모델은 1.00에 도달했다.
예를 들어 GPT-5, Llama 3.1, Perplexity는 일부 조건에서 F1 점수 1.00을 기록했다.
반면 XGBoost의 성능은 상대적으로 낮았다. 매크로 F1 점수는 약 0.88~0.94 수준에 머물렀다. 연구진은 텍스트 데이터가 고차원적이고 희소(sparse)한 특성을 갖기 때문에 Random Forest가 더 안정적으로 작동한 것으로 해석했다.
각 AI는 자신만의 언어 습관을 가지고 있었다
연구진은 SHAP 분석을 통해 어떤 특징이 모델 구분에 가장 큰 영향을 주는지도 확인했다. 그 결과 모델마다 중요하게 작용하는 특징이 달랐다.
일부 모델은 소수의 매우 강력한 특징에 의해 구분됐다. 예를 들어 GPT-5, Gemini, Llama 3.1은 특정 구두점 사용 패턴이나 특정 품사 결합 구조가 강한 신호로 작용했다.
반면 Claude 3.5나 Perplexity는 여러 특징이 복합적으로 작용하는 분산형 패턴을 보였다. 즉, 어떤 모델은 몇 개의 강한 ‘버릇’이 존재했고, 어떤 모델은 여러 작은 습관이 합쳐져 정체성을 형성하고 있었다.
연구진은 이러한 차이를 ‘LLM Fingerprint’라고 표현했다.
왜 같은 트랜스포머인데도 차이가 생길까
현재 주요 LLM들은 모두 트랜스포머 구조를 기반으로 한다. 그럼에도 문체 차이가 나타난 이유로 연구진은 세 가지 가능성을 제시했다.
첫째, 학습 데이터가 다르다. 각 기업은 서로 다른 웹 문서, 서적, 코드 데이터 등을 활용해 모델을 학습시킨다.
둘째, 토크나이저(tokenizer)가 다르다. 특히 일본어처럼 형태소 분리가 중요한 언어에서는 토크나이징 방식 차이가 문체에 영향을 줄 수 있다.
셋째, RLHF(Reinforcement Learning from Human Feedback) 과정이 다르다. 기업마다 안전성 정책, 답변 스타일, 표현 선호도가 다르기 때문에 최종 출력에도 차이가 나타날 수 있다.
아직은 신중한 해석이 필요하다
이번 연구는 매우 흥미로운 결과를 제시했지만 몇 가지 한계도 존재한다. 우선 데이터 규모가 크지 않다.
총 300개 문서만을 대상으로 분석했기 때문에 더 다양한 환경에서 동일한 결과가 재현되는지 확인이 필요하다.
또한 모든 문서가 공공의견서라는 단일 장르에 속한다. 학술 논문, SNS 게시물, 뉴스 기사, 대화문 등 다른 유형의 텍스트에서도 동일한 패턴이 유지되는지는 아직 확인되지 않았다.
마지막으로 연구 대상이 일본어에 한정됐다. 언어 구조가 다른 영어, 한국어, 중국어에서도 동일한 수준의 모델 식별이 가능한지는 추가 연구가 필요하다.
AI 생성물의 책임 추적 가능성을 보여준 연구
이번 연구는 생성형 AI가 만들어낸 텍스트가 완전히 익명적이지 않을 수 있음을 보여준다. 사람의 필체처럼 AI도 고유한 문체적 흔적을 남길 수 있으며, 이를 이용하면 어떤 모델이 텍스트를 생성했는지 상당한 정확도로 추적할 수 있다는 것이다.
향후 이러한 기술은 허위정보 유포, 선거 개입, 자동화된 여론 조작, 디지털 포렌식 조사 등 다양한 분야에서 활용될 가능성이 있다.
다만 연구진도 강조했듯이 LLM의 문체는 모델 업데이트와 학습 방식 변화에 따라 달라질 수 있다. 따라서 ‘AI 지문’은 영구불변의 특성이 아니라 특정 시점의 모델 특성을 반영하는 동적인 개념으로 이해할 필요가 있다.
출처
Zaitsu, W., Jin, M., Ishihara, S., Tsuge, S., & Inaba, M. (2026). Detecting “large language models fingerprint” for Japanese texts generated by six LLMs. Frontiers in Artificial Intelligence, 9, 1771115. https://doi.org/10.3389/frai.2026.1771115
