말 잘하는 AI, 진짜 문법을 이해할까?




– 모델이 커져도 인간 수준의 언어 감각은 아직 멀었다

지난 몇 년간 챗GPT를 비롯한 대규모 언어모델(LLM)은 사람처럼 대화를 이어가고, 보고서나 시를 쓰며, 시험 문제까지 척척 풀어내는 놀라운 능력을 보여줬다. 하지만 과연 이들이 ‘언어를 이해한다’고 말할 수 있을까? 스페인, 독일, 미국 연구진이 이에 대한 본격적인 검증에 나섰다. 그 결과는 다소 의외였다. 모델이 커지면 분명 성능이 좋아지지만, 인간처럼 문법을 안정적으로 구별하는 경지에는 아직 이르지 못했다는 것이다.



연구 배경 – ‘말 비슷하게’와 ‘언어 이해’의 차이

인공지능 언어모델은 방대한 텍스트를 학습해 다음에 올 단어를 예측하는 방식으로 작동한다. 덕분에 문법에 맞는 듯한 문장을 척척 만들어낸다. 그러나 인간의 언어는 단순한 단어 나열이 아니라, 의미와 구조, 실제 세계 지식이 맞물린 복합 시스템이다. 연구팀은 “겉모습은 사람 말과 비슷해도, 그 속을 들여다보면 인간과는 학습 과정이 다르고, 특히 ‘문법 오류를 잡아내는 능력’에서 차이가 크다”고 지적했다.




실험 방법 – AI와 사람을 같은 시험대에

연구는 세 가지 최신 모델과 80명의 인간 참가자를 대상으로 진행됐다.

  • Bard: 1,370억 매개변수
  • ChatGPT-3.5: 1,750억 매개변수
  • ChatGPT-4: 1조5천억 매개변수

이들은 네 가지 까다로운 문법 현상을 다루는 문장을 받았다.

  1. 대명사 지시(Anaphora) – “그”나 “그녀”가 정확히 누구를 가리키는지
  2. 중심 삽입(Center embedding) – 문장 속에 문장을 넣는 구조
  3. 비교문(Comparatives) – “A는 B보다 크다” 유형
  4. 부정 극성(negative polarity) – “전혀, 결코” 같은 표현이 올바른 위치에 있는지

각 문장은 맞는 버전과 틀린 버전이 섞였고, 모델과 사람은 “이 문장이 문법적으로 맞는가?”라는 질문에 예·아니오로 답해야 했다. 같은 문장이 여러 번 반복 제시돼, 정확도답변의 안정성(변덕 여부)도 함께 평가됐다.



결과 – 크기는 힘, 하지만 만능은 아니다

가장 큰 모델인 ChatGPT-4는 전반적인 정확도에서 다른 AI들을 압도했다(약 80%). 심지어 문법이 맞는 문장만 보면 사람보다 더 정확했다(93.5%). 그러나 문법이 틀린 문장에서는 상황이 달랐다. ChatGPT-4는 사람보다 오히려 낮은 정확도를 보였고, 같은 문장에 대한 답변이 오락가락하는 불안정성도 컸다(변덕률 12.5% vs 인간 9.6%).

반면 사람은 맞든 틀리든 비교적 안정적인 판단을 내렸고, 반복 노출 시 정확도가 꾸준히 올랐다. ChatGPT-4는 문법이 맞는 문장에서는 반복 효과가 있었지만, 틀린 문장에서는 오히려 점점 나빠지는 경향도 보였다.




왜 이런 차이가 생길까?

연구팀은 그 원인을 ‘언어 학습 방식의 세 가지 근본적 차이’에서 찾았다.

  1. 증거의 종류: 사람은 틀린 예문을 직접 배우지 않는 반면, LLM은 옳고 그른 문장을 모두 학습하지만, 이를 실제 판단에 제대로 활용하지 못한다.
  2. 증거의 양: 인간은 제한된 입력만으로 언어 능력을 습득하지만, LLM은 방대한 데이터가 필요하고도 질적인 감각을 보장하지 못한다.
  3. 의미 연결의 부재(‘침투 불가한 참조’): 인간은 단어를 실제 세계와 연결해 의미를 이해하지만, LLM은 형태 패턴만 예측하여 '환각(hallucination)'을 만들어낼 수 있다.

결론 – 여전히 다른 ‘종(種)’의 언어 능력

연구팀은 “스케일 업이 분명 효과가 있지만, 인간과 AI의 차이는 단순한 크기 문제가 아니라 본질적인 학습 메커니즘의 차이에서 비롯된다”고 결론지었다. 즉, 더 큰 모델과 더 많은 데이터가 차이를 줄일 수는 있어도, 완전히 메울 수는 없다는 이야기다. 현재 AI의 언어 능력은 사람과 ‘정도의 차이’가 아니라 ‘종류의 차이’에 가깝다는 분석이다.




출처:
Dentella, V., Günther, F., & Leivada, E. (2025). Language in vivo vs. in silico: Size matters but Larger Language Models still do not comprehend language on a par with humans due to impenetrable semantic reference. PLOS ONE, 20(7), e0327794. https://doi.org/10.1371/journal.pone.0327794