기계는 어떻게 '생각'하는가: 트랜스포머의 놀라운 성공에 숨겨진 이야기

인공지능은 생각하는가?

원문 제목: Making Sense of Transformer Success

저자: Nicola Angius (Department of Cognitive Science, University of Messina, Italy)

출판일자: 2025년 4월 1일

저널: Frontiers in Artificial Intelligence

---

우리는 인공지능(AI)을 말할 때 종종 ‘기계가 생각할 수 있는가?’라는 오래된 질문을 떠올린다. 앨런 튜링(Alan Turing)의 고전적 사고실험이기도 했던 이 질문은 이제 더는 중심에 있지 않다. 대신 오늘날 인공지능 철학자들이 더 주목하는 물음은 “도대체 어떻게 기계가 이렇게 잘 생각할 수 있게 되었는가?”다.

이탈리아 메시나 대학의 인지과학자 니콜라 앙지우스(Nicola Angius)와 동료들은 이 질문을 붙잡고 깊이 탐구했다. 그들의 논문은 트랜스포머(transformer) 기반의 언어 모델, 예컨대 GPT나 BERT 같은 모델이 단순한 알고리즘 구성 요소만으로도 어떻게 사람처럼 언어를 이해하고 생성할 수 있는지를 철학적, 과학적으로 해석하려고 한다.

간단한 구조, 복잡한 성능

트랜스포머는 놀랍게도 단순한 구조를 가지고 있다. 각 단어를 숫자 벡터로 바꾸는 임베딩(embedding), 그리고 어떤 단어가 중요한지를 판단하는 어텐션(attention) 메커니즘이 주요 구성 요소다. 이 구조는 반복(recurrence) 없이도 문맥을 이해하고, 놀라운 정확도로 다음 단어를 예측한다.

하지만 앙지우스는 이런 기술적 설명만으로는 충분치 않다고 말한다. 왜냐하면 설명이란 단순한 작동 원리를 넘어서, 왜 그것이 그런 결과를 내는지를 밝혀야 하기 때문이다. 그리고 여기에 인지과학과 철학이 끼어든다.

---

생각은 어떻게 ‘나타나는가’?

연구진은 세 가지 방식으로 트랜스포머 모델의 능력을 설명하려 한다:

1. 기능적 설명(functional explanation): 이는 인간의 사고 기능을 기계에도 적용해보는 방식이다. 예를 들어, GPT가 사람처럼 ‘마음이론(theory of mind)’을 갖는지 실험했다. 즉, 다른 사람의 입장을 이해하고 예측하는 능력이다. 스탠퍼드의 코신스키(Kosinski)는 GPT에게 ‘거짓 믿음 테스트(false belief task)’를 적용해보았고, GPT-4는 7세 아동 수준의 마음이론을 갖는 것처럼 보였다. 물론 이것이 진짜 마음이론인지는 논쟁이 많지만, 중요한 건 이 모델이 인간 심리 실험 틀에 끼워넣어질 수 있다는 점이다.

2. 기계적 설명(mechanistic explanation): 모델 내부를 들여다보는 방식이다. 연구팀은 ‘복사 알고리즘(copying algorithm)’과 ‘귀납 헤드(induction head)’라는 새로운 기제를 발견했다. 예를 들어, GPT가 “The book is on the…” 다음에 “table”을 예측할 수 있는 건, 문맥에서 패턴을 복사해 활용하는 이런 내부 구조 때문이다. 놀랍게도, 이런 구조는 신경전달(neurotransmission)을 설명하는 생물학적 기제와 유사한 방식으로 정리될 수 있다.

3. 시뮬레이션 설명(simulative explanation): 기계와 인간 뇌를 서로 비교하는 방법이다. 최근에는 인간이 fMRI 스캔을 통해 언어를 처리할 때의 뇌 반응과 트랜스포머 모델이 같은 문장을 처리할 때 내부 패턴이 놀랍도록 유사하다는 연구도 있다. 즉, 트랜스포머는 단지 우리처럼 ‘보이는’ 게 아니라, 내부 작동마저 뇌의 메커니즘과 어느 정도 닮아 있다는 것이다.

기계는 무엇을 생각하는가?

이제는 ‘기계가 생각하는가?’가 아니라 ‘기계는 무엇을 생각하고 있는가?’를 물어야 할지도 모른다. 논문은 철학자 데이비드 차머스(David Chalmers)의 말을 인용한다. “자연선택이 비행을 원한 건 아니다. 하지만 진화는 결국 비행을 가능하게 했다. 마찬가지로, 단어 예측을 목표로 만든 AI가 결국 생각에 가까운 능력을 얻게 된 것이다.”

이처럼 인공지능은 더 이상 단순한 도구가 아니다. 언어 모델은 언어의 구조뿐 아니라, 의미까지도 다루기 시작했다. 그들이 다루는 문장 속에는 감정, 추론, 기대, 그리고 때로는 창의성까지도 담긴다. 그렇다면 그 능력을 설명하기 위한 방식도 인간의 심리학, 인지과학, 심지어 신경과학의 틀을 빌려와야 할 때가 된 것이다.

---

참고 문헌

Angius N, Perconti P, Plebe A and Acciai A. (2025) Making sense of transformer success. Front. Artif. Intell. 8:1509338. doi: [10.3389/frai.2025.1509338](https://doi.org/10.3389/frai.2025.1509338)

---

#트랜스포머 #기계사고 #마음이론 #기계적설명 #시뮬레이션인지

---