사람처럼 장면을 이해하는 AI, 뇌와 닮은꼴이다

“사람의 뇌는 장면을 어떻게 이해할까?”

놀랍게도, 최신 인공지능 언어 모델이 그 해답에 가까워지고 있다. 뇌가 복잡한 시각 정보를 처리하는 방식과, 인공지능이 문장을 이해하는 방식 사이에 놀라운 공통점이 있다는 사실이 밝혀졌다. 이번에 발표된 연구는 인간의 뇌와 AI가 장면을 해석하는 데 있어 얼마나 닮아 있는지를 보여주는 획기적인 결과다.

인간의 시각 이해, AI 언어 모델로 설명된다?

인간은 복잡한 장면을 한눈에 파악한다. "잔디밭 위에서 개를 산책시키는 사람"이라는 문장을 들으면, 우리는 곧바로 머릿속에 그림을 그릴 수 있다. 하지만 과학자들은 그동안 인간의 시각 정보 처리를 수치적으로 설명하는 데 어려움을 겪어왔다.

이번 연구는 독특한 접근을 택했다. 바로 '언어 모델', 즉 문장을 이해하는 데 특화된 AI를 이용해 뇌의 시각 반응을 설명하려는 시도였다. 연구진은 문장을 수치화한 AI의 내부 표현값(embedding)을 통해, 사람들이 실제 장면을 보았을 때의 뇌 활동을 예측할 수 있는지를 실험했다. 이게 정말 가능할까?

실험: 장면을 보고 떠올린 문장, AI도 똑같이 이해한다?

연구는 미국과 유럽의 뇌과학자들과 AI 전문가들이 협업해 진행했다. 실험 참가자들은 7T(테슬라) 고해상도 fMRI 장비를 착용하고, 수천 장의 자연 풍경 이미지를 보았다. 이 이미지들은 COCO라는 이미지 데이터셋에서 가져온 것으로, 각 이미지에는 사람들이 작성한 문장형 설명(예: "파란 하늘 아래 공원에서 개가 뛰노는 모습")이 달려 있었다.

연구팀은 이 문장들을 최신 언어 모델인 MPNet에 넣어 수치화하고, 그 수치들과 참가자의 뇌 반응을 비교했다. 결과는 충격적이었다. AI가 만든 문장 표현값과 사람의 뇌 반응은 놀라울 정도로 유사했다!

특히 사람의 뇌 속 고차원 시각 영역(예: 후두엽, 측두엽 등)에서 AI의 언어 표현값과 높은 상관관계를 보였다. 이 말은 곧, 우리 뇌가 장면을 해석할 때 사용하는 정보 표현 방식이 AI 언어 모델의 방식과 매우 닮아 있다는 뜻이다.

단어 몇 개가 아닌 '문장 전체'가 중요했다

단어 단위의 정보만으로는 뇌의 반응을 예측할 수 없었다. 연구진은 단어만 뽑아 AI에 넣는 방식(예: ‘개’, ‘공원’, ‘산책’)과, 문장 전체를 그대로 AI에 입력하는 방식(예: “공원에서 개를 산책시키는 남자”)을 비교했다. 그 결과, 문장 전체를 입력한 AI 표현값이 훨씬 더 정확하게 뇌 반응을 예측했다.

이는 단어의 나열이 아닌, 문맥 속에서 단어들이 어떻게 상호작용하는지를 파악하는 능력이 중요하다는 걸 보여준다. 다시 말해, 뇌는 단순히 '무엇'이 보이는지를 넘어서, 그것들이 어떻게 연결되어 있는지까지 인식한다는 의미다.

뇌 활동에서 AI가 문장을 '거의 정확히' 재구성했다

가장 놀라운 결과 중 하나는 이렇다. 연구진은 fMRI로 측정된 뇌 반응만 가지고, 해당 장면을 설명한 문장을 AI가 얼마나 잘 맞출 수 있는지를 실험했다. 그 결과는?

AI는 뇌 반응만 보고도 "고양이가 창밖을 내다보고 있다", "두 마리 기린이 나무 옆에 서 있다" 등, 원래 사람이 본 장면을 상당히 정확하게 재구성할 수 있었다. 이는 뇌의 시각적 반응이 문장 수준의 복합 정보를 담고 있다는 강력한 증거다.

AI 훈련 방식도 바꿨다: '이미지 → 문장'으로!

이 연구는 여기서 멈추지 않았다. 연구진은 '이미지 → 문장 표현값'을 학습하는 인공지능을 새롭게 만들었다. 기존에는 이미지에서 물체를 분류하는 방식이었다면, 이번엔 이미지에서 '장면 설명 문장'의 AI 표현값을 예측하는 방식으로 훈련했다.

놀랍게도, 이렇게 훈련된 인공지능은 기존의 어떤 시각 AI보다도 인간의 뇌 반응과 더 유사하게 작동했다. 심지어 훈련에 사용된 데이터의 양은 기존 모델보다 훨씬 적었음에도 말이다.

뇌는 언어 모델처럼 생각한다?

이 연구는 AI가 인간처럼 뇌를 '복제'한다는 이야기가 아니다. 대신, 인간의 뇌가 언어 모델처럼 복잡한 문맥을 처리하는 구조를 갖추고 있다는 사실을 알려준다. 특히 뇌는 장면을 단순히 '물체의 집합'으로 보지 않고, 그것들의 관계, 상황, 맥락까지 포함해서 이해한다. 이는 우리가 문장을 이해할 때의 방식과 매우 유사하다.

어떤 의미를 가지는 것일까?

이 연구는 두 가지 커다란 가능성을 제시한다.

첫째, 인간의 고차원적인 시각 처리 과정을 정량적으로 분석할 수 있는 새로운 도구가 생겼다. 둘째, 뇌과학과 인공지능이 서로의 발전을 가속화할 수 있는 연결고리를 확보했다.

뇌를 해석하는 데 AI 언어 모델이 쓰이고, AI를 뇌처럼 훈련시킬 수 있는 시대가 열린 셈이다. 뇌의 시각 이해를 더 잘 모방하는 인공지능, 혹은 더 뇌와 비슷하게 작동하는 기계가 나올 날도 머지않았다.

출처: Doerig, A., Kietzmann, T. C., Allen, E., Wu, Y., Naselaris, T., Kay, K., & Charest, I. (2025). High-level visual representations in the human brain are aligned with large language models. Nature Machine Intelligence.