AI, 핵의학 전문의 시험 만점 획득

인공지능 의사 선생님의 등장? 유럽 핵의학 전문의 시험을 만점 받은 AI가 나타났다!

최근 챗GPT 같은 인공지능이 우리 생활 깊숙이 들어와 있지?

그런데 이 인공지능이 단순한 대화를 넘어 아주 어려운 의사 시험까지 척척 풀어내고 있다는 놀라운 소식이 전해졌다. 과연 AI가 미래의 병원에서 우리를 진료하는 의사 선생님 역할을 대신할 수 있을까?

이번에 발표된 따끈따끈한 연구는 바로 이 질문에 대한 해답을 찾기 위해 아주 특별한 실험을 진행했다.

연구팀은 유럽에서 가장 어렵기로 소문난 핵의학 전문의 시험 문제들을 10가지의 최신 인공지능 모델들에게 풀게 했다.

이 시험은 암이나 심장병을 찾아내는 복잡한 물리 법칙과 약품 화학 지식이 필요해서 사람 의사들도 통과하기 쉽지 않은 시험이다.

인공지능들이 이 어려운 문제를 과연 잘 풀었을지, 그리고 매번 똑똑한 대답을 내놓았을지 함께 살펴보자!

인공지능 10총사의 진땀 나는 시험 도전기! 누가 가장 똑똑할까?

연구팀은 클로드(Claude), 제미나이(Gemini), GPT-5 등 이름만 들어도 쟁쟁한 유료 모델 5종과 딥시크(DeepSeek), 라마(Llama) 같은 누구나 쓸 수 있는 오픈 소스 모델 5종을 준비했다.

총 10대의 인공지능에게 실제 유럽 핵의학회(EBNM)에서 출제된 50개의 사지선다형 문제를 풀게 했다.

여기서 재미있는 점은 인공지능에게 딱 한 번만 문제를 풀게 한 것이 아니라, 똑같은 문제를 무려 5번이나 반복해서 풀게 했다는 것이다. 왜 그랬을까?

인공지능이 우연히 정답을 맞힌 건지, 아니면 정말 실력이 있어서 매번 정답을 맞히는 것인지 확인하기 위해서였다.

결과는 정말 놀라웠다! 모든 인공지능이 합격선인 50점을 넘겼고, 그중 딥시크 V3.2라는 모델은 5번의 시험에서 모두 100점 만점을 받는 기염을 토했다.

하지만 성적이 좋다고 다가 아니라고? 인공지능의 변덕을 조심해!

이번 연구에서 밝혀진 가장 충격적인 사실은 똑똑한 인공지능일수록 대답이 일관되지 않을 수도 있다는 점이다.

예를 들어, 구글의 제미나이 2.5 프로는 평균 93.6점이라는 아주 높은 점수를 받았지만, 다섯 번의 시험 중 어떤 때는 정답을 말하고 어떤 때는 오답을 말하는 등 대답이 가장 많이 바뀌는 모습을 보였다.

반면에 딥시크 V3.2는 100점 만점을 유지하며 매번 똑같은 답을 내놓았다.

연구팀은 이를 보고 똑똑한 것(정확도)과 믿음직한 것(신뢰도)은 별개의 문제라고 결론지었다. 만약 인공지능 의사가 아침에는 A라는 병이라고 했다가 저녁에는 B라는 병이라고 한다면 환자들이 믿고 치료를 받을 수 있을까?

그래서 이번 연구는 인공지능의 실력을 평가할 때 단순히 점수만 볼 것이 아니라, 얼마나 변덕을 부리지 않고 꾸준한 답을 내놓는지도 꼭 확인해야 한다고 강조했다.

아래는 이번 실험에 참여한 인공지능들의 성적표를 정리한 표다.

표 1. 인공지능 모델별 핵의학 시험 성적표 (5회 반복 평균 점수)

순위	모델 이름	평균 점수 (50점 만점)	평균 정확도 (%)	일관성 (신뢰도)
1	DeepSeek V3.2	50.0	100%	아주 완벽함
2	Gemini 2.5 Pro	46.8	93.6%	낮음 (변덕쟁이)
3	Grok-4	43.6	87.2%	높음
4	Mistral Medium 3.1	41.8	83.6%	아주 완벽함에 가까움
5	Claude Sonnet 4.5	40.8	81.6%	아주 높음
6	Qwen3 Max	40.4	80.8%	아주 높음
7	GPT-5 Pro	36.8	73.6%	보통
8	ERNIE 4.5 Turbo	33.6	67.2%	낮음
9	Llama 3.3 70B	32.0	64.0%	보통
10	Falcon H1-34B	26.8	53.6%	낮음

인공지능 의사 시대, 정말 머지않았다!

결론적으로 최신 인공지능들은 이제 전문 의사 수준의 지식을 갖추기 시작했다. 특히 누구나 무료로 사용할 수 있는 모델인 딥시크가 유료 모델들을 제치고 1위를 차지한 것은 인공지능 기술이 얼마나 빠르게 대중화되고 있는지 보여주는 증거다.

물론 인공지능이 완벽한 점수를 받은 이유가 이미 인터넷에 공개된 문제들을 미리 외워버렸기 때문(데이터 오염)일 수도 있다는 의심도 있지만, 인공지능의 잠재력만큼은 부인할 수 없다.

앞으로 인공지능이 병원에서 의사 선생님을 도와 더 정확한 진단을 내리는 데 큰 역할을 할 것으로 기대된다. 다만, 인공지능이 매번 일관된 대답을 할 수 있도록 기술적인 보완이 더 필요하다는 숙제도 남았다.

인공지능이 가져올 의료 혁명, 우리는 그 시작점에 서 있다!

출처: Stelling, H., Brink, I., Grieb, G., Kraus, A., & Güler, I. (2026). Reliability and Performance Stability of Large Language Models in Medical Knowledge Assessment: Evidence from the European Board of Nuclear Medicine Examination. AI, 7(2), 77. https://doi.org/10.3390/ai7020077