마취과 교육에 AI가 던진 질문: ChatGPT, 믿을 수 있을까?

마취과 교육에 ChatGPT는 신뢰할 수 있는 도구일까?

의료 분야에서 인공지능(AI)이 본격적으로 활용되기 시작하면서, 의학 교육에서도 새로운 변화를 맞이하고 있다. 특히 OpenAI의 ChatGPT와 같은 생성형 AI 챗봇은 이제 단순한 정보 검색을 넘어, 교육 도구로서의 가능성을 시험받고 있다.

연구의 배경: 마취과 교육, 새로운 도구가 필요한 이유

미국 마취과 전공의들은 전공 시작 1개월 후, AKT-1이라는 표준화된 지식 시험을 치른다. 이 시험은 기초 의학 지식과 임상적 사고 능력을 평가하는 데 초점이 맞춰져 있다. 그러나 전통적인 교육 방식은 최신 정보를 반영하는 데 한계가 있으며, 다양한 학습 스타일을 수용하는 데도 부족한 경우가 많다. 이 틈을 메우기 위한 시도로 등장한 것이 바로 ChatGPT와 같은 AI 기반 도구다.

AI는 방대한 정보를 통합하고, 대화형으로 설명을 제공하며, 사용자의 요구에 따라 내용을 유연하게 구성할 수 있다는 점에서 큰 장점을 지닌다. 하지만 문제는 정확성이다. 특히 의료 분야에서는 정보의 정확성과 신뢰성이 환자의 생명과 직결되기 때문에, AI의 활용은 그만큼 높은 기준을 요구받는다.

연구 방법: ChatGPT에게 실제 시험 문제를 던져보다

연구진은 AKT-1 시험 키워드를 바탕으로 95개의 프롬프트를 작성하고, 이를 ChatGPT 3.5 및 4.0에 입력했다. 프롬프트는 다음과 같이 구성되었다:

* 특정 지식을 묻는 단답형 질문 (Focused factual prompts)

* 폭넓은 설명을 요구하는 서술형 질문 (Extended prompts)

* 오류가 포함된 질문 (Biased prompts)\\으로, AI의 오류 탐지 능력을 평가

* 문헌 인용 요청 (Reference prompts)\\으로, 논문 정보를 얼마나 정확히 제시하는지 평가

모든 응답은 10년 이상의 교육 경험을 가진 마취과 전문의 두 명이 3점 척도로 평가했다. 점수는 정확성과 완전성을 기준으로 채점되었으며, 6점 만점일 경우 교육에 적합하다고 판단했다.

연구 결과: 기대 반, 우려 반의 성적표

1. 단답형 질문의 응답 정확도는 75%로, 대부분의 경우 교과서 수준의 정확한 답변을 제공했다. 그러나 일부 응답은 위험한 오류를 포함했다. 예를 들어, 뇌졸중 병력이 있는 환자를 ASA 2로 분류한 응답은 실제 임상 적용 시 심각한 문제를 야기할 수 있다.

2. 서술형 질문에 대한 응답도 73%가 정확하고 완전하다고 평가되었다. 특히 ChatGPT는 정보를 구조화하여 명확하게 전달하는 데 뛰어났다. 하지만 불필요한 정보가 추가되거나, 임상적 맥락에서 적절하지 않은 강조점을 포함하는 경우도 있었다.

3. 의도적으로 오류를 포함한 질문에는 취약했다. 60%의 응답이 심각한 부정확성을 포함했으며, 이는 실제 임상에서 적용될 경우 위험을 초래할 수 있는 수준이었다.

4. 문헌 인용 요청에는 사실상 실패했다. AI가 제공한 참고문헌 중 상당수가 존재하지 않거나, 저자 및 DOI가 왜곡된 경우가 많았다. 이는 AI가 실제 데이터베이스를 참조하지 않고, 확률적으로 그럴듯한 내용을 생성해낸다는 근본적인 한계를 드러낸다.

비판적 고찰: ChatGPT는 '보조 도구'이지 '교과서'가 아니다

이번 연구는 ChatGPT가 특정 조건 하에서는 상당히 유용한 교육 도구가 될 수 있음을 보여준다. 특히 입문 단계의 전공의들이 학습 내용을 빠르게 정리하거나, 개념을 구조화하는 데 있어 AI의 역할은 긍정적으로 평가할 수 있다.

그러나 이 연구가 던지는 더 중요한 질문은 바로 "ChatGPT를 어디까지 믿을 수 있는가"이다. 특히 오류를 포함한 질문이나 인용 요청에 대한 응답에서 드러난 AI의 한계는 교육뿐 아니라 실제 임상에서도 심각한 결과를 초래할 수 있다. 이는 단지 모델의 버전 문제나 지식 커트오프(date cutoff)의 문제가 아니라, 생성형 AI 자체의 설계 원리—즉, 진실보다는 확률적으로 그럴듯한 응답을 선택한다는 점—에 기인한 근본적인 한계다.

미래의 방향: 의사와 AI의 '협업'이 필요한 시대

이제 우리는 AI를 단순한 '도구'로만 볼 수 없는 시대에 살고 있다. 의학 교육에서 AI를 효과적으로 활용하기 위해서는 다음과 같은 조건이 필요하다:

* 전공의와 지도교수 모두가 AI의 한계와 강점을 명확히 인식할 것

* AI 리터러시(AI literacy) 교육을 필수 커리큘럼에 포함할 것

* AI가 제공한 정보는 반드시 전문가의 검토를 거친 후 사용할 것

흥미롭게도, 이번 연구는 ChatGPT 3.5보다 4.0에서 성능이 일부 개선되었음을 보여준다. 이는 AI가 진화하고 있으며, 앞으로 더 나은 도구가 될 가능성도 있다는 점에서 희망적이다. 그러나 그 진화의 속도만큼, 사용자 역시 함께 진화해야 한다. 교육자는 AI의 한계를 이해하고 이를 보완할 전략을 마련해야 하며, 학습자는 비판적 사고를 바탕으로 정보를 받아들여야 한다.

결론: '무비판적 신뢰'가 아닌, '비판적 활용'이 필요하다

ChatGPT는 마취과 교육에 있어 유용한 보조 도구가 될 수 있다. 하지만 현재 상태에서는 전적으로 의존할 수는 없다. 교육 자료로 사용하려면 전문가의 검토와 교차 검증이 필수적이며, 사용자는 AI가 제공하는 정보가 항상 정확하지 않다는 점을 염두에 두고 활용해야 한다. 결국 AI는 도구일 뿐이며, 진정한 교육의 중심은 여전히 사람, 즉 가르치고 배우는 인간 자신이어야 한다.

---

출처:

Jin Z, Abola R, Bargnes V III, Tsivitis A, Rahman S, Schwartz J, Bergese SD and Schabel JE (2025) The utility of generative artificial intelligence Chatbot (ChatGPT) in generating teaching and learning material for anesthesiology residents. Front. Artif. Intell. 8:1582096.