수학 증명도 AI가 채점하는 시대
… “AI가 내 증명을 더 잘 봐준다고?”
“수학 증명은 인간만이 이해할 수 있는 언어다.” 수학을 공부해본 사람이라면 누구나 한 번쯤 들어봤을 말이다. 그만큼 수학 증명, 특히 수학적 귀납법은 공식만 안다고 되는 게 아니다. 처음부터 끝까지 논리의 흐름을 말로 풀어내야 하고, 작은 실수 하나로 전체 논리가 무너질 수 있다. 교수나 조교가 직접 일일이 확인해야 하는 까다로운 작업이다. 그런데 이제, 인공지능(AI)이 그 역할을 대신하고 있다.
미국 일리노이대학교 어배너-섐페인 캠퍼스(UIUC)의 연구팀은 AI를 활용해 수학적 귀납법 증명을 자동으로 채점하는 기술을 개발하고, 실제 강의에서 실험까지 진행했다. 더욱 놀라운 사실은, 이 AI 채점기가 “사람 조교보다 더 정확하게” 학생들의 증명을 평가했다는 점이다.
도대체 AI가 어떻게 ‘말로 쓴 수학 논리’를 이해하고 평가한다는 걸까?
말로 쓰는 수학, 기계가 읽다
연구팀이 주목한 건 자연어 처리(NLP) 기술이다. 기존에도 NLP를 활용한 짧은 정답 채점 시스템은 있었지만, 대부분은 문장 몇 줄로 끝나는 과학 개념 설명이나 읽기 이해 문제에 국한됐다. 수학 증명처럼 긴 논리와 수식이 뒤섞인 텍스트를 제대로 평가한 사례는 없었다.
이에 연구팀은 ‘귀납법 증명’이라는 특정 유형에 초점을 맞췄다. 수학적 귀납법은 증명의 구조가 비교적 명확하게 정형화되어 있어 AI가 학습하기에 유리하다. 문제마다 7단계로 구성된 평가 기준(예: 기저 사례 제시, 귀납 가정 서술, 귀납 단계 증명 등)을 마련하고, 실제 학생들이 작성한 증명 데이터를 기반으로 학습시켰다.
그 결과, GPT-3, Llemma(오픈소스 수학 특화 모델), MathBERT 등 대형 언어 모델을 활용해 채점 정확도 90% 이상을 달성했다. 심지어 일부 경우엔 훈련받은 인간 조교보다 더 일관된 평가를 보였다.
“AI 피드백 받고 다시 써보니, 점수가 쑥쑥!”
연구팀은 이 기술을 실제 강의 플랫폼에 적용해 학생들과 사용자 실험을 진행했다. 실험에 참가한 학생들은 3개의 귀납법 증명 문제를 풀었고, 일부 그룹은 기존처럼 스스로 검토했으며, 다른 그룹은 AI 채점기의 피드백을 받으며 수차례 다시 쓸 수 있었다.
결과는 흥미로웠다. AI 피드백을 받은 그룹은 평균적으로 11점가량 더 높은 점수를 기록했고, 더 많은 수정을 반복하며 증명을 개선했다. 특히 "어느 부분이 부족한지 정확히 알려줘서 고치기 쉬웠다"는 학생 의견도 다수 나왔다.
다만, AI 채점기라고 해서 완벽한 것은 아니다. 특정 표현이나 수식 기호를 오해하거나, 사소한 문장 구조 차이로 오답 처리하는 사례도 있었다. 학생들은 "띄어쓰기만 바꿨는데 점수가 달라졌다"며 당혹감을 표현하기도 했다.
아직은 ‘믿음’이 부족하다
AI가 빠르고 정확하게 채점해줘도, 학생들의 마음은 쉽게 움직이지 않았다. 설문조사에 따르면, 학생들은 여전히 “사람 조교를 더 믿는다”고 답했다. 특히 시험처럼 점수가 중요한 상황에서는 AI 대신 인간 채점을 원한다는 의견이 많았다.
왜일까? 연구진은 "AI가 틀렸을 수도 있다"는 막연한 불신이 작용했을 것으로 분석했다. 실제로 일부 학생은 AI의 피드백이 충분히 친절하지 않다고 느꼈고, 개선 방향이 명확하지 않아 막막했다는 의견도 있었다.
이는 단순한 기술 문제라기보다는, 사용자의 신뢰를 얻는 UX(User Experience)와 피드백 설계의 문제에 가깝다. 연구진은 향후 챗봇 기반의 대화형 피드백 시스템을 도입하거나, 학생이 AI 판정에 대해 '이유를 물어볼 수 있는 기능'을 추가해 나갈 계획이다.
AI 조교의 시대, 어디까지 왔나
이 연구는 단순히 하나의 기술을 보여준 데 그치지 않는다. 수학 교육의 난제 중 하나였던 ‘증명 교육’에 AI가 실질적인 도움을 줄 수 있다는 점을 실험과 데이터로 입증한 것이다. 그리고 무엇보다 중요한 건, 이 시스템이 ‘당장 실무에 쓸 수 있을 만큼’ 현실적이라는 점이다.
연구진은 "400개 정도의 증명 데이터만 있어도 높은 성능을 낼 수 있다"고 밝히며, 앞으로는 귀납법뿐 아니라 그래프 이론, 조합론, 집합론 등 다양한 영역으로 확장할 수 있다고 전망했다.
AI가 수학을 ‘잘 아는 조교’가 되는 날, 결코 먼 미래가 아니다. 다만, 아직은 학생들의 신뢰를 얻는 일이 남아 있다. AI가 정확히 채점하는 것 이상으로, 학생들이 그것을 ‘이해하고 납득할 수 있도록’ 돕는 방식으로 진화해야 한다.
Zhao, C., Silva, M., & Poulsen, S. (2025). Autograding Mathematical Induction Proofs with Natural Language Processing. International Journal of Artificial Intelligence in Education. https://doi.org/10.1007/s40593-025-00498-2