학생 답안 채점, 이제 AI가 대신한다

학교에서 교사가 수십 장의 시험지를 손수 채점하는 풍경은 곧 사라질지도 모른다. 짧은 주관식 답안을 자동으로 채점해주는 기술이 한층 진화했기 때문이다. 일본 연구팀이 최근 발표한 연구는 ‘짧은 답안 자동 채점(SAS)’의 한계를 넘어설 새로운 해법을 제시했다.

지금까지 AI가 답안을 채점하려면 반드시 새로운 문제마다 답안 예시와 채점 기준(루브릭)을 다시 모아 학습해야 했다. 이 과정은 비용과 시간이 많이 들어 학교나 온라인 교육 현장에서 쉽게 쓰기 어려웠다. 이번 연구팀은 “기존 문제 데이터를 활용하면 새로운 문제도 적은 데이터로 충분히 AI가 잘 배울 수 있다”고 주장한다.

<문제마다 다른 기준, AI는 어떻게 극복했나>

연구팀은 ‘크로스 프롬프트 사전학습’이라는 방식을 썼다. 우선 AI에게 여러 문제와 답안, 그리고 채점 기준을 학습시킨 뒤, 새로운 문제에 맞춰 조금만 추가로 학습(finetuning)하는 식이다. 핵심은 ‘키 프레이즈(핵심 표현)’다. 학생 답안이 루브릭에 명시된 핵심 표현과 얼마나 비슷한지를 AI가 보고 점수를 매기는 구조다.

실제로 연구는 일본 고등학생 독해 문제 데이터셋(RIKEN SAS)을 이용해 실험했다. 학생들이 쓴 짧은 답안 수만 4만 건 이상, 여기에 루브릭과 키 프레이즈가 모두 포함됐다. BERT와 같은 기존 언어모델은 물론, 최근 주목받는 거대언어모델(LLM)까지 투입됐다.

<데이터는 적어도 성적은 쑥쑥!>

연구 결과는 놀라웠다. 새로운 문제에 대해 단 10~50개의 학생 답안만 있어도, 기존 방법보다 최대 25% 더 정확한 점수를 매길 수 있었다. 이는 AI가 문제마다 다른 채점 기준의 공통 원리를 배워서, 적은 데이터로도 충분히 새 문제에 적용할 수 있었기 때문이다.

특히 최신 LLM(70억~700억 파라미터 규모) 모델은 이 방식으로 사람 채점자와 거의 비슷한 수준의 채점 성능을 보였다. 반면, LLM에 단순히 지침만 주는 ‘제로샷’, ‘인컨텍스트 러닝’ 방식만으로는 여전히 성능이 떨어졌다. 결국 지금의 LLM은 사람처럼 스스로 맥락을 완전히 파악해 채점하기에는 아직 부족하다는 뜻이다.

<학교 현장에서 쓸 수 있을까>

이번 연구는 교실이나 온라인 강의에서 짧은 답안을 자동 채점하는 데 큰 도움이 될 전망이다. 기존엔 문제마다 새 데이터를 다 모아야 해서 현실적으로 어려웠다면, 이제는 한 번 훈련한 AI로 여러 문제를 돌려 쓸 수 있기 때문이다.

물론 한계도 있다. 실험은 일본어 독해 문제에 한정됐고, 영어 에세이나 과학 서술형 문제에 바로 적용할 순 없다. 또 LLM을 충분히 훈련하려면 여전히 큰 연산 자원이 필요하다. 하지만 연구팀은 “앞으로 더 다양한 데이터와 언어에 이 방법을 적용해 학교 현장에서 바로 쓸 수 있도록 발전시키겠다”고 밝혔다.

<AI 채점의 미래, 이미 시작됐다>

학생이 쓴 짧은 답안을 사람이 일일이 손으로 채점하던 시대. 이제는 AI가 수천 장의 답안을 대신 읽고 점수를 매긴다. 이번 연구가 제시한 방법은 그 과정을 조금 더 빠르고 저렴하게, 그리고 공정하게 만드는 한 걸음이다. 언젠가 AI가 사람만큼 꼼꼼하게 답안을 읽어주길, 기대해본다!

출처 논문

Funayama, H.; Matsubayashi, Y.; Asazuma, Y.; Mizumoto, T.; Inui, K. Cross-prompt Pre-finetuning of Language Models for Short Answer Scoring. Int J Artif Intell Educ2025.