AI 공정성 챗봇 테미스 소개

미래지향적인 교실 안에서 아이들이 테이블 위에 홀로그램으로 떠오른 정의의 여신 테미스를 호기심 어린 표정으로 바라보고 있다. 여신은 한 손에 저울을 들고 푸른색 빛을 내뿜으며 인공지능의 공정성을 상징하는 기하학적 네트워크 패턴과 연결되어 있다.

하버드, 애들레이드 대학 연구진이 개발한 공정성 전문 챗봇 '테미스(Themis)'를 형상화한 모습. 복잡한 인공지능의 편견 문제를 아이들도 쉽게 이해할 수 있도록 돕는 디지털 조력자의 역할을 시각화했다.

인공지능(AI)이 우리 대신 취업 합격자를 결정하고, 대출 승인 여부를 판단하며, 심지어 범죄 가능성까지 예측하는 시대가 왔다. 그런데 만약 이 똑똑한 AI가 특정 인종이나 성별에 대해 편견을 가지고 있다면 어떻게 될까? 상상만 해도 끔찍한 일이다. 최근 하버드 대학교 연구진이 이 문제를 해결하기 위해 정의의 여신 이름을 딴 특별한 비서, '테미스(Themis)'를 세상에 공개했다. 인공지능의 '공정성'이라는 어렵고 딱딱한 주제를 초등학생도 이해할 수 있게 설명해주는 이 신통방통한 챗봇의 정체를 파헤쳐 본다.

인공지능도 편견을 배운다? 우리가 몰랐던 AI의 그림자

우리는 흔히 컴퓨터는 기계니까 아주 객관적일 것이라고 믿는다. 하지만 인공지능은 사람이 만든 데이터를 먹고 자란다. 만약 데이터 자체가 과거의 차별이나 편견을 담고 있다면, 인공지능은 그 차별을 학습하고 오히려 더 정교하게 복제한다. 이를 '알고리즘 편향'이라고 부른다.

예를 들어, 과거에 가난한 사람들이 의료비를 적게 썼다는 데이터를 바탕으로 AI를 훈련시키면, AI는 "돈을 적게 쓰는 사람은 덜 아픈 사람"이라고 착각하게 된다. 결국 실제로 더 아픈 가난한 사람들이 치료 우선순위에서 밀려나는 비극이 발생한다. 이런 문제를 해결하기 위해 전 세계 과학자들은 수천 편의 논문을 쏟아내고 있지만, 내용이 너무 어려워 일반인이나 정책 입안자들이 이해하기엔 하늘의 별 따기였다. 하버드 연구진은 바로 이 '지식의 장벽'을 허물기 위해 테미스를 개발했다.

똑똑한 비서 테미스, 어떻게 탄생했나?

테미스는 단순히 말을 잘하는 챗봇이 아니다. 연구진은 테미스를 만들기 위해 2019년부터 2025년까지 발표된 인공지능 공정성 관련 전문 논문 286편을 샅샅이 뒤져 '지식 창고'를 만들었다. 그리고 최신 인공지능 기술인 GPT-4o에 '검색 증강 생성(RAG)'이라는 기술을 접목했다.

쉽게 말해, 일반 챗봇이 자기 기억력에만 의존해 대답한다면, 테미스는 질문을 받을 때마다 옆에 있는 286편의 최신 논문 서적들을 직접 펼쳐보고 정확한 근거를 찾아 답변하는 방식이다. 연구진은 테미스의 실력을 검증하기 위해 'FairnessQA'라는 340문항의 까다로운 시험지를 직접 만들었다. 이 시험에는 객관식, OX 퀴즈, 서술형 문제가 포함되었으며, 테미스는 세계 최고의 AI 모델들과 진검승부를 벌였다.

형보다 나은 아우? 최신 AI 모델들을 압도한 성적표

결과는 놀라웠다. 테미스는 거의 모든 영역에서 챗GPT의 최신 버전인 GPT-5나 딥시크(DeepSeek R1), 그록(Grok 3) 같은 쟁쟁한 모델들을 가뿐히 제쳤다. 특히 정답이 확실해야 하는 OX 퀴즈에서 테미스는 96.7%라는 경이로운 정확도를 기록했다. 다른 모델들이 78%에서 84% 사이의 성적을 거둔 것과 비교하면 압도적인 실력 차이다.

아래 표는 테미스와 다른 유명 AI 모델들의 실제 시험 성적을 비교한 결과다.

표 1. 인공지능 모델별 공정성 지식 테스트 결과 비교 (정확도 %)

질문 유형	테미스 (Themis)	GPT-5	DeepSeek R1	GPT-4o	Grok 3
객관식 문제	96.7%	92.0%	90.0%	89.3%	86.7%
OX 퀴즈	96.7%	82.0%	84.0%	78.0%	80.7%

서술형 문제에서도 테미스는 빛났다. 전문가들이 답변의 정확성, 완전성, 유용성을 5점 만점으로 평가했을 때, 테미스는 모든 항목에서 가장 높은 점수를 받았다. 테미스의 답변은 단순히 정확할 뿐만 아니라, 일반인이 읽기에도 이해하기 쉽고 유용했다는 뜻이다.

세상을 더 공정하게 만드는 인공지능의 등장

테미스의 등장은 단순히 공부 잘하는 챗봇 하나가 나왔다는 의미를 넘어선다. 그동안 전문가들만의 영역이었던 '인공지능 공정성'이라는 주제를 누구나 대화하며 배울 수 있는 시대를 열었기 때문이다. 이제 선생님은 교실에서 아이들에게 AI의 편견을 설명할 때 테미스의 도움을 받을 수 있고, 법을 만드는 사람들은 기술적인 세부 사항을 테미스에게 물어보며 더 공정한 법안을 설계할 수 있다.

연구를 이끈 하버드 치의학 대학원의 하와진 엘라니(Hawazin Elani) 교수는 테미스가 복잡한 연구 결과들을 대중에게 전달하는 다리 역할을 할 것이라고 강조했다. 인공지능이 우리 삶에 깊숙이 들어온 만큼, 그 인공지능이 정말 공정한지 감시하고 요구하는 능력은 이제 우리 모두의 필수 소양이 되었다. 정의의 여신 테미스가 우리 손안의 스마트폰 속으로 들어와, 더 정의로운 디지털 세상을 만드는 길잡이가 되어주길 기대해 본다.

출처:
Santiago, P. H. R., Ju, X., Vasquez, X., Shen, H., Jamieson, L., & Elani, H. W. (2026). The Development of a Large Language Model-Powered Chatbot to Advance Fairness in Machine Learning. AI, 7(3), 90. https://doi.org/10.3390/ai7030090