“GPT-4보다 더 똑똑하다고?”… 단 8B 소형 AI가 스스로 틀린 답을 고쳐가며 진화한 놀라운 실험
요즘 인공지능은 뭐든 척척 해내는 것처럼 보인다. 질문하면 답하고, 글도 쓰고, 요약도 한다. 그런데 여기엔 치명적인 문제가 하나 있다. AI는 사실 자기가 틀렸는지 잘 모른다는 점이다.
한 번 답을 내놓으면 끝이다. 사람이 “그건 좀 아닌데?”라고 말해도 대부분의 작은 AI 모델은 왜 틀렸는지 이해하지 못한다. 마치 시험지를 제출한 뒤 오답노트를 보지 않는 학생과 비슷하다.
그런데 최근 흥미로운 연구가 등장했다. 작은 오픈소스 AI에게 “이전 답이 좋았는지 나빴는지”를 계속 알려주자, AI가 스스로 더 좋은 답을 찾아가기 시작한 것이다. 놀랍게도 일부 작업에서는 GPT-4o보다 더 뛰어난 성능까지 보였다.
이 연구는 단순히 “AI 성능이 좋아졌다” 수준이 아니다. 앞으로 값비싼 초거대 AI 없이도, 저렴하고 작은 AI가 스스로 발전하는 시대가 올 수 있다는 신호에 가깝다.
AI는 왜 같은 실수를 반복할까?
지금 대부분의 AI는 “한 번에 답 하나”를 생성한다. 질문을 받으면 그 즉시 가장 그럴듯한 답을 뱉어낸다.
문제는 여기서 끝난다는 점이다.
예를 들어 AI에게 “이 글의 핵심 키워드를 10개 뽑아라”라고 시키면, 처음 몇 개는 꽤 괜찮다. 하지만 뒤로 갈수록 이상한 단어나 중복 표현이 튀어나온다.
왜 그럴까?
AI는 이전에 자기가 어떤 답을 냈는지, 그 답이 좋은지 나쁜지 충분히 고려하지 못하기 때문이다.
연구진은 여기서 인간 학습의 핵심 원리를 떠올렸다.
사람은 보통 이렇게 배운다.
- 답을 쓴다
- 피드백을 받는다
- 틀린 이유를 이해한다
- 다음 답을 수정한다
그런데 기존 소형 AI에는 이 과정이 거의 없었다.
연구진이 만든 핵심 아이디어… “GOOD / BAD”
이번 연구의 핵심은 놀라울 정도로 단순했다.
AI에게 이전 답변마다 “GOOD” 또는 “BAD”라는 라벨을 붙여주는 것이다.
예를 들면 이런 식이다.
- GOOD: 아주 적절한 키워드
- BAD: 엉뚱하거나 중복된 키워드
AI는 이 기록을 계속 프롬프트 안에 쌓아가며 다음 답을 생성한다.
즉 AI는 이렇게 생각하게 된다.
“아, 방금 낸 답은 BAD였네. 그럼 비슷한 방향은 피해야겠다.”
반대로 GOOD 판정을 받은 답과 유사한 패턴은 계속 강화한다.
이걸 연구진은 Feedback-Aware Inference라고 불렀다. 쉽게 말하면 “피드백을 기억하며 답을 개선하는 AI 추론 방식”이다.
진짜 놀라운 건… 이 AI가 “작은 모델”이었다는 사실
보통 사람들은 이렇게 생각한다.
“그런 건 GPT-4 같은 초거대 AI니까 가능한 거 아냐?”
그런데 연구진이 사용한 기반 모델은 겨우 Llama-3 8B였다.
8B는 GPT-4 같은 거대 모델에 비하면 훨씬 작은 규모다. 일반 연구실이나 기업에서도 비교적 현실적으로 돌릴 수 있는 수준이다.
게다가 연구진은 실험을 단 하나의 A100 GPU에서 진행했다.
즉 “돈 많은 빅테크만 가능한 AI”가 아니라는 뜻이다.
AI에게 “좋은 질문거리”를 찾게 시켜봤더니…
첫 번째 실험은 꽤 흥미롭다.
AI에게 긴 글을 읽게 한 뒤 “여기서 질문 만들기 좋은 부분을 찾아라”라고 시켰다.
예를 들어 이런 문장이 있다고 하자.
“그녀는 꽃을 처음 꺾은 아기처럼 행복했다.”
AI는 여기서 어떤 부분을 질문의 정답으로 쓰기 좋은지 골라야 한다.
- 행복
- 꽃
- 비유법
- 사자
- 사람
이런 후보들이 나온다.
그리고 또 다른 AI가 검수한다.
“이 답으로 정말 괜찮은 질문을 만들 수 있나?”
좋은 답이면 GOOD.
이상하면 BAD.
이 과정을 반복하자 놀라운 일이 벌어졌다.
기존 AI들은 시간이 갈수록 성능이 급격히 떨어졌다. 엉뚱한 단어나 중복 표현을 계속 생성했다.
하지만 피드백을 기억하는 AI는 오랫동안 높은 품질을 유지했다.
GPT-4o보다 결과가 좋았다고?
연구에서 가장 충격적인 부분 중 하나다.
특정 작업에서는 GPT-4o가 가장 낮은 성능을 보였다.
왜 이런 일이 벌어졌을까?
연구진 설명은 꽤 설득력 있다.
GPT-4o는 범용 AI다. 엄청나게 똑똑하지만 특정 작업에 깊게 최적화된 건 아니다.
반면 이번 시스템은 특정 목표에 맞춰 피드백을 반복적으로 학습했다.
즉 “천재지만 대충 하는 학생”보다 “오답노트를 열심히 한 학생”이 시험에서 더 좋은 점수를 받은 셈이다.
AI는 어떻게 스스로 답을 고쳤을까?
연구 논문 속 알고리즘은 의외로 인간적이다.
AI는 다음 순서로 움직인다.
- 답 하나 생성
- 평가 시스템이 GOOD/BAD 판정
- 이전 기록 저장
- 다음 답 생성 시 참고
이 과정이 반복된다.
마치 선생님에게 계속 첨삭받는 학생과 비슷하다.
재미있는 건 연구진이 “BAD 예시”도 매우 중요하다고 강조한 점이다.
사람도 마찬가지다.
틀린 문제를 봐야 진짜 실력이 는다.
AI 역시 어떤 답이 실패인지 알아야 더 나은 방향으로 갈 수 있었다.
키워드 생성 실험에서도 결과는 같았다
두 번째 실험은 논문 키워드 생성이었다.
AI에게 논문 초록을 보여주고 핵심 키워드를 뽑게 했다.
기존 모델들은 초반엔 괜찮다가 점점 이상한 단어를 생성했다.
하지만 피드백 기반 AI는 마지막까지 비교적 안정적인 품질을 유지했다.
특히 중요한 건 “중복 감소”였다.
기존 AI는 비슷한 표현을 반복하는 경향이 강했다.
예:
- knowledge
- knowledge work
- knowledge management
하지만 피드백 AI는 “이미 비슷한 답이 BAD 처리됐음”을 기억하며 다른 방향을 탐색했다.
이건 단순 정확도 이상의 의미가 있다.
AI가 점점 “생각의 다양성”을 갖기 시작했다는 뜻이기 때문이다.
연구진도 인정한 한계는 있다
물론 완벽한 시스템은 아니다.
연구진은 몇 가지 약점도 솔직히 공개했다.
가장 큰 문제는 피드백 시스템 자체가 틀릴 수 있다는 점이다.
만약 GOOD/BAD 판정이 엉망이면?
AI는 잘못된 방향으로 학습할 수도 있다.
또 하나는 속도다.
이 시스템은 답 하나로 끝나는 게 아니라 계속 반복 생성과 평가를 해야 한다.
그래서 시간이 더 걸린다.
쉽게 말해 “빨리 대충 답하는 AI”보다 “천천히 검토하며 답하는 AI”에 가깝다.
앞으로 가장 기대되는 분야는 “추론 AI”
논문 후반부에서 연구진은 아주 흥미로운 미래 가능성을 언급한다.
수학 문제 풀이.
과학 추론.
논리적 사고.
이런 영역에서 AI가 “중간 과정”까지 평가받으며 스스로 수정할 수 있다는 것이다.
예를 들어 수학 문제를 푼다고 하자.
현재 AI:
틀린 계산을 해도 끝까지 밀고 간다.
미래 AI:
“3번째 계산이 BAD 판정이네?”
→ 중간 단계부터 다시 수정
이건 거의 인간식 사고에 가까운 방식이다.
AI의 미래는 “큰 모델”이 아니라 “잘 고치는 모델”일지도 모른다
지금까지 AI 경쟁은 대부분 “누가 더 큰 모델을 만드나”였다.
파라미터 수.
GPU 개수.
학습 데이터 규모.
하지만 이번 연구는 다른 방향을 보여준다.
“작은 AI라도 스스로 피드백을 이해하면 훨씬 똑똑해질 수 있다.”
이건 엄청난 변화다.
왜냐하면 앞으로는 비싼 초거대 AI가 아니라, 가볍고 저렴하면서도 스스로 수정 가능한 AI가 더 중요해질 가능성이 있기 때문이다.
특히 교육, 의료, 기업용 소프트웨어처럼 “정확성과 반복 개선”이 중요한 분야에서는 이런 접근이 훨씬 실용적일 수 있다.
AI가 단순히 답을 생성하는 시대는 끝나고 있다.
이제 AI는 자기 실수를 기억하기 시작했다.
그리고 그 순간부터, AI는 전혀 다른 존재가 된다.
출처
Dutulescu, A., Ruseti, S., Dascalu, M., & McNamara, D. S. (2026). Feedback-Aware Inference for Iterative Multi-Sample Text Generation. AI, 7(5), 171. https://doi.org/10.3390/ai7050171
