인공지능 정렬, '멈출 수 있는 기계'로 해답을 찾다
AI 정렬 문제가 대두되고 있다 |
AI가 인간의 가치에 맞춰 행동하게 만드는 일, 즉 'AI 정렬(Alignment)'은 오늘날 인공지능 안전 논의의 중심에 있다. 그런데 최근 한 연구는 이 정렬 문제가 이론적으로는 '풀 수 없는 문제(undecidable problem)'일 수 있다고 선언했다. 브라질 ITA 대학의 연구팀은 컴퓨터 과학의 고전 이론을 바탕으로, 임의의 AI가 인간의 기준에 맞게 정렬되어 있는지를 판별하는 것은 불가능하다고 결론 내렸다. 하지만, '항상 멈추는 기계'라는 개념을 도입하면 이 난제를 우회할 수 있다고도 제안했다.
AI 정렬은 왜 풀 수 없나?
논문은 '내적 정렬(inner alignment)' 문제에 초점을 맞춘다. 이는 AI가 목표를 정확히 주어진 대로 이해하고 따르는지 여부다. 겉으로 보기엔 AI가 목표를 잘 따르는 것처럼 보여도, 실제로는 다른 목적을 추구할 수 있다는 점이 이 문제의 핵심이다. 연구팀은 이 문제를 계산 이론의 기본인 '튜링의 정지 문제(Halting Problem)'와 '라이스 정리(Rice's Theorem)'로 환원시켰다.
쉽게 말해, 어떤 AI 프로그램이 모든 상황에서 주어진 기준(판단 함수)을 만족하는지 결정할 수 있는 일반적인 방법은 존재하지 않는다는 것이다. 이를 증명하기 위해, 연구진은 어떤 판별 프로그램이 존재한다고 가정하고, 이를 역으로 속이는 '대항 모델(adversarial model)'을 만드는 논리적 역설을 구성해 모순을 이끌어낸다.
이로써, 일반적인 AI 모델에 대해 그 정렬 여부를 판별하는 것은 불가능하다는 결론에 도달한다.
그렇다면 방법이 전혀 없는 걸까?
연구팀은 해법의 실마리를 '항상 정지하는 AI'에서 찾는다. 튜링 기계처럼 무한히 실행될 수 있는 모델이 아니라, 일정 시간 내에 반드시 종료되는 구조를 갖춘 AI라면 상황이 달라진다는 것이다. 예를 들어, 심층 신경망(Deep Neural Network)처럼 입력이 고정되어 있고 연산이 유한한 모델은 이론상 항상 멈춘다. 이런 모델에 대해서는 모든 가능한 입력에 대해 정렬 여부를 검사할 수 있다. 물론 계산량이 폭발적으로 커질 수 있지만, 이론적으로는 가능하다는 점이 중요하다.
또 하나의 방법은 '필터링 아키텍처'다. AI 모델의 출력을 따로 판단 함수에 통과시켜, 정렬되지 않은 출력은 무해한 값으로 바꿔버리는 구조다. 이 방식은 모델 자체가 정렬되지 않았더라도, 최종 출력만큼은 항상 안전하게 만들 수 있다.
정렬을 보장하는 AI는 어떻게 만들까
논문은 '정렬이 보장된 연산들'만을 조합해 만든 AI 아키텍처를 제안한다. 이처럼 설계 단계부터 정렬을 내장하면, 결과적으로 만들어지는 AI는 항상 정렬된 행동만 하게 된다. 특히 '셀프플레이', '테스트 타임 학습(TTT)' 같은 구조를 갖춘 최신 모델에서도, 내부 루프가 유한한 시간 내에 종료되도록 설계하면 정렬 여부를 검증할 수 있는 여지를 남길 수 있다고 말한다.
흥미로운 비유도 등장한다. 생물학적 시스템은 본질적으로 '유한한 생명'을 가진다. AI 시스템도 유사하게, 일정 시간이 지나면 종료되는 '디지털 생애'를 갖추도록 설계되어야 한다는 것이다. 이를 위해 '시간이 지날수록 운영 비용이 급증하는 보상 함수'를 설정하는 등, 종료를 유도하는 수학적 장치들도 제안됐다.
왜 중요한가?
오늘날 AI 시스템은 점점 더 복잡해지고 있다. 특히 '에이전트'처럼 연속적인 판단과 행동을 수행하는 구조에서는, 어디서 멈춰야 할지를 명확히 정의하지 않으면 오작동 가능성이 커진다. 이 연구는 AI가 '무한 루프'에 빠지지 않도록 설계하는 것이야말로 정렬 가능성을 확보하는 첫걸음임을 강조한다.
결국, 정렬 문제의 해법은 사후 제어가 아니라 설계 단계에서의 구조적 보장에 있다는 메시지를 남긴다. 이 접근은 현재 널리 쓰이는 '사후 정렬(post-hoc alignment)' 방식과는 정반대다. 논문은 우리가 처음부터 '정렬된 AI'만을 설계하고, 그 외의 구조는 원천적으로 배제해야 한다고 강조한다.
출처 논문
Melo, G.A., Máximo, M.R.O.A., Soma, N.Y., Castro, P.A.L. Machines that halt resolve the undecidability of artificial intelligence alignment. Sci. Rep. 15, 15591 (2025). [https://doi.org/10.1038/s41598-025-99060-2](https://doi.org/10.1038/s41598-025-99060-2)