실시간 대출 심사 AI는 어떻게 0.3초 안에 신용 위험을 예측할까?
카자흐스탄 80만 건 데이터로 검증한 설명 가능한 AI 신용평가 모델
은행이 고객의 대출 신청을 승인하거나 거절할 때, 빠른 속도와 설명 가능성을 동시에 확보하기 위해 어떤 AI 구조를 사용하는지 실제 운영 데이터를 통해 확인한 연구다.
대형 가전제품을 매장에서 할부로 구매하려고 할 때 대출 승인 결과는 몇 초 안에 나온다. 소비자는 단순히 “승인” 또는 “거절”만 보지만, 그 뒤에서는 매우 복잡한 신용평가 시스템이 작동한다.
문제는 속도와 정확도 사이의 균형이다. AI 모델은 일반적으로 복잡할수록 예측 성능이 좋아진다. 그러나 금융 규제 기관은 대출 심사 결과를 설명할 수 있어야 하며, 고객에게 거절 이유를 제시할 수 있어야 한다. 즉, 단순히 “AI가 그렇게 판단했다”는 답변은 허용되지 않는다.
2026년 국제 학술지 AI에 발표된 연구는 이러한 문제를 해결하기 위해 실제 은행 환경에서 사용할 수 있는 설명 가능한 하이브리드 AI 신용평가 시스템을 개발했다. 연구진은 카자흐스탄 최대 규모 은행의 실제 POS(Point-of-Sale) 대출 데이터 80만6537건을 분석해 AI 모델을 검증했다.
이 연구가 흥미로운 이유는 단순히 정확한 AI를 만드는 것이 아니라, 실제 금융 규제와 실시간 심사 환경까지 고려한 운영 가능한 시스템을 제시했기 때문이다.
매장 대출 심사는 1초도 기다릴 수 없는 환경이다
POS 대출은 소비자가 매장에서 물건을 구매하는 순간 함께 신청하는 소액 신용대출이다.
이러한 대출 심사는 일반적인 은행 대출과 다르게 매우 강한 제약을 받는다.
첫 번째 제약은 속도다.
매장에서 고객이 계산대 앞에 서 있는 동안 결과가 나와야 한다. 연구진이 분석한 시스템은 XML 데이터 전송부터 승인 결과 반환까지 전체 처리 시간을 300밀리초 이내로 제한했다.
두 번째 제약은 정보 부족이다.
은행 창구에서는 수십 개 정보를 받을 수 있지만 POS 환경에서는 그렇지 않다. 판매 직원이 너무 많은 정보를 요구하면 구매 전환율이 떨어진다. 실제 시스템은 단 9개의 신청 정보만 활용할 수 있었다.
세 번째 제약은 설명 가능성이다.
금융 규제기관은 신용평가 모델이 왜 특정 고객을 거절했는지 설명할 수 있어야 한다고 요구한다.
이 때문에 정확도만 높은 블랙박스 AI는 실제 금융 환경에서 활용하기 어렵다.
기존 신용평가 모델은 설명은 쉬웠지만 정확도에 한계가 있었다
은행권에서는 수십 년 동안 로지스틱 회귀(Logistic Regression) 기반 신용평가 모델이 표준처럼 사용됐다.
이 모델은 장점이 분명하다.
어떤 변수가 위험도를 높였는지 설명하기 쉽고 규제 대응도 편하다.
하지만 문제가 있다.
현실 세계의 신용 위험은 단순하지 않다. 여러 변수들이 동시에 상호작용하며 위험도를 결정한다.
예를 들어 다음과 같은 조합은 단순 모델이 놓치기 쉽다.
- 최근 대출 조회가 많음
- 소득 대비 신청 금액이 높음
- 예금 잔고 감소 중
- 카드 사용 패턴 변화 발생
각 변수는 개별적으로는 큰 문제가 아닐 수 있다.
그러나 동시에 발생하면 부실 위험이 급격히 증가할 수 있다.
머신러닝 모델은 이런 복잡한 상호작용을 더 잘 포착할 수 있다.
연구진은 온라인과 오프라인을 분리한 이중 구조를 설계했다
연구진은 흥미로운 전략을 사용했다.
실시간 심사에는 설명 가능한 모델을 사용하고, 배치 환경에서는 고성능 AI를 사용하는 구조다.
온라인 채널에서는 다음 정보를 사용했다.
- 신청서 정보 9개
- 신용조회 정보 4개
이 데이터로 설명 가능한 로지스틱 회귀 모델을 구축했다.
반면 야간 배치 시스템에서는 추가 데이터를 활용했다.
- 거래 패턴 정보
- 예금 잔고 정보
- 은행 내부 거래 기록
- 지역 기반 위험 정보
- 디지털 행동 데이터
총 72개 변수가 활용됐다.
이 정보를 바탕으로 세 가지 AI 모델을 결합했다.
- LightGBM
- CatBoost
- 신경망(Neural Network)
이후 결과를 다시 하나의 메타 모델로 통합했다.
쉽게 말하면 여러 전문가의 의견을 모아 최종 결론을 내리는 방식이다.
신용조회 기록이 가장 강력한 위험 신호로 나타났다
연구 결과 가장 중요한 변수는 신용조회 패턴이었다.
특히 영향력이 컸던 변수는 다음과 같다.
- 최근 신용조회 횟수
- 과거 연체 기록
- 현재 보유 대출 수
- 소득 수준
- 신청 금액 대비 소득 비율
흥미로운 점은 최근 신용조회 빈도가 매우 강한 예측력을 보였다는 사실이다.
이는 짧은 기간 동안 여러 금융기관에서 대출을 알아보는 행동 자체가 재정적 압박 신호일 수 있기 때문이다.
또한 소득보다 중요한 변수 중 하나가 소득 대비 대출 신청 비율이었다.
같은 소득을 가진 사람이라도 신청 금액 규모에 따라 위험도가 크게 달라졌다.
AI 모델은 기존 방식보다 훨씬 높은 예측력을 보였다
연구진은 모델 성능을 AUROC라는 지표로 평가했다.
AUROC는 1에 가까울수록 좋다.
결과는 다음과 같았다.
| 모델 | AUROC |
|---|---|
| 신규 고객 로지스틱 모델 | 0.835 |
| 기존 고객 로지스틱 모델 | 0.847 |
| AI 앙상블 모델 | 0.918 |
0.918이라는 수치는 금융권 신용평가 기준에서 상당히 높은 수준이다.
특히 거래 데이터와 예금 데이터를 추가하자 Gini 계수가 약 14.1%포인트 상승했다.
이는 고객 행동 데이터가 신용 위험 예측에 매우 큰 가치를 가진다는 의미다.
AI는 정확하기만 해서는 안 되고 확률도 정확해야 한다
많은 사람이 AI 예측 정확도만 중요하다고 생각한다.
하지만 금융에서는 또 다른 문제가 있다.
예측 확률 자체가 현실과 일치해야 한다.
예를 들어 AI가 어떤 고객의 부실 가능성을 20%라고 예측했다면 실제로도 비슷해야 한다.
이를 캘리브레이션(Calibration)이라고 부른다.
연구진은 Isotonic Regression 기법을 적용했다.
그 결과 Brier Score가 18% 개선됐다.
이는 AI가 단순히 순위를 잘 매기는 것을 넘어 실제 부실 확률도 더 정확하게 추정하게 됐다는 의미다.
이러한 개선은 대손충당금 계산이나 대출 금리 산정에 직접 영향을 준다.
AI의 차별 가능성도 함께 검증했다
최근 금융 AI에서 가장 중요한 이슈 중 하나는 공정성이다.
AI가 특정 집단을 차별하는가에 대한 문제다.
연구진은 다음 집단을 대상으로 분석을 수행했다.
- 남성
- 여성
- 연령대별 집단
- 도시 거주자
- 농촌 거주자
분석 결과 승인율 차이는 최대 1.2%포인트 수준이었다.
오류율 차이도 매우 작았다.
- 최대 TPR 차이: 1.4%포인트
- 최대 FPR 차이: 0.6%포인트
모든 수치가 규제기관 기준인 ±4%포인트 이내에 머물렀다.
특히 18~30세 집단에서 약간의 차이가 나타났지만 연구진은 이를 의도적 차별보다는 신용 이력 부족 현상으로 해석했다.
AI는 왜 대출을 거절했는지 설명까지 제공한다
이 연구의 핵심은 설명 가능성이다.
연구진은 SHAP라는 설명 AI 기술을 활용했다.
예를 들어 특정 고객이 거절됐다면 시스템은 다음과 같은 이유를 제시할 수 있다.
- 최근 신용조회가 과도하게 많음
- 소득 대비 신청 금액이 높음
- 최근 연체 이력 존재
- 예금 잔고 부족
반대로 승인된 고객은 다음과 같은 긍정 요인을 확인할 수 있다.
- 장기간 깨끗한 신용 이력
- 안정적인 예금 보유
- 연체 이력 없음
- 장기 거래 고객
즉, 단순히 “AI가 거절했다”가 아니라 “왜 거절했는지”를 고객과 감독기관 모두 이해할 수 있도록 만든 것이다.
빠른 심사와 설명 가능한 AI를 동시에 달성할 수 있음을 보여줬다
이번 연구는 금융 AI가 단순히 높은 정확도를 추구하는 단계를 넘어섰음을 보여준다.
실시간 대출 심사에서는 0.3초 이내 응답이 필요하고, 규제기관은 설명 가능성을 요구하며, 은행은 공정성과 안정성까지 관리해야 한다.
연구진은 이러한 상충되는 요구를 해결하기 위해 실시간 설명형 모델과 고성능 AI 앙상블 모델을 결합하는 이중 구조를 설계했다.
그 결과 실제 80만 건 이상의 대출 데이터를 활용해 높은 예측력, 우수한 확률 보정 성능, 낮은 편향성, 그리고 규제 대응 가능성을 동시에 입증했다.
앞으로 금융권 AI는 단순히 “얼마나 똑똑한가”보다 “얼마나 설명 가능하고 신뢰할 수 있는가”가 더 중요한 경쟁력이 될 가능성이 높다.
출처
Zakariya, G., Moldagulova, A., & Ali, N. (2026). An explainable hybrid AI framework for real-time point-of-sale credit scoring. AI, 7(6), 211. https://doi.org/10.3390/ai7060211
