인공지능, 임상시험의 미래를 그리다: 위험 평가의 혁신적 전환




서론: 임상시험의 위험, AI가 해결할 수 있을까?

임상시험은 신약 개발의 핵심 단계지만, 실패율은 높고 비용은 천문학적이다. 특히 참가자의 안전, 치료의 효능, 실험의 운영 효율성이라는 세 가지 주요 리스크를 사전에 예측하고 관리하는 것은 매우 복잡한 작업이다. 최근 들어 인공지능(AI)이 이러한 임상시험의 리스크를 평가하고 예측하는 데 활용되기 시작하면서, 업계에 큰 전환점이 되고 있다.

이 글에서는 2013년부터 2024년까지 발표된 142편의 연구를 분석한 스코핑 리뷰 논문 "임상 시험 위험 평가에 대한 인공지능 적용 사례에 대한 탐색적 검토(A scoping review of artificial intelligence applications in clinical trial risk assessment)"를 바탕으로, AI가 임상시험의 세 가지 주요 리스크인 안전성, 효능, 운영 리스크를 어떻게 평가하는지 살펴보고자 한다. 단순한 논문 요약을 넘어, 이 연구가 시사하는 바와 한계, 그리고 향후 발전 가능성에 대해 비판적이고 창의적인 시각에서 풀어보겠다.



임상시험 리스크, 세 갈래로 나뉘다

임상시험 리스크는 크게 세 가지로 분류된다.

1. 안전성 리스크 (Safety Risk)

신약이나 치료법이 사람에게 처음 적용될 때, 예상치 못한 부작용이나 독성 반응이 발생할 수 있다. AI는 이러한 안전성 리스크를 예측하기 위해 약물의 분자 구조, 유전 정보, 임상 프로토콜 등을 분석한다. 특히 '부작용 발생(ADE)' 예측, '부작용 심각도' 예측, '장기 독성' 예측이라는 세 가지 주요 분야로 연구가 이루어졌다.

2. 효능 리스크 (Efficacy Risk)

신약이 실제로 효과가 있는지를 판단하는 것은 임상시험의 핵심이다. AI는 환자 데이터를 분석하여 약물 반응, 생존률, 치료 효과 등을 예측한다. 특히 개인별 치료 반응을 예측하는 '개인화 치료 효과 예측'은 정밀의학과 직결되며, 향후 발전 가능성이 크다.

3. 운영 리스크 (Operational Risk)

임상시험의 설계, 환자 모집, 규제 승인 등 운영과 관련된 리스크 역시 중요하다. AI는 프로토콜의 완성도, 실험 단계의 성공 확률, 승인 가능성 등을 예측해 운영 효율을 높인다. 특히 최근에는 임상시험 설계 문서(프로토콜)를 분석하는 데 LLM(대규모 언어 모델)을 활용하는 사례가 급증하고 있다.




AI의 방법론: 전통적 ML부터 LLM까지

이번 리뷰에서 다룬 AI 알고리즘은 크게 전통적인 머신러닝, 딥러닝, 생존 분석, 인과 머신러닝, 그리고 최근 각광받는 LLM까지 다양하다.

전통적 머신러닝은 랜덤포레스트, SVM, XGBoost 등이 주류를 이루며, 여전히 가장 많이 사용되는 방법론이다. 딥러닝은 GNN, CNN, 트랜스포머 등을 통해 복잡한 데이터를 효과적으로 처리한다. 특히 GNN은 약물 간 관계, 유전자-단백질 상호작용 등을 파악하는 데 유용하다.

LLM은 임상시험 프로토콜이나 과학 논문처럼 비정형 텍스트 데이터를 벡터로 변환하여 분석에 활용되며, 최근에는 GPT 기반의 생성형 LLM을 이용해 '디지털 트윈' 개념으로 환자 경과를 예측하는 시도도 등장했다.

개인적으로, 인과 머신러닝을 활용한 연구가 특히 인상 깊었다. 이는 단순한 예측을 넘어서 '왜 그런 결과가 나왔는가'를 설명할 수 있는 방법으로, 향후 임상 의사결정에 큰 도움을 줄 수 있다고 생각한다.



AI 성능, 정말로 신뢰할 수 있을까?

논문에 따르면 일부 모델은 AUROC 96%까지 달성했지만, 이 수치를 그대로 믿기엔 조심스러운 부분도 있다. 대표적인 문제점은 다음과 같다.

  • 선택 편향(Selection bias): 대부분의 데이터가 제한적이거나 대표성이 떨어진다.

  • 불균형 데이터 문제: 부작용 데이터처럼 희귀 사건은 데이터가 불균형하여, 단순 정확도보다 F1-score, MCC 등 적절한 지표를 써야 한다.

  • 과거 데이터 중심: 대부분 연구가 과거 데이터를 기반으로 하며, 실제 임상에 적용하기엔 일반화가 어렵다.

  • 리스크 간 상호작용 미고려: 안전성, 효능, 운영 리스크는 서로 영향을 주지만, 대부분 연구는 이를 별개로 다룬다.

이러한 한계에도 불구하고, AI 기반 리스크 예측은 임상시험의 "리스크 기반 모니터링(RBM)"을 발전시키는 핵심 기술로 자리잡고 있다. 특히 실시간 데이터 분석과 결합되면 더 정밀하고 민감한 대응이 가능할 것이다.




미래 전망: 통합 리스크 모델과 가상 임상시험

AI의 다음 단계는 단일 리스크가 아니라 다중 리스크를 동시에 예측하는 통합 모델이다. 이를 위해 '멀티태스크 러닝(Multi-task Learning)'이 주목받고 있다. 이 접근법은 하나의 모델이 다양한 리스크(예: 부작용, 효능, 승인 가능성 등)를 함께 학습하게 해, 더 효율적이고 일반화된 예측을 가능케 한다.

또 하나의 주목할 흐름은 가상 임상시험(in silico trial)이다. 이는 실제 환자 데이터를 바탕으로 가상의 임상환경을 시뮬레이션하여 리스크를 미리 평가하는 방식이다. 특히 윤리적 문제를 회피하고 비용을 절감하는 데 큰 도움이 된다. 그러나 생성된 시뮬레이션 데이터의 품질과 편향 문제는 여전히 해결 과제다.

결론적으로, AI는 임상시험의 리스크를 사전에 예측하고 관리하는 데 강력한 도구로 부상하고 있으며, 향후 더 통합적이고 현실적인 방향으로 발전할 것이다.




출처 논문:

Teodoro, D., Naderi, N., Yazdani, A., Zhang, B., & Bornet, A. (2025). A scoping review of artificial intelligence applications in clinical trial risk assessment. NPJ Digital Medicine, 8(486). https://doi.org/10.1038/s41746-025-01886-7