머신러닝은 왜 유기금속 반응을 일반 화학 반응처럼 처리하지 못할까

연구진은 금속-탄소 결합을 찾는 AI 필터를 만들기 위해 분자 구조 표현 방식 자체를 다시 비교했다

유기금속 화학은 배터리, 신약, 플라스틱, 반도체, 촉매 산업까지 매우 넓게 사용된다. 하지만 실제 연구 현장에서는 새로운 촉매나 반응을 찾기 위해 수많은 실험을 반복해야 한다. 시간이 오래 걸리고 실패 비용도 크다. 최근에는 이런 문제를 해결하기 위해 인공지능과 머신러닝을 활용하는 연구가 빠르게 늘고 있다.

문제는 기존 AI 모델이 유기금속 반응을 잘 구별하지 못한다는 점이다. 일반 유기화학 데이터로 학습한 모델은 금속-탄소 결합의 특수성을 제대로 이해하지 못했다. 연구진은 바로 이 지점을 해결하려 했다. 핵심 목표는 “어떤 반응이 진짜 유기금속 반응인지 자동으로 걸러내는 AI 필터”를 만드는 것이었다.

이번 연구에서는 Random Forest, KNN, SVC, MLP 같은 여러 머신러닝 알고리즘을 비교했고, Morgan fingerprint와 MACCS keys라는 두 가지 분자 표현 방식도 함께 시험했다. 그 결과 MACCS keys 기반 MLP 모델이 가장 안정적이고 정확한 성능을 보였다. F1 score와 Recall은 각각 0.85였고, AUC-ROC는 0.837에 도달했다.

유기금속 반응은 왜 일반 화학 AI로 잘 구분되지 않는 것인가

유기금속 화학의 핵심은 금속과 탄소가 직접 결합하는 구조다. 일반적인 배위화합물은 금속이 산소나 질소 같은 원자와 연결되지만, 유기금속 화합물은 금속-탄소 결합 자체가 존재한다. 연구진은 이 차이가 머신러닝 모델에서 매우 중요하다고 설명했다.

기존 화학 AI는 대부분 유기화학 데이터에 맞춰 설계됐다. 그러나 유기금속 화합물은 전자 구조와 결합 방식이 매우 다르다. 예를 들어 철, 니켈, 팔라듐 같은 전이금속은 전자의 이동 방식이 복잡하고 반응 메커니즘도 일반 유기반응과 다르다. 그래서 기존 모델이 새로운 유기금속 반응을 만나면 잘못 분류하는 경우가 많았다.

연구진은 특히 “데이터 품질”이 가장 큰 문제라고 강조했다. 잘못된 반응 데이터가 포함되면 모델은 금속-탄소 결합의 특징을 제대로 배우지 못한다. 결국 AI가 반응을 이해하는 것이 아니라 노이즈까지 함께 외워버리는 문제가 발생한다.

연구진은 40만 개 반응 데이터에서 실제 유기금속 반응만 다시 골라냈다

이번 연구는 Open Reaction Database에 있는 40만9037개의 반응 데이터를 기반으로 시작됐다. 연구진은 먼저 금속이 전혀 없는 반응을 제거했다. 그 결과 약 9만3002개의 금속 포함 반응만 남았다.

그 다음 단계가 핵심이었다. 이 반응들 중 실제로 금속-탄소 결합을 가진 반응만 다시 추려냈다. 최종적으로 8299개의 유기금속 반응이 남았다. 이후 비교를 위해 1만 개의 비유기금속 반응을 추가해 총 1만8299개의 균형 데이터셋을 만들었다.

이 과정은 단순한 데이터 정리가 아니었다. 머신러닝 모델은 데이터의 패턴을 학습하기 때문에, 처음부터 반응 종류를 정확히 구분해줘야 한다. 연구진은 중복 데이터 제거와 구조 표준화도 함께 수행했다. 이렇게 해야 AI가 특정 화합물 하나만 반복 학습하는 과적합 문제를 줄일 수 있기 때문이다.

AI는 분자 구조를 숫자로 바꾼 뒤 패턴을 학습했다

컴퓨터는 화학 구조식을 그대로 이해하지 못한다. 그래서 연구진은 분자 구조를 숫자 배열로 변환하는 “분자 fingerprint” 기법을 사용했다.

이번 연구에서는 두 가지 방식이 비교됐다.

첫 번째는 Morgan fingerprint다. 이 방식은 분자 주변 원자 연결 구조를 분석해 2048비트 길이의 디지털 패턴으로 변환한다. 쉽게 말하면 “분자의 주변 연결 지도”를 만드는 방식이다.

두 번째는 MACCS keys다. 이 방식은 특정 화학 특징이 존재하는지를 질문 형태로 기록한다. 예를 들어 “할로겐 원자가 있는가”, “전이금속이 있는가”, “방향족 고리가 있는가” 같은 질문을 166개의 항목으로 저장한다.

흥미로운 점은 MACCS 방식이 유기금속 반응을 더 잘 구별했다는 사실이다. 연구진은 유기금속 반응이 특정 구조 패턴을 자주 공유하기 때문이라고 설명했다. 금속 존재 여부, 방향족 고리, 할로겐 구조 같은 특징들이 반복적으로 나타났기 때문이다.

가장 성능이 좋았던 모델은 MACCS 기반 MLP였다

연구진은 Random Forest, KNN, SVC, MLP를 각각 테스트했다. 그 결과 가장 안정적인 성능을 보인 것은 MACCS keys + MLP 조합이었다.

MLP는 다층 퍼셉트론이라 불리는 신경망 구조다. 여러 층을 거치며 입력 패턴을 점차 복잡하게 해석한다. 사람의 뇌 신경망을 단순화한 형태라고 볼 수 있다.

이 모델은 다음과 같은 성능을 기록했다.

F1 score: 0.85
Recall: 0.85
AUC-ROC: 0.837
Log Loss: 0.312

특히 Recall 값이 높다는 것은 실제 유기금속 반응을 놓치는 비율이 낮다는 뜻이다. 연구진은 이것이 촉매 탐색 자동화에서 매우 중요하다고 설명했다. 새로운 반응 후보를 최대한 많이 찾아야 하기 때문이다.

반면 Morgan fingerprint 기반 모델은 더 엄격한 필터 역할을 했다. 특히 KNN 모델은 Precision이 1.00이었다. 즉 “유기금속이라고 판정한 경우는 거의 틀리지 않았다”는 의미다. 하지만 지나치게 보수적으로 동작해 실제 유기금속 반응 일부를 놓치는 문제가 있었다.

연구진은 단순 규칙 기반 필터와 머신러닝도 직접 비교했다

이번 논문에서 흥미로운 부분 중 하나는 “규칙 기반 필터”와 AI 모델을 직접 비교했다는 점이다. 연구진은 SMARTS 패턴이라는 화학 규칙 언어를 사용해 금속-탄소 결합을 직접 탐지했다.

예를 들어 철, 니켈, 팔라듐 같은 금속이 탄소와 연결되면 유기금속으로 판정하는 방식이다. 규칙 기반 방법은 계산량이 적고 결과 해석도 쉽다.

하지만 문제도 컸다.

실제 유기금속 반응의 29%를 놓쳤다
비유기금속 반응의 21%를 잘못 분류했다

특히 산소나 질소와 결합한 일반 금속 착물이 유기금속으로 오인되는 경우가 많았다. 반대로 비정형적인 금속-탄소 결합은 탐지하지 못했다.

연구진은 이런 결과가 “규칙 기반 시스템의 한계”를 보여준다고 설명했다. 실제 화학 반응은 매우 다양하기 때문에 고정된 규칙만으로는 모든 구조를 설명하기 어렵기 때문이다.

특징 선택 과정이 AI 정확도를 크게 높였다

이번 연구에서 또 중요한 부분은 “특징 선택(feature selection)” 과정이었다. 연구진은 permutation importance 기법을 이용해 어떤 특징이 실제 예측에 중요한지 계산했다.

쉽게 말하면 특정 특징 값을 일부러 섞어본 뒤 성능이 얼마나 떨어지는지를 보는 방식이다. 만약 어떤 특징을 섞었을 때 정확도가 크게 떨어진다면, 그 특징은 중요한 정보라는 뜻이다.

이 과정을 통해 중요하지 않은 특징을 제거하자 모델 과적합이 줄었다. 학습 속도도 빨라졌고, 새로운 데이터에서도 더 안정적인 성능이 나타났다.

특히 MACCS keys에서는 다음 특징들이 중요한 역할을 했다.

전이금속 존재 여부
방향족 고리 구조
할로겐 포함 여부
탄소-비금속 연결 패턴

이런 구조 특징들이 실제 유기금속 반응의 공통 패턴으로 작용했다.

유기금속 촉매 탐색 자동화의 기반이 만들어지기 시작했다

이번 연구는 단순히 “화학 분류 AI”를 만든 수준에 머물지 않는다. 연구진은 정확한 필터링 도구가 있어야 이후 촉매 예측 AI도 제대로 작동한다고 설명했다.

예를 들어 새로운 촉매 후보를 AI가 추천하려면, 먼저 데이터베이스 안에서 실제 유기금속 반응만 정확히 추출해야 한다. 데이터가 섞여 있으면 잘못된 학습이 일어난다.

이번 연구는 바로 그 첫 단계인 “정확한 데이터 정제 시스템”을 만든 셈이다.

연구진은 앞으로 여러 fingerprint를 함께 결합하거나, 반응 종류 자체를 분류하는 방향으로 연구를 확장할 계획이라고 밝혔다. 현재 모델은 “유기금속 반응인지 여부”만 구분할 수 있지만, 미래에는 어떤 촉매 메커니즘인지까지 자동 분류할 가능성이 있다.

유기금속 화학은 원래 실험 의존성이 매우 강한 분야였다. 하지만 이번 연구처럼 머신러닝 기반 필터가 정교해지면, 앞으로는 AI가 새로운 촉매 후보를 먼저 찾고 연구자가 검증하는 방식으로 연구 흐름 자체가 바뀔 가능성이 커지고 있다.

출처

Mahlangu, W. B., Hungwe, T., Rapulenyane, N., & Ncube, S. (2026). Machine learning approaches for filtering organometallic reactions: A comparative study of molecular descriptors. AI, 7(6), 196. https://doi.org/10.3390/ai7060196