생명의 언어를 읽는 AI, '루카원'이 열어갈 생명정보학의 새 시대
DNA, RNA, 단백질. 생명을 구성하는 이 세 가지 분자는 말하자면 생명의 언어다. 우리가 말이나 글로 생각을 표현하듯, 생명체는 이 분자들을 조합해 자신을 설계하고 조절한다. 그런데 이 생명의 언어는 복잡하기 짝이 없다. 사람은 물론이고 미생물에서 식물, 동물, 바이러스까지 수많은 종이 저마다의 방식으로 이 언어를 구사한다. 그러니 과학자들은 여태껏 이 언어를 완전히 해독하지 못했다.
하지만 최근 놀라운 소식이 전해졌다. AI가 이 언어를 읽기 시작했다는 것이다. 중국과 호주, 미국 연구진이 공동으로 개발한 생물언어 AI 모델 '루카원(LucaOne)'이 바로 그 주인공이다. 이 AI는 DNA, RNA, 단백질이라는 서로 다른 생명의 언어를 하나의 모델 안에서 동시에 이해하는, 전례 없는 성과를 거뒀다. 이 모델은 생물학의 가장 근본 원칙인 "중심원리(central dogma)", 즉 DNA가 RNA로, 다시 단백질로 변환된다는 규칙을 훈련 없이도 스스로 이해했다. AI가 생명의 문법을 스스로 배운 셈이다.
이런 일이 어떻게 가능했을까? 연구팀은 16만 9천 종의 생물에서 채취한 엄청난 양의 유전자 및 단백질 정보를 활용했다. DNA와 RNA 서열은 물론, 단백질 서열과 그 3차원 구조, 기능적 특징까지 모두 포함된 이 데이터를 AI는 '읽고', '학습'했다. 그 방식도 일반적인 기계학습이 아니라, 문장을 이해하듯 맥락을 파악하는 최신 자연어처리 기술인 '트랜스포머' 아키텍처를 활용했다. 여기에 AI가 스스로 빈칸을 추론하며 학습하는 방식(마스킹 학습)과, 사전에 일부 정보를 알려주는 준지도학습도 적용됐다.
흥미로운 점은 이 모델이 DNA와 단백질을 별도로 훈련받지 않았는데도, 이 둘 사이의 대응 관계를 파악해낸 것이다. DNA에 있는 정보를 어떻게 읽으면 단백질로 바뀌는지를, 직접 가르치지 않아도 스스로 알아챘다는 얘기다. 연구진은 이를 시험하기 위해 DNA-단백질 쌍을 무작위로 섞고, 실제 짝인지 아닌지를 AI가 맞히게 했는데, 루카원은 높은 정확도로 정답을 골라냈다.
이뿐만이 아니다. 루카원은 7가지 생명정보학 문제에서도 뛰어난 성능을 보였다. 예를 들어 유전자 서열만 보고 어떤 종에 속하는지 분류하거나, 단백질이 세포의 어느 부위에 존재하는지 예측하는 일, 심지어 두 RNA나 단백질이 서로 상호작용할지 여부도 예측할 수 있었다. 특히 인플루엔자 바이러스처럼 빠르게 변이하는 병원체의 항원 변화를 예측하는 데서도 놀라운 정확도를 보였다. 이는 백신 개발에도 큰 도움이 될 수 있는 기술이다.
이 모델의 이름 '루카원(LucaOne)'은 생명의 공통 조상이라 불리는 'LUCA(Last Universal Common Ancestor)'에서 따왔다. 그만큼 이 모델이 모든 생명체의 언어를 아우르는 보편적 모델이 되길 바란다는 뜻이 담겨 있다. 실제로 연구진은 이 모델을 단일 종이 아니라 바이러스, 박테리아, 고세균, 진핵생물 등 전 생명의 영역을 포괄하는 데이터를 바탕으로 만들었다.
물론 한계도 있다. 예컨대 독특한 코돈 체계를 쓰는 생물, 예를 들어 창고기(Ciona intestinalis)처럼 특이한 유전자 번역 방식을 지닌 종에서는 예측 정확도가 다소 낮았다. 이는 AI가 아직 모든 생명의 규칙을 완전히 이해한 것은 아니라는 점을 시사한다. 하지만 그 해결책도 나왔다. 해당 종과 유사한 종의 데이터를 추가하자 예측력이 눈에 띄게 향상됐기 때문이다.
연구팀은 앞으로 이 모델을 더욱 정교하게 다듬고, 다양한 생물정보 데이터와 결합해 실제 연구와 진단, 치료에 활용할 수 있도록 발전시킬 계획이다. 예컨대 암 유전자 돌연변이 분석, 희귀질환 진단, 신약 후보물질 발굴 등에 루카원이 큰 역할을 할 수 있다. 생명과학과 인공지능이 만난 이 접점에서, 우리는 생명 언어를 해독하는 새로운 도구를 손에 넣은 셈이다.
이제 생명의 언어를 읽는 AI는 현실이 됐다. 루카원은 우리가 그 언어를 더 깊이 이해하고, 더 정확히 해석하며, 궁극적으로는 생명을 더 잘 다룰 수 있게 도울 것이다. 생명정보학의 새로운 시대가, 이렇게 AI의 손에서 열리고 있다.
출처 논문:
He, Y., Fang, P., Shan, Y., Pan, Y., Wei, Y., Chen, Y., Chen, Y., Liu, Y., Zeng, Z., Zhou, Z., Zhu, F., Holmes, E. C., Ye, J., Li, J., Shu, Y., Shi, M., & Li, Z. (2025). Generalized biological foundation model with unified nucleic acid and protein language. *Nature Machine Intelligence*.