인공지능, 암의 퍼즐을 맞추다: 유전체부터 조직 이미지까지 하나로 엮은 신기술
DLVPM이 통합하는 암의 다층적 데이터: DNA 서열부터 유전자 발현, 마이크로 RNA, 현미경 조직 이미지까지—복합적인 생물학적 정보를 하나의 통합 모델로 연결하다. |
암은 한 마디로 설명하기 어려운 병이다. 눈에 보이지 않는 유전자 변이부터 현미경 아래에서 보이는 조직 구조의 변화까지, 다양한 층위의 문제가 얽히고설킨 복합 질환이기 때문이다. 오랜 세월 동안 연구자들은 암의 일부만을 들여다보며 퍼즐 조각을 맞춰왔다. 유전체 데이터를 분석해보기도 하고, 현미경으로 암 조직을 들여다보기도 했다. 하지만 이들을 '통합적으로' 이해하기는 어려웠다. 전혀 다른 종류의 데이터를 함께 분석하는 건 말처럼 쉽지 않기 때문이다.
그런데 최근, 이 퍼즐을 한 번에 맞추려는 새로운 시도가 등장했다. 유럽 분자생물학연구소(EMBL)와 독일 암연구센터(DKFZ)의 공동 연구팀은 '딥 잠재변수 경로 모델링(DLVPM)'이라는 새로운 방법을 개발했다. 유전체, 에피유전체, 전사체, 마이크로 RNA, 그리고 조직 이미지 데이터를 모두 하나의 모델 안에서 연결짓는 기술이다. 그야말로, 암을 구성하는 모든 층위의 데이터를 ‘한데 묶어’ 바라볼 수 있는 길이 열린 것이다.
여러 개의 언어를 하나로 이해하는 AI
이번 연구에서 주인공은 DLVPM(Deep Latent Variable Path Modelling)이다. 말은 복잡하지만, 쉽게 말해 "서로 다른 데이터를 연결짓는 인공지능 모델"이다. 기존의 경로 모델링(path modelling)은 사회과학 분야에서 널리 쓰이던 기법으로, 여러 변수들 사이의 인과관계를 시각적으로 모델링하는 방식이었다. 하지만 이 전통적인 방식은 이미지나 유전자 시퀀스처럼 '비정형 데이터'를 다루기엔 한계가 있었다.
연구팀은 이 한계를 넘기 위해 딥러닝의 힘을 빌렸다. 각 데이터 유형—예를 들어 RNA 시퀀싱이나 현미경 이미지—마다 개별적인 신경망을 설계하고, 이들이 서로 '의미 있는 방식으로 연결되도록' 모델 전체를 훈련시킨 것이다. 비유하자면, 유전체는 한국어, 조직 이미지는 그림 언어, 마이크로 RNA는 수학 기호라고 했을 때, 이 모든 언어를 동시에 이해하고 상호 번역까지 해내는 AI 통역기를 만든 셈이다.
758개의 유방암 샘플에서 시작된 혁신
연구팀은 미국 TCGA(The Cancer Genome Atlas)의 유방암 데이터를 기반으로 DLVPM을 훈련시켰다. 무려 758개의 환자 샘플에서 유전체 변이, 유전자 발현량(RNA-seq), 메틸화 패턴, 마이크로 RNA 시퀀싱, 그리고 조직 이미지 데이터를 모두 활용했다.
각 데이터는 개별 신경망으로 전처리되었고, 중심에는 RNA-seq 데이터가 위치했다. 이는 유전체의 변화가 실제로 어떤 단백질을 얼마나 만들어내는지를 알려주는, 일종의 중계 역할을 하기 때문이다. 그다음 RNA-seq의 변화가 실제로 조직 구조에 어떤 영향을 주는지를 조직 이미지 데이터와 연결해서 분석했다.
결과는 놀라웠다. DLVPM은 기존의 선형 모델보다 훨씬 더 정밀하게 데이터 간의 연관성을 찾아냈고, 그 중에서도 첫 번째 잠재변수(DLV1)는 특히 강력한 연관을 보여줬다. 이 DLV1은 유방암의 주요 분류인 루미널(luminal)과 기저(basal) 아형을 뚜렷하게 구분해낼 수 있었다.
단일 유전자보다 ‘패턴’이 중요하다
DLVPM의 또 다른 강점은, 단일 유전자에 집착하지 않는다는 점이다. 이 모델은 여러 유전자들의 패턴을 함께 고려해 의미 있는 잠재요인을 찾아낸다. 그 덕분에, 암의 복잡한 생물학적 과정을 훨씬 더 정확히 포착할 수 있다.
예를 들어, DLV1과 가장 강하게 연결된 유전자들로는 루미널 아형에서 중요한 ESR1, PGR, GATA3 등이 있었고, 기저 아형에서는 STMN1, YBX1, TPX2 같은 유전자들이 두드러졌다. 이들 각각은 이미 개별 연구에서 암과의 연관성이 알려져 있었지만, DLVPM은 이들을 하나의 흐름 속에서 포착해낸 것이다.
뿐만 아니라, 이 잠재요인들은 실제 조직 이미지의 특성과도 연결됐다. DLV1이 높은 샘플은 세포 분열이 활발하고, 핵의 모양이 불규칙하며, 미세한 조직 구조의 변화가 많은 것으로 나타났다.
세포 수준으로 들어가 보니
연구팀은 여기서 멈추지 않았다. DLVPM을 단일세포 데이터에도 적용해 봤다. 10만 개 이상의 유방암 단일세포 RNA 데이터를 분석한 결과, 특정 잠재변수가 루미널 세포와 기저 세포를 명확히 구분했고, 특히 ‘myCAF’라고 불리는 암 관련 섬유아세포가 DLV3에서 높은 점수를 기록했다. 이 세포들은 암세포 주위 환경을 조절하는 중요한 역할을 한다.
이처럼 DLVPM은 단지 데이터 통합의 도구를 넘어, 종양 미세환경 내의 세포 간 상호작용까지 추적할 수 있는 잠재력을 지니고 있다.
치료 타깃까지 찾아낸다?
더 흥미로운 건, 이 모델이 단지 설명에 그치지 않고 '예측'에도 강하다는 점이다. 연구팀은 TCGA에서 훈련된 DLVPM을 바탕으로 암세포주(CCLE)의 유전체 데이터를 분석했고, 여기에 CRISPR-Cas9 유전자 편집 스크린 결과를 결합했다. 결과는 놀라웠다.
DLV1이 높게 나온 세포주는 ESR1, CCND1, GATA3 등의 유전자를 제거했을 때 세포 생존율이 급격히 떨어졌다. 즉, 이 유전자들은 이 특정한 암 세포 유형에서 '약한 고리' 역할을 하고 있다는 뜻이다. 이는 곧, 이 유전자를 표적하는 치료법이 효과적일 수 있다는 가능성을 보여준다.
이런 분석은 기존에는 유전자 하나하나를 별도로 실험해보는 수밖에 없었지만, DLVPM은 하나의 통합 모델로 이런 ‘합성 치명성’ 관계까지 추론해낸 셈이다.
공간 유전자지도와 조직 구조의 연결
마지막 퍼즐은 ‘공간’이었다. 유전자 발현이 어디에서 일어나는지를 볼 수 있는 공간 전사체 데이터를 통해 연구팀은 DLV1과 ESR1, CCND1, GATA3 같은 주요 유전자들의 공간적 발현 양상을 비교했다. 그 결과, DLV1 점수가 낮은(즉, 덜 공격적인 암) 부위에서 이들 유전자 발현이 높았다. 이는 이 유전자들이 분화가 잘 된 암 조직에서 주로 발현된다는 것을 시사하며, 암의 초기 성장과 관련이 깊다는 것을 보여준다.
퍼즐이 완성될 날은 가까워질까?
DLVPM은 단지 새로운 알고리즘이 아니다. 유전체, 에피유전체, 전사체, 조직 이미지, 공간 정보까지—암이라는 복잡한 질병을 구성하는 다양한 ‘언어들’을 하나의 통합된 이야기로 엮어낸 최초의 시도 중 하나다. 이 기술은 향후 다른 질환들, 예컨대 뇌질환이나 심혈관 질환 분석에도 확장될 가능성이 높다.
아직 퍼즐은 완성되지 않았다. 하지만 이제는 적어도, 모든 퍼즐 조각들이 테이블 위에 펼쳐진 셈이다.
출처
Ing, A., Andrades, A., Cosenza, M. R., & Korbel, J. O. (2025). Integrating multimodal cancer data using deep latent variable path modelling. Nature Machine Intelligence, 7, 1053–1075. https://doi.org/10.1038/s42256-025-01052-4