단 하나의 세포에서 세상을 읽는 기술
하이퍼디멘셔널 컴퓨팅을 기반으로 한 싱글셀 RNA 시퀀싱 분석을 시각화한 이미지. AI를 상징하는 뇌, 바이너리 코드 리본, 유전자 발현 패턴이 그려진 분석 문서, 데이터 압축 구조, 보안을 나타내는 자물쇠 아이콘 등이 함께 구성돼 생명정보학과 인공지능의 융합을 표현한다. |
노이즈에 강한 AI, 싱글셀 RNA 분석을 재정의하다
하나의 세포가 전체 유전자 지도를 바꿀 수 있다면 믿겠는가?
싱글셀 RNA 시퀀싱(scRNA-seq)은 그런 세상을 열고 있다. 암, 면역, 뇌 질환 등 수많은 의학적 비밀이 ‘한 개의 세포’ 안에 있다는 게 밝혀졌기 때문이다. 문제는, 이 데이터가 너무 크고, 복잡하고, 시끄럽다(노이즈)는 것.
미국 라이트 주립대와 액센츄어, 그리고 협력 연구진이 이 문제를 해결할 새로운 열쇠를 제시했다. 바로 하이퍼디멘셔널 컴퓨팅(HDC, Hyperdimensional Computing). 뇌에서 영감을 받은 이 AI 방식은 기존 방법보다 더 정확하고, 빠르며, 튼튼하다.
---
왜 싱글셀 RNA 분석이 어려울까?
scRNA-seq은 세포 하나하나의 유전자 발현을 분석하는 기술이다. 세포별로 어떤 유전자가 얼마나 발현됐는지를 수치로 뽑아낸다. 문제는 그 결과가 수천~수만 개의 유전자 x 수십만 개의 세포라는 어마어마한 행렬이라는 점이다.
데이터는 희소(sparse)하고,
많은 유전자 정보가 빠져 있고(dropout),
실험마다 노이즈가 다르다.
이 데이터를 분석해 비슷한 세포끼리 묶거나(클러스터링), 정체를 맞히거나(분류) 하려면 매우 강력하고 정교한 AI 알고리즘이 필요하다.
---
HDC: 뇌를 닮은 AI의 등장
HDC는 인간의 뇌처럼 데이터를 고차원 벡터(hypervector)로 바꿔 계산하는 방법이다. 각 유전자는 ‘고유 서명’처럼 1만 차원짜리 벡터로 표현되고, 유전자 발현량은 그 위에 코딩된다.
수천 개 유전자가 하나의 세포를 10,000비트짜리 벡터 하나로 요약한다.
중간에 일부 비트가 바뀌더라도 전체 구조가 무너지지 않는다.
기존의 수치 기반 분석보다 노이즈에 훨씬 강하다!
이 방식은 원래 로보틱스나 뇌-컴퓨터 인터페이스에서 쓰이던 기법이다. 연구진은 이를 scRNA 데이터에 맞게 조정했고, 그 성능은 놀라웠다.
---
클러스터링: 세포를 '끼리끼리' 모은다
연구팀은 HDC 기반 클러스터링 기법인 HDSCC(Hyperdimensional Single-Cell Clustering)을 개발했다. 기존의 PCA, K-means, SC3, Seurat 등 유명한 알고리즘과 비교해봤다.
6개 공개 데이터셋(최대 76,000개 세포)에 적용
정확도(ARI, NMI) 모두 최고 성능
특히 데이터가 커지거나 노이즈를 일부러 넣어도 성능이 유지됐다.
예컨대 15%의 데이터를 망가뜨려도 HDSCC는 타 방법보다 최대 2.5배 더 안정적이었다.
---
분류(Classification): 세포의 정체를 밝혀라
단지 묶는 데서 끝나지 않는다. 연구팀은 세포 종류를 정확히 맞히는 분류 모델도 함께 개발했다. 고차원 벡터로 변환한 각 세포의 데이터를 기반으로, 훈련된 대표 벡터와 비교해 가장 유사한 세포 유형을 추정한다.
성능 비교: XGBoost, SVM, MLP, Seurat, scANVI 등과 대결
테스트 데이터셋: Pancreas, CeNGEN, Zebrafish
결과: 정확도, F-score 모두 최고 성능
잡음이 50%나 섞인 데이터에서도 높은 성능 유지
---
생물학적 정보까지 반영한 ‘스마트 벡터’
연구진은 여기서 한발 더 나아간다.
단순히 랜덤으로 벡터를 만들지 않고, 유전자 간의 생물학적 상관관계를 반영해서 벡터를 만들면 어떨까?
Gene-gene correlation에 따라 비슷한 유전자는 비슷한 벡터
Facebook의 BigGraph 임베딩 기술과 LSH(Locality Sensitive Hashing)로 구현
그 결과, 분류 성능이 최대 5%까지 추가 향상
이는 AI가 단순 수치 처리기를 넘어, 생물학적 지식까지 담을 수 있다는 가능성을 보여준다.
---
요약: 하나의 세포, 1만 차원의 뇌로 읽다
이 논문은 기술적 완성도도 뛰어나지만, 생물학적 해석 가능성과 실제 적용 가능성에서도 매우 큰 의미가 있다.
노이즈에 강하고,
대규모 데이터도 빠르게 처리하며,
해석 가능한 벡터 구조로 설명까지 가능하다.
향후에는 단일 세포 분석을 넘어, 단백질체(proteomics), 후성유전체(epigenomics), 대사체(metabolomics) 분석에도 적용할 수 있다고 한다.
---
#싱글셀RNA #하이퍼디멘셔널컴퓨팅 #scRNAseq #클러스터링 #바이오AI
---
출처 논문
하이퍼디멘셔널 컴퓨팅 기반의 강건한 싱글셀 RNA-Seq 분석: 향상된 클러스터링 및 분류 방법
Robust Single-Cell RNA-Seq Analysis Using Hyperdimensional Computing: Enhanced Clustering and Classification Methods
저자: Hossein Mohammadi (Wright State University) 외 3인
발행 일자: 2025년 5월 1일
저널 이름: AI (MDPI)