AI가 생물학 실험을 이해하는 법: FineBio 데이터셋 이야기


실험실에서 연구원이 현미경과 실험도구를 다루며 실험을 수행하는 모습. FineBio처럼 손의 조작과 도구 간의 상호작용을 기록하는 장면을 상징적으로 담았다.


실험 영상을 보면 과학의 손길이 보인다

분주한 실험실 한가운데, 흰 가운을 입은 연구자가 조심스럽게 피펫을 집어 든다. 1mL의 용액을 시험관에 넣고, 다시 뚜껑을 닫는다. 이 장면, 언뜻 보면 단순해 보이지만, 과학의 재현성과 정확성을 지탱하는 핵심 행동이다. 그런데 이 과정을 사람이 아니라 인공지능(AI)이 이해하고 기록할 수 있다면 어떨까?

이 질문에 도전장을 내민 연구팀이 있다. 일본의 산업기술종합연구소(AIST)와 도쿄대학교, 국립암센터가 공동으로 개발한 ‘FineBio’라는 이름의 영상 데이터셋이 그 주인공이다. 이들은 실험 과정을 촬영한 영상을 인공지능이 학습할 수 있도록 정밀하게 분류하고 분석한 데이터셋을 구축했다.


실험을 보는 ‘AI의 눈’을 만들다

생물학 실험은 정해진 ‘프로토콜’을 따라야 한다. 몇 단계로 구성된 실험 절차와 그 절차 속의 작은 손동작들이 결과에 영향을 미친다. 이처럼 반복 가능하고 정확한 기록은 과학의 기본이다. 그러나 사람은 실수할 수 있고, 기록은 빠뜨릴 수 있다. 그래서 연구자들은 실험 장면을 영상으로 남기고 싶어 한다. 문제는, 이 영상이 실제로 어떤 행동을 담고 있는지 AI가 이해하는 것이 쉽지 않다는 점이다.

FineBio는 이런 문제를 해결하기 위해 만들어졌다. 연구팀은 실험 과정을 1인칭 카메라와 5대의 제3자 시점 카메라로 동시에 촬영했다. 실험은 총 226회, 14.5시간 분량. 단순한 ‘실험 영상’이 아니다. 각 영상은 ‘프로토콜 → 단계(step) → 손동작(atomic operation)’으로 나뉘며, 실험도구들의 위치와 조작 여부까지 꼼꼼히 기록됐다.

단지 용액을 옮기는 장면 하나에도, ‘피펫을 집는다 → 누른다 → 시험관에 넣는다 → 놓는다’ 같은 수많은 동작이 숨어 있다. FineBio는 이런 초미세 행동 단위까지 구분해, 영상 하나하나에 주석을 달았다.



실험 과정, AI가 얼마나 이해할까?

FineBio는 단순한 영상 모음이 아니다. 이 데이터셋을 기반으로 AI가 실험 장면을 얼마나 잘 이해할 수 있는지도 실험해봤다. 크게 네 가지 과제를 던졌다:

  1. 단계 구분하기 (Step Segmentation): AI가 영상 속에서 실험 단계의 시작과 끝을 맞게 찾아낼 수 있을까?
  2. 손동작 찾기 (Atomic Operation Detection): 실험자가 무엇을 어떻게 조작했는지, 동작 단위를 정확히 인식할 수 있을까?
  3. 도구 인식하기 (Object Detection): 영상 속 실험도구들이 어떤 물체인지, AI가 정확히 알아낼 수 있을까?
  4. 조작 대상 찾기 (Manipulated/Affected Object Detection): 손이 조작한 도구, 그 도구가 영향을 미친 물체는 무엇인지 파악할 수 있을까?

그 결과, 실험 단계 구분은 비교적 성공적이었다. AI는 영상 속 실험 절차를 꽤 높은 정확도로 구분해냈다. 하지만 손동작 수준으로 들어가면 이야기가 달라진다. 예를 들어, 피펫을 누르거나 뚜껑을 여는 미세한 움직임은 잘 구분되지 않았다. 특히 비슷하게 생긴 실험도구들(예: 파란 피펫과 노란 피펫)은 AI도 혼동했다.

또한 ‘손이 조작한 물체’와 ‘그로 인해 영향을 받은 물체’를 구분하는 일은 더욱 어렵다. 실험도구들이 겹쳐 있거나, 작고 빠르게 움직이면 AI가 인식에 실패하는 일이 많았다. 결국, 실험이라는 복잡한 행위를 AI가 온전히 이해하려면 훨씬 더 섬세한 시선이 필요하다는 걸 보여줬다.



왜 '실제 실험'이 아니라 '모의 실험'일까?

한 가지 특이한 점은, FineBio에 담긴 영상들이 진짜 실험이 아닌 ‘모의 실험’이라는 사실이다. 실제 시약 대신 증류수를 사용했고, 반응 시간이 필요한 단계는 생략했다. 실험용 기계 대신 간단한 도구로 대체했다. 이유는 간단하다. 정확한 손동작을 포착하고 분석하는 것이 목적이었기 때문이다.

진짜 실험은 복잡하고 기다림도 많다. 하지만 FineBio는 손이 어떤 도구를 어떻게 다루는지를 정확히 보여준다. 이런 세밀한 장면들은 인공지능에게 더 좋은 학습자료가 된다. 그래서 이 데이터셋은 실제 실험을 자동화하려는 목적보다는, AI가 ‘실험하는 인간’을 어떻게 인식할 수 있는지를 연구하는 기초자료로 의미가 크다.


실험실의 미래는?

FineBio는 실험실 자동화나 인공지능 기록 보조 시스템, 실험 오류 감지 기술 같은 분야에 중요한 발판이 될 수 있다. 예컨대 AI가 실험자의 행동을 실시간으로 분석해, 프로토콜을 잘 따르고 있는지 알려주는 스마트 실험 가이드가 등장할지도 모른다.

또한 FineBio는 6대의 카메라로 같은 장면을 다양한 시각에서 촬영했기 때문에, 3D 공간에서 실험자의 행동을 추적하고 해석하는 데도 활용 가능하다. 실제로 AI는 시점이 다를수록 성능이 바뀌는 모습을 보였고, 이를 바탕으로 더 정교한 행동 인식 모델이 만들어질 수 있다.



'실험하는 인간'을 이해하는 인공지능

과학은 반복 가능성과 정밀함을 바탕으로 한다. 하지만 실험을 수행하는 건 여전히 ‘사람’이다. 사람이 피펫을 집고, 시험관을 열고, 조심스레 용액을 옮기는 일련의 과정은 아직 AI에겐 복잡하고 오묘한 세계다.

FineBio는 이 세계를 한 걸음 더 들여다보게 했다. ‘실험’이라는 행위를 단순한 결과가 아닌 수많은 의미 있는 동작들의 집합으로 바라본 것이다. 언젠가 인공지능이 실험 노트 대신 실험 영상을 해석해주는 날이 오게 된다면, 그 시작은 아마 이 데이터셋일지도 모른다.



출처
Yagi, T., Ohashi, M., Huang, Y., Furuta, R., Adachi, S., Mitsuyama, T., & Sato, Y. (2025). FineBio: A Fine-Grained Video Dataset of Biological Experiments with Hierarchical Annotation. International Journal of Computer Vision. https://doi.org/10.1007/s11263-025-02523-2