AI가 논문을 읽고 이해하는 시대, 과학 연구의 새로운 파트너가 등장했다!

과학 논문을 읽는 AI, 누가 제일 똑똑할까?

‘ELISE’라는 이름의 신예 AI가 바꿔놓은 판도

“이제 논문은 사람이 아니라 AI가 읽는다.”

연구자라면 한 번쯤 해봤을 법한 고된 작업, 바로 ‘논문 읽고 요약하기’. 논문은 많고 시간은 없고, 필요한 정보는 흩어져 있다. 그런데 이 일을 대신해줄 수 있는 도구들이 있다. 바로 AI 논문 분석기다.

최근 논문 한 편이 화제다. 파리의 AI 기업 Biolevate가 개발한 과학 문서 전용 AI ‘ELISE’의 성능을, 다른 유명 AI들과 정면 비교한 연구다. 대상은 ChatGPT, SciSpace, Humata, Epsilon, 그리고 ELISE.

과연 누가 가장 ‘똑똑한’ 논문 읽는 AI일까?

논문 요약, 그게 뭐가 어렵냐고?

단순히 “논문 요약해줘”라고 하면, AI가 잘 할 것 같지만 현실은 다르다. 연구자들이 진짜 원하는 건 다음과 같다:

- 정확한 데이터 추출 (저자, 실험 설계, 통계 수치 등)

- 핵심 메시지 요약 (결과, 한계, 해석 등)

- 출처가 명확한 근거 기반 응답

즉, 단순한 요약을 넘어 정확성, 문맥 이해, 분석력, 그리고 추적 가능성까지 갖춰야 한다.

이 논문에서는 이를 위해 다섯 가지 평가 항목을 정했다.

1. Extraction (데이터 추출)

2. Comprehension (이해력)

3. Analysis (분석력)

4. Compliance (문서 기준 준수 여부)

5. Traceability (출처 추적 가능성)

이 다섯 가지 항목을 합쳐 ECACT 점수라 이름 붙였다.

실험은 이렇게 했다

연구진은 의학, 화학, 생물학 등 다양한 분야의 실제 논문 9편을 준비했다. 그리고 각 AI 도구에 동일한 질문을 던졌다. 예를 들어:

- 저자는 누구인가?

- 연구 설계는 어떻게 되었는가?

- 주요 결과는 무엇인가?

- 이 결과의 의미는?

- 이 연구의 한계점은?

이 질문에 대한 AI의 답변은 실제 전문가들이 미리 작성한 ‘정답’과 비교됐다. 또, AI가 근거로 삼은 문서 위치가 명확한지도 확인했다.

결과: ELISE, 전 영역 올킬

연구 결과, ELISE는 다섯 가지 평가 기준 모두에서 가장 높은 점수를 받았다. 특히 다음 두 가지가 인상적이었다:

분석력: 결과를 단순 요약하는 게 아니라, 의미까지 해석했다. 다른 AI는 숫자만 읊었지만, ELISE는 “이 수치가 어떤 임상적 함의를 갖는가”까지 말했다.

출처 명확성: AI가 답변할 때, 어떤 문서의 어떤 위치를 보고 말한 건지까지 명시했다. 이건 규제가 엄격한 의약·바이오 분야에서 매우 중요한 요소다.

ELISE의 최종 ECACT 점수는 72.06점. 반면 ChatGPT는 41.62점, 나머지 도구들은 그 사이였다.

ChatGPT는 왜 점수가 낮았을까?

흥미로운 사실은 ChatGPT가 데이터 추출(Extraction) 부문에서는 좋은 점수를 받았지만, 분석력과 출처 명확성에서는 낮았다. 특히 논문에 없는 DOI를 외부에서 가져와 답하는 바람에 데이터 위조로 간주되기도 했다. 이는 규제가 엄격한 분야에서는 치명적이다.

즉, ChatGPT는 빠르고 유창하지만, ‘정확하게 문서를 기반으로 답하라’는 미션에는 약점을 드러냈다.

왜 이 연구가 중요한가?

바이오, 제약, 의료 분야에서는 매일 쏟아지는 수천 편의 논문을 분석해야 한다. 그런데 사람의 시간은 한정돼 있다. AI가 이 일을 도와주면, 연구 개발 속도는 기하급수적으로 빨라진다.

하지만 아무 AI나 써서는 안 된다. 특히 신약 개발, 임상시험 문서 작성, 규제 당국 보고서 등에서는 근거가 명확하고 오류 없는 AI가 필수다. 이 연구는 그런 맥락에서 AI 성능을 ‘정량적으로’ 평가한 최초의 시도 중 하나다.

키워드:

#AI논문분석 #ELISE #ECACT점수 #의약AI #규제준수AI

출처 논문

Gobin, M.; Gosnat, M.; Toure, S.; Faik, L.; Belafa, J.; Villedieu de Torcy, A.; Armstrong, F. From data extraction to analysis: a comparative study of ELISE capabilities in scientific literature. Front. Artif. Intell. 2025, 8, 1587244.