배터리 AI가 정말 제대로 학습했는지 확인하는 새로운 평가법의 등장

이미지
소수 데이터 환경에서도 배터리 열화 생성 모델의 오류를 찾아내는 3단계 진단 프레임워크 배터리 연구에서는 실제 실험 데이터가 부족한 경우가 많다. 특히 고온, 저온, 고속 충방전 같은 위험 조건은 실험 비용이 높고 안전 문제도 있어 데이터 수집이 쉽지 않다. 이 때문에 최근에는 인공지능이 배터리 열화 곡선을 생성해 부족한 데이터를 보완하는 연구가 활발히 진행되고 있다. 하지만 한 가지 중요한 문제가 남아 있었다. AI가 만든 배터리 데이터가 정말 믿을 만한가라는 질문이다. 일본 규슈공업대학 연구진은 이 질문에 답하기 위해 새로운 평가 체계인 Stratified Fréchet Distance , 즉 SFD 기반 3단계 진단 프레임워크를 제안했다. 연구진은 기존 평가 지표인 FID가 배터리 연구에서는 중요한 오류를 놓칠 수 있다고 지적했다. 기존 FID 평가는 중요한 배터리 오류를 숨길 수 있다 생성형 AI 연구에서 가장 널리 사용되는 평가 지표는 FID다. FID는 실제 데이터와 생성 데이터의 분포 차이를 하나의 숫자로 계산한다. 문제는 모든 조건을 하나로 합쳐 평가한다는 점이다. 예를 들어 배터리 데이터의 88%는 정상적으로 생성했지만, 안전과 직결되는 고온 조건 12%에서만 심각한 오류가 발생했다고 가정해보자. FID는 전체 데이터를 평균적으로 평가하기 때문에 해당 오류가 전체 점수에 거의 반영되지 않는다. 연구진은 이를 희석 효과 라고 설명했다. 배터리 연구에서는 이 문제가 더욱 심각하다. 가장 위험한 조건일수록 데이터가 적기 때문이다. 연구진은 평가를 세 단계로 나누어 문제를 해결했다 새로운 프레임워크의 첫 번째 계층은 조건별 품질 평가다. SFD의 핵심 아이디어는 모든 데이터를 한꺼번에 평가하지 않고 온도나 충방전 속도 같은 조건별로 나누어 평가하는 것이다. 예...

AI 의료 UI 설계 도구는 정말 효과가 있을까

이미지
작은 표본의 함정을 해결하는 방법을 제시 의료 소프트웨어 디자인 평가에서 나타난 심슨의 역설과 조건부 가우시안 모델의 역할 의료 분야에서 인공지능 활용은 빠르게 확대되고 있다. 하지만 AI가 실제로 사람의 업무를 얼마나 개선하는지 평가하는 과정은 생각보다 쉽지 않다. 특히 의료 UI·UX 설계처럼 전문가 수가 적은 분야에서는 연구 참가자를 많이 모집하기 어렵다. 일본 규슈대학교 연구진은 AI 기반 의료 인터페이스 설계 도구를 평가하던 과정에서 중요한 통계적 문제를 발견했다. 전체 데이터를 한꺼번에 분석하면 “작업 시간이 짧을수록 품질이 높다”는 결론이 나오지만, 개별 참가자를 살펴보면 전혀 다른 이야기가 나타났다. 연구진은 이를 심슨의 역설 로 설명하며, 작은 표본 연구에서 잘못된 결론을 피하기 위한 분석 방법으로 조건부 가우시안 모델 을 제안했다. 같은 데이터를 분석했는데 정반대 결론이 나오는 이유가 있다 심슨의 역설은 전체 데이터를 합쳐서 분석했을 때와 그룹별로 나누어 분석했을 때 결과가 서로 다르게 나타나는 현상이다. 이번 연구에서는 기존 방식으로 디자인한 결과와 AI 도구를 사용한 결과를 한꺼번에 묶어 분석하면서 이 문제가 발생했다. 연구진은 의료 소프트웨어 인터페이스를 설계하는 전문가 4명을 모집했다. 참가자들은 먼저 기존 방식으로 작업한 뒤, AI 설계 도구를 사용해 같은 유형의 작업을 수행했다. 측정 지표는 작업 시간과 의료기기 사용성 국제표준인 IEC 62366 준수 점수였다. 모든 참가자가 AI 도구 사용 후 더 빠르고 더 높은 품질을 보였다 4명의 디자이너는 모두 AI 도구 사용 후 작업 시간이 줄었고 품질 점수는 상승했다. 참가자 작업 시간 변화 품질 점수 변화 특징 ...

AI 지원 디자인 도구의 효과를 왜곡하는 통계적 착시와 심슨의 역설 해법

이미지
소규모 사용자 평가에서 나타나는 집계 오류를 교정하고 사용자 경험에 맞춘 AI 비선형 지원 방향을 제시하다 인공지능 기술이 의료 산업 전반으로 확장되면서 의사나 간호사가 사용하는 의료 소프트웨어의 화면 설계(UI/UX) 중요성도 함께 커지고 있다. 복잡하고 잘못 디자인된 의료 기기 인터페이스는 의료진에게 과도한 인지적 부담을 주며, 이는 치명적인 의료 입력 오류로 이어질 수 있기 때문이다. 이러한 문제를 해결하기 위해 디자인 과정에서 인간-컴퓨터 상호작용(HCI) 원칙과 의료기기 사용성 규격인 IEC 62366 표준을 자동으로 반영해 주는 생성형 AI 디자인 도구가 개발되었다. 그러나 의료 디자인이라는 전문 분야의 특성상 실제 평가에 참여할 수 있는 전문 디자이너의 수는 극히 제한적이다. 연구진은 단 4명의 전문 디자이너를 대상으로 AI 도구의 효과를 검증하는 과정에서 매우 기이한 통계적 현상인 심슨의 역설(Simpson's Paradox) 을 목격했다. 데이터 전체를 하나로 묶어 분석했을 때는 디자인 시간이 줄어들수록 의료 규격 준수 점수도 함께 낮아진다는 통계적으로 유의미한 음의 상관관계가 나타난 것이다. 이는 얼핏 보면 "작업을 빠르게 할수록 디자인의 품질이 떨어진다"는 상식적인 속도-품질 간의 절충 관계로 해석되기 쉽다. 하지만 디자이너 개개인의 기록을 들여다보면 결과는 완전히 정반대였다. 4명의 디자이너 모두가 AI 도구를 사용할 때 전통적인 방식보다 작업 시간도 훨씬 단축되었고 규격 준수율도 동시에 높아졌다. 전체를 묶은 통계 수치와 개별 데이터의 실제가 정반대로 움직인 이 왜곡은, 실험 조건의 구조를 무시하고 데이터를 무분별하게 병합할 때 발생하는 통계적 착시였다. 연구진은 이를 해결하기 위해 각 실험 조건을 분리하여 설명하는 조건부 가우시안 모델(Conditional Gaussian Model) 프레임워크를 도입해 통계적 오류를 바로잡고, 사용자의 기존 경험 수준에 따라 AI가 다르게 작용한다는 중요한 메커니즘을 밝혀...

세션 기반 추천 시스템은 왜 사용자의 진짜 의도를 놓쳤을까: MoHyNet이 하이퍼그래프 모티프로 해결한 방법

이미지
클릭 순서보다 중요한 것은 사용자가 무엇을 하려 했는가다 온라인 쇼핑몰의 추천 시스템은 사용자가 다음에 어떤 상품을 클릭할지 예측한다. 지금까지 많은 추천 알고리즘은 사용자의 행동을 시간순으로 나열한 뒤 그 순서를 학습하는 데 집중해 왔다. 하지만 실제 사람의 쇼핑 행동은 생각보다 훨씬 복잡하다. 예를 들어 어떤 사용자가 모니터, 키보드, 마우스를 차례로 살펴봤다고 하자. 또 다른 사용자는 마우스, 모니터, 키보드 순서로 상품을 탐색했다. 기존의 순차 기반 추천 모델은 이 두 행동을 서로 다른 패턴으로 인식할 가능성이 높다. 그러나 사람의 관점에서 보면 두 사용자의 목적은 사실상 동일할 수 있다. 둘 다 홈오피스를 구축하기 위해 필요한 장비를 비교하고 있었을 가능성이 높기 때문이다. 2026년 발표된 MoHyNet(Motif-guided Hypergraph Network) 연구는 바로 이 지점에 주목했다. 연구진은 사용자의 클릭 순서 자체보다 여러 상품이 함께 나타나는 구조와 반복되는 행동 패턴이 사용자의 의도를 더 잘 설명할 수 있다고 보았다. 이를 위해 하이퍼그래프, 하이퍼그래프 모티프, 그리고 대조학습을 결합한 새로운 추천 모델을 제안했다. 기존 추천 시스템이 놓친 것은 '가짜 순차 정보'다 세션 기반 추천 시스템은 일반적으로 사용자의 행동을 하나의 시퀀스로 처리한다. 예를 들어 노트북, 모니터, 키보드, 마우스 순으로 상품을 클릭했다면 모델은 노트북→모니터→키보드→마우스라는 이동 관계를 학습한다. 문제는 실제 쇼핑 행동이 반드시 논리적인 순서를 따르지 않는다는 점이다. 사용자는 광고를 눌러보기도 하고, 화면에 먼저 보이는 상품을 클릭하기도 하며, 단순한 호기심으로 관련 없는 상품을 살펴보기도 한다. 논문은 이러한 현상을 Pseudo-Sequential Noise(가짜 순차 노이즈) 라고 설명한다. 사용자의 실제 목적과는 무관한 클릭 순서가 모델 학습에 포함되면서 추천 정확도를 떨어뜨릴...

Transformer 기반 YOLO가 도로 균열을 더 정확하게 찾는 방업

이미지
  얇은 균열과 포트홀까지 동시에 인식하는 새로운 도로 손상 탐지 AI가 등장했다 도로 균열과 포트홀은 교통 안전과 직접 연결되는 문제다. 하지만 실제 도로를 사람이 일일이 점검하는 방식은 시간이 오래 걸리고 비용도 크다. 특히 야간이나 비 오는 날처럼 시야가 좋지 않은 환경에서는 작은 균열을 놓치기 쉽다. 최근에는 카메라와 AI를 이용해 도로 상태를 자동으로 분석하는 기술이 빠르게 발전하고 있다. 하지만 기존 AI 모델은 얇고 긴 균열을 제대로 인식하지 못하거나, 그림자와 차선 자국을 균열로 잘못 판단하는 문제가 있었다. 카자흐스탄과 말레이시아 연구진은 이런 한계를 해결하기 위해  Transformer 기반 멀티스케일 YOLO 모델 을 개발했다. 이 모델은 단순히 균열 위치만 찾는 것이 아니라, 균열 경계까지 세밀하게 분할할 수 있도록 설계됐다. 연구 결과 해당 모델은 mAP 92.8%, mIoU 89.6%, 실시간 처리 속도인 38FPS를 기록했다. 기존 도로 균열 탐지 AI는 얇은 균열을 자주 놓친다 기존 도로 손상 탐지 시스템 대부분은 CNN 기반 객체 탐지 모델을 사용했다. 대표적으로 YOLO 계열 모델이 널리 사용됐다. 이런 모델은 빠른 속도가 장점이지만 실제 도로 환경에서는 몇 가지 문제가 반복적으로 나타났다. 가장 큰 문제는  얇고 긴 균열 이다. 도로 균열은 머리카락처럼 가늘게 이어지는 경우가 많다. 그런데 일반 CNN 구조는 가까운 영역만 집중적으로 분석하기 때문에, 떨어진 균열 조각을 하나의 손상 구조로 이해하지 못하는 경우가 많다. 예를 들어 긴 균열이 중간 그림자 때문에 끊겨 보이면 기존 모델은 서로 다른 손상으로 인식하거나 일부만 탐지하는 경우가 있었다. 또 다른 문제는 도로 위의 시각적 노이즈다. 실제 도로에는 다음 같은 요소가 계속 등장한다. 차선 표시 맨홀 주변 자국 젖은 노면 반사 그림자 타이어 흔적 패치 보수 흔적 이런 요소들은 균열과 매우 비슷한 형태를 만들기 때문에 AI가 잘못 인...

머신러닝은 왜 유기금속 반응을 일반 화학 반응처럼 처리하지 못할까

이미지
  연구진은 금속-탄소 결합을 찾는 AI 필터를 만들기 위해 분자 구조 표현 방식 자체를 다시 비교했다  유기금속 화학은 배터리, 신약, 플라스틱, 반도체, 촉매 산업까지 매우 넓게 사용된다. 하지만 실제 연구 현장에서는 새로운 촉매나 반응을 찾기 위해 수많은 실험을 반복해야 한다. 시간이 오래 걸리고 실패 비용도 크다. 최근에는 이런 문제를 해결하기 위해 인공지능과 머신러닝을 활용하는 연구가 빠르게 늘고 있다. 문제는 기존 AI 모델이 유기금속 반응을 잘 구별하지 못한다는 점이다. 일반 유기화학 데이터로 학습한 모델은 금속-탄소 결합의 특수성을 제대로 이해하지 못했다. 연구진은 바로 이 지점을 해결하려 했다. 핵심 목표는 “어떤 반응이 진짜 유기금속 반응인지 자동으로 걸러내는 AI 필터”를 만드는 것이었다.  이번 연구에서는 Random Forest, KNN, SVC, MLP 같은 여러 머신러닝 알고리즘을 비교했고, Morgan fingerprint와 MACCS keys라는 두 가지 분자 표현 방식도 함께 시험했다. 그 결과  MACCS keys 기반 MLP 모델 이 가장 안정적이고 정확한 성능을 보였다. F1 score와 Recall은 각각 0.85였고, AUC-ROC는 0.837에 도달했다.   유기금속 반응은 왜 일반 화학 AI로 잘 구분되지 않는 것인가 유기금속 화학의 핵심은 금속과 탄소가 직접 결합하는 구조다. 일반적인 배위화합물은 금속이 산소나 질소 같은 원자와 연결되지만, 유기금속 화합물은 금속-탄소 결합 자체가 존재한다. 연구진은 이 차이가 머신러닝 모델에서 매우 중요하다고 설명했다. 기존 화학 AI는 대부분 유기화학 데이터에 맞춰 설계됐다. 그러나 유기금속 화합물은 전자 구조와 결합 방식이 매우 다르다. 예를 들어 철, 니켈, 팔라듐 같은 전이금속은 전자의 이동 방식이 복잡하고 반응 메커니즘도 일반 유기반응과 다르다. 그래서 기존 모델이 새로운 유기금속 반응을 만나면 잘못 분류하는 경우가 많았다. 연구...