AI 지원 디자인 도구의 효과를 왜곡하는 통계적 착시와 심슨의 역설 해법
소규모 사용자 평가에서 나타나는 집계 오류를 교정하고 사용자 경험에 맞춘 AI 비선형 지원 방향을 제시하다 인공지능 기술이 의료 산업 전반으로 확장되면서 의사나 간호사가 사용하는 의료 소프트웨어의 화면 설계(UI/UX) 중요성도 함께 커지고 있다. 복잡하고 잘못 디자인된 의료 기기 인터페이스는 의료진에게 과도한 인지적 부담을 주며, 이는 치명적인 의료 입력 오류로 이어질 수 있기 때문이다. 이러한 문제를 해결하기 위해 디자인 과정에서 인간-컴퓨터 상호작용(HCI) 원칙과 의료기기 사용성 규격인 IEC 62366 표준을 자동으로 반영해 주는 생성형 AI 디자인 도구가 개발되었다. 그러나 의료 디자인이라는 전문 분야의 특성상 실제 평가에 참여할 수 있는 전문 디자이너의 수는 극히 제한적이다. 연구진은 단 4명의 전문 디자이너를 대상으로 AI 도구의 효과를 검증하는 과정에서 매우 기이한 통계적 현상인 심슨의 역설(Simpson's Paradox) 을 목격했다. 데이터 전체를 하나로 묶어 분석했을 때는 디자인 시간이 줄어들수록 의료 규격 준수 점수도 함께 낮아진다는 통계적으로 유의미한 음의 상관관계가 나타난 것이다. 이는 얼핏 보면 "작업을 빠르게 할수록 디자인의 품질이 떨어진다"는 상식적인 속도-품질 간의 절충 관계로 해석되기 쉽다. 하지만 디자이너 개개인의 기록을 들여다보면 결과는 완전히 정반대였다. 4명의 디자이너 모두가 AI 도구를 사용할 때 전통적인 방식보다 작업 시간도 훨씬 단축되었고 규격 준수율도 동시에 높아졌다. 전체를 묶은 통계 수치와 개별 데이터의 실제가 정반대로 움직인 이 왜곡은, 실험 조건의 구조를 무시하고 데이터를 무분별하게 병합할 때 발생하는 통계적 착시였다. 연구진은 이를 해결하기 위해 각 실험 조건을 분리하여 설명하는 조건부 가우시안 모델(Conditional Gaussian Model) 프레임워크를 도입해 통계적 오류를 바로잡고, 사용자의 기존 경험 수준에 따라 AI가 다르게 작용한다는 중요한 메커니즘을 밝혀...