설문 조사의 한계를 깨다! 인공지능이 밝혀낸 ‘바퀴벌레 공포’의 진실
여러분은 바퀴벌레를 얼마나 싫어하는가?
만약 1점부터 7점까지 점수를 매기라고 한다면, 아마 많은 사람이 고민도 없이 7점을 선택할 것이다.
그런데 여기에 커다란 함정이 있다. 7점을 고른 수많은 사람이 모두 똑같은 수준으로 바퀴벌레를 싫어하는 걸까?
어떤 사람은 바퀴벌레 사진만 봐도 기절할 정도이고, 어떤 사람은 직접 마주쳤을 때만 소리를 지를 수도 있다. 하지만 기존의 객관식 설문 조사는 이 미세한 차이를 모두 7점이라는 하나의 숫자에 가둬버린다.
이를 학술적으로는 천장 효과(Ceiling Effect)라고 부른다. 최근 이 문제를 인공지능(AI)으로 해결한 흥미로운 연구가 발표되어 화제다.
숫자에 갇힌 우리의 마음, 천장 효과라는 보이지 않는 벽
우리가 흔히 접하는 설문 조사는 대부분 5지 선다나 7점 척도로 이루어진다. 하지만 공포나 혐오처럼 아주 강렬한 감정을 측정할 때, 이 방식은 한계에 부딪힌다. 너무 많은 사람이 최고점을 선택하기 때문에, 정작 그 사람들 사이의 차이를 구별할 수 없게 되는 것이다. 실제로 과거의 한 연구에서는 바퀴벌레에 대한 공포와 살충제 사용량 사이의 관계를 밝히려 했지만 실패했다.
응답자의 절반 가까이가 이미 최고점인 7점을 찍어버렸기 때문이다. 공포의 깊이가 저마다 다른데 숫자는 똑같으니, 통계적으로 아무런 의미를 찾아낼 수 없었던 셈이다. 이 보이지 않는 벽을 깨기 위해 이스라엘 하이파 대학교 연구진이 새로운 방식을 들고 나왔다.
인공지능이 심사위원이 된다? 맞춤형 주관식 테스트의 탄생
연구팀은 단순한 숫자가 아닌, 사람들의 진짜 목소리를 듣기로 했다. 그들이 고안한 방식은 다단계 적응형 테스트(MST)와 거대 언어 모델(LLM)을 결합한 하이브리드 시스템이다. 쉽게 말해, 인공지능이 응답자의 대답에 따라 다음 질문을 던지고, 그 대답을 직접 분석하는 방식이다.
먼저, 응답자는 바퀴벌레를 얼마나 싫어하는지 묻는 간단한 질문에 답한다. 인공지능은 이 답변을 바탕으로 응답자를 저, 중, 고의 세 가지 그룹으로 나눈다. 그런 다음 각 그룹에 딱 맞는 주관식 질문을 던진다. 예를 들어, 바퀴벌레를 아주 무서워하는 사람에게는 "거실에서 아주 큰 바퀴벌레를 발견했을 때 당신의 반응은 어떤가요?" 같은 구체적인 상황을 제시하고 자유롭게 적게 한다.
여기서 핵심은 인공지능의 역할이다. 수천 명이 적어낸 주관식 답변을 사람이 일일이 읽고 점수를 매기는 것은 불가능에 가깝다.
연구팀은 여기서 챗GPT와 같은 거대 언어 모델을 심사위원으로 임명했다. 인공지능은 사람들이 쓴 텍스트 속에서 공포의 수준을 세밀하게 읽어내고, 이를 다시 수치화했다.
| 평가 지표 | 인간 전문가와 AI의 일치도 (Kappa 계수) |
|---|---|
| GPT-4.1 모델 | 0.750 |
| GPT-5 모델 | 0.719 |
| 전체 신뢰도 (Fleiss' Kappa) | 약 0.78 (매우 높음) |
위 표에서 알 수 있듯이, 인공지능이 내린 판단은 인간 전문가가 내린 판단과 놀라울 정도로 일치했다. 게다가 비용은 인간을 고용했을 때보다 무려 18배나 저렴했다. 시간과 비용을 획기적으로 줄이면서도 훨씬 정확한 데이터를 얻어낸 것이다.
숨겨진 데이터의 부활, 바퀴벌레 공포의 진짜 지도가 그려지다
결과는 놀라웠다. 기존 7점 척도 설문 조사에서는 응답자의 45%가 6점이나 7점에 몰려 있었지만, 인공지능을 활용한 주관식 테스트에서는 이들의 점수가 넓게 퍼지기 시작했다. 마치 뭉쳐 있던 점들이 현미경 아래에서 제각각의 모습을 드러낸 것과 같았다.
기존 조사에서는 모두가 똑같이 무서워하는 것처럼 보였지만, 인공지능은 답변의 뉘앙스를 분석해 누가 더 극심한 공포를 느끼는지, 누가 상대적으로 덜한지를 정확히 구분해냈다.
연구팀은 이를 통해 기존에는 불가능했던 통계 분석이 가능해졌음을 증명했다. 단순히 바퀴벌레가 무섭다는 사실을 넘어, 그 공포가 사람의 행동에 어떤 영향을 주는지 훨씬 정밀하게 측정할 수 있게 된 것이다.
이제는 마음의 깊이까지 측정하는 AI의 시대
이 연구는 단순히 바퀴벌레 이야기를 하는 것이 아니다. 이는 심리학 연구의 새로운 지평을 열었다는 평가를 받는다. 우울증이나 불안 장애처럼 극단적인 감정을 다루는 의학 분야부터, 소비자의 아주 미세한 선호도를 파악해야 하는 마케팅 분야까지 이 기술이 활용될 곳은 무궁무진하다.
우리는 그동안 자신의 감정을 정해진 숫자 칸에 억지로 끼워 맞춰왔다. 하지만 이제 인공지능은 우리가 내뱉는 단어 하나, 문장의 분위기 하나까지 놓치지 않고 분석하여 우리 마음의 진짜 높낮이를 찾아내고 있다. 숫자가 말해주지 못하는 진실, 이제 인공지능이 그 벽을 허물고 있다.
출처: Gish, M., Nowominski, A., & Dror, R. (2026). Breaking the Ceiling: Mitigating Extreme Response Bias in Surveys Using an Open-Ended Adaptive-Testing System and LLM-Based Response Analysis. AI, 7(2), 73-105.