8월, 2025의 게시물 표시

“공감하는 AI 튜터”는 어떻게 탄생하나: ‘필요 기반 의식’으로 설계한 새 지도

이미지
   AI가 ‘눈치’와 ‘양심’을 갖게 되는 날 요즘 AI 튜터는 문제 풀이를 넘어 학생의 기분, 동기, 학습 흐름까지 읽어내길 기대받는다. 그런데 단순한 규칙과 보상만으로는 이런 섬세한 판단이 어렵다. 여기서 캐나다 토론토대의 얼 우드러프가 던진 제안이 흥미롭다. 이름하여  NDCF(Needs-Driven Consciousness Framework) , 직역하면 ‘필요 기반 의식 프레임워크’다. 핵심은 간단하다.  살아남기(Survive), 잘 성장하기(Thrive), 탁월해지기(Excel)  라는 세 가지 내적 필요가 서로 경쟁·협력하며, 필요에 따라 행동 우선순위를 고르는  의사결정 엔진 을 AI 내부에 심자는 것이다.  위험이 감지되면  보호(Protect)  라는 감독층이 브레이크를 건다. 저자는 이 구조가  공감하고, 스스로 점검하며, 윤리적으로 행동하는 AI 튜터 를 만드는 실용 설계도라고 말한다. 요컨대, AI에게 ‘머리’만이 아니라 ‘속사정’을 준 셈이다.  이 AI는 왜, 어떻게, 무엇을 기준으로 움직이나 1) 세 개의 필요, 하나의 엔진 NDCF는 데닛의 ‘여러 초안’ 이론, 다마지오의 체표지 가설, 툴빙의 기억 삼분법을 한 프레임 안에 묶는다.  Survive 는 시스템 안정과 안전,  Thrive 는 자율성·유능감·관계성,  Excel 은 창의성·윤리 추론·장기 목적을 대표한다. 이 셋은 매 순간 “지금 내 필요가 얼마나 충족/결핍됐나”를 수치로 계산하고(만족도 s), 변화율(긴급도 g)을 구해  소프트맥스  가중치로 행동 선택을 이끈다. 위협이 커지면 Survive의 g가 커져 안전이 최우선이 된다. 갈등 강도(Ω)가 높아지면 ‘Protect’가 개입해 위험한 출력을 차단한다. 교과서 같은 수식이지만, 실제 현장에서는 “지금은 학생을 다그칠 때인가, 기다릴 때인가?” 같은 미묘한 결정을 ...

인간 간 해독기능에서 영감을 받은 인공지능, 'ALC 분류기'의 혁신

이미지
최근 한 연구에서 머신러닝(Machine Learning, ML)의 새로운 지평을 여는 시도가 소개되었다. 논문 "인공 간 분류기: 전통적인 기계 학습 모델의 새로운 대안 (Artificial liver classifier: a new alternative to conventional machine learning models)"(Jumaah et al., 2025)는 생물학적 시스템, 특히 인간의 간에서 영감을 받은 새로운 분류 모델인 '인공 간 분류기(Artificial Liver Classifier, ALC)'를 제안한다. 이 글에서는 해당 연구의 내용을 일반 독자들도 이해할 수 있도록 풀어 설명하고, 그 의미와 가능성에 대해 분석하고자 한다. 간에서 배운 머신러닝? ALC의 개념 기존의 머신러닝 분류기는 대부분 수학적 모델이나 인간 뇌의 뉴런 구조에서 영감을 받아 개발되었다. 그러나 ALC는 독특하게도 인간 간의 해독(detoxification) 기능에서 영감을 받아 설계되었다. 간은 우리 몸의 해독 공장으로, 독소를 걸러내고 이를 무해한 물질로 바꾸어 배출하는 역할을 한다. 연구진은 이 생물학적 과정을 두 단계(Phase I과 Phase II)의 수학적 연산으로 모델링함으로써, 데이터 분류 문제를 처리하는 새로운 방식의 ML 모델을 고안했다. Phase I: 산화 단계 입력 데이터를 '독소'로 간주하고, 이를 Cytochrome P450 효소에 해당하는 보조 인자(cofactor) 행렬과 곱해 반응성 화합물로 변환한다. 이 과정은 ReLU 활성화 함수로 비선형성을 부여하여, 실제 간에서만 일부 독소가 선택적으로 처리되는 메커니즘을 모방한다. Phase II: 접합 단계 1단계를 거친 '활성화된 독소'는 이제 수용성 분자로 결합(conjugation)된다. 이는 또 다른 행렬 연산(Vitamin...

약초 정보, 이젠 AI가 읽어준다

이미지
– 한 문장 한 문장 속에 숨어 있던 약초의 효능, AI가 뽑아내는 시대 코로나19 팬데믹 당시, 약국도 병원도 문을 닫고, 의사와 약을 찾기 어려웠던 때를 떠올려보자. 이 시기 많은 이들이 향한 곳은 집 근처 텃밭, 혹은 부엌이었다. 생강차, 레몬그라스, 바질, 심지어 전통 민간요법까지—이른바 ‘대체의학’이 다시금 주목을 받았다. 그런데 여기서 의문 하나. 우리가 먹는 생강의 ‘뿌리’는 감기 예방에 효과가 있고, 레몬그라스의 ‘잎’은 소화를 돕는다고 한다. 그런데 이 ‘효능’이라는 것이 어디에, 어떻게 쓰여 있을까? 수백, 수천 개의 약초 관련 문서를 사람이 하나하나 읽고, 정리할 수 있을까? 태국-스웨덴 공동 연구팀은 바로 이 질문에서 출발했다. 그리고 놀라운 연구 결과를 내놓았다. AI를 활용해 ‘식물의 어떤 부위가 어떤 효능을 갖는지’를 문장 속에서 자동으로 추출해, 마치 지도로 그려내듯 정리하는 기술을 개발한 것이다. 약초 문장을 AI가 읽고, 뜻을 알아챈다 연구의 핵심은 ‘pp-mpG 관계’라는 이름의 새로운 방식이다. 간단히 말하면 식물의 부위(leaf, root, flower 등)와 그것이 가진 약리효과 그룹(항염, 해열, 진통 등)을 연결하는 ‘개념적 짝짓기’다. 기존에는 보통 "레몬그라스는 소화에 좋다"는 식의 단순 문장을 대상으로, ‘레몬그라스 → 소화 촉진’이라는 관계만 추출했다. 하지만 이런 방식은 지나치게 단편적이다. 실제로 많은 약초는 여러 효능을 동시에 갖고 있으며 , 부위마다 효능이 다르기도 하다 . 연구팀은 약초에 대한 태국어 문서 259개에서 총 20,000개 이상의 문장을 수집했다. 각 문장을 분석한 뒤, AI가 “이 문장에서 말하는 효능은 어떤 것이며, 그 효능은 어떤 식물 부위와 연결되는가?”를 자동으로 추출하도록 설계했다. 놀라운 점은 이 분석에 문장을 구성하는 ‘동사’의 역할 이 결정적이라...

프롬프트 한 줄이 바꾸는 개발의 미래

이미지
  — 소프트웨어 공학에 불어온 ‘프롬프트 엔지니어링’ 혁명 프로그래머들이 코드를 짜는 방식이 변하고 있다. 아니, 더 정확히 말하면  코드를 짜게 만드는 방식 이 바뀌고 있다. 그 변화의 중심에는 바로 ‘프롬프트 엔지니어링(prompt engineering)’이라는 새로운 흐름이 있다. "버그를 고쳐줘", "이 기능을 구현해줘", "이 코드를 문서화해줘"라는 단순한 요청 하나가 실제 코드, 테스트 케이스, 심지어 요구사항 명세서로 바뀌는 시대. 지금 소프트웨어 개발 현장에서는 이 마법 같은 일이 현실이 되고 있다. 그리고 이 마법의 뒤에는 대규모 언어 모델(LLM)과 그 능력을 최대한 끌어내는 기술, 바로 ‘프롬프트 엔지니어링’이 있다. 그런데 과연 이 기술은 어디까지 와 있을까? 얼마나 실용적이고, 어떤 문제가 남아 있을까? 이 질문에 답하기 위해 인도네시아의 연구팀이 나섰다. 그들은 지금까지 발표된 관련 논문 42편을 종합 분석해  프롬프트 엔지니어링의 현재와 미래 를 체계적으로 정리했다. “말을 잘 걸면, 더 좋은 답을 얻는다” 프롬프트 엔지니어링이란 대규모 언어 모델에게 더 정확한 작업을 시키기 위해 입력 문장(=프롬프트)을 구조화하거나 최적화하는 기술이다. 단순히 “이 코드 고쳐줘”라고 말하는 것이 아니라, 예제도 주고, 필요한 정보를 검색해서 덧붙이거나, 중간 단계의 추론을 유도하는 등  ‘LLM을 다루는 기술’  전반을 의미한다. 연구팀은 기존 논문들을 분석해, 소프트웨어 엔지니어링에서 실제로 사용되는 프롬프트 엔지니어링 기법들을 다음 네 가지로 분류했다. 수동 프롬프트 설계 사람이 직접 문장을 구성해 입력하는 방식. 가장 직관적이지만 확장성이 떨어진다. RAG (Retrieval-Augmented Generation) 외부 지식을 검색해서 프롬프트에 포함시킨다. 문맥 정확도가 높아진다. 연쇄 추론 프롬프트 (Chain-of-Thought Prompting) 중간 추론 과정을 명시적으...

의료 그림 앞에서 멈춘 AI — 어깨관절 분류 시험에서 드러난 한계

이미지
  다른 산업보다 일찍 AI를 받아들인 의료 현장에서도, “이미지 해석”만큼은 여전히 쉬운 문제가 아니었다. 어깨 인공관절 수술을 준비할 때 쓰는 ‘왈쉬(Walch) 글레노이드 분류’—어깨 관절 소켓(관절와)의 닳는 패턴을 유형별로 나누는 체계—를 두 개의 최신 대형언어모델(LLM)에게 풀어보게 했더니, 결과는 의외로 냉정했다. 딥시크 R1(DeepSeek R1)은 44%의 정답률을 보였고, 클로드 3.5 소넷(Claude 3.5 Sonnet)은 0%였다.  멀티모달 시대라며 AI에 거는 기대가 커졌지만, 의학 그림 한 장도 꾸준히 맞히지 못했다는 뜻이다. 연구팀은 결론을 이렇게 요약했다. “2025년 2월 현재, 공개된 범용 LLM들은 임상에 쓸 만큼 안정적이지 않다.” ‘그림’ 앞에서 멈춘 AI 왈쉬 분류는 어깨 관절 치환술 전 계획에서 가장 널리 쓰이는 언어다. 의사는 축 방향 CT나 겨드랑이 방향 X선에서 관절와가 앞·뒤로 얼마나 닳았는지, 상완골두가 얼마나 치우쳤는지 등을 보고 A1, A2, B1, B2, B3, C, D로 나눈다. 예컨대 A형은 중심에 가깝고 닳음이 동심원처럼 고르게 나타난다. B형은 뒤쪽으로 치우치며 비대칭 마모가 특징이다. 간단히 말해, 수술 중 어떤 삽입물과 교정각을 쓸지 결정하는 설계도다. 그렇다면 이 명백한 시각적 규칙을 AI가 못 알아챘다는 말일까? 연구진은 범용 LLM들이 텍스트 중심으로 학습돼 왔다는 점, 의료 전용 도상(도식화 그림)엔 노출이 적었다는 점을 지적한다. 그 결과, ‘곡선’과 ‘빈 공간’ 같은 기하학적 단서들을 일관되게 잡아내지 못했다. 특히 가장 흔한 오류는 A2를 A1로 바꾸어 말하는 실수였다. 중심에서 살짝 벗어난 상완골두를 ‘중심’으로 오인한 셈이다. 어떻게 시험했고 무엇이 드러났나 연구는 진짜 환자 영상 대신, 라디오피디아(Radiopaedia)의 고대비 흑백 도식 7장을 사용했다. 실제 임상 영상보다 훨씬 단순하고 ‘정답의 힌트’가 뚜렷한 자료다. 테스트는 퍼플렉시티(P...

자율적 에이전트의 미래, Argus로 다시 쓰다

이미지
BDI 아키텍처와 통신 프로토콜의 혁신적 융합 서론: 자율적 다중 에이전트 시스템, 그 한계와 가능성 현대의 다중 에이전트 시스템(Multi-Agent Systems, MAS)은 자율성(autonomy)과 이질성(heterogeneity)을 핵심 가치로 삼는다. 즉, 각 에이전트는 독립적으로 사고하고 행동하며, 서로 다른 조직이나 이해관계를 대표하는 다양한 행위자(agent)일 수 있다. 하지만 이러한 시스템을 설계하고 구현하는 과정에서 하나의 큰 벽에 부딪히게 된다. 바로 의사소통(communication) 이다. 기존의 BDI(Belief-Desire-Intention) 기반 에이전트 프로그래밍 프레임워크는 내적 추론 능력은 뛰어나지만, 에이전트 간의 통신을 효과적으로 처리하는 데 한계 가 있다. 반대로, 통신 중심 모델은 상호작용을 정교하게 모델링할 수 있으나 개별 에이전트의 내부 논리나 자율성은 무시된다. 이러한 간극을 해소하기 위해 제안된 것이 바로 Argus 다. 이 글에서는 2025년 Artificial Intelligence 저널에 게재 예정인 논문 "아르구스: 신념-욕구-의도 아키텍처에서 통신 프로토콜을 활용한 프로그래밍(Argus: Programming with Communication Protocols in a Belief-Desire-Intention Architecture)"을 바탕으로, Argus가 기존 MAS 설계의 한계를 어떻게 극복하는지, 그리고 그 실용적 의미는 무엇인지 심층적으로 탐구해본다. Argus란 무엇인가? Argus는 두 가지 상이한 접근법 — BDI 기반 에이전트 프로그래밍 과 정보 중심 통신 프로토콜(Information Protocols) — 을 결합한 새로운 에이전트 프로그래밍 모델이다. 핵심적으로 Argus는 다음 세 가지를 제공한다: 프로토콜과 BDI의 통합 아키텍처 및 ...

영상 속 인간 행동을 이해하는 똑똑한 인공지능의 비밀

이미지
사람이 하는 행동을 영상 속에서 자동으로 인식하는 기술, 이른바 행동 인식(Action Recognition) 은 자율주행차, CCTV, 스포츠 분석, 교육, 재활 등 다양한 분야에서 중요한 역할을 한다. 하지만 카메라에 담긴 장면만으로 “저 사람이 지금 뭘 하고 있는지” 정확히 파악하는 건 여전히 쉽지 않은 과제다. 예를 들어, 누군가 주방에서 손을 움직이고 있다. 그는 설거지를 하는 걸까, 혹은 요리를 시작하는 걸까? 단순히 RGB 영상만으로는 이처럼 미묘한 행동을 판별하기 어렵다. 행동을 더 정확히 파악하려면 사람의 자세나 움직임 정보, 주변 사물, 소리 등 다양한 단서를 함께 고려해야 한다. 그렇다면 모든 단서를 모아 쓰면 될까? 아쉽게도 실제 영상 데이터는 그렇지 않다. 어떤 데이터는 skeleton(뼈대) 정보가 없고, 어떤 건 소리가 빠져 있다. 필요한 정보가 빠졌을 때도 똑똑하게 행동을 인식할 수 있는 AI는 없을까? 그 질문에 답한 연구가 최근 국제 저널 International Journal of Computer Vision 에 실렸다. 제목은 〈특징 환각을 활용한 자기지도형 행동 인식 (Feature Hallucination for Self-supervised Action Recognition)〉 , 연구팀은 호주 Griffith 대학과 ANU, CSIRO에서 참여했다. 행동 인식의 삼대 난제 연구는 현재의 행동 인식 기술이 세 가지 큰 문제를 안고 있다고 지적한다. 멀티모달 데이터의 결핍 RGB 영상, skeleton, optical flow(움직임 벡터), 오디오 등 여러 정보가 조합되면 정확도가 높아진다. 하지만 실제 데이터셋은 대부분 RGB만 있고 나머지는 없거나 불균형하다. 비효율적인 특징 결합 방식 여러 정보를 합치는 방식이 단순하거나, 모달리티 간 상호작용을 잘 반영하지 못한다. 특히 시공간 정보를 다루는 구조가 ...

위성 이미지 분류, 지리적 영역 간의 도메인 이동을 넘어서다

이미지
DSGR 데이터셋의 도전과 통찰  왜 위성 이미지 분류는 어려운가? 위성 이미지를 활용한 토지 이용 분류는 환경 감시, 도시 계획, 재난 대응 등 다양한 분야에서 중요한 역할을 한다. 그러나 인공지능 기반의 분류 모델은 학습된 데이터와 다른 지역의 이미지에는 성능이 급격히 저하되는 문제를 안고 있다. 이는 바로 '도메인 이동(Domain Shift)' 문제다. 특히, 지리적 영역 간의 차이는 단순한 스타일 변화나 조명 조건과는 차원이 다른 복잡한 요인을 내포하고 있다. 자연 지형, 건축 양식, 사회경제적 발전 수준, 문화적 특성 등은 동일한 토지 이용 유형이라 하더라도 지역마다 전혀 다른 시각적 특징을 만들어낸다. 이처럼 공간적 도메인 이동(spatial domain shift)은 기존 모델의 일반화 능력을 심각하게 저해한다. DSGR – 도메인 이동 연구를 위한 새로운 기준 이러한 문제의식을 바탕으로 본 논문은 Domain Shift across Geographic Regions (DSGR) 이라는 새로운 대규모 위성 이미지 데이터셋을 제안한다. 이 데이터셋은 아시아, 아프리카, 오세아니아, 유럽, 라틴아메리카, 북미 등 6개 대륙 권역을 도메인으로 설정하여, 지리적 도메인 이동의 영향을 정량적으로 분석할 수 있게 한다. 기존 도메인 일반화(Domain Generalisation, DG) 연구는 PACS, DomainNet 같은 스타일 변화 중심의 벤치마크에 의존해 왔으며, 이는 현실 세계의 복잡성과는 거리가 있다. DSGR은 실질적이고 이질적인 지리적 분포의 데이터를 통해 DG 연구의 현실 적합성을 크게 향상시킨다. 흥미롭게도, DSGR은 기존에 강력한 성능을 보이던 최신 DG 알고리즘들이 이질적인 도메인에서는 쉽게 무너진다는 사실을 보여준다. 이는 단순한 스타일 차이가 아닌 본질적인 시각 특성의 차이 가 모델의 성능에 결정적 영향을 미친다는 점을 ...

사람처럼 장면을 이해하는 AI, 뇌와 닮은꼴이다

이미지
“사람의 뇌는 장면을 어떻게 이해할까?” 놀랍게도, 최신 인공지능 언어 모델이 그 해답에 가까워지고 있다. 뇌가 복잡한 시각 정보를 처리하는 방식과, 인공지능이 문장을 이해하는 방식 사이에 놀라운 공통점이 있다는 사실이 밝혀졌다. 이번에 발표된 연구는 인간의 뇌와 AI가 장면을 해석하는 데 있어 얼마나 닮아 있는지를 보여주는 획기적인 결과다. 인간의 시각 이해, AI 언어 모델로 설명된다? 인간은 복잡한 장면을 한눈에 파악한다. "잔디밭 위에서 개를 산책시키는 사람"이라는 문장을 들으면, 우리는 곧바로 머릿속에 그림을 그릴 수 있다. 하지만 과학자들은 그동안 인간의 시각 정보 처리를 수치적으로 설명하는 데 어려움을 겪어왔다. 이번 연구는 독특한 접근을 택했다. 바로 '언어 모델' , 즉 문장을 이해하는 데 특화된 AI를 이용해 뇌의 시각 반응을 설명하려는 시도였다. 연구진은 문장을 수치화한 AI의 내부 표현값(embedding)을 통해, 사람들이 실제 장면을 보았을 때의 뇌 활동을 예측할 수 있는지를 실험했다. 이게 정말 가능할까? 실험: 장면을 보고 떠올린 문장, AI도 똑같이 이해한다? 연구는 미국과 유럽의 뇌과학자들과 AI 전문가들이 협업해 진행했다. 실험 참가자들은 7T(테슬라) 고해상도 fMRI 장비를 착용하고, 수천 장의 자연 풍경 이미지를 보았다. 이 이미지들은 COCO라는 이미지 데이터셋에서 가져온 것으로, 각 이미지에는 사람들이 작성한 문장형 설명(예: "파란 하늘 아래 공원에서 개가 뛰노는 모습")이 달려 있었다. 연구팀은 이 문장들을 최신 언어 모델인 MPNet 에 넣어 수치화하고, 그 수치들과 참가자의 뇌 반응을 비교했다. 결과는 충격적이었다. AI가 만든 문장 표현값과 사람의 뇌 반응은 놀라울 정도로 유사했다! 특히 사람의 뇌 속 고차원 시각 영역 ...

바람을 먹는 터빈, 균열을 감지하는 AI

이미지
풍력 터빈 블레이드에 생긴 균열을 AI가 감지하는 과정을 상징적으로 표현한 일러스트 :  진동 파형(왼쪽)과 신경망 구조(오른쪽)는 각각 데이터 수집과 AI 분석 과정을 의미하며, 균열 난 블레이드는 조기 진단의 중요성을 시사한다. “쨍” 소리 없이 망가진다?  깨진 유리처럼, 바람개비도 ‘금이 간다’. 멀쩡해 보이던 풍력 발전기 날개에 생긴 실금이, 어느 날 갑자기 시스템 전체를 멈춰 세운다. 무슨 일이 벌어진 걸까? 멕시코의 한 연구팀이 흥미로운 해답을 내놨다. 날개에 난 작은 균열을 소리도 없이 감지하는, 똑똑한 인공지능 시스템을 만든 것. 귀로 들리지 않고 눈으로도 보이지 않는 ‘미세한 이상 신호’를 진동으로 읽어내, 날개의 건강 상태를 정확히 진단하는 AI 모델이다. 이 기술이 상용화된다면? 고장이 나기 전에 미리 수리할 수 있어 풍력 발전소의 유지보수 비용은 뚝 떨어질 것이다. 단순히 바람을 전기로 바꾸는 걸 넘어서, 바람을 더 지속 가능하게 만드는 이야기다. 문제는 ‘보이지 않는’ 균열 전 세계 전기 생산의 약 8%를 책임지고 있는 풍력. 그러나 바람을 전기로 바꾸는 거대한 풍력 터빈은, 생각보다 자주 고장 난다. 특히 블레이드(날개)는 전체 고장 중 약 20%를 차지할 만큼 취약한 부위다. 이유는 간단하다. 바람, 비, 눈, 먼지, 새 충돌, 온도 변화… 자연의 모든 공격을 온몸으로 받는 게 바로 날개이기 때문. 여기에 한 번이라도 금이 가면, 이 작은 실금이 시간이 지날수록 쩍쩍 벌어지며 결국에는 대...