“그림도, 글자도, 소리도 똑같이 이해한다”... KAIST, 사람처럼 생각하는 멀티모달 AI 학습 기술 개발

데이터 간 불균형 해소하는 신개념 학습법 제시… 의료·자율주행·로봇 등 전 분야 확장 기대

염현철 기자 | 기사입력 2025/10/14 [13:59]

“그림도, 글자도, 소리도 똑같이 이해한다”... KAIST, 사람처럼 생각하는 멀티모달 AI 학습 기술 개발

데이터 간 불균형 해소하는 신개념 학습법 제시… 의료·자율주행·로봇 등 전 분야 확장 기대

염현철 기자 | 입력 : 2025/10/14 [13:59]

▲ 본 연구에서 제안한 기법을 적용했을 때 모델 예측이 변하는 예시. 특정 데이터 유형에 의존해서 예측을 수행하지 않고, 모든 유형을 활용함으로써 모델의 정확도를 향상시킨다.(그림 및 설명=KAIST)  © 특허뉴스

 

데이터의 편향을 넘어서… 사람처럼 ‘균형 잡힌 AI’로 진화

 

KAIST가 인공지능(AI)의 한계를 뛰어넘는 새로운 학습 패러다임을 제시했다.

그동안 AI는 여러 감각 데이터를 동시에 처리하는 ‘멀티모달(Multimodal) 인공지능’에서도 특정 데이터(예를 들어 이미지나 텍스트)에 편향적으로 반응하는 문제를 안고 있었다.

 

그러나 KAIST 전기및전자공학부 황의종 교수 연구팀은 영상·텍스트·음성 등 다양한 데이터를 고르게 이해하도록 돕는 학습 데이터 증강 기법을 개발해, AI가 사람처럼 여러 감각 정보를 종합적으로 인식하도록 만드는 데 성공했다.

 

이번 성과는 오는 12월 미국 샌디에이고와 멕시코시티에서 개최되는 AI 분야 최고 권위 국제학술대회 ‘NeurIPS(Neural Information Processing Systems)’에서 발표될 예정이다.

 

“그림과 글자를 섞어 가르쳤더니, AI가 더 똑똑해졌다”

 

연구팀은 AI가 특정 데이터에 치우치는 문제를 해결하기 위해, 일부러 서로 어울리지 않는 데이터 샘플을 섞어 학습하는 ‘교차 연결(Cross-Modality Mixing)’ 기법을 고안했다.

 

예를 들어, 한쪽에는 풍경 사진을, 다른 쪽에는 ‘도시의 소음’이라는 텍스트를 결합해 학습시킨다.

이렇게 ‘비일치 데이터’를 학습하면 AI는 자연스럽게 한 쪽 정보에만 의존하지 않고, 모든 데이터에서 공통적이고 본질적인 의미를 찾아내는 능력을 키운다.

 

또한 연구팀은 데이터 품질에 따라 학습 강도를 조절하는 ‘적응형 데이터 가중(Ada-weighted Data Training)’ 방식을 도입했다. 이를 통해 AI는 품질이 낮은 데이터는 보완하고, 복잡하거나 어려운 데이터는 더 깊이 학습하게 되어, 다양한 환경에서도 안정적인 성능을 발휘할 수 있게 됐다.

 

모델에 구애받지 않는 범용 기술… 모든 AI에 적용 가능

 

이번 기술의 가장 큰 특징은 특정 AI 구조에 종속되지 않는 ‘범용성’이다.

즉, 어떤 인공지능 모델이든(언어 기반 AI, 이미지 생성 AI, 의료 진단 AI 등) 데이터 학습 단계에만 이 방식을 적용하면 성능을 향상시킬 수 있다.

 

이는 모델 설계보다 데이터 설계의 중요성을 강조한 접근으로, 황의종 교수는 “AI의 성능은 알고리즘보다 ‘무엇을, 어떻게 학습하느냐’에 달려 있다”며 “이번 연구는 데이터 자체를 정교하게 설계·가공해 AI의 인지 균형을 맞추는 새로운 방향을 제시했다”고 설명했다.

 

AI의 새로운 진화, 인간의 학습 원리에 더 가까워지다

 

멀티모달 AI는 텍스트·이미지·음성·영상 등 다양한 감각 정보를 동시에 처리할 수 있는 인공지능으로, 의료 영상 진단, 자율주행 인식, 로봇 행동 판단 등 복합 인식이 필요한 분야의 핵심 기술로 꼽힌다.

 

KAIST의 이번 연구는 AI가 인간처럼 다양한 감각을 균형 있게 통합하는 사고 구조를 실현했다는 점에서, 단순한 성능 향상을 넘어 ‘인공지능의 인지 구조를 사람처럼 진화시킨 연구’로 평가받고 있다.

 

논문명은 MIDAS: Misalignment-based Data Augmentation Strategy for Imbalanced Multimodal Learning이다.  

 

이 기사 좋아요
  • 도배방지 이미지

KAIST, 멀티모달AI, 황의종, 데이터증강, NeurIPS, 인공지능 관련기사목록
광고
광고
광고