최근 삼성전자는 인간의 시각과 청각, 상황 이해를 통합한 ‘멀티모달 AI’ 기반의 개인 맞춤형 AI 생태계를 구축하겠다고 발표하며 업계의 주목을 받았다. 멀티모달 기술이란 단순 텍스트 기반이 아닌, 음성·이미지·센서 데이터 등 다양한 신호를 융합해 맥락을 이해하고 적절히 반응하는 인공지능 기술이다.
멀티모달 AI는 단순한 명령 수행을 넘어, 인간과 유사한 직관과 공감 능력까지 구현하는 것이 목표다. 이러한 방향성은 이미 삼성전자, 고려대, 세종대, ETRI 등에서 출원된 다양한 특허들을 통해 구체화되고 있다.
“AI가 듣고, 보고, 느낀다”... 멀티모달 특허기술
스마트폰, 워치, 냉장고, 심지어 자동차까지. 다양한 삼성 디바이스가 동시에 AI를 탑재한 상황에서, 어떤 기기가 AI 어시스턴트로 반응할지 결정하는 기술이 등장했다. 삼성의 ‘멀티모달 상호 작용 기반 음성 명령 처리’ 특허는 사용자의 발화를 분석해 가장 적절한 기기를 선택하고, 나머지는 대기 상태로 전환시켜 소위 ‘AI 합창 현상’을 방지한다. 이는 단순한 기술을 넘어, AI 비서가 "한 사람처럼 작동하는" 기반을 만드는 핵심 기술이다.
세종대학교의 특허는 음성 데이터 속 발화 길이, 높낮이, 멈춤 간격 등을 분석해 감정을 감지하는 기술이다. “고마워”라는 말이 단순 응답인지, 감정이 실린 표현인지까지 인식해 맥락에 맞는 답변을 도출할 수 있다. 이 기술은 AI 어시스턴트가 단지 정보를 제공하는 수준을 넘어, ‘감정에 반응하고 공감하는 AI’로 진화할 수 있는 핵심 요소로 주목받는다.
“훠궈”라고 말하면 “캡처”로 알아듣는 식의 잘못된 인식, 이제는 개선 가능하다. ETRI의 고유명사 학습 특허는 멀티모달 AI가 새로운 고유명사를 접했을 때, 기존 데이터와 비교·분석해 그 의미를 파악하고 문장 내 자연스럽게 사용할 수 있도록 학습시킨다. 이는 “○○에 대한 정보를 찾지 못했어요”라는 뻔한 대답을 줄이고, 처음 듣는 말도 이해하는 AI 구현의 핵심이다.
멀티모달 기술은 단순히 정보를 통합하는 기술이 아니다. 그것은 AI가 사람처럼 상황을 이해하고, 대화하고, 함께 행동할 수 있는 능력을 의미한다. 삼성전자 등 기업들이 추진 중인 ‘개인화 AI 생태계’는 이제 단순 기능을 넘어서 인간과 공존하는 디지털 존재로 나아가는 기반이 되고 있다. 멀티모달 AI는 그 핵심 엔진이며, 특허들은 그 여정의 지도라 할 수 있다.
이 기사 좋아요 3
<저작권자 ⓒ 특허뉴스 무단전재 및 재배포 금지>
![]()
댓글
멀티모달AI, 음성인식, 윈텔립스, 지능형어시스턴트, 시각탐색, 감정인식 관련기사목록
|
많이 본 기사
|