
[CWN 최준규 기자] AI가 텍스트 대화는 물론 이미지·영상·음성 분석과 생성까지 가능한 '멀티모달'로 진화하고 있다.
오픈AI, 구글, 마이크로소프트, 메타 등 글로벌 IT 기업들은 이미 멀티모달 AI를 개발하고 다양하게 활용중이다.
이 가운데 오픈AI는 지난 3월 멀티모달 연산이 가능한 'GPT-4'를 선보이며 또 다시 전 세계 산업계를 깜짝 놀라게 했고 지난 9월에는 챗GPT에 음성 및 이미지 기능을 출시해 보고 듣고 말하기 시작했다.
또한 업무에도 적용할 수 있는데 챗GPT가 그래프 이미지 속 업무 관련 데이터를 분석해준다.
이와함께 구글도 멀티모달로 설계된 차세대 AI 모델 '제미나이'를 공개했다. 사용자와 챗봇 간의 음성 대화는 물론 사진과 실제 물체를 인식하고 그 차이를 알아내는 능력을 갖췄다.
이에 국내 기업들도 멀티모달로 AI 연구 개발을 넓히고 있다. LG AI 연구원은 최근 멀티모달 모델 '엑사원 2.0'을 발표했는데 사용자 질문에 답변은 물론 이미지 생성과 이미지 이해에 특화된 기능을 제공하며 신소재·신물질·신약 관련 탐색에도 적용한다.
이에 발맞춰 네이버와 카카오, SK텔레콤, KT 등도 멀티모달 서비스를 잇따라 내놓고 있다. 카카오는 오픈소스 기반의 언어모델 코(Ko)GPT와 이미지 생성모델 칼로(Karlo)를 개발해 선보였고 SK텔레콤은 AI 플랫폼 '에이닷(A.)'에 장기기억, 멀티 모달 인식 기능을 추가하며 서비스를 높이고 있다.
이와 관련해 전문가들은 본격적인 멀티모달 AI의 경쟁이 전개될 것으로 예상하고 있어 경제적·사회적 파급효과도 클 것으로 보인다.
일상생활속 깊숙이 침투하고 있는 AI 서비스는 글로벌 경제에도 영향을 미칠 전망이다. 생성형 AI는 약 2.6조~4.4조 달러에 달하는 추가 경제적 영향을 가져올 것으로 보이며 전체 사용 사례에 기반한 잠재적 경제 효과는 약 13.6조~22.1조 달러로 예측된다.
생성형 AI는 다양한 콘텐츠를 생성하고 활용할 수 있는 대중 서비스로 확장하고 있으며 일상 생활부터 비즈니스 분야에 이르기까지 큰 변화를 가져오고 있다.
하지만 이같은 AI 기술 발전이 딥페이크 등 사이버 범죄에 악용될 수 있다는 우려도 나온다.
오픈AI는 "음성 합성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 안고 있다"고 봤다.
CWN 최준규 기자
38junkyu@cwn.kr
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]