카카오AI ‘허니비’ 네이버 ‘클로바X’에 도전장
2024.01.21 18:09
수정 : 2024.01.21 18:09기사원문
카카오는 상대적으로 AI 기술전에서 뒤처졌다는 분위기를 반전시키기 위해 이미지를 인식해 답하는 멀티모달 '허니비'를 앞세워 교육, 쇼핑 등으로 AI 서비스를 확장할 계획이다. 이보다 앞서 지난해 자체 AI 모델인 '하이퍼클로바X'를 발표한 네이버도 지난해 12월 멀티모달 기능인 '이미지 편집'을 일부 추가하면서 향후 다양한 영역에서 경쟁을 예고하고 있다.
21일 카카오브레인에 따르면 깃허브를 통해 공개된 카카오의 '허니비'는 이미지를 인식해 텍스트로 답하는 MLLM 오픈소스다. 카카오가 개발 중인 '코(Ko)GPT2.0'에 적용되면 이미지로 묻는 질문에도 답을 얻을 수 있다. 카카오는 '허니비'의 활용 영역으로 우선 교육 분야를 지목했다. 이미지를 통해 사용자와의 상호작용이 가능해 향후 효과적인 교육 및 학습 보조 도구로 사용될 것이라는 전망이다.
멀티모달 기반 AI는 의료, AI챗봇에서 진화한 AI 가상비서, 자율주행 차량, 유통, 쇼핑 등 실생활과 밀접한 영역부터 산업 전반까지 전방위로 활용 가능하다. 음식 사진을 올리며 레시피를 묻는 질문에 사진과 영상으로 답을 하거나, 자신의 사진을 올리고 어울리는 헤어 스타일이나 패션 정보를 얻을 수도 있다.
카카오가 '허니비' 오픈소스를 외부 공개하는 방식을 채택한 점도 눈여겨볼 점이다. 공개된 연구 모델 수가 적고 학습 방법도 자세히 공개되지 않아 개발이 어려운 멀티모달 언어모델인 '허니비'의 오픈 소스를 풀어 각 업체에서 다양한 서비스를 출시할 수 있도록 했다.
네이버도 '하이퍼클로바X'를 기반으로 만든 대화형 AI '클로바X'에 지난해 12월 멀티모달 기능인 '이미지 편집'을 일부 추가했다. '이미지 편집'에서 이미지 중에서 어떤 영역을 삭제하거나 변경할 수 있다. 예를 들어 강아지가 잔디밭에서 놀고 있는 사진에서 배경은 그대로 두고 강아지를 토끼로, 고양이로 바꾸거나 삭제할 수 있다. 여러 사람이 찍힌 사진에서 특정한 사람만 삭제하는 것도 가능하다. 향후 기능 고도화를 통해 이 기능을 전체 공개하고, 음성 등 다른 멀티모달 능력 추가도 검토 중이다.
최근 구글, 오픈AI, 메타 등 빅테크들의 개발 경쟁도 뜨겁다. 구글의 '제미나이', 오픈AI의 'GPT-4'가 MLLM의 대표주자다. 메타의 멀티모달 이미지 생성AI 카멜레온은 텍스트를 이미지로 구현하고, 이미지를 텍스트로 설명하는 기능을 동시에 지원한다.
실제로 구글은 엑스레이, CT촬영, 의료 차트 등을 결합해 의료 관련 질문에 답변하는 'Med-PaLM' 시리즈를 개발 중이다.
yjjoe@fnnews.com 조윤주 기자