"엑사원 연내 상용화...인간 수준 AI 목표"..김승환 LG AI연구원 비전랩장
2023.03.01 14:57
수정 : 2023.03.01 14:57기사원문
[파이낸셜뉴스] "사람은 글로 얻는 정보량보다 눈으로 보면서 얻을 수 있는 정보량이 훨씬 많다. 말은 몇 마디만 분석하면 되지만, 눈으로 보는 건 사물과 공간, 풍경까지 모든 걸 인식해 종합적으로 분석해야 한다. 사람 수준의 인공지능(AI) 이미지 캡셔닝은 눈으로 보는 신(scene) 자체를 모두 인식하는 기술적인 퀀텀점프가 필요하다.
최근 세계 AI산업의 최대 관심사인 대화형 인공지능 '챗GPT'와 LG의 초거대 멀티모달 AI인 '엑사원'의 차이점을 묻자 김승환 LG AI연구원 비전랩장은 이 같이 설명했다.
지난 2월 28일 서울 마곡중앙로 LG AI연구원에서 만난 김 랩장은 "알파고 때문에 널리 알려진 '딥러닝'은 시각적 인식 능력을 재현하는 AI 분야인 컴퓨터 비전 때문에 시작됐고, 자동차 번호판 인식과 아이폰 페이스 아이디 등 일상생활에 이미 깊숙히 녹아있다"며 "현재 기술 수준에서는 자연어 처리(NLP)가 활용도가 높아 챗GPT에 화제성이 밀리지만, 미래 핵심기술로 불리는 자율주행도 컴퓨터 비전인 만큼 진가를 인정받을 것"이라고 목소리를 높였다.
■ 엑사원 상용화 모델 잇따라 공개
텍스트와 이미지의 양방향 소통이 가능한 초거대 엑사원 멀티모달은 연내 상용화를 계획 중이다. 세계 최대 이미지 데이터를 보유한 셔터스톡과 연내 이미지 캡셔닝, 이미지 제너레이션 관련 사업을 진행할 예정이다.
김 랩장은 "이외에도 전문가들과 협업하는 크리에이티브 AI 툴킷인 엑사원 아틀리에를 상반기 내 선보일 예정"이라며 "타투프린터를 비롯해 상반기 화장품 패키지 디자인, 7월 LG전자 UP가전 프로젝트에도 엑사원 비전 모델이 적용될 계획"이라고 소개했다.
2021년 12월 공개된 초거대 AI 엑사원은 상위 1% 수준의 전문가 인공지능을 목표로 개발됐다. 하나의 AI 모델로 여러 개의 업무에 동시 적용이 가능하고, 기존에 하지 못했던 일들도 처리하게 해 기존의 AI와 차별성을 가진다.
기존 AI가 이미지를 있는 그대로 기술했다면 엑사원은 이미지를 보고 '상상'을 더해 '설명'해준다는 것이다. 인터뷰에 앞서 시연한 AI 이미지 캡셔닝 기술이 대표적이다.
엑사원은 남자가 운동하는 사진을 보고 10초 만에 64개의 캡션을 뽑아냈다. 이 중 최종 유사도가 높은 8개를 뽑아 사용자에게 제시했다.
기존의 AI가 '남자가 운동을 하고 있다'고 분석한 데 반해 엑사원은 '머리가 긴 남자가 요가를 하고 있다'며 인물의 상세 특징과 운동의 종류까지 분석해 냈다. 새 2마리가 있는 사진을 보고는 짧은 시간에 새의 종을 분류해 설명하기도 했다.
■ 정보오염·편향성 해결
엑사원은 최근 문제가 되고 있는 AI의 신뢰성 부족과 정보 오염 이슈에서도 자유롭다는 설명이다.
김 랩장은 "엑사원은 오픈 데이터세트를 사용하는 대신 셔터스톡과 협력을 통해 정당한 대가를 지불하고 구매한 데이터를 학습에 사용해 문제를 해결했다"며 "최근에는 '변호사를 그려달라'고 하면 대부분 AI가 백인 남성 이미지를 채택하는 '편향성'도 문제가 되는데, 엑사원은 이를 해결할 기술 개발도 마친 상태"라고 전했다.
LG AI연구원은 이미지 캡셔닝 분야의 확장성과 활용처 확대를 위해 2월부터 챌린저를 진행 중이고, 6월에는 글로벌 학계와 산업계 전문가들의 토론의 장도 마련했다.
그는 "챌린지는 주어진 이미지를 AI가 얼마나 사람답게 표현했는지 8개의 지표로 2차 검증을 통해 4월 30일까지 평가한다"며 "6월 밴쿠버에서 열리는 워크숍은 AI 캡셔닝의 윤리적 측면, 개인정보 보호, 기술의 진화 방향, 확장성 등을 논의하게 될 것"이라고 말했다.
hoya0222@fnnews.com 김동호 기자