처음 본 이미지를 글로 설명… LG '캡셔닝 AI' 최초 공개
2023.06.19 15:02
수정 : 2023.06.19 15:02기사원문
[파이낸셜뉴스] 이미지를 입력하면 인공지능(AI)이 이를 분석해 인간처럼 문장으로 설명하고 핵심 키워드까지 제공하는 이미지 검색 분야 생성형 인공지능(AI) 기술이 공개됐다. LG AI연구원이 공개한 '캡셔닝 AI'는 5개 문장과 10개의 키워드를 10초 만에 생성할 수 있어, 대량의 이미지를 관리해야 하는 기업들의 업무 효율성과 생산성을 높일 것으로 기대된다. 차세대 AI 기술을 선보인 LG 주요 계열사들과 현대차그룹은 각각 글로벌 AI 인재 확보에 나선다는 계획이다.
"처음 본 이미지, 사람처럼 설명"
LG AI연구원은 18일(이하 현지시간) 캐나다 밴쿠버에서 열리는 세계 최대 컴퓨터비전학회 'CVPR(컴퓨터 비전과 패턴 인식) 2023'에 참가해 캡셔닝 AI를 최초로 공개했다. AI가 인간처럼 처음 보는 물체나 장면에 대해서도 이전의 경험과 지식을 활용해 설명할 수 있도록 '제로샷 이미지 캡셔닝' 기술이 적용됐다.
이미지 검색 시장을 타깃팅한 캡셔닝 AI는 최근 화두가 되고 있는 챗GPT(대화형 생성 AI), 스테이블 디퓨전, 미드저니 같은 이미지 생성 AI와는 차이가 있다. LG AI연구원 관계자는 "인간처럼 처음 보는 이미지까지 자연어로 설명할 수 있는 AI"라고 강조했다.
캡셔닝 AI는 이미지를 입력만 하면 "스파클러로 별모양을 그리고 있는 어린 아이", "라벤더 들판에 '소풍은 사절합니다. 감사합니다'라고 안내되어 있다" 등의 문장을 표현한다. 설정마다 다르지만 평균적으로 10초 이내에 5개 문장과 10개의 키워드를 생성한다.
이미지 범위를 1만장으로 확장하면 2일 이내에 작업을 마칠 수 있다. 맞춤형 이미지 검색·관리 시스템을 구축해 대량의 이미지를 관리해야 하는 기업들의 업무 효율성과 생산성을 높일 수 있는 것으로 기대되는 대목이다.
LG AI연구원과 데이터 학습과 서비스 개발까지 함께 한 세잘 아민 셔터스톡 CTO는 "지난달 상용화 서비스를 시작해 글로벌 고객사 10곳을 대상으로 '얼리 액세스(앞서 해보기'를 진행하며 기술을 발전시켜 나가고 있다"며 "캡셔닝 AI는 고객들이 반복적인 작업보다 좀 더 본질적이고 창의적인 일에 집중할 수 있도록 돕는 AI가 될 것"이라고 강조했다.
특히, LG AI연구원과 셔터스톡은 실용적이면서도 신뢰할 수 있는 AI 모델 개발을 위해 학습 데이터의 편향성·선정성 등 윤리 검증을 진행해 저작권 투명성도 확보했다.
글로벌 AI 우수 인재 확보 사활
LG AI연구원은 22일까지 진행되는 학회 기간에 LG전자, LG이노텍, LG에너지솔루션, LG유플러스 등 주요 계열사와 함께 글로벌 AI 우수 인재 확보에도 나선다.
이를 위해 19일 학회에 참가한 석·박사 학생들을 대상으로 네트워킹 행사인 'LG AI DAY'를 진행한다. 20일부터 3일간은 통합 부스에서 최신 AI 기술을 시연하며 채용 상담을 진행한다.
LG전자는 졸음·부주의 운전을 모니터링해주는 시스템을, LG이노텍은 실제 제품을 양산하기 전 디지털 공간에서 테스트는 디지털 트윈 기술을 선보인다.
한편, 현대차그룹도 CVPR에 홍보 부스를 처음으로 직접 차리고 학회에서 네트워크를 확장하는 데 주력한다. 이와 함께 인재 유치를 위한 채용도 함께 안내하기로 했다.
구체적으로 현대차·기아 연구개발본부 내 자율주행사업부, 로보틱스랩, 인포테인먼트개발센터, 디지털엔지니어링센터 등 4개 부문이 연계해 AI 인재 채용 및 홍보 활동에 나선다.
직무·채용 상담도 진행한다. 또 오는 21일 저녁에는 현지 호텔에서 네트워킹 행사도 열 예정이다.
hoya0222@fnnews.com 김동호 최종근 기자