LG AI연구원 워크숍 함께 개최
글로벌 전문가 기술적 과제 논의
"뉴스 사진설명 등 생성하려면
기사내 데이터 문맥 선택이 중요
맥락·지식 학습량 늘려 한계 극복"
글로벌 전문가 기술적 과제 논의
"뉴스 사진설명 등 생성하려면
기사내 데이터 문맥 선택이 중요
맥락·지식 학습량 늘려 한계 극복"
LG AI연구원은 캐나다 밴쿠버 컨벤션센터에서 20~22일 열리는 세계 최대 컴퓨터 비전 학회 'CVPR 2023'에 앞서 18일(현지시간) 이미지에서 캡션과 키워드를 생성하는 '캡셔닝 AI'를 공개했다. LG AI연구원은 '캡셔닝 AI'의 기반기술인 '제로샷 이미지 캡셔닝'을 주제로 워크숍도 개최했다. 강연자로 참석한 글로벌 전문가들은 이미지 캡셔닝 AI모델을 보다 진보시키기 위한 기술적 과제가 필요하다는 목소리를 냈다.
■맥락·지식 학습량 더 늘려야
애나 로르바흐 미국 버클리 캘리포니아대(UC버클리) 리서치 연구원은 AI가 이미지를 이해하고 대표성을 확보한 설명을 만들어내려면 '맥락' 선택이 중요하다고 강조했다.
로르바흐 연구원은 "특히 뉴스의 경우 뉴스 사진설명을 AI가 생성하려면 기사 내 데이터 문맥을 잘 선택하는 게 중요하다"며 "통상적으로 캡션은 일부 문장에 의해서 만들어지기 때문"이라고 말했다. 또 "이미지 캡셔닝 AI의 대표적인 문제로 꼽히는 '환각(Hallucination)'을 줄이는 기술도 필요하다"고 강조했다. AI 분야에서 환각은 AI가 주어진 데이터 또는 맥락에 근거하지 않은 잘못된 정보를 생성하는 경우를 말한다. 거짓을 마치 사실처럼 제시하는 경우다.
코르델리아 슈미드 프랑스 국립컴퓨터과학연구소 연구책임자 겸 구글 리서치 프랑스 연구원은 '위키피디아' 내 정보와 사진을 검색하며 지식을 늘려가는 방식으로 대규모 메모리를 만드는 이미지 캡셔닝 전략을 소개했다. 이를 활용하면 사진을 보고 지식이 필요한 질문을 할 때 컴퓨터가 정보를 빠르게 검색하고 답할 수 있다.
슈미드 연구원은 "이런 방식으로 대규모 지식을 축적하면 시각적 질문에 대한 답변뿐 아니라 이미지 캡셔닝에서도 최고 성능을 얻을 수 있다"고 말했다. 그는 영상 인식에서는 화면 해설이 담긴 유튜브 영상 1500만개를 학습하는 방식으로 사건이 일어나는 기간과 설명을 동시에 파악하는 방식을 적용한 모델 'Vid2Seq'도 소개했다. 그는 "영상을 쪼개 사건을 파악하는 것은 사건 간 연결이 어렵다"며 "사건에 시간 정보를 부여하면 다양한 사건이 일어나는 고밀도 영상도 설명을 만들어낼 수 있다"고 설명했다.
■"AI 추론 가능…더 정교해져야"
하미드 팔랑기 마이크로소프트 리서치 수석연구원 겸 워싱턴대 교수는 맥락을 언급하며 '이미지 캡셔닝 평가의 어려움'을 주제로 발표했다. 팔랑기 교수는 "AI가 생성한 이미지 캡션의 맥락은 이해하기 어렵고 복잡하다"며 "이미지 캡셔닝 평가가 어려운 이유는 AI 언어 모델 자체의 문제일 수도 있고, 데이터나 다른 기능 등 다방면에서 문제가 발생할 수 있기 때문"이라고 말했다.
그러면서 "이는 모든 AI 연구자들이 함께 풀어야 하는 문제"라며서 "더 정교한 AI 모델을 만들기 위해 더 많은 문제제기가 필요하다"고 주장했다.
잭 헤셀 미국 앨런인공지능연구소 연구원도 이미지 캡셔닝의 성능을 높이려면 AI가 상식을 뛰어넘는 추론을 할 수 있도록 정교해져야 한다고 강조했다. 헤셀 연구원은 "대규모 어휘를 학습한 모델도 전체적인 장면 이해에 필요한 요소가 상식에 맞지 않아 놓치는 경우가 많다"며 "현상을 관찰해 가장 설득적인 설명을 만드는 귀추법 등을 적용할 필요가 있다"고 설명했다.
monarch@fnnews.com 김만기 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지