IT 게임

엔씨-고려대, AI 대화 데이터셋 글로벌 공개한다

파이낸셜뉴스

입력 2022.04.14 11:29

수정 2022.04.14 11:29

‘FoCus Dataset’..고려대 임희석 교수팀과 공동연구

사용자 페르소나와 외부지식 활용한 데이터셋 구축
[파이낸셜뉴스] 엔씨소프트(엔씨)는 고려대학교 임희석 교수 연구팀과 공동연구를 통해 구축한 인공지능(AI) 대화 데이터 ‘FoCus Dataset(For Customized conversation dataset)’을 공개했다고 14일 밝혔다.

FoCus Dataset은 사용자 개인 페르소나와 외부지식을 모두 활용하는 AI 대화 데이터셋이다. 약 8000여 개 광범위한 주제를 다룬 1만 5000개 이상 대화로 구성되어 있다.

FoCus Dataset을 적용한 AI는 대화하고 있는 사용자 경험, 선호, 소유, 흥미 등을 파악하는 한편, ‘위키피디아’에서 이야기 주제에 대한 최신지식을 실시간 습득해 자연스러운 대화를 할 수 있다.

FoCus Dataset은 초거대 언어 모델을 사용하지 않고도 같은 성능 대화 기술 구현이 가능한 것이 특징이다.

현재 일반적인 대용량 언어모델은 학습과 추론에 많은 비용이 소요됨에도 불구하고, 실시간 지식과 개인 경험을 반영하는데 한계를 나타내고 있다는 게 엔씨 지적이다.

이에 공동연구팀은 지난 2월 세계 최고권위 AI 학회 ‘AAAI 2022’에서 해당 연구 논문을 게재 및 발표했다. 오는 10월에는 세계 전산언어학회 ‘COLING 2022’에서 데이터 활용 경진대회를 비롯한 연구 성과를 공유하는 워크샵을 고려대와 공동 개최한다.


사용자 배경 지식인 페르소나와 외부 지식인 위키피디아 지식을 활용해 대화를 구성한 모습. 엔씨 제공
사용자 배경 지식인 페르소나와 외부 지식인 위키피디아 지식을 활용해 대화를 구성한 모습. 엔씨 제공

엔씨 이연수 랭귀지 AI 랩(Language AI Lab) 실장은 “최근 자연어처리(NLP) 학계는 비용 및 환경 문제로 초거대 언어모델 기반 대화 기술에 필적할 수 있는 새로운 대화 기술이 제안되고 있다”면서 “이러한 연구 방향에 공감하는 차원에서 이번 데이터 공개를 결정했으며, 글로벌 연구 커뮤니티에서 활발한 논의와 기술 개발이 이루어지기를 기대한다”고 전했다.

elikim@fnnews.com 김미희 기자

fnSurvey