IT 정보통신

"글자 쓰면 다양한 목소리로 만들어줘… 콘텐츠 제작에 도움" [인터뷰]

파이낸셜뉴스

입력 2020.07.16 17:40

수정 2020.07.16 17:40

AI 학습으로 유명인 목소리 완벽 구현
김태수 네오사피엔스 대표
목소리 데이터로 발음법 학습
화면에 글자 치면, 성우처럼
억양·감정 넣어 말하도록 AI학습
게임해설·뉴스·교육 콘텐츠 제작
김태수 네오사피엔스 대표가 서울 양재동 R&D 혁신 허브에 입주한 사무실에서 음성합성기술을 설명하고 있다. 사진=서동일기자
김태수 네오사피엔스 대표가 서울 양재동 R&D 혁신 허브에 입주한 사무실에서 음성합성기술을 설명하고 있다. 사진=서동일기자
"북한 리더 킴정은을 만날 때 쓰려고, 이 기술을 준비했숩니다. 정상회담이 기대됩니다. 곧 만납시다."

북미정상회담을 2개월 앞둔 지난 2018년 4월. 해외 커뮤니티 사이트 레딧(reddit)에 도널드 트럼프 대통령의 연설 영상이 올라왔다. 북미 정상회담을 기대한다는 한국어 영상이다. 실제 트럼프 목소리에 살짝 어눌한 발음이 인상적이다. 음성합성 스타트업 '네오사피엔스'가 인공지능(AI) 학습으로 구현한 목소리다.

김태수 네오사피엔스 대표는 "2018년 상반기부터 트럼프 대통령, 문재인 대통령 등이 외국어를 실감나게 구사하는 시연 영상을 만들어 주목 받고 사업화의 길을 열었다"면서 "이를 바탕으로 동료와 음성합성에 대한 논문을 썼고, 나중에는 구글이 관련 논문을 낼때도 우리 논문을 인용하는 성과가 있었다"고 말했다.


유명인의 말투를 흉내내 기술은 기존에도 많은 기업들이 따라 했다. 그렇기 때문에 흉내내는 기술만으로는 시장에서 주목받기가 거의 힘들다고 한다. 네오사피엔스는 프로그램이 실제 사람의 목소리를 학습해서 구현하는 기술을 만들어 냈다.

충분한 목소리가 있으면 그 데이터를 토대로 머신러닝(ML)을 적용해 발음법을 익힌다. 이를 통해 사용자가 화면에 글자를 치면 성우처럼 억양이나 감정을 강조해 말하도록 인공지능을 키우고 있다.

한국어 하는 트럼프 대통령이나, 영어 하는 문재인 대통령이 탄생한 배경이다.

김 대표는 LG전자와 퀄컴을 거치면서 음성 관련 기술을 쌓았다. LG전자 근무시절에는 통화할 때 잡음이나 주변 소음을 줄이는 기술에 매진했고, 퀄컴에선 보이스 액티베이션(Voice Activation) 기술을 연구했다. 스피커나 스마트폰속 AI비서가 상시 대기하고 있다가 사용자가 부르면 언제든지 응답하는 기술이다. 당시 퀄컴이 개발한 기술을 마이크로스프트, 오포, 비보 등 IT업체들이 활용하고 시장이 커지는걸 보면서 김대표 역시 음성 기술로 새로운 시장을 열어보고 싶었다고 한다.

그는 "2017년 11월에 회사를 창업해 인공지능과 관련한 다양한 기술을 시도해본 뒤 음성합성 기술분야에 집중하게 됐다"면서 "그 뒤로 글자만 쓰면 다양한 버전의 목소리를 입혀주는 '타입캐스트'를 론칭해 상용화에 성공했다"고 말했다.

네오사피앤스는 삼성전자 C랩으로부터 1년간 지원 받으면서 안정적으로 출발했다. 삼성전자의 'C랩 아웃사이드' 프로그램에 따라 운영자금과 맞춤형 지원을 받았다.

네오사피엔스의 타입캐스트는 화면에서 문자를 쓰면 사용자가 원하는 목소리를 만들어주는 서비스다. 성별, 연령, 콘텐츠, 분위기 등에 따라 각기 다른 목소리를 입힐 수 있다.
무료로 매월 3000자까지 변환해서 유튜브 등에 게시할 수 있다. 사용량이 더 늘어나면 유료로 이용해야 한다.


김태수 대표는 "지난해 11월에 타입캐스트를 정식 론칭한 후 현재까지 5만여명이 이용 중"이라며 "나레이션에 자신이 없어도 게임해설, 뉴스, 교육, 브이로그 등의 콘텐츠를 만드는 사람들에게 더 많은 도움이 되고 싶다"고 말했다.

ksh@fnnews.com 김성환 기자

fnSurvey