'AI×AI×AI....' 인류를 향한 반복학습의 저주 [박성필의 수담활론]

박성필 카이스트 문술미래전략대학원장
구글 딥마인드 연구팀, AI끼리의 반복된 학습 결과 주목
데이터 다양성 상실, 진본에서 멀어지는 '모델붕괴' 경고
소수의 지배세력, AI 조작 가능...'바벨탑 시나리오' 제기

[보스턴(미 매사추세츠주)=AP/뉴시스]오픈AI가 구글을 위협할 만한 인공지능(AI) 기반의 자체 검색엔진을 공개했다. 2024.7.26 /사진=뉴시스

[파인낸셜뉴스] 이스라엘 역사학자 유발 하라리는 인공지능(AI)이 인간 문화의 구성 요소인 텍스트, 소리, 이미지를 '해킹'했다고 주장한다. 생성형 AI가 인간의 데이터를 학습해서 유사한 콘텐츠를 생성하는 상황과 관련, 문화의 주체인 인간이 주의를 기울여야 한다는 것이다. 현재까지, 문화 영역에 있어서 AI의 위험을 구체적으로 다루는 입법이나 정책은 찾아보기 어렵다. 유럽연합(EU)인공지능법이 그 제안 이유(recitals)에서 차별금지와 공정성 확보를 위한 문화적 다양성 정도를 언급하는 정도다.

이에 대한 경고 신호로, 최근 과학기술계를 중심으로, '모델 붕괴'와 '기계문화'라는 개념이 등장해 눈길을 끈다.

지난해 5월 구글 딥마인드의 일리아 슈마일로프(Ilia Shumailov) 등 연구자들이 온라인 논문 공유집 아카이브(arxiv.org)에 '반복의 저주(The Curse of Recursion)'란 제목의 논문을 공유했다. 한 AI 모델이 생성한 데이터를 다른 AI 모델이 학습하는 일이 반복되면, 차츰 데이터의 다양성이 없어지고 진본에서 멀어진다는 내용이다. 이들은 생성형 AI의 이런 치명적 문제를 '모델붕괴(model collapse)'라고 명명했다. 저자들은 생성형 AI 같은 고도의 시스템 능력과 인간이 생성한 콘텐츠의 진정성이 균형있게 보장돼야 한다고 역설했다. 기술이 인간의 삶을 향상시키지만, 그렇다고 인간의 창의력과 상호작용을 감소시키는 방향으로 발전해서는 안 된다는 것이다.

독일 막스플랑크 연구소의 브링크만(Levin Brinkmann)과 라완(Iyad Rahwan)이 이끄는 연구팀은 지난해 말 학술지 네이처 휴먼 비헤비어(Nature Human Behavior)에 '기계 문화'라는 개념을 제시했다.

박성필 KAIST 문술미래전략대학원장

기계문화는 생성형 AI와 같은 지능형 기계가 생성하거나, 매개하는 문화적 정보를 뜻한다. 지능형 기계는 변이, 전파, 선택이라는 문화적 진화 과정을 변형시킨다. 지금은 오픈소스 소프트웨어 덕분에 나름 다양한 생성형 AI 모델들이 있고, 콘텐츠의 다양성도 확보된다고는 하나, 법적 규제와 소수 기업의 시장지배력 때문에 소수의 AI 모델들만 남게 된다면 이때부터 문제가 발생한다. 문화적 다양성은 소멸되고 소수의 사회적, 정치적, 경제적 세력들이 자신들의 이해관계에 맞는 글로벌 기계문화를 형성하려 할 것이란 얘기다. 이러한 문화적 다양성의 소멸은 한 AI 모델이 생성한 데이터를 다른 AI 모델이 학습하는 과정이 반복될 때 심화된다. 저자들은 이 주장을 뒷받침하는 예비적인 증거로 슈마일로프의 모델붕괴 논문을 인용했다.

이 논문은 모델붕괴와 상반된 가능성으로서 AI 모델이 잠재적으로 야기할 수 있는 '바벨탑 시나리오'도 제시했다. AI 모델이 사용자 개개인의 세계관을 따르고 강화되는 과정을 통해 지나치게 개인화된다는 우려다. 이 경우, 인류가 공유해 온 세계관이 역사상 유래없이 분열될 위험성이 크다는 것이다. 사용자와 상호작용하는 AI 모델은 계속적으로 사용자의 선입견을 반복하고 확인해 준다. 그 결과 사용자는 AI 모델이 만들어 준 이념적, 문화적 동질성의 반향실(echo chamber)에 고립된다. 저자들은 창세기의 바벨탑처럼, 인간이 만든 AI 모델이 인간 상호간 소통을 단절시키는 도구로 전락할 수 있음을 우려한다.

AI 거버넌스 논의에 자주 등장하는 개념이 '인간 중심 인공지능(Human-centered AI, HCAI)'이다. 여기서 '인간 중심'이란 개념은 상황과 맥락에 따라 다양한 뜻을 가진다. 문화의 영역에서는 AI 모델의 사용자이자 혁신의 수혜자인 인간이 '문화적 인간(Homo Culturalis)'의 정체성을 유지할 수 있도록 설계되고 운영되는 AI 거버넌스를 뜻한다. 슈마일로프의 주장처럼 한 AI 모델이 생성한 콘텐츠가 다른 AI 모델에 학습되면서 합성 데이터가 확대 재생산되는 생태계는 곧 문화적 다양성을 상실할 위험이 크다. 그 결과는 인간성이 배제된, 기계문화가 지배하는 생태계다.
HCAI 관점에서는 AI가 생성한 창작물이 문화 영역의 지배적 콘텐츠가 될수록 인간의 독자적 창작물 또는 인간이 AI를 활용해 고품질로 생성한 창작물의 가치가 커진다. 인간의 창의성이 반영된 텍스트, 이미지, 음악, 영상이 문화의 퇴보를 막고 문화적 다양성을 유지하는 비결이다.

현재 미국의 여러 법원에서 오픈AI 등 AI 개발사들에 대한 작가들과 콘텐츠 소유자들의 저작권 침해소송이 진행 중이다.

법적 판단을 배제하고 순수하게 문화적 다양성 관점에서 본다면 인간 창작자들의 권리를 존중하고 AI 개발사들이 그들의 창작에 대한 보상체계를 만드는 것이 매우 타당하다. 인간의 창의성이 생태계에 유입될 수 있는 인센티브가 필요하기 때문이다.

그들의 창작물이 AI 모델에 지속적으로 공급되는 문화 생태계라야 지속가능성이 있다. 박성필 카이스트 문술미래전략대학원장

ehcho@fnnews.com 조은효 기자

'AI×AI×AI....' 인류를 향한 반복학습의 저주 [박성필의 수담활론]

fnSurvey