그런데 생성형 AI가 어떤 질문에는 이상한 답을 내놓는 경우가 있습니다. 생성형 AI에게 요청한 질문에 거짓말을 하듯 잘못된 정보를 제공하는 오류가 일어나기도 합니다. 이를 두고 환각현상이라고 하죠.
최근에 출시하고 있는 생성형 AI 서비스는 이러한 환각현상을 많이 줄이고 있는데요. 환각현상에 의해 생성형 AI가 제공하는 잘못된 정보를 우리가 그대로 받아들일 경우엔 의사 결정 과정에 문제가 발생할 수 있어 조심해야 합니다.
그런데 AI가 환각현상이 아니라 의도적으로 거짓말을 하는 경우도 있다고 합니다.
미국 매사추세츠공과대(MIT)의 피터 박 박사후연구원은 10일(한국시간) 국제학술지 '패턴'에 AI의 속임수와 관련된 논문을 발표했습니다. 그러면서 AI 시스템에 의한 속임수의 위험성을 설명하고 정부가 이 문제를 가능한 한 빨리 해결하기 위한 강력한 규정을 마련할 것을 촉구했습니다.
연구진은 AI의 거짓말과 속임수를 쓰는 대표적인 예로 메타가 온라인 게임을 학습시킨 AI '시세로(Cicero)'를 언급했습니다.
메타가 지난 2022년 11월 온라인게임 '디플로머시'에서 인간에 필적하는 성능을 달성한 시세로를 공개했습니다. 디플로머시는 20세기 초 유럽 7대 열강의 대전을 배경으로 하는 전략게임입니다. 2명에서 7명의 플레이어가 승리를 위해 정견 발표, 외교 협상, 작전명령 등을 펼치는 고난이도 게임이죠.
메타는 시세로가 게임에서 이기도록 훈련시켜 인간 플레이어 중 상위 10%에 들게 만들었습니다. 피터 박 박사후연구원은 "우리는 메타의 AI가 속임수의 달인이 되도록 학습됐다는 것을 발견했다"고 말했습니다.
메타는 시세로를 '대체로 정직하고 도움이 되는' 인물로 훈련시키고 게임을 하는 동안 인간 동맹을 '의도적으로 배신하지 않도록' 훈련시켰다고 주장했습니다. 하지만, 메타가 사이언스지 논문과 함께 발표한 데이터에 따르면 시세로는 공정하게 플레이하지 않았습니다.
다른 AI는 전문적인 인간 플레이어를 상대로 텍사스 홀덤 포커 게임에서 블러핑하는 능력을 보여주었습니다. 또 스타크래프트2에서 상대를 이기기 위해 공격을 위장하거나 경제적 협상에서 우위를 차지하기 위해 자신의 선호도를 왜곡했습니다.
피터 박 박사후연구원은 "게임에서 AI가 속임수를 쓰는 것이 무해해 보일지 모르지만, 이는 미래에 더 진보된 형태의 AI 속임수로 이어질 수 있는 '기만적인 AI 능력의 돌파구'로 이어질 수 있다"고 경고했습니다.
피터 박 박사후연구원은 "인간 개발자와 규제 기관에서 부과한 안전 테스트를 체계적으로 속임으로써, 기만적인 AI는 우리 인간에게 잘못된 보안 감각으로 이끌 수 있다"고 우려했습니다.
특히 기만적인 AI의 주요 단기 위험으로 적대적인 행위자가 사기를 쉽게 저지르고, 선거를 조작할 수도 있다는 거죠. 결국 인간은 이러한 AI에 대한 통제력을 잃을 수도 있다고 경고했습니다.
그러면서 "AI 시스템의 속임수 능력이 더욱 발전함에 따라, AI가 사회에 미치는 위험은 점점 더 심각해질 것"이라며, "미래의 AI 제품과 오픈 소스 모델의 더 진화된 속임수에 대비할 수 있는 시간을 최대한 확보해야 한다"고 지적했습니다.
박 박사와 그의 동료들은 사회가 아직 AI 기만을 해결할 적절한 조치를 갖추지 못했다고 생각하고 있습니다.
연구진은 EU AI법과 미국의 AI 행정 명령과 같은 조치를 통해 정책 입안자들이 이 문제를 심각하게 받아들이기 시작하고 있다며 긍정적이라고 말했습니다.
그러나 "AI 개발자가 이러한 시스템을 통제하기 위한 기술을 아직 갖추지 못한 상황에서, AI 정책을 엄격하게 시행할 수 있을지에 대해서는 두고 볼 일"이라고 말했습니다.
monarch@fnnews.com 김만기 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지