신뢰할 수 있는 인공지능

2024.09.04 18:53 수정 : 2024.09.04 19:44기사원문

박상돈 포스텍 인공지능대학원 컴퓨터공학부 교수

필자는 인공지능이 최근 우리 생활 속으로 파고들고 있다는 것을 체감하고 있다. 챗GPT로 영작을 한다거나 언어 번역기를 통해서 외국인과 의사소통하는 소소한 응용 사례를 보면 이를 알 수 있다. 이렇게 실용성이 높아 사람과 밀접하게 소통하는 인공지능이 과연 긍정적인 영향만 끼칠까? 인공지능의 책임 있는 군사적 이용에 관한 고위급회의(REAIM)를 맞이하여 인공지능의 신뢰성 문제에 대해서 이야기하려 한다.

이미 학계에서는 인공지능의 신뢰성 문제에 대해서 심각성을 인식하고 해결책을 마련하고 있다. 관련된 문제의 예로 환각효과 및 적대적인 공격에 대한 강건성 문제를 꼽을 수 있다. 환각효과는 인공지능 모델 중 생성모델에서 도드라지는 문제로 생성모델이 거짓된 대답을 자신있게 말하는 문제를 칭한다. 강건성 문제는 모델이 적대적인 입력에 대해서 의도한 동작을 하지 않을 경우 발생한다. 가령 오픈AI 챗GPT의 경우 탈옥공격으로 폭탄을 만드는 법같이 인간 가치에 부합하지 않는 대답을 하기도 한다.

그런데 이런 인공지능의 신뢰성 문제는 군사적인 목적을 고려하면 그 문제가 더 두드러지게 된다. 특히 군사용 인공지능은 적대적인 환경에 노출될 가능성이 높다. 그래서 기존의 오작동을 유발하는 환각효과 문제가 적대적인 공격으로 극대화될 수 있다. 2023년에 미국 국방부의 드론이 시리아에서 민간인을 실수로 살해한 사건이 있었는데 이런 오작동을 공격자가 악용한다면 충분히 피해를 극대화할 수 있다.

필자가 재직하고 있는 포스텍에서는 인공지능의 신뢰성에 대한 연구를 심도 있게 진행하고 있다. 가령 인공지능이 의도적 또는 비의도적 입력에 대해서 원하는 기능을 수행하는지를 평가하는 레드팀 연구가 있다. 김슬배 교수는 물체 탐지 기능이 탑재된 자동주행 자동차 소프트웨어가 오작동을 일으키는지 평가하는 연구를 수행했다. 또한 인공지능의 적대적 입력에 대해 강건성을 유지할 수 있는 기법에 대한 연구가 있다. 김동우 교수는 기존 적대적 공격의 정제방법 평가 및 효과적인 정제방법에 대한 연구를 했다. 마지막으로, 인공지능의 성능을 제어 가능한 알고리즘을 개발하는 연구도 수행되고 있다. 필자는 적대적인 공격을 포함한 분포 이동 상황에서 인공지능의 추론 불확실성을 정량화하여 환각효과의 제어 가능성을 확인하는 연구를 다년간 수행했다.

오는 9월 9일부터 이틀간 서울에서 인공지능의 책임 있는 군사적인 활용을 논의하기 위한 고위급회의가 열린다.

필자는 이 회의에서 인공지능의 일반적인 이용뿐만 아니라 군사적 이용에서 신뢰성 문제의 중요성이 확산될 것이라고 본다. 더 나아가 책임 있는 인공지능 개발은 이를 이용한 군사적 보안 문제를 해결하는 데 선결되어야 할 과제라고 생각한다. 실제로 미국 국방고등연구계획국(DARPA)에서는 인공지능을 이용해 자동 취약점 탐지 및 보안패치 생성대회(AIxCC)를 개최했고, 이는 인공지능의 책임 있는 군사적인 이용이 앞으로 더욱 중요해질 것임을 보여주는 단적인 예가 되겠다.

박상돈 포스텍 인공지능대학원 컴퓨터공학부 교수

파이낸셜뉴스

신뢰할 수 있는 인공지능

Hot 포토

많이 본 뉴스