[파이낸셜뉴스] 인공지능(AI)과 관련된 법률이슈를 얘기할 때면 늘 개인정보 보호법이 언급된다.
인공지능이란 다량의 데이터를 학습시켜서 인간의 학습능력, 추론능력, 지각능력 등을 인공적으로 구현하는 것을 의미하는데, 학습 목적으로 사용되는 다량의 데이터에 개인정보성을 가진 데이터가 포함될 가능성이 크기 때문이다.
따라서 인공지능을 개발∙활용하고자 한다면 개인정보 보호법과의 충돌이 발생할 가능성이 있다는 점을 염두에 두고 업무를 진행하여야 한다.
그렇다면 인공지능을 학습하기 위해 다량의 데이터를 활용할 때 개인정보 보호법에 위반되지 않기 위해서는 어떠한 조치가 필요할까?
첫 번째 접근법은 개인정보 보호법에서 요구하는 개인정보 이용 시의 의무를 준수하면서 데이터를 활용하는 방법이다.
가장 안전한 방법은 정보주체에게 AI학습 목적으로 개인정보를 활용하겠다는 점을 알리고 동의를 받는 방법이다. 그러나 최근의 AI모델 개발은 웹 스크래핑 방식으로 공개된 정보를 수집하여 학습데이터로 활용하는 경우가 많으므로 미리 학습데이터를 특정하고 동의를 받는 것은 현실성이 떨어진다.
한편 개인정보 보호법은 정보주체와 체결한 계약을 이행하거나 당초 동의를 받아 수집한 목적과 합리적으로 관련된 범위 내에서 개인정보의 이용은 동의 없이 가능하다고 정하고 있다(『<6> 불가피하게 개인정보를 이용해야 할 때』편 참고). 따라서 이러한 목적의 AI개발에 있어서는 동의 없이도 개인정보를 활용할 수 있다. 예를 들어, 회사가 특정 서비스를 제공할 목적으로 수집한 고객의 개인정보가 있다면 해당 서비스 개선(고도화) 목적의 AI개발에는 동의 없이 이용할 수 있다. 그러나 이 또한 회사가 미리 보유하고 있었던 개인정보만 학습데이터로 활용할 수 있다는 점에서 한계가 있다.
또한 개인정보 보호법은 “개인정보처리자의 정당한 이익을 달성하기 위하여 필요한 경우로서 명백하게 정보주체의 권리보다 우선하는 경우”이거나 “인터넷 홈페이지 등에서 개인정보를 수집하는 경우로서 사회 통념상 동의 의사가 있었다고 인정되는 범위” 내에서 개인정보의 이용은 동의 없이 가능하다고 정하고 있다(『<5>공개된 개인정보는 어디까지 활용할 수 있을까』편 참고).
따라서, 이 규정에서 허용하고 있는 범위 내에서는 개인정보를 학습데이터로 사용할 수 있을 터인데 이때는 회사가 웹 스크래핑 등의 방식으로 수집하는 공개된 정보의 경우에도 활용이 가능하므로, 가장 현실성이 있는 방법이다.
따라서, AI학습에 활용하고자 하는 데이터가 이 사유에 해당하는지를 잘 판단할 수 있어야 하는데, 일반적으로 ①목적의 정당성과 ②처리의 필요성이 있어야 하고 ③개인정보를 처리하려는 자의 이익이 정보주체의 권리보다 명백히 우선한다는 점이 이익형량 과정을 통해 확인되어야 한다는 점을 판단 기준으로 보고 있다. 즉, AI개발 목적에 정당성이 있어야 하고 그 AI개발을 위해 해당 개인정보를 처리할 필요성이 있어야 한다. 또한 AI개발자의 정당한 이익과 침해되는 정보주체의 권리를 비교하여 정당한 이익이 우선한다는 점을 확인하여야 한다.
두 번째 접근법은 개인을 식별할 수 있는 정보를 없앤 후 데이터를 활용하는 방법이다.
개인정보 보호법에서는 가명처리된 정보의 경우에는 통계작성, 과학적 연구 등의 목적으로 동의 없이 활용할 수 있다고 정하고 있고 시장조사와 같은 상업적 목적의 통계 처리 및 새로운 기술·제품·서비스 개발 등 산업적 목적을 위한 연구도 여기에 포함된다고 해석하고 있다(『<8>가명정보 제대로 활용하기』편 참고).
따라서 이미 회사가 보유하고 있던 데이터이든 스크래핑 등을 통해 새롭게 수집한 공개된 데이터이든 가명처리를 한다면 새로운 기술·제품·서비스 개발 등을 목적으로 하는 AI개발 및 서비스에 활용할 수 있다.
그렇다면 실제 회사에서 AI개발 목적으로 개인정보가 포함된 데이터를 활용하는 경우 어떠한 점에 주의하여야 할까?
가장 중요한 점은, 개인정보 보호법에서 정하고 있는 사유 중 어느 하나에 해당하는 경우에만 데이터 활용이 가능하다는 점이다.
우선 학습데이터로 활용하고자 하는 데이터 및 AI개발 목적을 명확히 정리할 필요가 있다.
활용하고자 하는 데이터가 회사가 이미 보유하고 있는 데이터에 한정되는지 불특정의 공개된 데이터까지 포함하는지를 구분하여야 한다. 또한, 활용하고자 하는 데이터를 가명처리하여 가명정보로 변환한 후 활용하는 것이 가능한지도 따져보아야 한다. 이를 위해서는 기술적으로 가능한지 여부 뿐만 아니라 가명정보를 이용하여 학습하는 것만으로도 AI개발 목적을 달성할 수 있는지도 파악하여야 한다.
AI개발 목적이 이미 고객에게 제공하고 있는 서비스를 고도화하기 위한 목적인지 아니면 새로운 목적인지를 정리하고 해당 목적이 개발사의 영업상 이익뿐만 아니라 사회적 이익이 있는지도 고민해 볼 필요가 있다.
정리가 끝난 다음에는, 개인정보 보호법에서 정하고 있는 수집·이용이 가능한 사유 중 어느 사유에 해당할 수 있는지를 확인하여야 한다. 적용되는 사유가 없다면 해당 정보는 AI학습데이터로 활용할 수 없을 것이다. 만약 정당한 이익 규정에 따라 학습데이터로 활용하고자 한다면 데이터를 활용하기 전에 그렇게 판단한 근거자료(①~③을 분석한 자료)를 남겨둘 필요가 있다. 추후 개인정보의 활용이 문제가 된다면 입증할 자료가 필요하기 때문이다.
[필자 소개]
정세진 율촌 변호사(43·변호사시험 3회)는 핀테크·데이터 전문 변호사다. 카드 3사 유출사건 등 주요 개인정보 유출 관련 사건을 수행했으며, 빅데이터, 마이데이터, 클라우드, 혁신금융서비스, AI, 가상자산, 토큰증권 등 핀테크 산업과 관련된 다양한 법률 자문을 제공하고 있다.
전문분야인 디지털 금융의 기본법률을 다룬 책 '디지털금융 기초 법률상식' 개정판을 올해 2월 출간했다. '디지털금융 기초 법률상식'은 2022년 초판이 나온 이래 주요 금융회사와 금융연수원, 대학교 등지에서 디지털금융 강의 교재로 쓰이는 등 법조인과 금융종사자 사이에서 실무서로 통하고 있다. 또 최근 금융데이터법 관련 기본적인 내용을 다룬 ‘한 권으로 끝내는 금융데이터법’을 출간했다.
성균관대 법학전문대학원과 한국금융연수원에서 겸임교수로도 활동 중인 정 변호사는 다양한 디지털 금융 관련 강의도 진행하고 있다.
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지