"데이터 개방은 좋은 말이지만, 기업의 데이터에 대해 베타적 소유권을 어느 선까지 인정할 것이냐 논의해야 할 때입니다."
"기업 입장에서 보면 영업노하우일 수도 있습니다. 양날의 검 같은 문제입니다."
"정부가 AI에 활용되는 데이터의 형태도 고민해야 한다고 봅니다. 공공정보가 적극적으로 활용될 수 있도록 데어터 가공형태도 고민했으면 좋겠습니다."
―AI 서비스를 진행하는 데 어려움은 없는가.
▲정재성=우리 서비스는 법률 정보와 서비스에 접근성이 떨어지는 국민들에게 AI를 결합해 좋은 서비스를 제공하겠다는 취지로 시작했다. AI를 발전시키려면 정제된 데이터가 많아야 정보의 정확성과 의미있는 분석을 도출할 수 있는데, 이런 차원에서 법원의 판결문 만큼 표준화 되고 정형화 된 문서는 없다고 본다. 법률 몇조, 몇항에 의해 몇개월, 몇년 형량 등 양형 근거가 모두 다 표시 돼 있고 비실명화 해서 공개된, 공무원이 작성한 공공정보다. 그런데 매년 수백만 건씩 쏟아지는 판결문을 일반인들은 이해하기 어렵다는 단점이 있다. 여기에 AI를 접목하면 국민들에게 유의미한 정보가 나올 수 있고, 법관들의 업무효율성도 증진시킬 수 있다. 변호사들은 과거 경험과 유사 판례를 많이 참고하는데, AI가 수많은 유사 사건 판례를 빠르게 분석하고 활용할 수 있다면 업무 시간을 단축시킬 수 있다. 또 법률 정보들이 기술과 접목 돼 대중들의 접근성이 높아질 수 있기 때문에 더욱 법앞에 평등한 세상이 올 것이라고 믿는다. 수많은 장점이 있음에도 불구하고 변호사 협회 측에서는 AI 접목 서비스의 발전을 늦추기 위해 판결문 데이터 공개를 제한하자는 주장까지 하고 있다.
― 데이터 댐 구축 과정에 기업의 데이터 공개와 공유 범위는 어떻게 정하는 것이 좋은가.
▲송경희=데이터 댐을 만들어 다양한 데이터를 공유하고 가공까지 하고 있다. 교통, 농업 등 다양하게 있어 기업하시는 분들이 관심을 가지고 들어오면 좋겠다. 데이터 플랫폼을 만들어서 가공해서 무료로 제공 하기도 한다. 기업들은 분야별로 거래할 수도 있다. 아직 필요한 데이터가 없는 경우도 있지만, 정부는 공공에서 형성되는 데이터는 신속하게 이용할 수 있는 형태로 공급을 해준다는 원칙이 있다. 민간 데이터의 수집과 가공은 생성과정 부터 여러 주체가 있고, 소비자의 직접 참여 데이터도 많은데다 그 데이터를 모으고 보전하고 가공하는 과정에서 기업의 노력을 배제하기 어렵다. 또 저작권도 쟁점이다. 공정한 이용이면 저작권 침해가 아닌데 공정한 이용이 어디까지냐 판단이 따라야 하는 문제다. 일본의 경우 법을 고쳐서 학습용으로 데이터를 쓰려고 하면 합법이다. 우리도 이런 기준을 정하는 것이 필요하다고 본다.
―저작권, 개인정보 등은 AI기술과 상반되는 가치다. 입법이나 행정에서 필요한 고민은.
▲송경희=AI발전이라는 한쪽 면만 생각하면 저작권법, 개인정보법이 없으면 굉장히 빨리 성장할 수 있다. 어떤 나라는 그런 것을 크게 관여 안하고 AI를 학습시켜 빠른 성장을 추구하기도 한다. 우리나라는 인권과 민주적인 가치를 중시한다. 가치의 상충을 고려하지 않으면서 갈 수 없다. 데이터 댐을 구축하는 정부 입장에서는 개인정보를 최대한 보호하면서 가는 방향을 점검하고 있다. 그러다보니 AI를 학습시키는데 아쉬움이 있어 저작권 보호와 학습용 사용은 입법적으로 전향적인 방법을 찾을 필요가 있다고 생각하고 있다. 적절한 보호는 반드시 필요하지만, 기간을 두고 왜 필요한지 예외적 허용은 어떤 경우에 하는지 등 큰 원칙하에서 개별적인 문제 사안들이 발생할 때 적극적으로 해석할 수 있는 균형감을 찾아갈 것이다.
▲김종윤=AI의 학습 데이터는 사실상 비정형일 수 밖에 없어, 비정형 데이터에서 개인정보를 감지하고 가명 또는 익명화 하는 것은 여전히 어려운 영역 중 하나다. 사회적인 합의와 기술이 함께 발전해야 풀 수 있는 문제이고, 개인정보보호위원회도 AI자율점검표를 제시한 바 있다. 다만 AI 자율점검표만으로 되는 건 아니고 여러 사례가 많이 쌓이고 공감대가 형성돼야 한다. 우리가 이번에 개선해서 출시하는 서비스가 그 사례가 될 수 있도록 기준표 준수 및 기술 개발에 노력하고 있다.
▲정재성=민간에 공개되는 공공 정보는 개인 또는 기업들이 활용할 수 있는 형태가 돼야 하는데, 활용되는 데이터의 형태를 크게 고려하지 않고 있는 것 같다. 예를들어 판결문은 텍스트 추출이 어려운 PDF 형태로 공개된다. PDF자료는 AI가 읽어낼 수 없다. AI기술의 접목을 전혀 고려하지 않는 것이다. 다른 공공정보들도 AI기술이 접목되면 더 좋은 가치를 만들 수 있는데도, AI학습을 고려하지 않고 데이터를 가공한다. 공공정보라도 AI에 활용될 수 있는 형태로 제공됐으면 좋겠다.
▲송경희=공공정보 개방의 목적은 국민의 알권리가 우선이었다. 그래서 PDF형식으로 법원 판결문을 공개했는데, 이제 막 AI 활용 개념이 생긴 것이다. 국민의 알권리 외에 AI학습이라는 새로운 가치가 생긴 만큼 정부에서도 데이터 가공 형식에 대해 인식의 전환이 필요한 시점이라고 본다.
▲손지윤=데이터 기본법, 전자정부법, 개인정보법, 지능정보화법 등 데이터 관련 법들이 있는데, 거버넌스 구조가 국무총리 직속으로 관계된 장관들이 모두 다 들어가 이 법을 만들었다. 부처간 헤게모니가 작용하고 있다. 어느 특정한 부처가 관련된 논의를 한 곳으로 모을 수 있으면 좋겠다. 기본법의 메커니즘이 잘 돌아갈 수 있는 구조가 될 수 있게 되었으면 좋겠다.
―로톡도 카카오모빌리티도 서비스 지속을 위한 돌파구가 필요해 보인다.
▲송경희=정책을 만들다보면 새로운 서비스가 나와서 위협을 받는 목소리 큰 이해집단의 영향을 무시할 수 없다. 문제는 이용자다. 새로운 서비스로 인한 이용자의 편익을 얼마로 봐야할지 산정도 안되고, 기존 산업과 벨런스를 봐야 하는데 이 역시 목소리가 잘 나타나지 않는다. 새로운 서비스를 시작하고 혁신하는 기업들은 이용자 그룹을 결집시키는 노력을 했으면 좋겠다. 어떤 서비스를 통해 본인들이 어떤 이익을 보는지, 그룹을 결집시켜서 같이 목소리도 내게 하고 그래야 입법자들도 균형되게 볼 수 있지 않겠나.
▲정재성=로톡 서비스를 좋아하고 잘 활용하는 개별 개업 변호사, 청년 변호사들도 많다. 그러나 변호사를 징계할 수 있는 강력한 권한을 가지고 있는 변협 집행부의 영향력이 워낙 강하니까 의견을 내기가 쉽지 않다. 소비자들을 모아서 목소리를 내면 100명 중 1~2명의 부정 사례를 여론화하기도 한다. 서비스 하는 입장에서는 두들겨 맞으면서, 정부나 사법기관에서 목소리를 내주는 걸 기다릴 수밖에 없다. 협회나 단체들이 너무 강하니까 소비자의 목소리와 밸런스를 맞추기 쉽지 않은 현실적 어려움이 있다.
▲이동규=비슷한 경험을 하고 있는것 같다. 일반 승객 고객들은 불편한 점과 개선점을 많이 이야기 해 준다. 서비스가 좋으니 더 좋게 하기 위한 정보를 준다. 이게 보편적으로 개발할 수 있는건지 개선할 수 있는지 피드백을 받고 있으나, 그게 개선되고 나아지는 것에 대한 가치 평가를 하기 힘들다. 이를 알리는게 쉽지 않다. 내부적으로도 그런 고민을 하고 있다. 서비스 양이 많아지니 그때 그때 발생하는 소비자 피드백을 내부적으로 논의해서 정형화 시키고 빨리 대응할 수 있는 이용자권익위원회를 만드는 것을 고민하고 있다. 그게 만들어지고 거기서 나온 결과가 적절한 시점에 고객들에게 릴리즈되면 이용자들이 가치를 느낄 수 있게 알릴 수 있을 것이다.
▲송경희=이용자라는 게 단면이 아니고 양면이다. 플랫폼에 들어오는 업체들도 서비스 이용 유저가 있다. 예전에는 시장을 독점하고, 가격을 올려서 소비자의 이익이 줄어드는 것이 독점의 규제 근거였다. 플랫폼 기업들이 오면 값도 싸지고 이용자들은 좋아졌지만, 기업들이 마음대로 (서비스를) 넣고, 빼고 알아서 가격을 책정해 버리기도 한다. 플랫폼 안에 들어온 기업들과 들어오지 못한 기업들이 공정하게 상생하는 관계를 어떻게 만들지를 봐야한다. 전통 기업처럼 군림하는 것은 없어져야 한다.
/정리= true@fnnews.com 김아름 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지