프라이버시에 대한 그래픽. 위키미디어 커먼스 제공.
지난 글[링크]에서 한글 기사의 토픽 모델링을 소개하고 이번에 연도별 시계열 변화에 대해서 다루겠다고 하였으나, 중요한 논문이 하나 나와 먼저 소개해 드리고자 한다.
‘비식별화’에 대한 논문이다. ‘개인정보의 비식별화’는 박근혜 정부에서 시작해서 문재인 정부에도 이어지고 있는 몇 안되는 정책 가운데 하나가 아닐까 싶다. 핵심은 간단하다. 내 개인정보라도 내 정보인지 못 알아보게 특정 조치를 하면 본인 동의 없이 자유롭게 활용할 수 있게 해주겠다는 내용이다. 그 조치가 비식별화다. 이 정책은 개인정보를 활용하고 싶은 기업에게 유리하다. 보유하고 있는 개인정보를 각 개인에게 새삼스레 활용 동의를 받을 필요 없이 다른 용도로도 활용할 수 있으니 말이다. 하지만 개인에게는 불리한 편이다. 내 정보이지만 나도 모르게 어딘가에 활용될 수 있다면 찝찝하기 마련이다. 이 사이에서 우리 정부는 이른바 ‘4차 산업혁명’의 부흥을 위해 이를 허용하는 방향의 기조를 유지해 오고 있다.
비식별화는 우리나라뿐 아니라
세계 많은 나라에서 쓰이는 기법이라 한다[링크]. 그런데 ‘과연 비식별이란 것이 가능한 것인가’에 대한 우려가 지속적으로 제기돼 왔다. 이른바 4차 산업혁명의 데이터 시대란 무수한 데이터가 생성되는 시대란 말이다. 데이터는 모이면 모일수록 활용성과 설명력이 커진다. 개인정보를 식별할 수 없게 익명 처리를 했다고 해도 정보가 모이면 다시 식별할 수 있기 마련이다. 예를 들어 내 정보는 ‘권오성, 주민번호 80****-*******, 서울 송파구 ****, 직업 기자 등등’일텐데, 여기서 주민번호는 정확히 내가 특정될테니 ‘비식별화’ 조치를 통해 ‘권아무개, 40대, 주거지 서울, 직업 전문직’ 등으로 가릴 수 있다. 서울 송파구에 사는 전문직 40대 권아무개는 많을테니 이 정보가 나에 대한 것인지 알기 어려우리란 기대다. 하지만 여기에 기타 정보, 예컨대 ‘사용기기: 아이폰6S’나 ‘주 인터넷 접속지: 마포구 공덕동’, ‘주행 차량: 현대 소나타’와 같은 것들이 붙다 보면 점차 나로 정보를 좁힐 수 있다. 그리고 내가 특정되는 순간, 모든 정보는 ‘권오성’에 대한 정보임이 드러나게 된다. 따라서 비식별화라는 작업이 이를 얼마나 막아낼 수 있는가에 대한 의문이 생기기 마련이다.
소개해 드릴 논문은 이에 대한 내용이다. 결론은 간단하다. 현행 ‘비식별화’ 조처로 개인이 다시 식별되는 것을 막아내기 어렵다는 것이다. 영국 임페리얼 칼리지 런던의 입상드르 드 몽조이(Yves-Alexandre de Montjoy) 교수를 비롯한 연구진은 미국, 터키 등의 공개된 데이터로 실험한 결과 일부 속성만 알아도 비식별화된 데이터에서 특정 개인을 정확히 찾아낼 수 있다는 것을 알았다. 해당 논문은 지난 23일
과학 저널 <네이처 커뮤니케이션스>에 실렸다[링크]. 이들은 기계 학습 알고리즘을 통해 이를 찾아내는 모델을 만들었는데, 이 모델은 15개 인구통계적 속성(나이, 성별, 결혼 여부 등)만 알아도 그 어떤 익명화된 데이터라 할지라도 99.98% 정확도로 개인을 구분해 낼 수 있었다. 15개 속성이 많지 않을까 생각할 수 있는데 이는 현대 데이터 수집 범위를 과소평가하는 것이다.
미국의 익스페리안(EXperian)이라는 신용 평가 회사는 알테릭스(Alteryx)라는 마케팅 회사에 1억2천만 명의 미국인의 가구당 248개 속성을 가지고 있는 데이터 세트를 판매한 바 있다[링크]. 인간의 대부분 행동이 데이터로 전환되는 현대에(당신의 스마트폰이 당신에 대해 얼마나 많은 데이터를 알고 있을지 생각해 보라), 15개 속성은 많은 숫자가 아니다.
앞서 비슷한 연구들이 있었는데 그의 연구가 한 발 더 나아간 것은 ‘표본을 뽑았다 해서 안심할 수 없다’는 점이다. 예를 들어 당신 회사가 100만 명 고객의 데이터를 갖고 있는데 1만 명의 표본만 뽑아서 비식별화를 하고 데이터를 팔았다고 하자. 누군가가 1만명을 재식별화 하려고 한다면 당신은 ‘설사 재식별화에 성공한다 해도 100명 가운데 1명꼴로 뽑은 표본이기 때문에 특정하기 어려울껄’이라고 안심할 수 있다. 오판이다. 몽조이 교수의 모델은 표본으로부터도 정확히 개인을 특정할 수 있었다고 한다.
몽조이 교수는 비식별화라는 패러다임 자체를 전환할 필요가 있다는 생각이다. 그는
<뉴욕타임스>와 인터뷰[링크]에서 “우리는 비식별화, 그 다음으로 나아가야 할 필요가 있다”며 “익명성이란 데이터 세트의 속성이 아니라, 그것을 쓰는 사람이 어떻게 쓰느냐에 달려 있는 것”이라고 말했다. 즉 데이터 세트를 아무리 익명화 하려 해봐야 소용 없고, 데이터를 쓰는 회사와 사람이 어떻게 다루느냐에 걸려 있는 문제라는 이야기다. 몽조이 교수를 비롯한 연구진은 이번에 개발한 모델을 아예
공개[링크]해서 누구나 활용할 수 있게 해버렸다. 착한 이건 나쁜 이건 비식별 데이터의 재식별에 이 기술을 활용할 수 있다는 뜻이다.
대안은 무엇일까? 몽조이 교수는
과학 매체 <뉴사이언티스트>와 인터뷰[링크]에서 “데이터의 활용과 개인의 프라이버시 사이에 균형을 맞추기 위해선 비식별화로부터 다른 기술로 전환해야 할 시기”라며 “안전한 다자간 연산(secure multiparty computation)과 동형 암호(homomorphic encryption) 등”의 기술을 예로 들었다. 그는 “진정한 데이터 익명화란 어떤 것인지에 대한 규범이 강화되지 않는 한, (기업은) 이런 기술 보다 쉬운 비식별화를 택할 것”이라고 지적했다. 그는 또 개인이 자신의 데이터를 보호하기 위한 방법에 대해, 몇 가지 있지만 한계가 있기 때문에 “솔직히 근본적으로 규제와 강제가 있어야 한다는 생각”이란 의견을 냈다.
단순하고 오래됐지만 분명한 다른 해결책도 있다. 데이터 당사자에게 사용 용도를 말하고 허락을 받는 것이다. 데이터 경제의 발전을 위해 궁극적으로 필요한 것은 데이터로 통제되는 디스토피아에 대한 개인의 공포를 불식하고 개인과 기업간 신뢰를 높이는 것이다. 정보 주체의 동의를 얻는 사용은 이런 궁극적 필요에 도움이 된다.
권오성 기자 sage5th@hani.co.kr