연합학습(Federated Learning)의 개념도. 각 스마트폰이 마스터 모델을 받아(A) 각자 데이터에 적용해 활용하면(B) 추가로 학습된 내용만 서버로 보내져(C) 데이터의 이동 없이도 인공지능을 학습시킬 수 있다. 출처: Google AI Blog
지금까지 개인 프라이버시 보호와 인공지능 기술 활용은 서로 긴장 관계에 있었다. 좋은 인공지능 모델을 개발하기 위해선 많은 데이터가 필요하다. 하지만 개인정보를 보호를 위해선 데이터를 기업 등이 마음껏 수집하지 못하게 하는 규제가 필요하다. 둘이 서로 대립하는 것은 당연해 보인다. 대표적인 것이 의료 데이터다. 질병 기록이나 디엔에이(DNA) 자료 등은 개인의 민감한 개인 정보이면서, 동시에 질병을 퇴치하고 신약 개발 등을 위한 연구에 귀중한 데이터이기도 하다. 프라이버시와 인공지능, 양립할 방법은 없을까?
둘이 양립하게 도울 수 있는 새 인공지능 기술이 최근 주목을 받고 있다. 바로 연합학습(FL·Fedreated Learning)이다. 미국 매사추세츠공대에서 발간하는 <엠아이티 테크놀러지 리뷰>(MIT Technology Review)는 지난 11일 이 기술이 “프라이버시 위협 없이 의료 데이터를 활용할 수 있는” 새로운 가능성을 열고 있다고 소개했다. 스타트업 관련 매체 <벤처비트>는 이달 초 열린 ‘텐서플로 개발자 대회’에서 이 기술이 단연 주목을 받았다고 소개했다. 텐서플로는 구글이 공개한 오픈소스 기계학습 플랫폼이다.
연합학습의 기본 원리는 단순하다. 지금까지 인공지능을 만드는 방식은 데이터를 모두 한 곳에 끌어모아 모델이 학습하도록 훈련시키는 형태였다. 이 때문에 훈련에 쓸 대량의 데이터를 한 곳에 모으는 일 자체가 만만치 않았다. 이런 데이터를 운용할 수 있는 구글이나 아이비엠(IBM) 같은 큰 회사들이 인공지능 기술에 앞서 간 이유이기도 하다. 연합학습은 데이터를 하나의 서버로 끌어 모으는 것이 아니라 모델을 각 데이터가 저장된 곳으로 보낸다. 이 ‘마스터 모델’은 기본적인 데이터로 학습해 만들어진 인공지능이다. 각 저장소는 마스터 모델을 자신의 데이터에 적용해 활용한다. 그리고 저장소의 모델이 배운 업데이트된 내용만 서버로 보낸다. 서버는 이 업데이트들을 모아 마스터 모델을 업그레이드 하는 것이다. 데이터는 전혀 이동하지 않으며, 서버는 각 저장소의 데이터를 보지도 못한다. 하지만 마스터 모델은 새로운 데이터로 업그레이드 되는 것이다.
연합학습 기법을 적용한 구글의 지보드(Gboard) 화면. 문자 내용의 개인정보를 구글이 받지 않고도 지보드의 인공지능을 각 안드로이드 폰에서 학습시킨다. 출처: Google AI Blog
이 혁신적인 아이디어는 사실 2017년 4월에 이미 소개된 바 있다. 구글은 ‘구글 에이아이 블로그’(Google AI Blog)를 통해 연합학습의 개념을 소개하고, 이를 안드로이드의 구글 키보드인 ‘지보드’(Gboard)에 시범 적용한다고 밝혔다. 지보드는 문자메시지 등을 보낼 때 자동 완성과 검색 결과 제안 등을 해주는데 이 기능에 연합학습이 도입된 것이다. 즉, 구글은 사용자가 친구들에게 보내는 텍스트까지는 보지 않으면서 해당 기능을 통해 각 스마트폰에서 업데이트된 추가 학습 내용만 받는 형태로 지보드의 인공지능을 훈련시키는 것이다.
인공지능 기술은 대개 ‘블랙박스’라 불릴 정도로 어떻게 학습이 이뤄지는지 인간이 이해하기 어렵게 이뤄진다. 따라서 이런 식으로 각 분산된 기기에서 배운 업데이트는 역공학(리버스엔지니어링)으로도 원래 데이터가 무엇인지 알아내기 어렵다. 구글은 여기에 추가로 각 업데이트 내용을 서버에 암호화시켜 보내고, 수백에서 수천 개 업데이트가 모였을 때 암호를 해석하도록 설계해 개별 데이터는 더욱 알기 어렵다고 설명했다.
이 기술은 이제 다방면에 적용되기 시작했다. <테크놀러지 리뷰>는 구글이 후원하는 프랑스 파리 기반의 의료 빅데이터 스타트업 오킨(Owkin)을 대표 사례로 들었다. 이 회사는 연합학습 기법을 활용해 미국과 유럽의 암 연구센터 몇 곳과 협업하여 환자가 특정 치료법에 대해 어떤 내성을 보일지, 생존률은 어떻게 될지 등을 예측하는 인공지능을 개발하고 있다. 각 환자의 데이터는 이들이 치료받는 센터에서 이동하지 않고 모델이 찾아가서 배우는 식이다. 오킨의 공동 창업자 토머스 클로젤(Thomas Clozel)은 <테크놀러지 리뷰>에 “오늘날 암연구에 가장 큰 장벽은 지식(의 이동)이다. 드디어 의학 혁신을 위해 지식을 추출할 수 있는 힘을 얻었다”고 말했다.
연합학습 기법을 이용해 암연구를 진행하고 있는 프랑스 스타트업 오킨(Owkin)의 홈페이지. 출처: owkin.com
물론 연합학습도 아직 넘어야할 벽들이 있다. 미국 미시건주립대의 미 장(Mi Zhang) 교수(전기컴퓨터공학)는 기술 매체 <싱크드리뷰>(SyncedReview)와 인터뷰에서 “전송 속도”와 “신뢰도”를 과제로 꼽았다. 각 분산된 모바일 기기 등에 보내진 모델이 학습하는 내용을 서버가 받을 때 배운 양이 많으면 전송속도가 걸림돌이 될 수 있는 것이다. 또 각 기기에서 학습한 데이터가 마스터 모델에 반영할 만큼 괜찮은 것인지 어떻게 신뢰할 수 있을지도 풀어야할 과제다. 전송 속도의 경우 5세대(5G) 이동통신이 도입되는 지역에서는 속도가 크게 올라가기 때문에 큰 문제가 되진 않을 수 있다.
연합학습에 더 주목해야 할 이유는 이 기술이 프라이버시 문제를 해결하는 데 그치지 않는다는 것이다. 세계 3대 통신회사인 인도 에어텔(Airtel)의 선임 데이터 과학자인 산타누 바타차리야(Santanu Bhattacharya) 박사는 블로그에서 이 기술이 “인공지능 시장을 민주화 시킬 것”이라며 “새 새벽이 오고 있다”고 전망했다. 데이터를 가져올 필요 없이 각 스마트폰에서 인공지능 모델을 학습시킬 수 있는 시대를 상상해보자. 연합학습을 이용하면 이론적으로 누구나 데이터 수집을 걱정할 필요 없이 각 스마트폰의 연산 능력을 활용해 자신의 인공지능 모델을 개발할 기회가 생긴다. 수십, 수백, 수천만 대의 스마트폰이 가지고 있는 연산 능력은 합쳐지면 구글 같은 거대 기업의 슈퍼컴퓨터 못지 않는 능력이다. 이 함의는 프라이버시 문제 해결 못지 않게 크다고 할 수 있다.
권오성 기자 sage5th@hani.co.kr