목소리는 성대에서 시작된 공기 파동의 결과물이다. 얼굴에서 공명하다 보니 목의 길이, 코의 모양 등에 따라 다른 소리가 나 지문처럼 인간 저마다의 고유한 특성으로 분류된다. 이렇게 조성된 음색이 개인 특유의 말투, 사투리, 발음, 성량 등과 결합하면 한마디만 들어도 딱, 그 사람인 줄 알게 된다.
목소리만으로 누군가를 알아보거나 남의 목소리를 탐내는 상황은 옛이야기 속에서도 자주 등장한다. 늑대는 할머니 목소리를 흉내내 빨간망토를 속이고, 바다 마녀는 인어공주에게 다리를 주고 목소리를 빼앗는다. 심 봉사는 죽은 줄 알았던 심청의 목소리를 듣고 눈을 번쩍 뜬다.
남의 목소리를 흉내내는 일은 오랫동안 ‘개인기’의 영역이었다. 유명 가수의 노래를 비슷한 음색으로 따라 부르는 ‘모창’, 코미디언들이 특정 유명인의 말투를 흉내내는 성대모사 등이다. 개인기를 갈고닦는 데는 많은 노력이 필요하다. ‘성대모사의 달인’으로 불리는 코미디언 김학도(53)씨는 한 인터뷰에서 자신의 성대모사 비결에 대해 “3박4일 동안 그 목소리만 녹음해서 틀어놓고 계속 듣고, 아예 그 목소리로 생활하기도 한다”고 말했다.
생성 인공지능 시대에는 3분이면 된다. 케이티(KT)의 음성 인공지능 기술은 3분 남짓의 짧은 녹음만으로도 목소리를 완벽히 복원해 텍스트를 입력하는 대로 술술 말을 생성한다. 에스케이티(SKT)는 최근 별도의 녹음을 하지 않고도 골프선수 최경주의 목소리, 말투, 사투리 등을 기존 인터뷰 영상에서 추출한 음성만으로 완벽하게 생성해냈다. 목소리가 담긴 영상이 있다면 완벽하게 흉내 낼 수 있는 시대가 도래했다.
신기함이 황당함으로 바뀌는 데는 시간이 그리 걸리지 않았다. 완벽하게 생성한 목소리가 범죄에 이용되기 시작한 것이다. 캐나다에서는 아들의 목소리를 이용해 부모에게 사기를 친 보이스피싱 범죄가 발생했고 미국에서도 기업체의 사장 목소리를 이용한 사기 시도가 드러났다. 어색한 말투와 억양 때문에 보이스피싱을 들켰다는 식의 유머는 이제 국내에서도 통하지 않을 것이다.
수사기관이 긴장하지 않을 수 없다. 경찰청은 최근 대화형 인공지능 챗봇 서비스 상용화에 따른 사이버범죄 대응 방안에 대한 연구를 발주했고, 대검찰청도 가짜 음성 탐지 기술 개발에 나섰다. 이제 딱, 그 사람인 목소리도 의심할 수밖에 없는 시대다.
임지선 빅테크팀 기자
sun21@hani.co.kr