“시리야, 오늘 날씨 어때?” “헤이 구글, 어제 보던 요가 영상 틀어줘.”
오늘날 인공지능 음성비서들이 대부분 여성 목소리를 갖게 된 배경에 여성 컴퓨터과학자이자 심리학자인 앤 시르달 박사의 선구적 연구가 있었다는 사실은 꽤 알려졌다.
<뉴욕타임스>는 미국 통신회사인 에이티앤티(AT&T)에서 컴퓨터과학 연구원으로 일하며 1990년대에 오늘날 음성비서에서 널리 쓰이는 음성합성 기술을 개발한 앤 시르달 박사가 지난달 24일 캘리포니나 새너제이에서 숨졌다고 지난 20일 보도했다.
모바일 인터넷 환경에서 음성대화를 통한 스마트폰과 기기 조작은 일반화했지만, 처음부터 컴퓨터가 말하는 음성이
지금처럼 자연스럽고, 또 여성 목소리 위주였던 것은 아니다. 에이티앤티가 1939년 뉴욕 국제박람회에서 최초의 음성합성 기술을 선보였고 그 뒤로 컴퓨터기술의 비약적 발전이 있었지만 컴퓨터 음성 합성 기술은 별다른 진전이 없었다. 1990년 에이티앤티는 청각장애인들이 전화 통화를 할 수 있도록 음성합성 기술을 개발했지만, 당시 목소리는 전형적인 남자의 목소리였다.
심리학 박사인 앤 시르달은 텍사스대학과 스웨덴 왕립공대, 매사추세츠공대(MIT) 등에서 인간언어 구조 연구를 한 뒤 벨연구소로 옮겨, 음성합성 기술을 본격 개발했다. 당시 사람들은 여성 목소리는 남자 목소리의 높은 주파수 버전이라고 생각했으며 컴퓨터 음성합성 기술과 여성 목소리에 대한 연구 수준은 매우 낮았다. 시르달은 1990년 남성 목소리 위주였던 음성합성 분야에서 선구적인 여성목소리 ‘줄리아’에 이어 ‘내추럴 보이스’ 개발을 하면서 이후 음성합성 기술의 표준을 만들었다. 1998년 에이티앤티의 ‘내추럴 보이스’는 음성합성기술 국제대회 1위에 오르고, 시르달은 2008년 미국 음향학회 펠로가 됐다.
그가 개발한 여성 목소리 합성기술은 오늘날 시리와 알렉사와 같은 음성비서를 통해 일반화했다. 이 기술은 처음부터 기계음을 만들어내는 대신 사람의 말을 녹음해 음소의 미세한 부분을 합성하고 묶는 방식으로, 실제에 더 가까운 사람의 목소리를 구현했다. 2011년 애플은 시리를 인수해 아이폰4에스(s) 출시 때 서비스에 나섰는데, 이때 시리는 여성과 남성 목소리 두가지로 작동했다.
한국어 음성비서가 말하는 음성 대부분은 인공지능 딥러닝을 통해 합성한 목소리다. 의성어나 감탄사, “안녕하세요”처럼 자주 쓰는 말은 녹음하지만, 나머지는 대부분 기계가 합성해 만들어낸 소리다.
2013년 개봉한 할리우드 영화 <그녀>는 인공지능과 사랑에 빠지는 남자를 다뤘다. 영화 속 인공지능 사만다의 목소리는 섹시한 이미지를 가진 여배우 스칼릿 조핸슨이 연기했다.
근래 음성비서 대부분이 여성 목소리인 것에 대해 성차별이라는 지적도 나오고 있다. 유엔(UN) 교육과학문화위원회(UNESCO)는 지난해 5월 독일 정부 등과 함께 보고서(‘교육을 통한 디지털 기술의 성격차 해소’)를 펴내 “여성 목소리의 인공지능 음성비서가 여성을 기꺼이 맹목적으로 순종하는 도우미라는 편견을 주입시키고 있다”고 지적했다. 지난해 3월 유럽에선 언어학자·기술자 등이 중심이 된 ‘이퀄에이아이(Equal AI)’ 프로젝트가 여성도 남성도 아닌 중성적 목소리의 음성비서 큐(Q)를 개발해 공개했다.
구본권 선임기자
starry9@hani.co.kr