헤이젠 동영상 번역 기능은 동영상 속 사람의 목소리를 복제하고 입 모양까지 자동으로 변환해 다른 언어로 더빙해 준다. 헤이젠 화면 갈무리.
‘온 땅의 구음이 하나이요 언어가 하나이었더라.’(성서 창세기 11장 1절)
태초에 언어는 하나였다. ‘여호와께서 그들을 온세상에 흩트’리기 전까진. 바벨탑이 무너지며 소통은 조각났고, 우리는 상대의 말을 익히는 수고로움을 떠안았다. 어학원과 ‘인강’으로 내몰리는 다국어 사회의 학생과 직장인들. 언어 장벽을 허무는 일은 소통의 문제이자, 소모적 삶을 마감하는 전환점이다.
인류는 도전을 멈추지 않았다. 아이비엠은 1954년 처음으로 기계번역을 실험했고, 시스트란은 58년 전 최초의 번역 소프트웨어를 내놓았다. 구글은 8개 언어를 서로 번역해주는 기계번역 서비스를 2001년 선보였다. 2008년에는 통계 기반 번역으로 기술을 향상시키며 번역 품질도 올라갔다. 그럼에도 언어의 벽은 여전히 견고하다. 아무리 번역 기술이 뛰어난들, 행간에 담긴 맥락과 뉘앙스까지 사람처럼 잡아내진 못했다.
인공지능 시대다. 이 새로운 만능열쇠가 해묵은 인류의 숙제를 해결할 수 있을까. 이미 우리는
딥엘(DeepL)이라는 명민한 번역 서비스의 혜택을 맛보고 있다.
챗지피티도 그럴듯한 번역 실력을 자랑한다. 여기에도 한계는 있다. 이들은 아직까진 문자 번역에 갇혀 있다. 놀랍지만, 획기적이진 않다.
인공지능 동영상 기술업체 헤이젠이 내놓은 ‘
동영상 번역’ 기능은 놀랍고도 혁신적이다. 동영상 속 사람이 하는 말을 실시간으로 다른 언어로 더빙해 준다. 단순히 언어만 바꿔주는 게 아니다. 목소리도 똑같이 복제하고, 입 모양도 번역 언어에 맞게 바꾼다. 텍스트 번역과 음성 복제, 립싱크 기술을 한데 녹여 감쪽같이 더빙 영상을 만들어내는 것이다. 원본 언어는 영어, 프랑스어, 일본어를 포함해 16개 언어를, 더빙 언어는 영어와 한국어를 포함해 14개 언어를 지원한다. 버락 오바마의 영어 연설 동영상을 똑같은 오바마 목소리의 한국어 연설 동영상으로 바꾸는 일이 업로드 한 번으로 간단히 이뤄지는 셈이다. 목소리 복제는 음성 인공지능 전문업체 일레븐랩스의
음성 더빙 기술을 활용했다.
한 이용자가 사회관계망에 올린
실험 영상을 보자. 처음엔 영어로 말하더니 곧 인도어, 한국어, 프랑스어, 포르투갈어, 중국어, 네덜란드어로 바꿔가며 말을 잇는다. 목소리는 그대로인데, 입 모양은 언어에 따라 바뀐다. 인간 성우의 더빙은 언어를 덧씌울 순 있지만 목소리까지 복제하진 못한다. 인공지능은 그 길을 텄다. 아직은 어색함도 묻어나지만, 기술 발전 속도에 비춰보면 간극을 메울 날이 머잖아 보인다.
(큐아르코드를 찍으면 영상을 볼 수 있다.)
지구에서 영어를 모국어로 쓰는 사람은 100명 중 6명뿐이다. 전 세계 인구 4명 가운데 3명은 영어를 전혀 사용하지 않는다. 외국어를 배우는 데 쏟는 피로감과 이젠 작별하자. 뇌 안에 넣고 다니면 세상 어떤 언어도 쏙쏙 알아들을 수 있다는 물고기, ‘은하수를 여행하는 히치하이커를 위한 안내서’ 속 바벨피시가 현실로 바투 다가왔다. 인공지능은 정말로 바벨탑을 다시 세우려는가.
이희욱 미디어랩부장
asadal@hani.co.kr