본문 바로가기

광고

광고닫기

광고

본문

광고

미래&과학 과학

인공지능 번역, 언어통일 시대가 오고 있다

등록 2017-02-12 23:06수정 2017-02-13 08:36

[미래] ‘디지털 바벨탑’의 도래

전시 암호해독으로 시작한 기계번역
자가학습 하는 ‘3세대 번역’으로
인간에 견주거나 능가할 수준 올라

번역하는 인공지능 시각화했더니
언어 달라도 같은 뜻 비슷하게 인식

국가간 언어 장벽이 사라진다면…
교류와 소통 활발해지겠지만
사이버공간 민족 갈등 격화될수도
technology_우리는 가끔 다른 사람의 마음속을 들여다볼 수 있는 능력이 있다면 얼마나 좋을지 상상하지만, 실제 그런 능력을 얻게 된다면 모르는 게 차라리 나았겠다며 고통에 빠진다. 언어의 장벽은 국가 간에 그런 마음의 안전장치 구실을 해왔다. 일베의 일본 혐오 게시물을 일본의 친구가 직접 읽을 수 있게 된다면 어떻겠는가? 인공지능 번역의 발전은 그런 시대의 도래를 당기고 있다.

(※ 이미지를 클릭하면 확대됩니다)

주님께서 내려오시어 사람이 세운 도시와 탑을 보고 말씀하셨다. “보라, 저들은 한 겨레이고 언어도 하나이다. 이것은 이들이 하려는 일의 시작일 뿐 이후 이들이 하고자 하는 일을 막을 수 없으리로다. 자, 우리가 내려가 그들의 언어를 혼잡하게 하여 서로 알아듣지 못하게 하자.” 그리하여 주님께서 그들을 온 지면에 흩으셨으니 그들이 도시를 건설하기 그쳤더라. 그러므로 그 이름을 바벨이라 하니, 주님께서 거기서 온 땅의 언어를 혼잡하게 하셨음이니라.(창세기 11장 5~9절)

성경에 등장하는 바벨탑의 이야기는 인간이 다양한 언어를 갖게 된 이유에 관한 신화이다. 인간의 오만은 신이 있는 하늘에 도달할 정도의 거대한 탑을 건설하게 하였고, 이를 용납할 수 없었던 신은 언어로써 인간을 벌하였다. 언어학자들은 실제 전세계 언어가 5000에서 7000개 사이 정도 되는 것으로 추정한다. 그러나 기술의 발전은 드디어 이런 신의 형벌마저 깨뜨릴 수준을 바라보게 되었다. 지난해 등장한 인공신경망 기반의 기계 번역이 그 주인공이다.

■ 통계 번역 무너뜨린 머신러닝

지난해 말, 국내 최대 포털 네이버와 인공지능 분야 세계적 선두주자 구글은 나란히 인공지능 기반 번역 서비스를 내놓았다. 네이버는 인공신경망 기술을 적용한 새로운 번역 서비스 ‘파파고’를 10월에, 구글은 기존 ‘구글 번역’에 인공신경망 기술을 적용한 완전히 새로운 수준의 번역 서비스를 11월에 출시한 것이다.

우리는 이미 알파고와 이세돌 9단의 바둑 경기를 통해서 인공지능의 불가사의한 힘에 대한 예방접종을 맞은 바 있지만, 구글의 새 번역 서비스는 전세계 트위터 타임라인에서 큰 화제를 몰고 왔다. 구글은 최초의 별도 알림 없이 인공지능 번역을 ‘조용히’ 적용했는데, 어떻게 하룻밤 사이에 번역이 이렇게 좋아질 수 있는지 모두들 놀랐던 것이다. <뉴욕 타임스>는 12월 ‘위대한 인공지능의 각성’이라는 제목의 기사로 이를 집중적으로 다루었다. 일본 도쿄대 정보학과 레키모토 준 교수는 이 신문과 한 인터뷰에서 영어 소설 <위대한 개츠비>를 놓고 소설가 무라카미 하루키 번역본과 구글 번역을 직접 비교한 예를 들며 “작은 부자연스러움”을 빼면 “(구글 번역이) 더 명확했다”고 놀라워했다. 김정균 번역가도 새 구글 번역을 두고 “판도라의 상자가 열렸다”며 두려움에 떨었다.

하지만 인간이 이 수준에 도달하기까지 ‘기계 번역’ 기술의 역사는 60년을 거슬러 올라간다. 1950년대 냉전 초기, 미국의 과학자들은 당시 소련의 말을 컴퓨터로 번역하기 위해 박차를 가하고 있었다. 이들은 번역을 2차 세계대전의 독일군 암호 해독과 비슷하게 여겼다. 러시아어와 영어의 법칙을 풀어 코드를 입력하면 컴퓨터가 러시아어를 영어로 술술 풀어내리라고 생각한 것이다. 이런 믿음은 미 정부의 예산지원과 함께 10년 동안 이어졌지만 결실을 맺지 못했고, 1966년 위원회까지 꾸려 검토에 나선 미국은 이 계획이 성공할 수 없다고 결론 내렸다. 기계 번역은 이후 20년가량 동면을 맞게 된다.

사실 언어의 법칙을 풀겠다는 방식 자체가 이런 실패를 예정하고 있었다. 언어란 복잡 미묘해서 해독 규칙을 많이 입력하면 할수록 결과는 이상해지기 마련이기 때문이다. 인터넷에 나도는 ‘번역기 개그’가 좋은 예다. 동요 ‘짤랑짤랑’을 과거 번역기에 넣고 영어로 번역했다 다시 한글로 번역하면 “으쓱 으쓱~”이 “공포의 떨림과 공포의 떨림과~”로 나오는 식이다. 이런 접근법을 ‘규칙 기반’의 1세대 기계 번역이라 할 수 있다.

기계 번역의 동면을 깨운 것은 아이비엠(IBM)이었다. 1980년대 이 회사 연구진은 통계를 이용하면 번역 품질을 획기적으로 높일 수 있다는 점을 깨달았다. 인간이 번역한 많은 결과를 데이터화하면 통계적으로 어떤 단어 다음에 어떤 단어가 나오는 게 자연스러운지 산출할 수 있다는 것이다. 이것이 ‘통계 기반’의 2세대 기계 번역이다. 2세대의 강자는 프랑스의 시스트란과 미국의 구글이었다(시스트란은 2014년 우리나라 번역업체 씨에스엘아이(CSLi)가 인수했다). 통계가 적중할 확률을 높이려면 많은 데이터 확보가 관건이다. 인터넷 전체를 데이터베이스화해온 구글은 이런 면에서 강했다. 번역 엔진을 만들던 2005년에만 구글이 국제연합(UN)의 문서 등을 통해 확보한 데이터가 2000억 단어를 넘었다. 예전 네이버 번역을 비롯한 다른 대표적인 번역 서비스도 이런 통계 방식을 기반으로 하고 있다.

그리고 3세대 ‘인공신경망 기반 번역’ 시대가 지금 우리 눈앞에 펼쳐지고 있다. 인공신경망 방식도 데이터를 이용한다는 점에서는 통계 방식과 같지만, 방법이 전혀 다르다. 인공신경망은 아기가 시행착오를 겪으면서 무언가를 배우듯이, 우리 뇌의 뉴런을 흉내낸 인공지능 프로그램을 만들고 이 인공지능에게 수많은 한글-영어 번역 데이터를 줘서 스스로 학습하도록 하는 것이다. 이렇게 학습한 인공지능은 이후 새 번역거리를 받으면 가장 자연스럽다고 예측하는 결과를 내놓는다. 이는 알파고 원리와도 같다. 알파고 역시 수많은 바둑 기보로 학습한 뒤 가장 이길 것 같은 자리에 돌을 둔다. 네이버의 파파고도 구글 번역과 원리는 같다.

(※ 이미지를 클릭하면 확대됩니다)
■ 인공지능 머릿속 들여다보니

바둑처럼 번역에서도 인공지능은 다시 한번 놀라운 능력을 보여줬다. 기계 번역의 품질은 인간 전문가와 비교했을 때 얼마나 비슷한지에 대한 ‘블레우(BLEU) 점수’라는 척도로 평가하는데, <뉴욕 타임스>에 따르면 구글이 자체평가한 인공지능의 점수는 이전 통계 방식 번역기가 보여준 최고 점수 20점대 후반보다 7점이나 앞서는 것이었다. 이 수치는 세계 최고 수준의 구글 개발팀이 지난 10년 동안 올린 점수차를 단숨에 뛰어넘은 것이기도 했다.

구글은 나아가 한 인공지능에게 여러 언어를 학습시키면서 한 번역에서 배운 노하우를 다른 번역에서도 활용할 수 있는지 실험했다. 예를 들어, 인공지능이 한국어↔영어, 일본어↔영어 번역 데이터를 학습하면 한국어↔일본어도 잘 번역하는지 살펴본 것이다. 결과는 ‘그렇다’였다.

더 놀라운 발견은 구글이 인공지능의 머릿속을 단순화하여 이 과정을 그림으로 나타내 봤는데, 한국어, 영어, 일본어 할 것 없이 같은 뜻의 문장은 하나로 묶어 대체로 비슷한 형태로 인식하고 있었다는 점이다. 즉, 각각 다른 언어로 표현되는 말의 개별 형태를 떠나 의미에 기반한 별도의 체계를 인공지능이 형성하고 있다는 것이다. 구글 연구진은 이에 대해 “일종의 ‘보편어’(인터링구아)의 단초를 보여준 중요한 발견”이라고 설명했다.

원래 인터링구아는 국제보조어협회(IALA)라는 과학자 단체가 1937~51년 사이 제2의 만국 공용어로 쓰려고 라틴어를 기반으로 만든 언어를 말한다. 보통 제2외국어는 현재 우리나라의 영어같이 그 시대 지배적인 문화권의 언어가 차지하게 되는데, 해당 문화권의 이익에 따르는 사고방식까지 사용자에게 함께 전파된다. 이런 문제를 보완하고자 인공적으로 만든 언어가 인터링구아다. 구글 연구진이 말하는 인터링구아는 이와 상관없이 인간이 이해할 수 없는 인공지능만의 언어를 말하지만, 인공지능이 여러 언어들에서 의미를 기준으로 공통된 패턴을 추출해 냈다는 것은 이후 보편어 연구에 귀중한 자료가 될 수 있다. 알파고의 바둑 기풍이 인간에게 새로운 영감을 불어넣었듯이 말이다. 구글 연구진은 앞으로 100개 넘는 언어를 이 인공지능에게 가르칠 계획이다.

■ 일베, 넷우익… 갈등 표출될 수도

더글러스 애덤스의 책 <은하수를 여행하는 히치하이커를 위한 안내서>를 보면 ‘바벨 피시’라는 외계생물이 나온다. 신호를 먹고 신호를 배설하는 이 물고기를 귀에 넣으면 통역사 필요 없이 다른 외계인의 말을 바로 알아들을 수 있다. 번역 인공지능은 향후 이런 ‘인터넷의 바벨 피시’가 될 가능성이 높다.

네이버의 파파고 개발을 총괄한 김준석 리더는 <한겨레>와 한 인터뷰에서 “인공신경망의 빠른 발전 속도를 고려하면 3년 뒤에는 매우 매끄러운 번역이 가능하게 될 것”이라며 “일상생활에서 (외국인과의) 의사소통은 번역기를 통해서 충분히 가능한 시대가 올 것”이라고 말했다. 나는 한국어로 말을 하지만 상대방에게는 중국어로 들리고, 상대방의 아랍어가 나에게는 자연스럽게 한국어로 들리는 시대가 머지않아 도래하리라는 말이다.

이런 서비스는 이미 일부 제공되고 있다. 마이크로소프트의 화상 채팅 서비스 ‘스카이프’의 경우 영어-스페인어 등 일부 언어에 한해 이런 자동 통역 기능을 제공한다. 소셜네트워크 페이스북의 경우 영어 등 일부 외국어의 경우 담벼락 글에 ‘번역 보기’ 단추가 달려 있다. 클릭하면 사용자 언어로 번역된다. 파파고나 구글 앱의 경우 간판 등을 스마트폰의 카메라로 찍으면 글자 이미지를 인식해 번역한다. 이런 기술이 안경 형태의 웨어러블 기기나 콘택트렌즈 형태의 기기에 적용된다면 영문 잡지의 글이 우리 눈에는 한글로 보이는 시대가 올 것이다.

이렇게 언어의 장벽이 걷히면 우리는 어떤 시대를 맞이하게 될까? 다시 한 가족이 된 인류는 바벨탑의 전설을 이어갈까? 황용석 건국대 미디어커뮤니케이션학과 교수는 반대로 “더 심한 민족 간 갈등을 겪을 수 있다”고 말한다. “지금까지 민족주의적 정치 행동은 한 나라 안에 머물고 있었다. 예를 들어, 일간베스트(일베) 회원이나 일본 넷우익(인터넷의 극우주의자)들은 각각 한국과 일본의 국내 정치 구도 안에서 활동해왔다. 자국의 외국인이나 진보주의자를 공격했을 뿐이지, 둘이 서로 싸우지는 않았다. 국경 없는 인터넷 시대가 도래한 지 오래인데도 그랬던 이유는 언어라는 장벽 때문이었다. 이 장벽이 사라지면 이들이 직접 맞부딪혀 싸우는 시대가 오게 될 가능성이 크다.”

인터넷 공간에서 민족 간 감정이 격화되는 일은 지금까지 비일비재했다. 2005년 일본 누리꾼들은 독도사랑 캠페인 경력의 한국 연예인 김태희를 공격해 자국 광고모델에서 몰아냈고, 2009년엔 피겨선수 김연아를 상대로 반한 감정이 분출했다. 같은 해 간도협약 100주년으로 한국 누리꾼들의 ‘영토수복’ 게시물이 퍼지자, 중국 누리꾼들의 반한 게시물이 급증했다. 2012년엔 한·일 누리꾼들이 일본군 위안부 문제를 두고 미국 청와대 청원 사이트로 몰려가 ‘청원 전쟁’을 벌이기도 했다. 중국의 사이버 민족주의 연구자 우쉬 박사는 이와 관련해 “과거 소수 엘리트(외교 전문가)에서 일반 대중으로 (민족 간) 문제제기의 주체가 넘어갔다. 또 이를 통해 현실에 영향을 미치려는 인구가 점차 증가하고 있다”고 지적했다. 언어 장벽까지 사라지면 이는 더욱 증폭될 것이다.

네이버 ’인조이재팬’ 서비스는 한글은 일본어로, 일본어는 한글로 자동번역을 해줬다. 한국 음식을 두고 양쪽 나라 누리꾼들의 댓글 싸움을 갈무리한 사진. 인조이재팬은 2009년 서비스가 중단됐다. 출처 나무위키 인조이재팬
네이버 ’인조이재팬’ 서비스는 한글은 일본어로, 일본어는 한글로 자동번역을 해줬다. 한국 음식을 두고 양쪽 나라 누리꾼들의 댓글 싸움을 갈무리한 사진. 인조이재팬은 2009년 서비스가 중단됐다. 출처 나무위키 인조이재팬
실제 사례가 있다. 네이버가 2001년 개시했던 ‘인조이재팬’이다. 이 누리집 일부 게시판에선 한국인이 올린 게시물이 일본인에게는 일본어로, 반대로 일본어 게시물은 한국어로 자동 번역되는 실험적인 서비스가 제공됐다. 그 결과는 대체로 아름답지 못했다. 2003년 ‘청산리 전투’에 관한 한국 누리꾼과 일본 누리꾼 사이 역사 논쟁을 계기로 양쪽 누리꾼들이 본격적인 격돌 양상이 심화되면서 일본 넷우익들이 대거 몰려와 혐한 게시물들이 도배를 이루는 일들이 발생하곤 했다. 험악한 격돌이 뒤따랐다. 네이버는 결국 2009년 “서비스 이용률이 줄었다”는 이유로 이 서비스를 접었다.

물론 안 좋은 일만 있는 것은 아니다. 의사소통이 쉬워지면 상대방에 대한 이해도 높아지기 마련이다. 다양한 문화적 교류와 언어 부담 없는 여행이 늘면 다른 나라에 대한 이해도 넓어질 수 있다. 지배적 언어뿐 아니라 소수 언어의 관점과 정보도 인터넷에 퍼질 기회도 넓어질 것이다. 황 교수는 “원하는 정보를 선별해서 받아들이고 동질적인 이들과만 네트워크를 형성하는 인터넷의 특성상, 언어의 장벽이 사라진다 해서 곧 건강한 교류가 증진되긴 어려울 것이다. 시민 간 충돌 증가를 대비한 국제 중재기구 구성, 다른 문화를 이해하는 세계 시민교육 강화 등의 노력이 앞으로 필요하다”고 말했다.

일부 신학자는 바벨탑 전설을 ‘신의 형벌’이 아니라 ‘문명의 발전’에 대한 이야기로 해석하기도 한다. 바벨은 문명을 상징하고 다양한 언어의 탄생은 그 발전의 결과라는 것이다. 다가올 ‘디지털 바벨탑’의 이야기가 벌로 끝날지, 발전으로 끝날지는 다른 민족과 문화에 대한 이해와 관용의 자세에 달려 있을지 모른다.

권오성 기자 sage5th@hani.co.kr, 인포그래픽 김은정 기자 ejkim@hani.co.kr

항상 시민과 함께하겠습니다. 한겨레 구독신청 하기
언론 자유를 위해, 국민의 알 권리를 위해
한겨레 저널리즘을 후원해주세요

광고

광고

광고

미래&과학 많이 보는 기사

올해 마지막 ‘슈퍼문’ 뜬다 1.

올해 마지막 ‘슈퍼문’ 뜬다

체중 감량 위한 세가지 식사법…무엇을 택하겠습니까 2.

체중 감량 위한 세가지 식사법…무엇을 택하겠습니까

토마토 ‘이것’, 유전자 가위로 제거했더니 단맛 30% 상승 3.

토마토 ‘이것’, 유전자 가위로 제거했더니 단맛 30% 상승

셰익스피어·디킨슨 등 시보다 AI 시에 “더 좋다”…어떻게 다르길래 4.

셰익스피어·디킨슨 등 시보다 AI 시에 “더 좋다”…어떻게 다르길래

‘화성 인류촌’ 그리는 머스크…트럼프 임기 내 선물 안겨줄까 5.

‘화성 인류촌’ 그리는 머스크…트럼프 임기 내 선물 안겨줄까

한겨레와 친구하기

1/ 2/ 3


서비스 전체보기

전체
정치
사회
전국
경제
국제
문화
스포츠
미래과학
애니멀피플
기후변화&
휴심정
오피니언
만화 | ESC | 한겨레S | 연재 | 이슈 | 함께하는교육 | HERI 이슈 | 서울&
포토
한겨레TV
뉴스서비스
매거진

맨위로
뉴스레터, 올해 가장 잘한 일 구독신청