10월31일 국회 정무위원회 종합 감사에 출석한 이해진 네이버 창업자 겸 글로벌투자책임자. 한겨레 강창광 기자
얼마 전 국회에서 열린 일련의 국정감사는 ‘네이버 국감’이라고 할 정도로 온통 네이버 이야기로 가득 찼다. 10월30일 열린 과학기술정보방송통신위원회, 31일 열린 정무위원회 국감장에는 되도록 외부 노출을 피해왔던 이해진 창업자(현 글로벌투자책임자)가 참석했다. 국정감사는 국회가 정부의 행정을 감사하는 게 본연의 기능이지만, 여야를 막론한 국회의원들이 이해진에게 더 큰 관심을 쏟으면서 벌어진 일이었다.
국내외를 대표하는 검색엔진이라는 인식 탓인지 이 자리에선 구글 이야기도 심심찮게 나왔다. “구글과 비교해보면… 네이버가 글로벌에서 제 역할을 하고 있다고 이야기하기 어렵지 않나”(김재경 자유한국당) 등이다. 이런 뉴스를 보며 마음 한구석의 불편함을 떨칠 수 없었다.
마침 미국에서 공부 중인 저널리즘 과목 가운데 검색엔진과 디지털 콘텐츠를 주제로 삼은 것이 있어 구글 검색엔진의 기초 원리를 살펴볼 수 있었다. 전문가에게 비웃음을 살 각오를 하고 기술적인 얘길 좀 해보겠다.
구글 검색엔진의 기본은 ‘페이지 랭크’라는 공식에 기반하고 있다. 이는 단순화해 ‘πt = πkt(αS + (1-α) E)’라는 수식으로 표현된다. πt는 구하려는 인터넷 웹페이지의 점수를 의미한다. 이 점수가 높으면 해당 페이지는 검색 연관성이 높다는 뜻이다. 예를 들어 구글에 ‘4차 산업혁명’을 검색했을 때, 이 공식에 따라 웹페이지의 점수를 구한 뒤 높은 점수를 받은 페이지가 상위에 랭크된다.
수학을 잘 몰라도 공식을 보면 이 점수는 πkt와 (αS + (1-α) E), 둘을 곱해 결정됨을 알 수 있다. πkt는 웹 구조에 따른 수치다. 인터넷은 클릭으로 연결되는 하이퍼링크로 구성돼 있다. 이 링크는 어떤 페이지의 가치를 결정하는 중요한 요소로 간주될 수 있다. 가령 A페이지가 B페이지에 연결되는 링크를 걸어두었다면, 그만큼 A에게 B는 중요하다고 해석된다는 뜻이다. 이런 식으로 어떤 페이지가 다른 많은 페이지로부터 링크를 받고 있다면 그만큼 값어치가 높다고 할 수 있다. πkt는 이를 반영해 나오는 점수다. 한편, (αS + (1-α) E)는 인터넷 사용자의 행동에서 나온다. 평가 대상 페이지에 들어온 이용자들이 그 페이지를 본 다음 과거 어떤 행동을 했는지에 따라 결정된다.
복잡한 공식인 만큼 페이지의 점수를 계산하기 쉽지 않겠다는 생각이 든다. 인터넷 페이지가 100개만 되어도 연결 구조와 이용자 패턴을 일일이 따지는 계산이 만만치 않을 듯싶었다. 그런데 지금 인터넷 페이지 수는 수천억~수조 개가 되어 추산도 어렵고, 이용자는 40억 명에 육박한다. 더군다나 이 페이지 랭크 공식은 1998년의 구닥다리 버전이다. 지금은 훨씬 복잡하게 진화했을 것이다. 구글은 지난 20년 동안 이 모든 계산을 축적한 데이터베이스를 구축하고 있다.
이런 설명을 장황하게 늘어놓은 이유는 구글이 얼마나 대단한지 강조하기 위함이 아니다. 구글과 네이버는 비교 대상이 아니라는 점을 말하기 위해서다. 네이버 검색은 ‘세상의 모든 지식(웹페이지)을 어떻게 보여줄지’에 대한 답이라기보다 ‘우리 울타리 안의 콘텐츠를 어떻게 잘 정리해서 보여줄지’에 대한 해답에 가깝다. 전자가 후자보다 항상 나은 검색엔진이라고 말할 수는 없겠지만, 일단 둘은 비교 대상이 아니다. 한국의 차세대 국가 경쟁력이나 인터넷 기업을 걱정하는 이들이라면 우선 비현실적인 이야기를 최소화해야 한다.
권오성 <한겨레> 미래팀 기자 sage5th@hani.co.kr