세종대학교 컴퓨터공학과 유성준 교수가 연구실에서 ‘야동’ 잡는 소프트웨어 프로그램을 시연하고 있다. 하어영 기자
[현장] 7년간 포르노 틀어놓은 유성준 교수 연구실
하얀 거탑 “통과” 젖소부인 “컷!…샘플 8500개 프로그래밍
음란물 판독SW 개발 97%의 놀라운 정확도 자랑
하얀 거탑 “통과” 젖소부인 “컷!…샘플 8500개 프로그래밍
음란물 판독SW 개발 97%의 놀라운 정확도 자랑
“제가 소개할 이미지 판독기술은 원래 교통카메라에 설치돼 번호판을 식별하거나, 로봇에 적용돼 물체를 판별하는 용도로 쓰입니다. 다만 저는 ‘야동’ 잡는 기술로 개발했을 뿐입니다. 자, 주목해 주십시오.”
지난 3일 세종대 컴퓨터공학과 유성준 교수 연구실에서는 주목하기에 다소 민망한 실험이 펼쳐졌다. 5분짜리 포르노가 돌기 시작했고, 유 교수팀이 개발한 음란동영상 판독 소프트웨어가 5초 간격으로 한 장면씩 잡아 음란 여부를 판단해냈다. 소프트웨어가 잡아낸 이미지 60개에 대해 모두 음란 판정이 내려졌다.
음란물 동영상과 ‘하얀 거탑’ 비교하며 음란물 판독
“선정 이유는 수술장면 많아 살색 노출이 많으니”
곧이어 5분으로 편집된 드라마 <하얀거탑>이 실험대에 올랐다. 이 드라마가 선정된 것은 수술장면이 많아 살색 노출이 많기 때문이었다. 60개 가운데 16개에 대해 음란 판정이 내려졌다. “하얀거탑이 음란이미지가 많다고 나와 실망하셨나요? 허허. 살색이 많이 나오는 비음란영상의 경우 잡아낸 이미지 가운데 최대 열이면 셋 정도까지를 음란하다고 판단합니다. 오류라고 생각할 수도 있지만, 음란이라는 게 사람이 보기에도 차이가 있죠.” 동영상이 실행되고 나서 음란이미지의 비율이 열 중 셋 이하면 일반동영상, 아홉 이상이면 음란동영상으로 분류한다는 게 유 교수의 설명이었다. 이런 분류 방식의 정확도는 97%(샘플 8500개)라고 한다. 최근 선보인 미국 소프트웨어의 95% 정확도를 넘어서는 수준이다. 유 교수팀이 개발한 음란동영상 판독기술의 원리는 음란 이미지를 판단하는 기술이 구현된 소프트웨어에 음란·비음란 이미지를 수없이 반복 입력한 다음 알고리즘을 형성한 것이다. 쉽게 말해, 수많은 야동을 보고 배운 컴퓨터가 일정한 패턴을 스스로 익혀 음란성을 판단하게 한 것이다. 이를 ‘기계학습기법’이라고 하는데, 유 교수팀 전원은 이번 소프트웨어 개발 과정에서 컴퓨터를 ‘가르치기 위해’ 8500개의 동영상을 일일이 프로그래밍했다. 이 가운데 음란동영상은 6807개로, 유 교수는 “프로그래밍을 위해 팀 전원이 하루 종일 야동을 들여다 봐야 하는 경우도 있었다”고 말했다. “그나마 오늘 실험은 하드코어가 아니어서 그나마 나았다”고 덧붙였다. 유 교수는 학생들 사이에서 야동 잡는 ‘유본좌’라는 별칭까지 얻게 됐다.
학생들에겐 “야동잡는 유본좌”라는 별명으로 불려 유교수는 자신이 개발한 판독기술로 야동을 더욱 확실하게 잡아내기 위한 복안을 거침없이 쏟아냈다. 일단 자신의 소프트웨어에는 소리정보에 대한 판독기술이 없다는 것이다. “풀밭에서 살색이 거의 보이지 않는 옷을 입고 음란한 행위를 하는 동영상이 있는 경우 제 소프트웨어로는 잡지 못할 겁니다. 판독과정에서 소리는 아주 중요한 정보가 될 것입니다.” 또 하나는 정확도 97%에 만족하지 못하는 기술개발자로서의 불만이었다. 유교수는 “이번에 음란동영상때문에 포털이 곤란을 겪었지만, 사실 포털에 그런 음란동영상이 공개되어 있는 것은 아니다”며 “3%의 오차를 어떻게 줄일 것인지가 관건”이라고 말했다. 이를 위해 유교수는 “우리 팀의 음란동영상 판독기술과 현재의 모니터링 기법을 동시에 적용하면 현재 우리 소프트웨어가 부족한 3%를 채울 수 있을 것”이라고 말했다. 유 교수는 “최근 포털에서 시작된 야동 논란 와중에 외국에서 판독 소프트웨어를 사온다는 말을 전해 듣고 이 분야에서 한 우물을 파고 있는 과학자가 우리나라에도 있다는 사실을 알리고 싶었다”며 “정보통신부의 제안으로 음란동영상 판독기술에 힘을 쏟기 시작한 게 2000년이니 7년 동안 야동에만 매달렸던 셈”이라고 말했다. ‘야동 무방비’ 비판받은 포털은 여전히 별무대책… “모니터요원 늘릴 터” 지난 3월 야동 무방비 노출 논란에 휩싸였던 포털 업체들은 모니터링 요원을 늘리는 것 외에는 별다른 대책을 세우지 못하고 있다. 모니터요원 270명이 활동하고 있는 네이버의 경우 음란동영상에 대부분 업자들의 악성코드나 특정한 코드가 삽입되어 있다는 것에 착안해 코드를 필터링하는 방법을 취하고 있다. 다음과 야후코리아는 금칙어 키워드를 정해 댓글이나 제목에서 음란동영상을 걸러내는 시스템을 갖추고 있다. 하지만 이들은 동영상에 대한 직접적인 필터링 기능이 아니어서 기계적인 방법을 본격적으로 도입했다고 보기는 힘들다. 이밖에도 최근 동영상 서비스로 주목을 받고 있는 판도라 티브이의 경우에는 32배속 빨리보기 기능을 이용한 모니터링을 진행하고 있다. 하어영 기자 haha@hani.co.kr
“선정 이유는 수술장면 많아 살색 노출이 많으니”
‘야동’ 잡는 판독기술 개념도
곧이어 5분으로 편집된 드라마 <하얀거탑>이 실험대에 올랐다. 이 드라마가 선정된 것은 수술장면이 많아 살색 노출이 많기 때문이었다. 60개 가운데 16개에 대해 음란 판정이 내려졌다. “하얀거탑이 음란이미지가 많다고 나와 실망하셨나요? 허허. 살색이 많이 나오는 비음란영상의 경우 잡아낸 이미지 가운데 최대 열이면 셋 정도까지를 음란하다고 판단합니다. 오류라고 생각할 수도 있지만, 음란이라는 게 사람이 보기에도 차이가 있죠.” 동영상이 실행되고 나서 음란이미지의 비율이 열 중 셋 이하면 일반동영상, 아홉 이상이면 음란동영상으로 분류한다는 게 유 교수의 설명이었다. 이런 분류 방식의 정확도는 97%(샘플 8500개)라고 한다. 최근 선보인 미국 소프트웨어의 95% 정확도를 넘어서는 수준이다. 유 교수팀이 개발한 음란동영상 판독기술의 원리는 음란 이미지를 판단하는 기술이 구현된 소프트웨어에 음란·비음란 이미지를 수없이 반복 입력한 다음 알고리즘을 형성한 것이다. 쉽게 말해, 수많은 야동을 보고 배운 컴퓨터가 일정한 패턴을 스스로 익혀 음란성을 판단하게 한 것이다. 이를 ‘기계학습기법’이라고 하는데, 유 교수팀 전원은 이번 소프트웨어 개발 과정에서 컴퓨터를 ‘가르치기 위해’ 8500개의 동영상을 일일이 프로그래밍했다. 이 가운데 음란동영상은 6807개로, 유 교수는 “프로그래밍을 위해 팀 전원이 하루 종일 야동을 들여다 봐야 하는 경우도 있었다”고 말했다. “그나마 오늘 실험은 하드코어가 아니어서 그나마 나았다”고 덧붙였다. 유 교수는 학생들 사이에서 야동 잡는 ‘유본좌’라는 별칭까지 얻게 됐다.
‘야동’ 잡는 판독기술 시연모습 -‘하얀거탑’은 전체 이미지 20가지 중 2가지가 유해 이미지로 판정되고 있다.
‘야동’ 잡는 판독기술 시연모습 -음란동영상은 10가지 모두 유해 이미지로 판정되고 있다.
학생들에겐 “야동잡는 유본좌”라는 별명으로 불려 유교수는 자신이 개발한 판독기술로 야동을 더욱 확실하게 잡아내기 위한 복안을 거침없이 쏟아냈다. 일단 자신의 소프트웨어에는 소리정보에 대한 판독기술이 없다는 것이다. “풀밭에서 살색이 거의 보이지 않는 옷을 입고 음란한 행위를 하는 동영상이 있는 경우 제 소프트웨어로는 잡지 못할 겁니다. 판독과정에서 소리는 아주 중요한 정보가 될 것입니다.” 또 하나는 정확도 97%에 만족하지 못하는 기술개발자로서의 불만이었다. 유교수는 “이번에 음란동영상때문에 포털이 곤란을 겪었지만, 사실 포털에 그런 음란동영상이 공개되어 있는 것은 아니다”며 “3%의 오차를 어떻게 줄일 것인지가 관건”이라고 말했다. 이를 위해 유교수는 “우리 팀의 음란동영상 판독기술과 현재의 모니터링 기법을 동시에 적용하면 현재 우리 소프트웨어가 부족한 3%를 채울 수 있을 것”이라고 말했다. 유 교수는 “최근 포털에서 시작된 야동 논란 와중에 외국에서 판독 소프트웨어를 사온다는 말을 전해 듣고 이 분야에서 한 우물을 파고 있는 과학자가 우리나라에도 있다는 사실을 알리고 싶었다”며 “정보통신부의 제안으로 음란동영상 판독기술에 힘을 쏟기 시작한 게 2000년이니 7년 동안 야동에만 매달렸던 셈”이라고 말했다. ‘야동 무방비’ 비판받은 포털은 여전히 별무대책… “모니터요원 늘릴 터” 지난 3월 야동 무방비 노출 논란에 휩싸였던 포털 업체들은 모니터링 요원을 늘리는 것 외에는 별다른 대책을 세우지 못하고 있다. 모니터요원 270명이 활동하고 있는 네이버의 경우 음란동영상에 대부분 업자들의 악성코드나 특정한 코드가 삽입되어 있다는 것에 착안해 코드를 필터링하는 방법을 취하고 있다. 다음과 야후코리아는 금칙어 키워드를 정해 댓글이나 제목에서 음란동영상을 걸러내는 시스템을 갖추고 있다. 하지만 이들은 동영상에 대한 직접적인 필터링 기능이 아니어서 기계적인 방법을 본격적으로 도입했다고 보기는 힘들다. 이밖에도 최근 동영상 서비스로 주목을 받고 있는 판도라 티브이의 경우에는 32배속 빨리보기 기능을 이용한 모니터링을 진행하고 있다. 하어영 기자 haha@hani.co.kr
관련기사
항상 시민과 함께하겠습니다. 한겨레 구독신청 하기