오픈AI의 사이트. 맨 오른쪽 이미지가 지난 2월 공개한 GPT-2 언어모델 소개다. ※ 이미지를 누르면 크게 볼 수 있습니다.
비영리 인공지능 연구기관인 오픈AI(OpenAI)가 올 2월 개발한 자동 문장생성 인공지능 모델(GPT-2)을 11월1일부터 전면 공개했다.
단순한 문장을 제시하면 인공지능이 마치 작가처럼 맥락에 꼭 들어맞는 글쓰기를 해내는 능력의 이 인공지능은 가짜뉴스와 사기 등 악용 가능성에 대한 우려 때문에 공개가 유보돼 왔던 기술이다. 오픈AI는 테슬라 창업자 일론 머스크와 페이팔 창업자 피터 틸 등의 지원으로 창설된 인공지능 연구 기관으로, 모든 연구내용을 공개해왔는데 GPT-2는 “악용 가능성 때문에 비공개한다”고 밝혀 눈길을 끌었다.
GPT-2는 15억개 파라미터를 가진 대규모 번역기반 언어모델로, 800만개 텍스트의 데이터셋을 통해 학습했다. 임의의 문장을 입력하면 맥락을 고려한 종합적인 문장을 스스로 만들어낸다.
올 2월 오픈AI가 공개한 사례를 통해, GPT-2 성능 수준이 알려졌다. “오늘 가수 마일리 사이러스가 할리우드 대로에 있는 아베크롬비 매장에서 물건을 훔치다 잡혔다”라는 문장을 제시하면, GPT-2는 기자가 쓰는 것만큼 자연스럽고 생생한 문장으로 이야기를 풀어낸다. 또 다른 사례로 “레골라스와 김리는 함성을 지르며 무기를 들고 오크를 향해 진격했다”라는 문장을 제시했더니, 인물 묘사와 대화가 포함된 짧은 판타지 이야기를 완성했다. 오픈AI쪽은 “카멜레온처럼 주어진 텍스트의 내용과 스타일을 다양하게 각색하는 인공지능 모델로, 이를 통해 사용자는 선택한 주제에 대해 생생하고 논리적인 후속 이야기를 만들 수 있다”고 설명했다.
오픈AI는 지난 2월 GPT-2의 일부 기능을 축소하고 제약을 둔 버전만 공개했는데 이번에 그동안 보류해온 기능을 전면공개한 것이다. 오픈AI는 지난 5일 공식 블로그(openai.com)를 통해 “지금까지는 오용에 대한 강력한 증거가 나타나지 않았다”라고 공개 이유를 밝혔다.
오픈AI에 따르면, GPT-2의 장점과 함께 한계도 드러났다. 짧은 문장이 아니라, 소설과 같은 지속되는 긴 이야기의 경우에서 두드러졌는데, 등장인물의 이름과 특징을 지나치게 일관되게만 묘사하는 특징이다. 사람 작가가 쓰는 소설에서는 어색한 방법이라, 독자가 자연스럽지 않다고 느끼게 된다는 점이다.
기사 작성을 위해 TalkToTransformer.com에서 윌리엄 워즈워스의 시 한 구절을 입력하고, 후속 이야기를 만들어본 결과임. ※ 이미지를 누르면 크게 볼 수 있습니다.
이용자는 GPT-2의 성능은 이 모델을 활용해 서비스를 체험해볼 수 있도록 구축한 사이트에서 이용자가 직접 테스트해볼 수 있다. TalkToTransformer.com에서 영문으로 메시지를 입력해보면 그 결과를 만날 수 있다. 위 이미지는 윌리엄 워즈워스의 시를 샘플로 테스트해본 결과다. 버튼을 누를 때마다 제시문장에 대해 다른 결과를 만들어내는 구조인데, 사람의 글쓰기에 비하면 어색한 대목이 많은 수준이다. 오픈AI의 판단과 서비스 품질의 한계에 불구하고, 이는 향후 인공지능을 활용한 가짜 정보의 범람에 대한 사회적 대응의 과제를 던진다. 구본권 선임기자 starry9@hani.co.kr