언론사의 뉴스 기사를 학습한 인공지능 언어모델은 뭐가 다를까?
한국언론진흥재단은 23일 구글의 인공지능 언어모델 버트(BERT)를 빅카인즈 기사 데이터를 활용해 학습시킨 ‘KPF-BERT’(이하 언론재단 버트)를 공개했다. 인공지능과 자연어 처리 분야에서 획기적 기술 개선을 이뤄낸 구글의 버트가 2018년 출현한 이래 이를 활용한 한국어 모델들이 등장했지만, 뉴스 기사를 활용한 건 처음이다.
‘언론재단 버트’는 재단이 보유한 2000년부터 2021년 8월까지 빅카인즈 기사 4000만건을 학습에 활용했다. 더 이전 데이터가 빠진 이유에 대해 오세욱 책임연구위원은 “과거 기사들을 학습할 경우 ‘편향성’이 나타날 수 있어 기점을 2000년으로 잡았다”고 설명했다. 또 400자 이하 기사나 반복 전송 기사들은 학습에 별 영향을 미치지 않는 것으로 나타났기에, 2000년 이후 기사 중에서도 전체 8158만건 가운데 1차 정제를 거친 4000만건을 학습하도록 했다고 한다.
재단은 기존에 위키백과, 웹문서 등을 주로 학습한 버트 한국어 모델들과 이번 모델의 성능 비교 결과를 공개했다. 기계 독해 등에서 성능이 더 향상된 것으로 나타났는데, 이는 방대한 한글 기사 자체가 표준 한글에 가까운 데이터인데다 학습에 좀 더 최신 기술이 사용됐기 때문으로 보고 있다.
그동안 인공지능을 활용한 뉴스 추천 배열, 자동 작성, 요약, 댓글 관리, 오탈자 및 비문 교정, 비슷한 주제 기사 묶기, 외신 자동 번역 등 언론 영역에서도 인공지능 기술의 도입 및 적용 필요성이 제기됐지만, 개별 언론사의 자체 기술 개발이 쉽지 않은 상황이었다.
재단은 이 인공지능 모델을 활용해 문맥과 의미를 고려한 맞춤법 검사기, 입력 연속 문장에서 해당 시점에 가장 적절한 단어를 추천하는 단어 자동 완성 모델, 뉴스 댓글 등에서 혐오 표현을 검출하고 순화해 표현하는 모델, 관심 사안에 대한 기사의 긍정·부정 등 논조 파악 모델, 광고성 기사 검출 모델 등의 개발도 기대할 수 있다고 밝혔다.
재단은 언론재단 버트를 재단
깃허브(github.com/KPFBERT)에 공개해 원하는 언론사 및 연구자, 일반 시민들이 무상으로 이용할 수 있도록 했다. 이 인공지능 모델을 활용한 기사 요약 기술, 비슷한 주제의 기사를 한데 묶어주는 클러스터링 기술도 깃허브에 함께 공개했다.(
관련 유튜브)
김영희 선임기자
dora@hani.co.kr