AI가 만든 데이터를 AI가 배운다?…“돌연변이 나올 것” : IT : 경제 : 뉴스 : 한겨레

전체
정치	정치일반 대통령실 국회·정당 행정·자치 국방·북한 외교 정치BAR
사회	사회일반 여성 노동 환경 장애인 인권·복지 의료·건강 미디어 궂긴소식 인사 엔지오 교육 종교
전국	전국일반 제주 호남 영남 충청 강원 수도권
경제	경제일반 금융·증권 산업·재계 자동차 부동산 쇼핑·소비자 IT 직장·취업 중기·스타트업 기업PR 글로벌워치
국제	국제일반 해외토픽 아시아·태평양 미국·중남미 유럽 중국 일본 중동·아프리카 국제기구·회의 국제경제
문화	문화일반 영화·애니 방송·연예 여행·여가 음악·공연·전시 학술 책&생각
스포츠	스포츠일반 축구·해외리그 야구·MLB 골프 바둑 스포츠 특집 경기일정 경기결과
미래과학	미래 과학 기술 환경 시각
애니멀피플	야생동물 반려동물 농장동물 인간과동물 생태와진화
기후변화&	기후정책 기후행동 기후과학 기후적응 에너지와기후 기후와사회
휴심정	마음산책 조현이 만난 사람 휴심정 뉴스
오피니언	사설 칼럼 왜냐면
만화 \| ESC \| 한겨레S \| 연재 \| 이슈 \| 함께하는교육 \| HERI 이슈 \| 서울&
포토	화보
한겨레TV	편성표 한겨레TV 소개 광고·후원 문의 전체 프로그램
뉴스서비스	많이본기사 날짜별한겨레 지난톱기사 디지털초판 RSS서비스 기사제보 기사투고
매거진	한겨레21 씨네21 이코노미인사이트

가 가 가 가 가

자손을 남기지 못하고 각종 유전질환에 시달리다 병사한 스페인 합스부르크왕가의 마지막 국왕 카를로스2세(후안 카레뇨 데 미란다 그림)는 부친 펠리페4세와 더불어 합스부르크왕가 근친혼의 피해사례로 학계에 보고됐다.

■ AI경쟁으로 ‘합성 데이터’ 부상

지난해 11월 오픈에이아이(OpenAI)가 ‘챗지피티’를 공개한 이후 정보기술업계의 생성 인공지능 개발 경쟁에 불이 붙었다. 구글 바드(Bard), 페이스북 라마(LLaMA), 바이두 어니봇, 네이버 하이퍼클로바엑스(X) 등이 잇따라 출시되며 본격 서비스 경쟁이 시작됐다. 인공지능에 대한 관심과 투자가 확대되는 상황에서 생성 인공지능의 미래가 걸린 ‘합성 데이터(Synthetic Data)’ 문제가 부상하고 있다. 합성데이터는 개인정보, 데이터 편향성 등의 문제를 우회해 고품질의 그림과 문장 등을 생성할 수 있는 대안으로 기대를 모았다. 하지만 생성 인공지능의 결과물을 과도하게 학습할 경우 자칫 근친교배에 가까운 현상이 나타나 인공지능의 붕괴로 이어질 수 있다는 우려가 높아지고 있다.

■ 실제 데이터의 한계와 대안

챗지피티가 웹에서 찾을 수 있는 정보 대부분을 학습했다고 알려진 것처럼, 인공지능 학습은 방대한 데이터를 연료로 하는데 적절한 데이터를 구하는 것은 어렵고 비용이 많이 드는 일이다. 고품질 데이터는 많지 않고 의료정보나 개인정보처럼 접근이 제한되고 규제대상이며, 백인남성 과다 대표 현상처럼 편향성을 지닐 수 있다. 합성 데이터는 원본 데이터의 통계적 특성과 구조를 이용해 만들어낸 원본과 유사한 속성의 ‘인공 데이터’로, 최근엔 인공지능을 활용해 고품질의 합성 데이터 생산이 활발하게 이뤄지고 있다.

금융기관이나 유통기업은 고객들의 행동 예측, 대출 결정, 사기 예방, 시장분석 등의 시뮬레이션을 진행할 때 합성 데이터를 활용한다. ‘엠아이티(MIT) 테크놀로지 리뷰’에 따르면, 나이지리아의 데이터과학자들은 컴퓨터 비전 알고리즘을 학습시키는 과정에서 서양 의복 데이터는 많지만 아프리카 의상을 보여주는 데이터세트가 전혀 없다는 것을 알고, 인공지능을 이용해 아프리카 의상 가상 이미지들을 생성해 훈련시켰다. 이런 합성 데이터는 현실의 데이터와 유사한 구조와 속성을 갖고 있지만, 개인정보와 민감정보를 담고 있지 않은 허구 데이터이기 때문에 이용자 동의가 필요 없고 규제에서 자유롭다. 고품질 데이터를 만들려면 태그와 분류작업(레이블링)에 많은 비용이 들지만, 인공지능은 100분 1에 불과한 비용으로 합성 데이터를 만들어 비슷한 품질을 구현할 수 있다.

지난해 엠아이티 테크놀로지 리뷰는 미래 10대 기술의 하나로 합성 데이터를 선정했고, 시장조사기관 가트너는 “2030년까지 다양한 인공지능 모델에서 진짜 데이터보다 합성 데이터가 더 많아질 것”이라는 보고서를 발표했다. 오픈에이아이의 최고경영자 샘 올트먼은 지난 5월 런던에서 열린 행사에서 “곧 모든 데이터가 합성 데이터가 될 것이라고 확신한다”고 말한 바 있다. 스케일에이아이(ScaleAI), 그레텔에이아이(GretelAI), 신세시스 에이아이(SynthesisAI), 데이터젠(Datagen) 등 합성 데이터 전문 스타트업에 대한 투자와 인수합병도 활발하다.

■ 생성 인공지능의 ‘아킬레스건’

합성 데이터는 실제 데이터의 한계와 편향성 문제를 극복하기 위한 도구로 조명받고 있지만, 인공지능 모델 자체의 붕괴로 이어질 수 있는 중대한 문제를 안고 있다.

지난 2월, 호주 모내시대학의 데이터과학자 제이선 섀도스키는 이를 ‘합스부르크 인공지능’이라고 부르며 “다른 생성 인공지능의 결과물을 지나치게 많이 학습한 시스템이 과장되고 기괴한 특징을 가진 근친교배 돌연변이가 되는 현상”이라고 설명했다. 지난 5월 옥스퍼드대의 일리야 슈마일로프 등의 연구진은 ‘반복의 저주’ 논문에서 “허위나 조작이 포함된 결과물로 인공지능 모델을 학습시키면 시간이 지나면서 기술이 손상되고 저하되어 ‘돌이킬 수 없는 결함’이 발생하고 모델 붕괴로 이어진다”고 경고했다.

정보기술 매체 ‘퓨처리즘’은 지난 2일 “갈수록 더 많은 인공지능 모델이 실제 데이터만이 아니라 다른 생성 인공지능에 의해 합성된 데이터를 학습하는 시대로 접어들었다”고 보도했다. 생성 인공지능이 비용이 저렴하거나 실제 데이터가 충분하지 않다는 등의 이유로 합성 데이터를 사용하기 시작하면 이는 무한한 되먹임 효과로 이어져 인터넷과 인공지능 모델의 품질을 크게 저하시킬 위험이 크다.

‘신뢰할수있는인공지능연구센터’(CATAI) 공동설립자인 개리 마커스 뉴욕대 교수는 “인공지능의 환각 문제는 현재의 방법론으로 해결할 수 없는, 생성 인공지능 모델의 버그 아닌 기능으로 남을 것”이라며 “데이터를 추가해 문제를 해결할 수 있다는 환상이 있지만, 데이터로 문제를 해결할 수 없다”고 지난 16일 ‘파이낸셜 타임스’와의 인터뷰에서 밝혔다.

챗지피티와 같은 생성 인공지능은 사람이 수고롭게 만들어내는 각종 창작물과 데이터를 순식간에 무한히 만들어내며 충격과 경탄을 불러왔다. 그런데 바로 그 ‘합성 데이터’의 무한 되먹임 현상으로 인해 생성 인공지능은 환각과 모델 붕괴의 과제에 직면하게 됐다.

구본권 사람과디지털연구소장 starry9@hani.co.kr

항상 시민과 함께하겠습니다. 한겨레 구독신청 하기

언론 자유를 위해, 국민의 알 권리를 위해
한겨레 저널리즘을 후원해주세요

후원하기 후원제 소개

한겨레와 친구하기

매일 아침, 매주 목요일 낮 뉴스의 홍수에서 당신을 구할 친절한 뉴스레터를 만나보세요
데일리H:730 구독 위클리h_weekly 구독
한겨레 공식 인스타그램
Follow @hanitweet
전체기사RSS RSS페이지 목록
한겨레앱

1/ 2/ 3

전체
정치	정치일반 대통령실 국회·정당 행정·자치 국방·북한 외교 정치BAR
사회	사회일반 여성 노동 환경 장애인 인권·복지 의료·건강 미디어 궂긴소식 인사 엔지오 교육 종교
전국	전국일반 제주 호남 영남 충청 강원 수도권
경제	경제일반 금융·증권 산업·재계 자동차 부동산 쇼핑·소비자 IT 직장·취업 중기·스타트업 기업PR 글로벌워치
국제	국제일반 해외토픽 아시아·태평양 미국·중남미 유럽 중국 일본 중동·아프리카 국제기구·회의 국제경제
문화	문화일반 영화·애니 방송·연예 여행·여가 음악·공연·전시 학술 책&생각
스포츠	스포츠일반 축구·해외리그 야구·MLB 골프 바둑 스포츠 특집 경기일정 경기결과
미래과학	미래 과학 기술 환경 시각
애니멀피플	야생동물 반려동물 농장동물 인간과동물 생태와진화
기후변화&	기후정책 기후행동 기후과학 기후적응 에너지와기후 기후와사회
휴심정	마음산책 조현이 만난 사람 휴심정 뉴스
오피니언	사설 칼럼 왜냐면
만화 \| ESC \| 한겨레S \| 연재 \| 이슈 \| 함께하는교육 \| HERI 이슈 \| 서울&
포토	화보
한겨레TV	편성표 한겨레TV 소개 광고·후원 문의 전체 프로그램
뉴스서비스	많이본기사 날짜별한겨레 지난톱기사 디지털초판 RSS서비스 기사제보 기사투고
매거진	한겨레21 씨네21 이코노미인사이트

전체

정치