‘피-값’(p-value)이 있다. 혹시 통계 수업을 수강한 적이 있다면 어렴풋이 기억이 날지도 모른다. 과학자라면 누구나 알고 있는 용어다. 우리 말로는 유의확률이라고 한다.
들어본 적이 있지만 잘 모르겠다고 해도 크게 신경 쓸 필요는 없을 것 같다. 전문가들조차도 피-값이 정확히 무엇인지 쉽게 설명하기 쉽지 않은 모양이다. 미국 데이터 분석 전문 매체 <파이브서티에이트>(538)의 과학 담당 기자, 크리스티 애쉬원든(Christie Aschwanden)이 스탠퍼드 대학교의 메타 사이언스(과학 방법론) 포럼에 모인 전문가들에게 같은 질문을 던졌지만
쉽게 답할 수 있는 학자는 많지 않았다니 말이다.
그가 얻은 그나마 가장 단순한 답은 이런 것이다. 당신이 어떤 도박사와 동전 던지기 내기를 한다고 하자. 앞면이 나오면 도박사, 뒷면이 나오면 당신이 이긴다. 그런데 당신은 도박사가 동전의 앞면이 잘 나오도록 조작했다고 의심스럽다. 그래서 동전을 100번 던지는 실험으로 검증해 보기로 한다고 하자. 이 실험에서 피-값이란 “만약 동전에 조작이 없다면 나왔을 앞면의 횟수만큼의 횟수가 이 동전을 던져서 나올 ‘확률’”을 뜻한다. 달리 말하면 피-값이 낮으면 낮을수록 동전 앞면이 정상적인 동전처럼 나오는 확률이 낮다는 뜻이다. 애쉬원든 기자는 이 설명도 “여러 통계학자가 피-값을 너무 단순화했다고 비판할 것”이라 덧붙였으니, 제대로 설명하기 쉽지 않은 개념임은 분명해 보인다.
피-값은 수많은 과학 논문에서 연구자가 밝히고자 했던 가설을 검증하는 중요 근거로 쓰이곤 한다. ‘접시의 색에 따라 섭취하는 음식량이 달라진다’거나 ‘적당히 마시는 포도주는 심장병 예방에 좋다’같은 연구결과들이 해당 실험의 피-값을 근거로 산출되곤 한다.
피-값(p-value)을 설명하는 그래프. 표본 데이터의 피-값이 녹색 영역 안에 있을 때 평균으로부터 충분히 먼 극단값 안에 있음으로서, 귀무가설을 기각하게 된다. 출처 위키미디어커먼스 Repapetilto~commonswiki
과학에서 쓰이는 피-값의 개념에 대해 좀 더 보자. 앞서 동전 사례의 경우 증명하고자 했던 가설은 ‘이 동전은 앞면이 많이 나오도록 조작돼 있다’는 것이었다. 그런데 피-값은 ‘정상적인 동전처럼 앞면이 나오느냐’에 대한 확률인 것이 의아해 보일 수도 있을 것이다. 과학 방법론에서 피-값 검증은 이렇게 보통 틀렸음을 증명하고자 하는 가설을 세우는 방식으로 이뤄진다. 즉, ‘정상적인 동전처럼 앞면이 나올 것이다’라는 가설이 틀렸음을 피-값이 너무 작다는 근거로 드러내서 자신의 주장을 증명하는 것이다. 이렇게 무위로 돌리고자 세우는 가설을 ‘귀무가설’이라 한다. 피-값이 낮으면 낮을수록 귀무가설이 틀렸을 확률은 올라가는 셈이다.
피-값이 충분히 낮을 때, 과학자들은 다른 말로 “통계적으로 유의하다”고 하곤 한다. ‘접시의 색깔이 어떻건 섭취 음식량은 같다’거나 ‘적당량 포도주를 마시건 마시지 않건 심장병에 걸릴 확률이 똑같다’는 귀무가설의 피-값이 충분히 낮으니, 그 반대가 ‘통계적으로 유의하게’ 성립한다는 것이다. 그리고 그런 취지의 논문을 내는 것이다.
문제는 실험과 데이터를 다루는 능력이 높아지면서 원하는 피-값을 기술적으로 ‘얻어내는’ 일이 점차 늘고 있다는 것이다. 이를 ‘피-해킹’(p-hacking)이라고 한다. 피-해킹은 결코 데이터를 조작하는 것이 아니다. 실험의 결괏값에는 손을 대지 않지만, 이를 해석하는 귀무가설을 여러 방법으로 바꿔보고 분석할 데이터를 선별해서 원하는 피-값을 얻어내는 것이다.
이 문제가 과학계에 얼마나 심각한 일인지, 미국통계학회(ASA)는
지난 3월 낸 학회지를 통틀어 이 피-해킹 관련 내용으로 채웠다. 피-해킹이 최근에 드러난 새로운 문제는 아니다. 이미 2015년부터 과학계에서는 과학 윤리의 중요한 문제로서 심각성이 드러난 바 있다. 하지만 좀체 근절되지 않고 있는 것이다.
누구나 교묘하게 원하는 결론을 낼 수 있다면, 과학 논문과 주장문의 차이는 대체 무엇이란 말인가? 이 때문에 ‘기초·응용 사회심리학’이라는 학술지는 2015년 제출 논문에 피-값을 근거로 제시하는 것을 아예 금지해 버렸다. 2016년 미국통계학회는 이례적으로 피-값을 잘못 적용하는 경우에 대한
명확한 가이드라인을 제시했다. 2017년에는 저명한 통계학자 72명이 모여서 “통계적으로 유의하다”는 기준을 훨씬 낮출 것을
제안했다. 기존에는 피-값이 0.05 보다 낮으면 통상 유의하다고 여겼는데, 이를 0.005 아래로 낮추자는 제안이다.
미국통계학회의 이번 제안은 기존 접근과 달랐다. 학회는 과학계가 ‘통계적 유의성’에 대한 집착에서 벗어나야 한다고 주장했다. 어떤 연구가 ‘유의하기’ 위해서 피-값에 의존해야 한다는 생각을 버리자는 것이다. 학회는 앞으로 피-값이란 어떤 실험의 결과가 실제 그러한지 여부와 별개로 그저 통곗값 가운데 하나로만 쓰여야 할 뿐, 무언가를 결정짓는 수치로 쓰여선 안된다고 권고했다. 미국통계학회 회장 로널드 와서스테인(Ronald Wasserstein)은
“통계적 유의성이란 족쇄에서 벗어나는 것이 과학은 과학이 되고, 통계는 통계가 되는 길”이라고 말했다. 그는 또 이런 관점이 정착되면 초반에는 혼란이 있겠지만 장기적으로는 “(연구 결과가 갖는) 불확실성의 한계를 받아들이고… 더 나은 측정법, 더 정교한 연구 설계, 더 많은 표본을 얻고자 노력하는” 계기가 되리라고 과학 전문지
<언다크>(Undark)와 인터뷰에서 말했다.
피-해킹에 대한 과학계의 논의가 앞으로 어떻게 전개될지는 미지수다. 분명한 것은 과학이 사실과 거짓의 아슬아슬한 경계에 있듯, 데이터 역시 그렇다는 것이다. 피-값은 몰라도 이 점은 기억해 둘 만하다.
권오성 기자 sage5th@hani.co.kr