지난 25일 발생한 케이티(KT)의 유·무선 인터넷 서비스 장애는 케이티가 잘못 작성한 라우팅 설정 명령어 스크립트 때문에 발생한 인재로 확인됐다.
29일 과학기술정보통신부의 케이티 네트워크 장애 원인분석 결과 발표를 들어보면, 이번 사고는 지난 25일 오전 11시16분께 케이티 부산통신센터(정부 지정 A급 통신시설)에서 부산국사(C급 시설)에 있는 라우터의 교체를 원격으로 진행하다 협력업체 소속 작업자가 특정 프로토콜을 종료하는 명령어 ‘exit’의 입력을 빼먹으면서 시작됐다. 라우터란 인터넷 접속 때 네트워크의 트래픽 경로를 설정해주는 장비다.
문제는 케이티가 이 명령어 스크립트 작성에 참여한 것은 물론, 두 차례의 사전 검증에도 오류를 발견하지 못 했다는 점이다. 홍진배 과기정통부 정보보호네트워크정책관은 이날 브리핑에서 “기본적으로 스크립트 작성은 협력업체와 케이티 직원들이 같이 하는 것으로 알고 있다. 검토는 당연히 케이티 직원들이 1·2차로 진행을 하는데, 그 부분에서 (명령어 오류를) 발견하지 못한 것으로 파악하고 있다”고 말했다. 협력업체 직원들은 케이티가 사전 검증 과정에서 문제가 없다고 판단해 작업을 지시한 스크립트대로 라우팅 설정을 했다는 것이다.
통신사들은 이같은 작업을 하기 전 명령어 오류를 잡아내기 위해 시뮬레이터(테스트베드)를 돌린다는 게 과기정통부 쪽 설명이다. 그러나 교체 대상 라우터가 있었던 부산국사의 경우 정부가 지정한 중요 통신시설 가운데 중요도가 낮은 시(C)급 시설이었기 때문에 시뮬레이터가 없었다. 홍 정책관은 <한겨레>와 한 통화에서 “비용문제 때문에 지역 국사에는 시뮬레이터가 없었다는 걸 케이티가 조사과정에서 인정했다”고 말했다. 이 때문에 케이티 직원이 직접 눈으로 스크립트를 검토해야 했고, 이 과정에서 오류를 발견하지 못한 채 작업이 이뤄졌다.
이번 조사에선 작업관리 차원의 문제점도 다수 발견됐다. 이 작업은 원래 케이티가 야간작업(새벽 1~6시 진행)으로 승인했지만, 케이티 관리자와 협력업체 직원이 주간작업을 합의해 이뤄졌다는 게 과기정통부 쪽 설명이다. 또한 당시 현장에는 케이티 소속의 작업 감독자가 없었다. 네트워크 장비 작업은 야간시간대에 케이티 직원의 입회 하에 진행되는 것이 회사의 원칙이다.
특히, 부산지역에서 발생한 사고가 전국적으로 확산한 배경에는 네트워크를 연결한 채 작업을 한 영향이 컸다. 홍 정책관은 “라우팅 같은 중요 작업은 절대 네트워크를 연결해놓고 해선 안 된다”며 “규정을 위반한 관행이었던 것”이라고 말했다.
정부는 이번 조사결과를 바탕으로 주요 통신사업자들의 네트워크 안정성 확보 대책을 마련할 계획이다. 통신사업자 대상으로 △작업체계·기술적 오류확산 방지체계 점검 △시뮬레이션 시스템 도입 △작업계획서 준수 점검 체계 구축 △라우팅 작업 때 업데이트 경로정보 개수 제한 등이 검토된다. 또한 중장기적으로 통신장애 대응 모니터링 체계 강화와 네트워크 생존성 확보를 위한 대책 등도 추진할 예정이다.
한편, 케이티 쪽은 정부 발표에 대해 “서울 케이티 연구개발센터에서 테스트베드를 운영하고 있으나, 현장까지 확산되지 않았다. 이번 일을 계기로 전국 단위로 적용해 이번 같은 장애가 재발하지 않도록 하겠다”며 “(작업계획서를 어기고 주간작업에 동의한) 케이티 직원의 관리 감독 소홀은 예외적인 사례로, (관리) 프로세스를 강화하겠다”고 입장을 냈다.
선담은 기자
sun@hani.co.kr