Page 249 - 데이터과학 무엇을 하는가? 전자책
P. 249
많고 제대로 관리되지 않은 데이터가 많아 난이도 높은 기술과 지식이
요구된다. 이를 감안하여 분석하되 어떤 분석 방법을 적용하든 그 목표
는 정확한 예측과 부정확한 예측을 이해할 수 있는, 또는 받아들일 수 있
는 수준으로 유지하는 것이다. 여기에서 정확도 높은 예측이란 감지되지
않은 사건과 오류 경고를 최소한으로 줄이는 것을 말한다.
다음 표에서는 영역 B와 C를 최소로 줄이는 것이 목적이 된다. 다만,
실제로는 모든 경우의 사건이 알려지지 않는 것이 일반적이라 분석 과정
에서 주어진 샘플 데이터의 확률을 가지고 계산된다.
구분 부정 법 예측 정상 예측
실제 부정 불법 T(예 정상) - A영역 F(예 오류) - C영역
실제 정상 F(예 오류) - B영역 T(예 정상) - D영역
위에서 말한 오류 경고는 B영역에서 실제로는 정상이지만 부정 불법
으로 예측하는 경우에 생기고, C영역에서 실제로는 부정 불법인데 정상
으로 분류하는 경우에 생긴다. 이런 오류 결과가 현업 비즈니스에 끼치
는 심각성에 따라서 분석 방법도 달라진다. 보통은 부정 불법 감지율, 경
고 오류율, 그리고 감지에 걸리는 평균 시간 등을 주요 지표로 사용해 분
석 방법을 선택하되 감지율을 최대한 높이고 경고 오류는 최소한으로 줄
이는 것을 목표로 작업한다.
즉 현업에서는 A영역을 최대한 예측해 내고 B영역에 대한 예측을 최
소로 하기 위해 노력해야 하는 것이다. 그리고 실제 감지 시스템에 들어
247