Page 59 - 데이터과학 무엇을 하는가? 전자책
P. 59
데이터 자는 사용자이 개 자가 다
데이터를 분석하는 데 있어 가장 중요한 것은 분석의 목적을
분명히 하고 그 목적에 맞는 문제 해결 방안을 찾는 것이다. 간단한 기초
통계만 사용해도 문제에 대한 답을 얻을 수 있다면 그것이 그 문제에 대한
최고의 분석 방법론이고 알고리즘이다. 복 하고 화려한 분석 알고리즘
을 사용하는 것이 중요한 것이 아니다. 필자의 경험에 따르면, 아무리 정
교하게 개발된 고급 분석 알고리즘이라도 데이터 자체의 품질에 문제가
있으면 2~5% 이상 예측력을 높이지 못한다. 반면에 적당한 크기의 품질
좋은 데이터는 10%에서 많게는 20% 이상 예측력이 높아지기도 한다.
가장 좋은 방법은 정교한 알고리즘과 적당한 데이터 크기로 분석하는
것이지만, 이 선택을 해야 한다면 적당한 크기에 품질 좋은 데이터가
화려한 고급 알고리즘을 사용한 분석보다 다.
그리고 실제 비즈니스 현장에서는 우주과학자나 물리학자, 수학자만
수 있는 복 한 알고리즘을 사용해야 하는 분석 과제는 많지 않고 복
한 알고리즘은 현업에 적용하기도 쉽지 않다. 데이터 과학자는 검증된
알고리즘을 사용하는 사용자이지 알고리즘 개발자는 아니라는 것을 기억
하자.
Data Science NOT
Rocket Science
57