Page 59 - 데이터과학 무엇을 하는가? 전자책
P. 59

데이터   자는      사용자이  개 자가   다

                             데이터를 분석하는 데 있어 가장 중요한 것은 분석의 목적을

                     분명히 하고 그 목적에 맞는 문제 해결 방안을 찾는 것이다. 간단한 기초

                     통계만 사용해도 문제에 대한 답을 얻을 수 있다면 그것이 그 문제에 대한

                     최고의 분석 방법론이고 알고리즘이다. 복 하고 화려한 분석 알고리즘

                     을 사용하는 것이 중요한 것이 아니다. 필자의 경험에 따르면, 아무리 정
                     교하게 개발된 고급 분석 알고리즘이라도 데이터 자체의 품질에 문제가

                     있으면 2~5% 이상 예측력을 높이지 못한다. 반면에 적당한 크기의 품질

                     좋은 데이터는 10%에서 많게는 20% 이상 예측력이 높아지기도 한다.
                       가장 좋은 방법은 정교한 알고리즘과 적당한 데이터 크기로 분석하는

                     것이지만,  이 선택을 해야 한다면 적당한 크기에 품질 좋은 데이터가

                     화려한 고급 알고리즘을 사용한 분석보다  다.

                       그리고 실제 비즈니스 현장에서는 우주과학자나 물리학자, 수학자만

                       수 있는 복 한 알고리즘을 사용해야 하는 분석 과제는 많지 않고 복
                      한 알고리즘은 현업에 적용하기도 쉽지 않다. 데이터 과학자는 검증된

                     알고리즘을 사용하는 사용자이지 알고리즘 개발자는 아니라는 것을 기억

                     하자.





                       Data Science NOT
                       Rocket Science







                                                                                  57
   54   55   56   57   58   59   60   61   62   63   64