Page 43 - 데이터과학 무엇을 하는가? 전자책
P. 43

하다. 결국 데이터 과학은 이론을 전제로 한 분석 알고리즘과 현실 경험
                     으로부터 얻은 지식, 그리고 최고의 IT기술과 데이터 과학자들의 영감이

                     융복합하여 사람들에게 이로움을 제공하는 방법론이다.

                       가  초급 분석가들이 아무리 분석해도 원하는 답이 나오지 않을

                     어 게 해야 하느냐고 물어본다. 원천 데이터가 오염  있으면 원래 데
                     이터로부터 신호,  름, 관계 및 원인 등의 형태가 전  나타나지 않는 경

                     우가 더러 있다. 답이 없다는 것을 아는 것도 분석 작업의 성과 중 하나이

                     다. 그리고 더 중요한 것은   답이 없는지  득할 만한 보고 자료를 만드

                     는 것이다. 의사 결정자가 이해하고 수 할 수 있는 보고서를  저히 준
                     비해야 한다. 답을 찾아내는 것보다 이 과정에    더 많은 노력과 시간

                     이 든다.






                             데이터   자는 데이터      가가   야 한다

                             데이터 과학자는 데이터 품질 전문가가 되어야 한다. 이는 선

                     택이 아닌 필수다! 데이터의 품질은 내 영역이 아니라고 말하는 분석가

                     는 아직 갈 길이 멀다.

                       데이터의 품질은 데이터 자체의 품질과 내용상의 품질로 나  수 있
                     다. 예를 들어 데이터에 빠진(Missing)  이  무 많거나  자 필드에 문자

                     가 들어가 있다면 이건 데이터 자체의 품질 문제이다. 그리고 주소 변수

                     에 정확한 주소가 입력되어 있지 않다면 이건 내용상의 품질 문제이다.

                     또 다른 내용상의 품질 문제는 시간적으로 적합하느냐이다. 데이터는 늘


                                                                                  41
   38   39   40   41   42   43   44   45   46   47   48