Page 43 - 데이터과학 무엇을 하는가? 전자책
P. 43
하다. 결국 데이터 과학은 이론을 전제로 한 분석 알고리즘과 현실 경험
으로부터 얻은 지식, 그리고 최고의 IT기술과 데이터 과학자들의 영감이
융복합하여 사람들에게 이로움을 제공하는 방법론이다.
가 초급 분석가들이 아무리 분석해도 원하는 답이 나오지 않을
어 게 해야 하느냐고 물어본다. 원천 데이터가 오염 있으면 원래 데
이터로부터 신호, 름, 관계 및 원인 등의 형태가 전 나타나지 않는 경
우가 더러 있다. 답이 없다는 것을 아는 것도 분석 작업의 성과 중 하나이
다. 그리고 더 중요한 것은 답이 없는지 득할 만한 보고 자료를 만드
는 것이다. 의사 결정자가 이해하고 수 할 수 있는 보고서를 저히 준
비해야 한다. 답을 찾아내는 것보다 이 과정에 더 많은 노력과 시간
이 든다.
데이터 자는 데이터 가가 야 한다
데이터 과학자는 데이터 품질 전문가가 되어야 한다. 이는 선
택이 아닌 필수다! 데이터의 품질은 내 영역이 아니라고 말하는 분석가
는 아직 갈 길이 멀다.
데이터의 품질은 데이터 자체의 품질과 내용상의 품질로 나 수 있
다. 예를 들어 데이터에 빠진(Missing) 이 무 많거나 자 필드에 문자
가 들어가 있다면 이건 데이터 자체의 품질 문제이다. 그리고 주소 변수
에 정확한 주소가 입력되어 있지 않다면 이건 내용상의 품질 문제이다.
또 다른 내용상의 품질 문제는 시간적으로 적합하느냐이다. 데이터는 늘
41