Page 44 - 데이터과학 무엇을 하는가? 전자책
P. 44

현재 시간에 맞게 업데이트되어 있어야 가치가 있다. 데이터는 또한 기
                   준에 맞게 일관성도 있어야 한다. A라는 파일은 시(hour) 단위로 이루어

                   져 있는데 같은 내용의 B라는 파일은 일(day) 단위로 이루어져 있다면 다

                   시 변환과 통합을 해야만 이 데이터를 사용할 수 있다.

                     필자는 데이터를 받으면 일단 수천억 개의 레코드를 눈으로 직접  어
                   보고, S L이나 유 스 스크 트(Unix script)로 만들어 문제가 없는지 일

                   일이 검토한다. 이를 소홀히 하면 어떤 분석도 다  수고라는 것을 수많

                   은 실수와 시행 오를 통해  으로 익 다. 데이터 자체의 품질 문제는

                   초급자도 쉽게 찾아  수 있지만 내용상의 품질 문제를 찾는 것은 경험
                   이 필요하다. 예를 들어 수천 개의 금융 고객 데이터가  리상  름에 맞

                   게 들어왔는지, 또는 가공된 변수가 정확히 계산되어 맵 되었는지를 학

                   교에서 배우기는 어렵다. 이런 문제는 비즈니스 경험이 있어야 해결할

                   수 있다. 이런 유형의 문제는 제조업  에서 더 심각하다. 제조업은 데이
                   터가 주로 기계에서 생성되는데, 이것이 어떤  리에 맞게 생성되고, 어

                   떤 이유로 일반 범주를  어나는지는 그 분야에 전문 지식이 있어야 판

                   단이 되는 경우가 허다하다.

                     데이터 전처리와 가공 작업이 데이터 품질 관리를 포함해서 데이터 과
                   학자가 하는 분석 작업 중 60~70%를 차지한다. 특히 데이터 가공 작업

                   중 많은 부분이 여러 종류의 데이터 세트를 연결하는 데이터 통합 작업

                   이다. 이 통합 작업에서 데이터 식별 (primary keys), 즉 데이터들을 서로

                   구분하기 위한 개별 키 이 정말 중요하다. 이  을 기준으로 데이터 세
                   트들 간에 일대일(one-to-one), 일대다(one-to-many), 다대다(many-to-many)



               42
   39   40   41   42   43   44   45   46   47   48   49