Page 44 - 데이터과학 무엇을 하는가? 전자책
P. 44
현재 시간에 맞게 업데이트되어 있어야 가치가 있다. 데이터는 또한 기
준에 맞게 일관성도 있어야 한다. A라는 파일은 시(hour) 단위로 이루어
져 있는데 같은 내용의 B라는 파일은 일(day) 단위로 이루어져 있다면 다
시 변환과 통합을 해야만 이 데이터를 사용할 수 있다.
필자는 데이터를 받으면 일단 수천억 개의 레코드를 눈으로 직접 어
보고, S L이나 유 스 스크 트(Unix script)로 만들어 문제가 없는지 일
일이 검토한다. 이를 소홀히 하면 어떤 분석도 다 수고라는 것을 수많
은 실수와 시행 오를 통해 으로 익 다. 데이터 자체의 품질 문제는
초급자도 쉽게 찾아 수 있지만 내용상의 품질 문제를 찾는 것은 경험
이 필요하다. 예를 들어 수천 개의 금융 고객 데이터가 리상 름에 맞
게 들어왔는지, 또는 가공된 변수가 정확히 계산되어 맵 되었는지를 학
교에서 배우기는 어렵다. 이런 문제는 비즈니스 경험이 있어야 해결할
수 있다. 이런 유형의 문제는 제조업 에서 더 심각하다. 제조업은 데이
터가 주로 기계에서 생성되는데, 이것이 어떤 리에 맞게 생성되고, 어
떤 이유로 일반 범주를 어나는지는 그 분야에 전문 지식이 있어야 판
단이 되는 경우가 허다하다.
데이터 전처리와 가공 작업이 데이터 품질 관리를 포함해서 데이터 과
학자가 하는 분석 작업 중 60~70%를 차지한다. 특히 데이터 가공 작업
중 많은 부분이 여러 종류의 데이터 세트를 연결하는 데이터 통합 작업
이다. 이 통합 작업에서 데이터 식별 (primary keys), 즉 데이터들을 서로
구분하기 위한 개별 키 이 정말 중요하다. 이 을 기준으로 데이터 세
트들 간에 일대일(one-to-one), 일대다(one-to-many), 다대다(many-to-many)
42