Page 172 - 데이터과학 무엇을 하는가? 전자책
P. 172
사 데이터 통합 의 은 데이터 정
인
메트라이프 프로젝트에서 필자가 은 번 작업은 ETL 작
업과 함께 원천 데이터에 포함된 각각의 변수들의 품질을 체크하는 것이
었다. 먼저 각 변수마다 기초 통계를 산출하여 일일이 현황을 파 한
데이터를 어 게 가공하여 어떤 변수로 가공 저장해야 할지 결정했다.
이 작업은 데이터가 지나치게 많이 가공되어 원천 데이터의 가치나 내
용이 소 되어서도 안 되고, 무 가공되어 비즈니스 분석가가 어려
운 가공 과정을 직접 수행해야만 하는 상황이 발생해서도 안 되는 까다
로운 작업이다. 가공이 된 데이터는 데이터 웨어하우스의 공간만
데없이 차지하 로 이것을 살릴 것인지 제할 것인지도 결정해야 한
다. 데이터 과학자나 비즈니스 분석가들의 경험이 결정적으로 필요한
작업인 것이다.
변수 선정 작업은 세심함을 요하는 일이라 시간이 많이 걸려 몇 주일
샘 작업을 했다. 변수 선정 작업이 나면 데이터는 데이터베이스
모델러(Modeler)나 아키 트에게 겨지고 데이터 웨어하우스가 구축된
다. 그와 동시에 분석 에서는 필요한 통계 모델 개발에 들어 는데, 이
탈 모델이나 연계 판매(cross sell), 추가 판매(up sell), 우수 고객 선정을 위
한 고객 지수 산정 같은 전사 차원의 고객 전략에 활용되는 통계 모델은
그 전에 미리 개발해서 ETL 작업 중 임베드(Embedded)되어 주기적으로
생성, 관리되었다.
170