Page 172 - 데이터과학 무엇을 하는가? 전자책
P. 172

사 데이터 통합     의   은 데이터     정
                                인


                            메트라이프 프로젝트에서 필자가  은  번  작업은 ETL 작
                   업과 함께 원천 데이터에 포함된 각각의 변수들의 품질을 체크하는 것이

                   었다. 먼저 각 변수마다 기초 통계를 산출하여 일일이 현황을 파 한

                   데이터를 어 게 가공하여 어떤 변수로 가공 저장해야 할지 결정했다.

                   이 작업은 데이터가 지나치게 많이 가공되어 원천 데이터의 가치나 내
                   용이 소 되어서도 안 되고,  무   가공되어 비즈니스 분석가가 어려

                   운 가공 과정을 직접 수행해야만 하는 상황이 발생해서도 안 되는 까다

                   로운 작업이다. 가공이  된 데이터는 데이터 웨어하우스의 공간만

                   데없이 차지하 로 이것을 살릴 것인지  제할 것인지도 결정해야 한
                   다. 데이터 과학자나 비즈니스 분석가들의 경험이 결정적으로 필요한

                   작업인 것이다.

                     변수 선정 작업은 세심함을 요하는 일이라 시간이 많이 걸려 몇 주일

                      샘 작업을 했다. 변수 선정 작업이  나면 데이터는 데이터베이스
                   모델러(Modeler)나 아키 트에게  겨지고 데이터 웨어하우스가 구축된

                   다. 그와 동시에 분석 에서는 필요한 통계 모델 개발에 들어 는데, 이

                   탈 모델이나 연계 판매(cross sell), 추가 판매(up sell), 우수 고객 선정을 위

                   한 고객 지수 산정 같은 전사 차원의 고객 전략에 활용되는 통계 모델은
                   그 전에 미리 개발해서 ETL 작업 중 임베드(Embedded)되어 주기적으로

                   생성, 관리되었다.





               170
   167   168   169   170   171   172   173   174   175   176   177