Page 156 - 데이터과학 무엇을 하는가? 전자책
P. 156
고객 이 (종속 변수) (고객, 서비스 등 다양한 이 원인 (독립 변수 ))
고객의 이탈은 종속 변수가 되고 이탈의 원인이 되는 고객의 성향이나
서비스 등은 변수 후보가 된다. 변수 선정 과정에서 학자나 연
구자들은 주로 이론 위주로 가설을 세우고, 마케팅이나 비즈니스 전문가
들은 비즈니스 목적을 위한 수익 극대화 위주로 가설을 세운다.
고객 이탈의 경우에는 비즈니스 운영상 효율적이고 효과적인 변수들
을 주로 변수로 선정한다. 어떤 변수를 선정해야 할지 모르겠을 때
는 통계 모델 검증 차원에서도 이론적 문들을 참고하는 것이 여러모
로 도움이 된다. 데이터가 무 크면 샘플링하여 사용하고, 샘플링된 데
이터는 모델 개발을 위한 데이터 세트(training set)와 검증 데이터 세트
(testing set)로 분리하여 최종 모델의 검증 작업에 사용한다.
유의성과 상관관계 같은 테스트를 거쳐 후보 변수의 그룹화 작업을 마
치고 기초 통계 현황까지 파 하고 나면 본격적인 모델 개발 작업에
수한다.
유의성 검증 예시
154