Page 55 - 데이터과학 무엇을 하는가? 전자책
P. 55
다. 즉 A/B테스트와 같이 환경이나 조건을 달리한 후에 적당한 그룹을
선택하여 예측성을 높이는 방법으로 마케팅이나 신용 관리, 가격 선택,
고객 이탈 관리 등 다양한 분야에 사용한다.
회 분석(Regression)은 예측이나 분류에 사용하는 아주 유명한 알고
리즘이다. 특히 로지스 (Logistic) 회 분석은 신용 평점에 많이 사용하
고, 추정 모델에도 흔히 사용한다.
요즘엔 원인과 관계 파 을 위해 시각화(Visuali ation)도 많이 사용하
는데, GIS(지리 정보 시스템)로 위치 분석을 할 때 특히 많이 사용한다. 구
글이나 야후, 아마존에서는 개인화 서비스를 위해 집 분석(Clustering,
K-mean)을 사용한다.
그리고 넷플 스 분석 경연대회에서는 앙상블 기법(Ensemble methods)
이 주요하게 쓰였는데, 여러 개의 예측 모델을 만든 후에 그것들을 결합
하여 하나의 최종 예측 모델을 만들어 사용한 사례는 아주 유명하다. 넷
플 스 경연대회에서 사용된 알고리즘은 둘 마당에서 자세히 살펴
예정이다.
이외에도 경제나 행정 예산 책정에 많이 사용하는 시계열/순열 분석
(Timeseries/Sequence analysis), 사기 감지나 품질 관리에 사용하는 이상
치 감지 기법(Anomaly/Deviation detection)과 소 네트워크 분석(Social
Network Analysis)이 있다. 소 네트워크 분석은 테러리스트 연결고리 분
석에 주로 사용하며, 통신사에서 고객 이탈 분석을 할 때도 활용한다.
마지막으로 주성분 분석(Principal component analysis, PCA)도 제조 분야
에서 원인 분석이나 최적화 작업을 할 때 많이 사용하는 알고리즘 중 하
53