Page 55 - 데이터과학 무엇을 하는가? 전자책
P. 55

다. 즉 A/B테스트와 같이 환경이나 조건을 달리한 후에 적당한 그룹을
                     선택하여 예측성을 높이는 방법으로 마케팅이나 신용 관리, 가격 선택,

                     고객 이탈 관리 등 다양한 분야에 사용한다.

                       회  분석(Regression)은 예측이나 분류에 사용하는 아주 유명한 알고

                     리즘이다. 특히 로지스 (Logistic) 회  분석은 신용 평점에 많이 사용하
                     고, 추정 모델에도 흔히 사용한다.

                       요즘엔 원인과 관계 파 을 위해 시각화(Visuali ation)도 많이 사용하

                     는데, GIS(지리 정보 시스템)로 위치 분석을 할 때 특히 많이 사용한다. 구

                     글이나 야후, 아마존에서는 개인화 서비스를 위해  집 분석(Clustering,
                     K-mean)을 사용한다.

                       그리고 넷플 스 분석 경연대회에서는 앙상블 기법(Ensemble methods)

                     이 주요하게 쓰였는데, 여러 개의 예측 모델을 만든 후에 그것들을 결합

                     하여 하나의 최종 예측 모델을 만들어 사용한 사례는 아주 유명하다. 넷
                     플 스 경연대회에서 사용된 알고리즘은 둘 마당에서 자세히 살펴

                     예정이다.

                       이외에도 경제나 행정 예산 책정에 많이 사용하는 시계열/순열 분석

                     (Timeseries/Sequence analysis), 사기 감지나 품질 관리에 사용하는 이상

                     치 감지 기법(Anomaly/Deviation detection)과 소  네트워크 분석(Social
                     Network Analysis)이 있다. 소  네트워크 분석은 테러리스트 연결고리 분

                     석에 주로 사용하며, 통신사에서 고객 이탈 분석을 할 때도 활용한다.

                       마지막으로 주성분 분석(Principal component analysis, PCA)도 제조 분야
                     에서 원인 분석이나 최적화 작업을 할 때 많이 사용하는 알고리즘 중 하



                                                                                  53
   50   51   52   53   54   55   56   57   58   59   60