Page 53 - 데이터과학 무엇을 하는가? 전자책
P. 53

각각의 알고리즘을 정확하게 이해하려면 직접 사용해 보는 수밖에 없다.
                       게다가  같은 분석 상황에서도 데이터 과학자의 기술적 역량과 경험,

                     전공 과목에 따라 접근 방식이 많이 달라진다. 어떤 것이 적합한 알고리

                     즘인지는 현업의 비즈니스 상황에 따라 각기 다르기 때문에 특정 상황에

                     특정 알고리즘을 사용하라는 식으로 정해진 공식은 없다.
                       다만 분석 과정 중 특정 알고리즘을 사용해야 하는 경우, 종속 변수가

                     있는지 없는지를 가장 먼저 살펴보아야 한다. 종속 변수의 유무에 따라

                     사용할 수 있는 알고리즘이 제한되기 때문이다. 예컨대 종속 변수가 없

                     을    집 분석과 원인 분석, 이상치(   , Anomaly/Deviation detection),
                     연관 법칙(Association rules) 등 몇 가지 알고리즘만 사용할 수 있다. 그

                     리고 변수의 속성에 따라서도 사용할 수 있는 알고리즘이 달라진다. 변

                     수의  들이 연속적 형태를   경우엔 예측 분석이 가능하고, 이산(  ,

                     discrete)적 형태를   때는 판별 분석이 가능하기 때문에 상황에 맞게 알고
                     리즘을 선택해야 한다. 요즘  는  스트 마이 (text mining)이나 웹 검색

                     분석은 분석 소프트웨어가 잘 개발되어 있어 분석하기가 한결 수월해졌다.

                       현업의 비즈니스 상황에 따라 다르기는 하지만, 일반 기업이나 조직에

                     서 많이 사용하는 알고리즘들을 정리하면 다음 표와 같다.
                       다음 표에서 업리프트 모델링(Uplift modeling)은 마케팅 캠페인에서 많


                     이 사용하는 기법 으로, 실제로는 추정 모델을 단계별로 적용하는 기법이





                         업리프트 모델링, 앙상블 모델링 등에 대한 구체적인 사용 방법은  빅데이터 다음 단계는 예측 분
                       석이다 (에  시  지음, 이지스 블리싱 2014)를 참고하세요.


                                                                                  51
   48   49   50   51   52   53   54   55   56   57   58