Page 265 - 데이터과학 무엇을 하는가? 전자책
P. 265

회   형 방법
                       적당한 과거 이력 데이터가 준비된 경우에 아주 적합한 매출 추정 모

                     델이 회  모형(Regression Model)이다. 모형에 사용할 변수들은 상권 및

                     지역, 매장 입지, 점주들의 성향을 잘 반영할 수 있는 것들로 선택해야 한

                     다. 지리 정보 시스템(GIS)을 활용하여 일반 데이터 분석   작업에서 생
                     성하기 어려운 지리 관련 변수인 거리 계산, 입지 장애물, 도로에 관한 정

                     보를 추출하여 활용한다면 예측 정확도에 도움이 될 것이다. 앞에서도

                     언급했듯이 매장 입지 분석에서 유동 인구나 매장 이력 같은 데이터는

                     잘 선별해서 반영해야 하고, 점주 성향은 측정하기가 쉽지 않은 만  대
                     체 변수를 잘 고려해야 한다. 그리고 매출의 정확도를 높이기 위해 상권

                     지역을 적당한 유형으로 그룹화하는 것도 중요하다. 예를 들면 인구 밀

                     집이나 상권 밀집, 또는 소득 등에 따라서 지역을 그룹화한 후 각각의 그

                     룹에 맞는 모형을 선택하여 추정하는 것이 수월하다.
                       회  모형은 데이터 시각화의 중요성을 인지한 위에 변수 선택을 하고

                     그에 맞는 모형을 선택하도록 주의를 기울여야 한다.

                       다음 예시는  같은 평균, 분산 그리고 회  모형을 선택했지만 분포

                     가 다르게 나타난 4개의 데이터 세트들이다. 이 그래프들은 통계 모형을
                     세우기 전에 데이터 시각화의 중요성을 인지하는 것이  마만  중요한

                     지, 그리고 이상치가 통계 모형에  마나 영향을 주는지 잘 보여준다.











                                                                                 263
   260   261   262   263   264   265   266   267   268   269   270