Page 265 - 데이터과학 무엇을 하는가? 전자책
P. 265
회 형 방법
적당한 과거 이력 데이터가 준비된 경우에 아주 적합한 매출 추정 모
델이 회 모형(Regression Model)이다. 모형에 사용할 변수들은 상권 및
지역, 매장 입지, 점주들의 성향을 잘 반영할 수 있는 것들로 선택해야 한
다. 지리 정보 시스템(GIS)을 활용하여 일반 데이터 분석 작업에서 생
성하기 어려운 지리 관련 변수인 거리 계산, 입지 장애물, 도로에 관한 정
보를 추출하여 활용한다면 예측 정확도에 도움이 될 것이다. 앞에서도
언급했듯이 매장 입지 분석에서 유동 인구나 매장 이력 같은 데이터는
잘 선별해서 반영해야 하고, 점주 성향은 측정하기가 쉽지 않은 만 대
체 변수를 잘 고려해야 한다. 그리고 매출의 정확도를 높이기 위해 상권
지역을 적당한 유형으로 그룹화하는 것도 중요하다. 예를 들면 인구 밀
집이나 상권 밀집, 또는 소득 등에 따라서 지역을 그룹화한 후 각각의 그
룹에 맞는 모형을 선택하여 추정하는 것이 수월하다.
회 모형은 데이터 시각화의 중요성을 인지한 위에 변수 선택을 하고
그에 맞는 모형을 선택하도록 주의를 기울여야 한다.
다음 예시는 같은 평균, 분산 그리고 회 모형을 선택했지만 분포
가 다르게 나타난 4개의 데이터 세트들이다. 이 그래프들은 통계 모형을
세우기 전에 데이터 시각화의 중요성을 인지하는 것이 마만 중요한
지, 그리고 이상치가 통계 모형에 마나 영향을 주는지 잘 보여준다.
263