Page 243 - 데이터과학 무엇을 하는가? 전자책
P. 243
연관 분석은 장바구니 분석으로도 불린다. 마트에서 고객이 구입한 상
품들의 연관 관계를 분석하는 방법을 통신 데이터 사용자들이 특정 장소
로 이동하는 움직임의 연관 관계를 분석하는 데 활용할 수 있다.
예를 들어 서울시에서 가장 많은 사람들이 방문하는 장소 사이의 이동
경로에 대한 연관 관계를 분석한다고 해보자. 가장 방문이 많은 장소가
강남, 명동, 홍대, 신 , 이렇게 4곳이라고 할 때 다음과 같이 임의의 샘플
데이터를 만들고, 사용자들이 방문한 도를 세어 최소한 3번 이상 방문
한 곳만 선택한다고 하자.
먼저 고객 식별 단위로 나열되어 있는 통화 데이터 파일에서 아래의
임의 샘플 데이터처럼 사용자가 방문한 장소만 추출하여 이동 경로를 재
구성해서 데이터 세트를 만든다.
의 데이터의
U1: (강남 명동 홍대 신 ), (강남 명동 홍대 신 )
U2: (명동 홍대 강남 명동), (명동 강남 명동)
U3: (강남 명동 홍대 신 ), (강남 명동 홍대 신 )
U4: (홍대 명동 홍대 강남 명동 홍대)
U5: (강남 명동 홍대 신 ), (강남 명동 홍대 신 )
임의 샘플 데이터에서 임의의 사용자(U)가 방문한 장소들의 결합을 조
합해 경우의 수로 나타내면 12가지가 된다. 그리고 각각 방문한 장소
의 도는 테이블 1과 테이블 2이다. 이제 12가지 경우의 수가 각각 일
241