Page 186 - 데이터과학 무엇을 하는가? 전자책
P. 186

은        을 사용해   력을
                              나?


                            개인 맞 형 추천 시스템에 접근하는 방법은 여러 가지가 있
                   으나 넷플 스 분석 경연대회에 출전한 참가자들 대부분은 협업 필터링

                   (collaborative filtering)을 사용했다. 협업 필터링은 고객과 아이템 간의 관

                   계를 분석하여 고객의 선호를 예측하는 방법인데, 과거 운영 이력과 상

                   품에 대한 평가 점수를 이용하기 때문에 고객에 대한 프로파일 변수들이
                   필요하지 않아 고객이나 아이템에 대한 프로파일을 얻기  든 경우 활용

                   할 수 있다. 여기에서는 최고 우승 인  코의 실용적     이 사용한

                   알고리즘과 분석 과정 위주로 살펴보고자 한다.

                      코의 실용적     은 우선 데이터를 두 개의 세트, 즉 알고리즘
                   개발을 위한 데이터 세트(training data)와 예측한 것을 검증할 데이터 세

                   트(testing data)로 나누었다. 그리고 원천 데이터의 고객 식별 번호, 영화

                   번호, 평가 점수, 평가 날 를 변수로 사용했다. 개발 데이터 세트에는

                   2000~2005년 사이에 이루어진 1억 개의 평가 점수와 480,000명의 사용
                   자 데이터, 17,770개의 영화 데이터를 사용했고, 검증 데이터 세트는 각

                   각의 사용자들의 마지막 평가 점수 몇 개를 대상으로 하였는데 280만 개

                   의 평가 점수가 포함됐다.













               184
   181   182   183   184   185   186   187   188   189   190   191