Page 186 - 데이터과학 무엇을 하는가? 전자책
P. 186
은 을 사용해 력을
나?
개인 맞 형 추천 시스템에 접근하는 방법은 여러 가지가 있
으나 넷플 스 분석 경연대회에 출전한 참가자들 대부분은 협업 필터링
(collaborative filtering)을 사용했다. 협업 필터링은 고객과 아이템 간의 관
계를 분석하여 고객의 선호를 예측하는 방법인데, 과거 운영 이력과 상
품에 대한 평가 점수를 이용하기 때문에 고객에 대한 프로파일 변수들이
필요하지 않아 고객이나 아이템에 대한 프로파일을 얻기 든 경우 활용
할 수 있다. 여기에서는 최고 우승 인 코의 실용적 이 사용한
알고리즘과 분석 과정 위주로 살펴보고자 한다.
코의 실용적 은 우선 데이터를 두 개의 세트, 즉 알고리즘
개발을 위한 데이터 세트(training data)와 예측한 것을 검증할 데이터 세
트(testing data)로 나누었다. 그리고 원천 데이터의 고객 식별 번호, 영화
번호, 평가 점수, 평가 날 를 변수로 사용했다. 개발 데이터 세트에는
2000~2005년 사이에 이루어진 1억 개의 평가 점수와 480,000명의 사용
자 데이터, 17,770개의 영화 데이터를 사용했고, 검증 데이터 세트는 각
각의 사용자들의 마지막 평가 점수 몇 개를 대상으로 하였는데 280만 개
의 평가 점수가 포함됐다.
184