Page 189 - 데이터과학 무엇을 하는가? 전자책
P. 189

한 고객의 평균 평점과 한 영화의 평균 평점은 각각 3.5점으로, 3점대
                     가 가장 많은  도를 보였다.



                     영화와 고 의

                          6K                                            200K

                          5K                                            160K
                        영화  4K                                          120K  고

                          2K                                            8K

                          1K                                            4K
                           0                                            0
                              1.0  1.5  2.0  2.5  3.0  3.5  4.0  4.5  5.0
                                            영화      고



                       개발 과정에서 가장 어려웠던 점은 99%의 데이터에 결측 (missing

                     value)이 존재한다는 것이었다. 이는 사용 가능한 예측 알고리즘을 제한
                     시키는 요인이 된다. 동시에 평가 점수에 영향을 주는 요인이 수없이 많

                     다는 얘기이기도 하다. 즉 고객이 선호하는 장르와 스타일, 감 , 영화배

                     우 등 수없이 많은 요인이 평가 점수에 영향을 미  수 있다는 뜻이다. 또

                     다른 문제점은 각 고객이나 영화별로 평가 점수의 개수가 크게 달라서
                     데이터의 불균형이 나타나는 것이었다.

                       2007년에  코의 실용적     이   먼저 사용한 알고리즘은  집

                     분석의 일종인 K-NN(K-Nearest Neighbors)이었다. 이들은 모델 개발에 들

                     어가기 전에, 모델에 투입되는 원천 데이터의 자체 속성을 없애기 위해
                     모든 데이터를 표준화시 고, 영화, 사용자, 평가 시간과 평가 점수의 평



                                                                                 187
   184   185   186   187   188   189   190   191   192   193   194