Page 293 - 데이터과학 무엇을 하는가? 전자책
P. 293

들에 기반을 두고 기초 통계와 그래프, 차트로 만들게 된다. 이 자료들과
                     사전 조사한 비즈니스 지식을 가지고 데이터의 품질을 살피는 것이다.

                     데이터의 품질은 반드시 해당 비즈니스에 대한 이해를 바탕으로 이루어

                     져야한다. 예전에 미국에서 진행한 프로젝트 중에 노숙자를 대상으로

                     알코올과 약물 중 에 대한 연구에 참여한 적이 있었다. 이 프로젝트에
                     서는 성별에 대한 변수가 1, 2, 3, 4, 5, 6이라는 6개의 데이터  을 가지

                     고 있었다. 이 데이터  은 1 남성, 2 여성, 3 남성이지만 여성으로 사

                     는 사람, 4 여성이지만 남성으로 사는 사람, 5 남성이었지만 성 전환하

                     여 여성으로 사는 사람, 6 여성이었지만 성 전환하여 남성으로 사는 사
                     람이었다. 이처럼 연구 목적에 따라 같은 성별이라도 세분화하여 데이터

                     를 수집하게 된다. 이 사례는 아주 단순한 사례이나 많은 경우가 데이터

                     의 유효 및 정확성을 위해 조사할 해당 영역에 대한 이해가 필요한 사례

                     이다. 특히 이상치 데이터를 활용해야 할지 말아야 할지를 결정할 때도
                     분야에 대한 지식은 필수적이다.

                       실제 전처리 과정은 더 복 하고 다양하다. 아래 내용들은 자주 사용

                     하는 전처리 방법들을 요약 정리한 것이다.



                       데이터 전 리 1  데이터      ata  leansin

                         없는 데이터(missing values):  대세에 지장이 없을 거라 생각되면
                     무시해도 된다. 그러나 원천 데이터의 양이 적으면 찾아서 기입하기

                     도 한다. 그러나 없는 데이터가 많다면 어려운 문제.  Unknown’이나

                    99999999’로 표시하기도 하고 평균 을 사용하기도 하나 정확도가



                                                                                 291
   288   289   290   291   292   293   294   295   296   297   298