Page 292 - 데이터과학 무엇을 하는가? 전자책
P. 292

된다. 데이터를 한곳으로 모으기  들다면 최소한 서로 연결이라도 해서
                   사용할 수 있어여 한다.






                            데이터


                            필요한 데이터가 무사히 수집되었다면 데이터의 전처리(Data
                   Preprocessing) 작업을 해야한다. 다양한 영역에서 수집된 데이터들은 정

                   제가 필요한 원천 데이터들이다. 그러나 수집된 데이터들은 불완전 데이

                   터, 오염된 데이터, 표준화가 필요한 데이터 등 다양한 문제들을 가지고

                   있다. 그 몇몇 사례로는 아래와 같다.



                       불완전 데이터: 없는(missing) 데이터, 변수(varables) 부족, 이미 한 번

                   가공된 통계 데이터

                       불순 데이터: 오류나 이상치가 있는 데이터
                       불일치 데이터: 변수 이름이나 코드가 일치하지 않거나 표준화되어

                   있지 않은 데이터




                     가장 먼저 해야 할 일은 수집된 데이터와 메타데이터를 이해하기 위해
                   서 데이터 프로파일링(profilng)을 하는 것이다. 프로파일링이란 말은 범

                   죄 드라마 같은 곳에서 자주 들어 을 것이다. 범인의 나이나 성격 직업

                   을 추정하는 데이터 프로파일링처럼 데이터 프로파일링은 데이터에 대

                   한 정보나 현황을 분석하는 것을 말한다. 데이터 프로파일링은 각 변수


               290
   287   288   289   290   291   292   293   294   295   296   297