Page 294 - 데이터과학 무엇을 하는가? 전자책
P. 294

어져 회  분석(Regression), 베이지언(Bayesian) 방법 또는 의사결정 나무
                   (decision tree)를 사용하여  을 추정하여 대입할 수 있다.

                       데이터 형식(date format) 문제:  다양한 형태의 데이터 형식을 동일

                   한 형태로 변환(날 , 길이)하여 사용한다.

                       일반 데이터를 수치화하는(nominal to numeric) 문제: 몇몇 알고리즘
                   (neural nets, regression, nearest neighbor)은 수치(numeric) 데이터만 사용할

                   수 있다. 데이터를  자로 바꾸는 Binary to numeric(예를 들어 M, F을 0, 1

                   로 바 )을 사용할 수도 있다.

                       이상치나 불순 데이터 문제(outliers and smooth out noisy data): 이
                   상치나 불순 데이터는 데이터를 순서대로 나열한   평균, 중앙  또

                   는 경계 을 사용하여 단순화한다. 또는 그룹화(Clustering), 회 분석

                   (Regression)을 사용하거나 데이터를 제거시 다.

                       일관성 없는 데이터(inconsistent data): 잘못 기입되거나 잘못 전달된
                   데이터, 변수 이름이 부정확한 문제 등으로 인한 오류들을 판별하여 바

                   로  아야 한다.



                     데이터 전 리 2  데이터 통합

                     데이터 통합에서 가장 중요한 것은 유일 식별자(unified identifier)가 존

                   재하는지 확인하는 것이다. 존재한다면 식별자를 사용하여 중복된 데이
                   터를 제거하거나 다양한 데이터들을 하나의 데이터 집합으로 통합한다.

                   통합 과정에서 필요 없는 데이터나 변수는 제거하고 같은 데이터인데 변

                   수의 이름이 다를 경우 변수 이름을 통일하여 통합시 다. 데이터 집합



               292
   289   290   291   292   293   294   295   296   297   298   299