Page 294 - 데이터과학 무엇을 하는가? 전자책
P. 294
어져 회 분석(Regression), 베이지언(Bayesian) 방법 또는 의사결정 나무
(decision tree)를 사용하여 을 추정하여 대입할 수 있다.
데이터 형식(date format) 문제: 다양한 형태의 데이터 형식을 동일
한 형태로 변환(날 , 길이)하여 사용한다.
일반 데이터를 수치화하는(nominal to numeric) 문제: 몇몇 알고리즘
(neural nets, regression, nearest neighbor)은 수치(numeric) 데이터만 사용할
수 있다. 데이터를 자로 바꾸는 Binary to numeric(예를 들어 M, F을 0, 1
로 바 )을 사용할 수도 있다.
이상치나 불순 데이터 문제(outliers and smooth out noisy data): 이
상치나 불순 데이터는 데이터를 순서대로 나열한 평균, 중앙 또
는 경계 을 사용하여 단순화한다. 또는 그룹화(Clustering), 회 분석
(Regression)을 사용하거나 데이터를 제거시 다.
일관성 없는 데이터(inconsistent data): 잘못 기입되거나 잘못 전달된
데이터, 변수 이름이 부정확한 문제 등으로 인한 오류들을 판별하여 바
로 아야 한다.
데이터 전 리 2 데이터 통합
데이터 통합에서 가장 중요한 것은 유일 식별자(unified identifier)가 존
재하는지 확인하는 것이다. 존재한다면 식별자를 사용하여 중복된 데이
터를 제거하거나 다양한 데이터들을 하나의 데이터 집합으로 통합한다.
통합 과정에서 필요 없는 데이터나 변수는 제거하고 같은 데이터인데 변
수의 이름이 다를 경우 변수 이름을 통일하여 통합시 다. 데이터 집합
292