Page 295 - 데이터과학 무엇을 하는가? 전자책
P. 295
을 통합시키기 전에 보통 식별자를 사용하여 정 (sorting)이나 색인화
(indexing) 작업을 진행한다. 그래야 데이터 통합 시간이 절약되기 때문이
다. 유일 식별자가 존재하지 않으면 이를 위한 개발 작업도 반드시 필요
하다.
데이터 전 리 3 데이터 변환
데이터 변환은 다양한 이유로 진행되나 주로 변수들의 속성을 통일시키
기 위해서 한다. 예를 들면, 사과와 오 지의 가치를 단지 무게로 비교할 수
없듯이 서로 다른 변수들을 동일한 도(scale)로 비교하기 위해서 이루어
진다. 데이터를 변환할 때 안해야 할 개념의 종류는 아래와 같다.
통합(Aggregation): 합, 평균 등 기초 통계
조절(Smoothing): 구간화(Binning), 집화(clustering), 회 화
(regression)
일반화(Generali ation): 계 적 일반화(예를 들어 동, 통, 시, , 구, 도 등)
새로운 속성 변환(New attributes): 예를 들면, 3을 log3이나 3 3으로
바꾸는 변환 작업.
표준화(Normali ation): 정해진 구간이나 범주 내의 자화(예를 들어
1.Min-max 표준화, 2. Z-score 표준 정규화, 3. 구간 정규화).
다음 공식은 표준화의 한 사례로 Z-score 표준 정규화하는 방식이다.
데이터 표준화에 가장 많이 활용한다.
293