Page 295 - 데이터과학 무엇을 하는가? 전자책
P. 295

을 통합시키기 전에 보통 식별자를 사용하여 정 (sorting)이나 색인화
                     (indexing) 작업을 진행한다. 그래야 데이터 통합 시간이 절약되기 때문이

                     다. 유일 식별자가 존재하지 않으면 이를 위한 개발 작업도 반드시 필요

                     하다.



                       데이터 전 리 3  데이터 변환
                       데이터 변환은 다양한 이유로 진행되나 주로 변수들의 속성을 통일시키

                     기 위해서 한다. 예를 들면, 사과와 오 지의 가치를 단지 무게로 비교할 수

                     없듯이 서로 다른 변수들을 동일한  도(scale)로 비교하기 위해서 이루어

                     진다. 데이터를 변환할 때  안해야 할 개념의 종류는 아래와 같다.



                         통합(Aggregation): 합, 평균 등 기초 통계

                         조절(Smoothing): 구간화(Binning),  집화(clustering), 회 화

                     (regression)

                         일반화(Generali ation): 계 적 일반화(예를 들어 동, 통, 시,  , 구, 도 등)
                         새로운 속성 변환(New attributes): 예를 들면, 3을 log3이나 3 3으로

                     바꾸는 변환 작업.

                         표준화(Normali ation): 정해진 구간이나 범주 내의  자화(예를 들어

                     1.Min-max 표준화, 2. Z-score 표준 정규화, 3. 구간 정규화).



                       다음 공식은 표준화의 한 사례로 Z-score 표준 정규화하는 방식이다.

                     데이터 표준화에 가장 많이 활용한다.



                                                                                 293
   290   291   292   293   294   295   296   297   298   299   300