Page 296 - 데이터과학 무엇을 하는가? 전자책
P. 296
Z score 표 정 화 공 Z score normalization
데이터 전 리 데이터와 변수
데이터의 사이즈를 축소하고 모델의 단순화와 시각화를 위해 대표적
인 변수들을 선택해야 한다. 이때 무 많은 변수를 모델 개발에 사용하
는 것은 모델의 정합성과 다중공정성 문제도 제기될 수 있다(모델에 따라
다르겠지만 저자의 경험상 대략 20개 이하의 변수가 적당하다).
변수 선택 방법에는 단계별 전방 선택(step-wise forward selection), 단
계별 후방 제거(step-wise backward elimination), 전방 선택 결합(combining
forward selection), 후방 제거(backward elimination), 의사결정 나무(decision-
tree) 방법이 사용된다.
그리고 차원 축소를 위해 여러 개(N)의 변수를 K개(K N)로 축소하는
주요 구성 성분 분석(principal component analysis) 방법이 있다. 데이터 사
이즈를 줄이는 방법은 데이터 축(Data compression), 이산 웨이브 변
환(Discrete wavelet transform) 축소와 추정 모수(Parameter)는 보관하고 데
이터는 버리는 방법으로 회 모델이나 로그 선형 모델(log-liner model)
있고 비모수 방법으로 히스토그 (Histograms), 그룹화(clustering), 샘플링
(sampling) 방식 등이 있다.
294