Page 296 - 데이터과학 무엇을 하는가? 전자책

P. 296

Z score 표 정 화 공 Z score normalization

데이터 전 리 데이터와 변수

데이터의 사이즈를 축소하고 모델의 단순화와 시각화를 위해 대표적

인 변수들을 선택해야 한다. 이때 무 많은 변수를 모델 개발에 사용하
는 것은 모델의 정합성과 다중공정성 문제도 제기될 수 있다(모델에 따라

다르겠지만 저자의 경험상 대략 20개 이하의 변수가 적당하다).

변수 선택 방법에는 단계별 전방 선택(step-wise forward selection), 단

계별 후방 제거(step-wise backward elimination), 전방 선택 결합(combining
forward selection), 후방 제거(backward elimination), 의사결정 나무(decision-

tree) 방법이 사용된다.

그리고 차원 축소를 위해 여러 개(N)의 변수를 K개(K N)로 축소하는

주요 구성 성분 분석(principal component analysis) 방법이 있다. 데이터 사
이즈를 줄이는 방법은 데이터 축(Data compression), 이산 웨이브 변

환(Discrete wavelet transform) 축소와 추정 모수(Parameter)는 보관하고 데

이터는 버리는 방법으로 회 모델이나 로그 선형 모델(log-liner model)
있고 비모수 방법으로 히스토그 (Histograms), 그룹화(clustering), 샘플링

(sampling) 방식 등이 있다.

294

291 292 293 294 295 296 297 298 299 300 301