Page 296 - 데이터과학 무엇을 하는가? 전자책
P. 296

Z score 표  정 화 공  Z score normalization










                     데이터 전 리    데이터와       변수

                     데이터의 사이즈를 축소하고 모델의 단순화와 시각화를 위해 대표적

                   인 변수들을 선택해야 한다. 이때  무 많은 변수를 모델 개발에 사용하
                   는 것은 모델의 정합성과 다중공정성 문제도 제기될 수 있다(모델에 따라

                   다르겠지만 저자의 경험상 대략 20개 이하의 변수가 적당하다).

                     변수 선택 방법에는 단계별 전방 선택(step-wise forward selection), 단

                   계별 후방 제거(step-wise backward elimination), 전방 선택 결합(combining
                   forward selection), 후방 제거(backward elimination), 의사결정 나무(decision-

                   tree) 방법이 사용된다.

                     그리고 차원 축소를 위해 여러 개(N)의 변수를 K개(K N)로 축소하는

                   주요 구성 성분 분석(principal component analysis) 방법이 있다. 데이터 사
                   이즈를 줄이는 방법은 데이터  축(Data compression), 이산 웨이브  변

                   환(Discrete wavelet transform) 축소와 추정 모수(Parameter)는 보관하고 데

                   이터는 버리는 방법으로 회  모델이나 로그 선형 모델(log-liner model)
                   있고 비모수 방법으로 히스토그 (Histograms), 그룹화(clustering), 샘플링

                   (sampling) 방식 등이 있다.






               294
   291   292   293   294   295   296   297   298   299   300   301