Page 298 - 데이터과학 무엇을 하는가? 전자책
P. 298
아래 표는 위 데이터의 품질과 현황을 파 하기 위해 프로파일한 내용
들이다.
한
타입 수 결측 합계 대 표
명
미세
1 자형 250 32 5242 24.046 12 49 6.2540
지 농도
일산화
2 자형 250 32 1512 0.694 0.1 1.7 0.2222
소 농도
3 지 비율 자형 250 34 1397135 64.682 0 92.92 21.8698
우선 대기 환경표의 측정소 주소가 정확한 주소 형식을 따르지 않았으
로 행정안전부에서 제공하는 주소 정제 시스템 루션을 활용하여 주
소를 정제했다. 그리고 대기 환경 데이터를 시도별 측정소 단위로 재정
리한 후, 월별로 다시 집계했다.
대기 환경 지수는 주성분 알고리즘(Principle Component Analysis, PCA)
을 사용하여 SO2, O3, PM25, 등, 여러 대기 지표 의 주성분을 분석
하여 찾아낸 번 주성분을 지수화한 이다.
296