Page 293 - 데이터과학 무엇을 하는가? 전자책
P. 293
들에 기반을 두고 기초 통계와 그래프, 차트로 만들게 된다. 이 자료들과
사전 조사한 비즈니스 지식을 가지고 데이터의 품질을 살피는 것이다.
데이터의 품질은 반드시 해당 비즈니스에 대한 이해를 바탕으로 이루어
져야한다. 예전에 미국에서 진행한 프로젝트 중에 노숙자를 대상으로
알코올과 약물 중 에 대한 연구에 참여한 적이 있었다. 이 프로젝트에
서는 성별에 대한 변수가 1, 2, 3, 4, 5, 6이라는 6개의 데이터 을 가지
고 있었다. 이 데이터 은 1 남성, 2 여성, 3 남성이지만 여성으로 사
는 사람, 4 여성이지만 남성으로 사는 사람, 5 남성이었지만 성 전환하
여 여성으로 사는 사람, 6 여성이었지만 성 전환하여 남성으로 사는 사
람이었다. 이처럼 연구 목적에 따라 같은 성별이라도 세분화하여 데이터
를 수집하게 된다. 이 사례는 아주 단순한 사례이나 많은 경우가 데이터
의 유효 및 정확성을 위해 조사할 해당 영역에 대한 이해가 필요한 사례
이다. 특히 이상치 데이터를 활용해야 할지 말아야 할지를 결정할 때도
분야에 대한 지식은 필수적이다.
실제 전처리 과정은 더 복 하고 다양하다. 아래 내용들은 자주 사용
하는 전처리 방법들을 요약 정리한 것이다.
데이터 전 리 1 데이터 ata leansin
없는 데이터(missing values): 대세에 지장이 없을 거라 생각되면
무시해도 된다. 그러나 원천 데이터의 양이 적으면 찾아서 기입하기
도 한다. 그러나 없는 데이터가 많다면 어려운 문제. Unknown’이나
99999999’로 표시하기도 하고 평균 을 사용하기도 하나 정확도가
291