Page 291 - 데이터과학 무엇을 하는가? 전자책
P. 291
데이터 가공
데이터 가공은 데이터의 수집, 저장, 연결, 정제, 변환, 분석, 데
이터 서비스 및 그 프로세스들로 기업에서 데이터 활용을 하기 직전의
전 과정을 말한다. 즉 데이터 가공(data management)은 주로 데이터 품질
과 메타, 카탈로그 검색에 관여하는 데이터 거버 스와 데이터 제공 서
비스를 포함한다. 데이터 거버 스는 정책, 보안, 프로세스, 표준, 관리
체계 등 데이터 가공, 활용 과정에 필요한 일련의 업무들을 말한다. 그리
고 데이터 전처리(preprocessing)는 실제 데이터의 현황 분석과 알고리즘
을 활용한 분석 모델링 중 데이터 품질 위주의 데이터 정제와 분석를 위
한 데이터 변환 등을 말하며, 데이터 가공 과정의 일부이다.
데이터 정
분석할 주제가 선정되면 그 주제에 대한 다양한 자료와 문
들을 검토하고 정리하여 해당 산업에 대한 지식을 얻어야 한다. 이러한
검토는 데이터를 수집하는 과정에서 어떤 데이터가 필요할지, 데이터를
어 게 가공해야 할지, 또는 분석 모델 개발 과정에 대략 어떤 분석 알고
리즘을 사용할 수 있을지 사전 지식을 제공해주기 때문이다. 이렇게 모
으고 정리한 지식을 바탕으로 각 단계별로 필요한 요건이나 가설을 세우
게 된다. 그러고 나서 각각의 부서 이기주의나 문화적 차이를 극복하고
데이터 수집 및 확보 전략이 수 되면, 드디어 데이터가 한곳에 모이게
289