Page 31 - 데이터과학 무엇을 하는가? 전자책
P. 31
면, 금융 데이터에는 한 레코드 안에 고객 성향과 속성을 표현하는 수백
개가 는 변수들을 포함하는 데이터 세트가 있다. 데이터의 양도 문제
지만 엄청나게 많은 변수들 중에 어떤 변수들을 선택해서 사용해야 할지
결정하는 문제도 있는 것이다. 1
데이터 크기는 ERP(전사적 자원 관리) 운영 데이터, CRM(고객 관계 관
리) 데이터, 웹로그 데이터, 모바일 로그, 사용자 클 스트림(user click
stream), 소 스트 데이터 등 대용량일수록 점점 더 커진다. 하지만 데
이터의 크기가 커진다고 해서 데이터의 가치도 비례해서 커지는 것은 아
니다. 작은 데이터라도 꼭 필요한 고급 정보를 갖고 있다면, 모없는 빅
데이터보다 더 가치 있다. 양만 많은 빅데이터(big data)보다 품질 좋
은 데이터(good data)가 다는 얘기다. 잘 가공되고 필요한 내용을 가
해서 정제한 좋은 데이터를 분석해서 추출한 데이터가 하고 영리한
데이터인 것이다. 그리고 큰 데이터든 오염된 데이터든 복 한 데이터든
제대로 가공해서 모 있는 인사이트를 아내는 인재가 유능한 데이터
과학자이다.
1 빅데이터 문제는 2000년 이전에도 있었다. 다음 문들은 1998년과 1999년에 빅데이터를 어
게 처리, 분석했는지 잘 설명한 문들이다.
“Squashing flat files flatter,” Data Mining and Knowledge Discovery by W. DuMouchel, C.
Volinsky, T. Johnson, C. Cortes and D. Pregibon, 1999.
“Cached Sufficient Statistics for Efficient Machine Learning on Large Datasets,” Journal of
Artificial Intelligence Research, Andrew Moore and Mary Soon Lee, 1998.
29