Page 28 - 데이터과학 무엇을 하는가? 전자책
P. 28
대로의 전체 데이터를 매번 사용하지는 않는다는 말이다. 결국 빅데이터
자체는 비용과 기술의 한계 때문에 버려지거나 가공하지 못했던 데이터
를 저장하고 가공하여 사용한다는 데 더 큰 의미가 있을 뿐이다. 요컨대
기업이나 조직에서 데이터 과학자가 기여하는 일의 차원에서 때는 기
존 프로세스와 큰 차이가 없다는 뜻이다.
그러나 분명 빅데이터는 데이터 과학의 활용 범위를 한 더 확장해
다양하고 빠르게 정보를 가공 · 분석하여 각 조직의 목적에 맞게 가공된
정보를 제공하는 결정적인 계기가 되었다.
데이터 데이터의 기
데이터 과학자가 다루기 찰 정도의 대용량 데이터를 초기
분석 개발 과정에 그대로 사용하는 것은 시간적으로나 기술적으로 비
다. 구글이나 페이스 의 분석가들도 대량의 데이터를 그대로 분석하기
▶데이터 용 의 가장 작은 보다는 다 수 있는 크기로 줄여서 사용한다.
단위는 0 은 을 나타 수
필요한 분석 데이터가 어느 정도 양인지 결정하
있는 비트( it)이다. 그리고
비트 개를 하나로 어
는 것도 경험이 필요한 중요한 작업이다. 케이
이트( te)라고 하고, 이
트가 2의 0제 개, 즉 02
디 컴이 실시한 설문에서 “최근에 분석
개 여 있으면 로 이트
( )라고 한다. 이와 이 2 한 데이터 중 가장 던 데이터 크기는 어 했
의 0제 지면서 메
가 이트( ), 기가 이트 는가 ”라는 질문에, 2012년은 11~100기가바이
( ), 라 이트( ), 페타
이트( ), 엑사 이트( ), 트(GB), 2013년은 101기가바이트~1테라바이트
제타 이트( )가 된다.
(TB)라는 대답이 가장 많았다. 미국에서 일반적
26