Page 30 - 데이터과학 무엇을 하는가? 전자책
P. 30
일 로그(log)도 하루에 3~500기가바이트 정도 생성되지만, 몇 년 저장
할 수는 없다고 한다. 이 통신회사는 최근에 하둡(Hadoop) 플랫폼을 도
입하여 데이터를 저장하려고 하고 있으나 스토리지(storage) 문제도 만만
치 않아 보였다. 게다가 하둡 파일 시스템은 1개의 데이터 파일에 입력된
데이터를 검색하는 것은 빠르지만, 데이터를 다시 내어 정제하고 업데
이트하여 분석하는 전처리(preprocess) 과정에는 효율적이지 못하고, 다
양한 통계 분석이나 복 한 고급 알고리즘을 사용하기 어렵다는 단점이
있다. 아직까지는 몇몇 알고리즘(아파치의 머하 Mahout 이용)을 제외하고
는 오픈 소스든 상업용이든 대부분의 분석 알고리즘이 싱글 노드(single
node)로 생성되고 있어, 다양한 분석 알고리즘을 분산 처리하여 하둡에
서 사용하기에는 어려움이 있다.
하둡 맵리 스(MapReduce)의 데이터 처리 과정을 조금 더 설명하자면,
맵리 스는 하나의 빅데이터를 많은 수의 작은 데이터 세트들로 나눈 후
에 여러 개의 서버나 컴퓨터로 내보내어 각각의 작은 데이터 세트를 개
별적으로 작업한 다시 합쳐서 모으는 기술이다. 그러나 많은 수의 데
이터 세트를 통합하거나 변수의 개수가 아주 많을 경우 맵리 스의 분산
처리 방식의 강점인 빠른 속도를 기대하기 어렵다. 이런 경우에는 하둡
보다는 인메모리(In memory)나 인데이터베이스(In database) 방식을 고려
하는 것이 비용이 많이 들기는 하지만 더 효과적이다.
한편, 빅데이터(대용량 데이터)를 분석하는 데 크기 문제만 있는 것은 아
니다. 빅데이터는 데이터가 크다는 뜻으로, 레코드가 많다는 얘기도 되
지만 한 레코드 안에 수천 개의 변수가 들어 있다는 얘기도 된다. 예를 들
28