Page 19 - 데이터과학 무엇을 하는가? 전자책
P. 19
나는 통계 모형을 개발하는 일을 당했는데, 유 스 서버에서 샘플 데이터
를 사용해 SAS 프로그 으로 작업했다. 이후 전체 데이터를 처리하기 위해 IBM
메인 프레임에서 SAS 프로그 으로 대용량의 데이터를 처리하게 되었는데, 정
해진 일주일 안에 모든 업데이트 작업을 마치는 건 불가능한 일이었다. 당시 대
용량의 데이터도 문제였지만 SAS 프로그 도 문제였다. 처리 공간이 많이 필요
하고 처리 시간도 오래 걸린다는 이유로 개발 에서 SAS 프로그 사용을 리
는 바람에 더는 수 없는 상황이 되고 만 것이다. 나는 대부분 작업을 SAS로만
했는데 느 없이 SAS 프로그 을 사용할 수 없게 되었고, 기존에 작업해 SAS
프로그 도 C나 COBOL로 프로그래머들이 다시 작업을 해야만 했다.
이와 같은 대용량 데이터 처리 문제가 여러 프로젝트에서 되 이되어 나타나
자 회사 차원에서 빅데이터 문제 해결을 위한 이 구성되었고, 2003년 들어 대
용량 데이터 처리 문제가 조금 해결되기 시작했다. 2004~2005년 하둡이
만들어졌으니 비슷한 시기였다.
당시 나는 대용량 데이터 처리 방식과 관련해 분산 처리와 데이터 가상화라
는 단어만 들었었는데, 분산 처리가 하둡과 같은 방법이었다는 것을 2011년 빅
데이터’라는 단어를 알고 난 이후에야 알았다. 그때 우리는 “Big Data”보다는
“Large Data”라는 단어를 더 많이 사용했던 것으로 기억한다.
내가 이렇게 빅데이터의 통합, 처리, 가공 및 활용 프로젝트를 일찍 경험할 수
있었던 이유는 액시엄의 비즈니스 수익 모델 분이다. 미국의 많은 초대형 금
17