Page 19 - 데이터과학 무엇을 하는가? 전자책
P. 19

나는 통계 모형을 개발하는 일을  당했는데, 유 스 서버에서 샘플 데이터

                     를 사용해 SAS 프로그 으로 작업했다. 이후 전체 데이터를 처리하기 위해 IBM
                     메인 프레임에서 SAS 프로그 으로 대용량의 데이터를 처리하게 되었는데, 정
                     해진 일주일 안에 모든 업데이트 작업을 마치는 건 불가능한 일이었다. 당시 대

                     용량의 데이터도 문제였지만 SAS 프로그 도 문제였다. 처리 공간이 많이 필요
                     하고 처리 시간도 오래 걸린다는 이유로 개발 에서 SAS 프로그  사용을  리

                     는 바람에 더는   수 없는 상황이 되고 만 것이다. 나는 대부분 작업을 SAS로만
                     했는데 느 없이 SAS 프로그 을 사용할 수 없게 되었고, 기존에 작업해   SAS
                     프로그 도 C나 COBOL로 프로그래머들이 다시 작업을 해야만 했다.



                       이와 같은 대용량 데이터 처리 문제가 여러 프로젝트에서 되 이되어 나타나
                     자 회사 차원에서 빅데이터 문제 해결을 위한  이 구성되었고, 2003년 들어 대

                     용량 데이터 처리 문제가 조금  해결되기 시작했다. 2004~2005년  하둡이
                     만들어졌으니 비슷한 시기였다.
                       당시 나는 대용량 데이터 처리 방식과 관련해 분산 처리와 데이터 가상화라

                     는 단어만 들었었는데, 분산 처리가 하둡과 같은 방법이었다는 것을 2011년  빅
                     데이터’라는 단어를 알고 난 이후에야 알았다. 그때 우리는 “Big Data”보다는

                    “Large Data”라는 단어를 더 많이 사용했던 것으로 기억한다.


                       내가 이렇게 빅데이터의 통합, 처리, 가공 및 활용 프로젝트를 일찍 경험할 수

                     있었던 이유는 액시엄의 비즈니스 수익 모델  분이다. 미국의 많은 초대형 금


                                                                                  17
   14   15   16   17   18   19   20   21   22   23   24