Page 304 - 데이터과학 무엇을 하는가? 전자책
P. 304

하둡 플랫폼으로 전달(Transfer)하는 과정이 존재한다. 그리고 데이터가
                   시스템에 들어오면 정제되고 표준화되고 변환(Transform)되는데, 이 모든

                   통합 과정이 하둡 시스템 내에서 이루어지고 데이터 과학자가 배치 작업

                   으로 분석(Translation)을 한다. 그리하여 하둡은 중앙집중적인 전사 데이

                   터 스토어와 통합 데이터 인프라로 구성된다. 통합된 빅데이터 인프라는
                   다음과 같이 3가지 영역에 초점을 두어야 한다.



                     1. 속도

                     데이터가 갈수록 커져감에 따라 데이터를 더 빠르게 프로세스하고 분

                   석하는 것이 더욱 중요해졌다. 인메모리 데이터베이스 프로세스가 관심

                   을 모으고 있는 것도, 하둡 2.0이 준실시간 프로세스를 제공하게 된 것도
                   같은 이유에서다. 또한 빅데이터 분석에 있어서의 변환도 중요한데, 센

                   서 데이터나 스트림 인터넷 데이터를 실시간으로 분석 처리할 수 있게

                   되었다. 데이터 저장 비용이 계속해서 줄어들고 있기는 하지만 기업은
                   여전히 실시간으로 분석해서 불필요한 데이터는 제거하고 꼭 필요한 것

                   만 저장하여 데이터 저장 비용을 더 많이 줄이기를 원한다.



                     2. 데이터 품질

                     모든 데이터가 다 가치 있는 것은 아니다. 데이터 품질은 활용 단계에

                   서 심각한 문제로 작용한다. 특히 빠른 속도로 이동하는 디지털 환경에
                   서 오염된 데이터로 인한 피해는 치명적이다. 이를 예방하기 위해 몇몇

                   기업은 실시간으로 데이터 품질 관리 과정에 경고 장치까지 마련하여 감




               302
   299   300   301   302   303   304   305   306   307   308   309