Page 304 - 데이터과학 무엇을 하는가? 전자책
P. 304
하둡 플랫폼으로 전달(Transfer)하는 과정이 존재한다. 그리고 데이터가
시스템에 들어오면 정제되고 표준화되고 변환(Transform)되는데, 이 모든
통합 과정이 하둡 시스템 내에서 이루어지고 데이터 과학자가 배치 작업
으로 분석(Translation)을 한다. 그리하여 하둡은 중앙집중적인 전사 데이
터 스토어와 통합 데이터 인프라로 구성된다. 통합된 빅데이터 인프라는
다음과 같이 3가지 영역에 초점을 두어야 한다.
1. 속도
데이터가 갈수록 커져감에 따라 데이터를 더 빠르게 프로세스하고 분
석하는 것이 더욱 중요해졌다. 인메모리 데이터베이스 프로세스가 관심
을 모으고 있는 것도, 하둡 2.0이 준실시간 프로세스를 제공하게 된 것도
같은 이유에서다. 또한 빅데이터 분석에 있어서의 변환도 중요한데, 센
서 데이터나 스트림 인터넷 데이터를 실시간으로 분석 처리할 수 있게
되었다. 데이터 저장 비용이 계속해서 줄어들고 있기는 하지만 기업은
여전히 실시간으로 분석해서 불필요한 데이터는 제거하고 꼭 필요한 것
만 저장하여 데이터 저장 비용을 더 많이 줄이기를 원한다.
2. 데이터 품질
모든 데이터가 다 가치 있는 것은 아니다. 데이터 품질은 활용 단계에
서 심각한 문제로 작용한다. 특히 빠른 속도로 이동하는 디지털 환경에
서 오염된 데이터로 인한 피해는 치명적이다. 이를 예방하기 위해 몇몇
기업은 실시간으로 데이터 품질 관리 과정에 경고 장치까지 마련하여 감
302