Page 75 - 데이터과학 무엇을 하는가? 전자책
P. 75
하둡을 사용한 대량의 데이터 저장과 실시간 분석 알고리즘을 적용한
추천 엔진 시스템, 그리고 NoS L을 사용해 비용 절감과 빠른 처리 속도
의 프로세스를 구축했다. 넷플 스는 NoS L로 카산드라(Cassandra, 아파
치의 오픈 소스로 공개된 NoS L의 분산 데이터베이스)와 이브이캐시(EVcache, 클
라우 시스템의 인메모리 데이터 스토어)를 사용했으나, 다른 기업의 플랫폼
을 구축할 때는 그 기업의 비즈니스 환경에 맞는 NoS L을 선택하여 적
용하는 것이 중요하다. 예를 들면 페이스 은 사용자들의 관계 데이터와
추천, 그래프 등을 관리하기 위해 네오포제이(Neo4 , 그림을 저장하는 비정
형 데이터베이스)도 함께 사용했다고 한다. 또한 넷플 스는 빅데이터 플랫
폼의 파워 사용자인 데이터 과학자와 일반 분석가 영역을 구분하고 실시
간, 준실시간, 오프라인을 구분하여 데이터 트래 를 조절하였다. 그리
고 넷플 스 플랫폼 본부에는 신 성 (Reliability Team)이 있어, 실시간
으로 전체 빅데이터 운영 시스템을 모니터링하고 테스트하여 플랫폼 운
영의 신 성과 안정성을 감시하고 보장한다.
빅데이터 , 하 이 통치 은 다
하둡과 함께 사용하는 데이터베이스는 일반 관계형 데이터
베이스가 대부분이고 필요에 따라 NoS L이나 대량 처리(MPP:
Massive Parallel Processing) 데이터베이스를 함께 사용하는 기업들도 있다.
오프라인 빅데이터 플랫폼에 하둡을 사용하는 것이 유행이긴 하나 모든 빅
데이터에 하둡을 사용하는 것이 해결책은 아니라고 전문가들은 조언한다.
73