Page 202 - 데이터과학 무엇을 하는가? 전자책
P. 202
전히 없애지는 않겠지만 2,500개에 달하는 가상 서버를 최대 50개까지
축소할 예정이라고 한다.
넷플 스는 오라클의 문제점으로 인해 오라클로 개발된 S L 데이터
베이스를 아파치 카산드라(Cassandra)로 교체했다. 우선 오라클은 비용이
많이 들고, 모든 데이터가 한곳에 집중되어 있어야 하는 문제가 있었다.
그리고 2주에 한 번 새로운 데이터베이스의 리구조(schema)로 바꿀
때마다 10분 이상 다운타임(downtime)을 가져야 한다는 것도 문제였다.
S L 데이터베이스를 카산드라로 교체한 이후 플 스의 비즈니스
는 아주 라졌다. 추가 사용에 대해 허락을 받거나 계획을 세울 필요가
없어 언제든지 필요하면 개발할 수 있게 되었다. 게다가 카산드라는 스
키마가 없어 다운타임도 없다. 넷플 스는 이제 고객 정보, 영화 평점, 영
화 속성 데이터, 영화 마크 그리고 사용자 로그 같은 데이터의 95%를
카산드라로 저장한다.
모든 카산드라 클러스터에는 705개 이상의 노드(node)를 가진 50
개 이상의 카산드라 클러스터가 있고, 이는 1초에 50,000번의 기와
100,000번의 쓰기를 가능하게 해준다. 하루 평균 21억 번의 기와 43
억 번의 쓰기가 가능한 이니 엄청난 양의 데이터를 하루에 처리해 내
는 것이다.
플 스 빅데이터 플랫폼
넷플 스 플랫폼은 오프라인(Offline), 준실시간(Nearline), 온라인
200