Page 51 - 데이터과학 무엇을 하는가? 전자책
P. 51
고 나머지는 필요한 데이터를 전처리 후 활용할 수 있는 수준까지는 익
으나 전문가는 아니다.
케이디 컴의 회원들은 2013년 기준으로 60% 이상이 분석
프로그 언어로 R을 가장 많이 사용했다. 그다음으로 파이선(38.8%),
S L(36.6%), SAS(20.8%), 자바(Java, 16.5%)를 복수로 선택했고, 유 스
11%, C/C++ 9%, 하둡 시스템의 피그와 하이브 8% 순으로 사용했다.
이중 피그, 하이브, R, S L은 전년에 비해 사용자가 더 늘었는데 하둡
과 빅데이터의 영향인 듯하다. 반면 예전에 많이 사용했던 (Perl), 루
비(Ruby), C/C++, 유 스 /오크(AWK, 유 스에서 사용되는 스크 트 언어)/
sed(유 스에서 사용되는 스트 처리 프로그 )의 사용률은 많이 줄어들었다.
요즘은 자바나 스 라(Scala), 파이선 프로그 을 주로 사용하는 추세다.
또한 빅데이터 전문 커뮤니티인 위키본에 따르면, 빅데이터 데이터베
이스는 2017년까지 2011년에 비해 33% 성장할 것이라고 한다. 더불어
NoS L은 연평균 59.6%, S L은 연평균 26.2% 성장할 것으로 전망하고
있다. 이제 데이터 전처리 과정에 꼭 필요한 S L과 NoS L 데이터베이
스 기술을 익히는 것은 더욱더 중요한 일이 됐다.
참고로 필자는 분석 도구로 SAS, R, 래피드마이 (RapidMiner)를 상
황에 따라 선택해서 사용하며, 더 복 한 작업을 할 때는 파이선, S L,
C++, 유 스 스크 트를 추가로 사용한다.
49