Page 51 - 데이터과학 무엇을 하는가? 전자책
P. 51

고 나머지는 필요한 데이터를 전처리 후 활용할 수 있는 수준까지는 익
                      으나 전문가는 아니다.

                       케이디    컴의 회원들은 2013년 기준으로 60% 이상이 분석

                     프로그  언어로 R을 가장 많이 사용했다. 그다음으로 파이선(38.8%),

                     S L(36.6%), SAS(20.8%), 자바(Java, 16.5%)를 복수로 선택했고, 유 스
                     11%, C/C++ 9%, 하둡 시스템의 피그와 하이브 8% 순으로 사용했다.

                     이중 피그, 하이브, R, S L은 전년에 비해 사용자가 더 늘었는데 하둡

                     과 빅데이터의 영향인 듯하다. 반면 예전에 많이 사용했던  (Perl), 루

                     비(Ruby), C/C++, 유 스  /오크(AWK, 유 스에서 사용되는 스크 트 언어)/
                     sed(유 스에서 사용되는  스트 처리 프로그 )의 사용률은 많이 줄어들었다.

                     요즘은 자바나 스 라(Scala), 파이선 프로그 을 주로 사용하는 추세다.

                       또한 빅데이터 전문 커뮤니티인 위키본에 따르면, 빅데이터 데이터베

                     이스는 2017년까지 2011년에 비해 33% 성장할 것이라고 한다. 더불어
                     NoS L은 연평균 59.6%, S L은 연평균  26.2% 성장할 것으로 전망하고

                     있다. 이제 데이터 전처리 과정에 꼭 필요한 S L과 NoS L 데이터베이

                     스 기술을 익히는 것은 더욱더 중요한 일이 됐다.

                       참고로 필자는 분석 도구로 SAS, R, 래피드마이 (RapidMiner)를 상
                     황에 따라 선택해서 사용하며, 더 복 한 작업을 할 때는 파이선, S L,

                     C++, 유 스   스크 트를 추가로 사용한다.











                                                                                  49
   46   47   48   49   50   51   52   53   54   55   56