Page 50 - 데이터과학 무엇을 하는가? 전자책
P. 50

데이터 전 리를 위한 분석 프로그램 언어
                     데이터를 전처리하고 가공하기 위해서 데이터 과학자는 프로그  언

                   어의 기본 원리도 알아야 한다. 다양한 프로그  언어가 있지만, 작업 특

                   성상 특정 프로그  언어를 꼭 사용해야 할 때는 프로그  규칙(Syntax)

                   만 배워서 바로 사용할 줄도 알아야 한다. 예를 들어, SAS 사용자라도 여
                   의치 못하면 R을 사용해야 할 수도 있다. 관계형 데이터이면 S L을 사

                   용해야 하며, 유 스 환경에서 데이터 검토가 필요하면 유 스 스크 트

                   만이라도 사용할 줄 알아야 한다. 더 복 한 데이터 변환이나 가공이 필

                   요하면 C++나 자바 같은 언어를 고급 사용자처럼은 아니어도 기본 원리
                   를 이해하고 필요한 만  변형해서 사용할 줄도 알아야 한다. 그리고 빅

                   데이터를 가공해야 한다면 파이선(Python)이나 피그(Pig), 하이브(Hive) 또

                   는 맵리 스(MapReduce) 작업을 할 줄 알면 일하기가 한결 수월해진다.

                     물론 데이터 과학자는 데이터 플랫폼이나 데이터 인프라를 구축하는
                   인프라 엔지니어나 데이터 아키 처는 아니다. 데이터 과학자가 빅데이

                   터 관리를 하는 고급 기술자일 필요는 없다.  직히 NoS L이나 맵리

                   스를 사용하지 못해도  마든지 좋은 데이터 과학자가 될 수 있다. 하지

                   만 데이터 처리 작업을 위해 프로그 의 기본 원리나 기초는 반드시 익
                   히는 게 중요하다. 프로그  언어도 계속해서 진화하기 때문에 기본 원

                   리를 배워두는 것이 여러모로 도움이 된다.

                     필자가 초기에 배운 언어는 SAS, 코 , 포트란(FORTRAN)이었고, 그다

                   음으로 S L, C, C++, 유 스   스크 트(Unix Shell script)를 배웠다. 최
                   근에는 R, 피그, 하이브와 맵리 스를 배웠는데, R은    이 있게 배웠



               48
   45   46   47   48   49   50   51   52   53   54   55