Page 50 - 데이터과학 무엇을 하는가? 전자책
P. 50
데이터 전 리를 위한 분석 프로그램 언어
데이터를 전처리하고 가공하기 위해서 데이터 과학자는 프로그 언
어의 기본 원리도 알아야 한다. 다양한 프로그 언어가 있지만, 작업 특
성상 특정 프로그 언어를 꼭 사용해야 할 때는 프로그 규칙(Syntax)
만 배워서 바로 사용할 줄도 알아야 한다. 예를 들어, SAS 사용자라도 여
의치 못하면 R을 사용해야 할 수도 있다. 관계형 데이터이면 S L을 사
용해야 하며, 유 스 환경에서 데이터 검토가 필요하면 유 스 스크 트
만이라도 사용할 줄 알아야 한다. 더 복 한 데이터 변환이나 가공이 필
요하면 C++나 자바 같은 언어를 고급 사용자처럼은 아니어도 기본 원리
를 이해하고 필요한 만 변형해서 사용할 줄도 알아야 한다. 그리고 빅
데이터를 가공해야 한다면 파이선(Python)이나 피그(Pig), 하이브(Hive) 또
는 맵리 스(MapReduce) 작업을 할 줄 알면 일하기가 한결 수월해진다.
물론 데이터 과학자는 데이터 플랫폼이나 데이터 인프라를 구축하는
인프라 엔지니어나 데이터 아키 처는 아니다. 데이터 과학자가 빅데이
터 관리를 하는 고급 기술자일 필요는 없다. 직히 NoS L이나 맵리
스를 사용하지 못해도 마든지 좋은 데이터 과학자가 될 수 있다. 하지
만 데이터 처리 작업을 위해 프로그 의 기본 원리나 기초는 반드시 익
히는 게 중요하다. 프로그 언어도 계속해서 진화하기 때문에 기본 원
리를 배워두는 것이 여러모로 도움이 된다.
필자가 초기에 배운 언어는 SAS, 코 , 포트란(FORTRAN)이었고, 그다
음으로 S L, C, C++, 유 스 스크 트(Unix Shell script)를 배웠다. 최
근에는 R, 피그, 하이브와 맵리 스를 배웠는데, R은 이 있게 배웠
48