Page 45 - 데이터과학 무엇을 하는가? 전자책
P. 45

등 다양한 통합이 이루어지는데, 적당한 식별 이 없어서 데이터를 활용
                     못하는 경우나 잘못 연결되어 품질상에 심각한 문제가 생기는 경우도 있

                     다. 또 식별 을 가지고도 비효율적으로 연결되거나 인 싱되어 많은 시

                     간을 허비하는 경우도 있다. 아무리 알고리즘을 잘 사용하고 데이터 전

                     처리를 잘하고 변환 변수를 잘 만들어도 원천 데이터의 품질에 문제가
                     있으면 좋은 결과를 얻는 것은 불가능하다. 그래서 데이터의 품질은 원

                     천 데이터가 수집되는 과정에서부터 누락되거나 잘못 기입되는 일이 없

                     도록 주의해야 한다.





                             다양한      경  마 하게  는 데이터   자


                             데이터 과학자는 다양한 플랫폼 환경에서 일해야 하 로 각

                     종 플랫폼 환경에 대한 지식도 있어야 한다. 빅데이터 시대라 유 스 종

                     류의 서버 환경에도 능숙해야 하지만 메인 프레임 환경도 알아야 한다.
                     그와 함께 레거시 데이터(legacy data)들을 이해           ▶레거시  데이터는  과거의
                                                               프로그래   언어로  개발된
                     하고  도우 네트워크 환경도 잘 이해하고 있어                 과거의 데이터를  한다.

                     야 한다.   오래 전에 데이터 웨어하우스를 유

                      스 서버에서 구축하던 중 IBM 메인 프레임에서 코 (COBOL) 프로그
                      으로 생성된 데이터를 가져와야  했었다. 그때 이 작업을 하기 위해서

                     JCL(Job Control Language, 작업 제어 언어)을 배웠다. 데이터가  무 커서 서

                     버에서 다  수가 없어 다시 메인 프레임 테이프(tape)에 저장된 데이터

                     로 작업을 한 적도 여러 번 있었다. 운영 비용 때문에 오래 전부터 대량의


                                                                                  43
   40   41   42   43   44   45   46   47   48   49   50