Page 45 - 데이터과학 무엇을 하는가? 전자책
P. 45
등 다양한 통합이 이루어지는데, 적당한 식별 이 없어서 데이터를 활용
못하는 경우나 잘못 연결되어 품질상에 심각한 문제가 생기는 경우도 있
다. 또 식별 을 가지고도 비효율적으로 연결되거나 인 싱되어 많은 시
간을 허비하는 경우도 있다. 아무리 알고리즘을 잘 사용하고 데이터 전
처리를 잘하고 변환 변수를 잘 만들어도 원천 데이터의 품질에 문제가
있으면 좋은 결과를 얻는 것은 불가능하다. 그래서 데이터의 품질은 원
천 데이터가 수집되는 과정에서부터 누락되거나 잘못 기입되는 일이 없
도록 주의해야 한다.
다양한 경 마 하게 는 데이터 자
데이터 과학자는 다양한 플랫폼 환경에서 일해야 하 로 각
종 플랫폼 환경에 대한 지식도 있어야 한다. 빅데이터 시대라 유 스 종
류의 서버 환경에도 능숙해야 하지만 메인 프레임 환경도 알아야 한다.
그와 함께 레거시 데이터(legacy data)들을 이해 ▶레거시 데이터는 과거의
프로그래 언어로 개발된
하고 도우 네트워크 환경도 잘 이해하고 있어 과거의 데이터를 한다.
야 한다. 오래 전에 데이터 웨어하우스를 유
스 서버에서 구축하던 중 IBM 메인 프레임에서 코 (COBOL) 프로그
으로 생성된 데이터를 가져와야 했었다. 그때 이 작업을 하기 위해서
JCL(Job Control Language, 작업 제어 언어)을 배웠다. 데이터가 무 커서 서
버에서 다 수가 없어 다시 메인 프레임 테이프(tape)에 저장된 데이터
로 작업을 한 적도 여러 번 있었다. 운영 비용 때문에 오래 전부터 대량의
43