Data Mining vs. Data Science
May 7, 2018
일하다보면 다음과 같은 이야기를 가끔 듣습니다.
"데이터 과학, 사실 그거 알고보면 다 데이터 마이닝 시절부터 있던 겁니다. 별로 새로운 것이 없습니다."
이 글에서는 크게 2가지 관점에서 데이터 마이닝과 데이터 과학을 비교하여 무엇이 새로운지 살펴보겠습니다.순전히 개인적인 의견입니다. 아직은 초안입니다. 시간 생기는대로 업데이트하려고 합니다.
- 1. 데이터
- 2. 업무 수행
1. 데이터: 데이터 종류, 데이터 관련 기반 기술 등 포함
데이터 마이닝(90년대 후반 ~ 2007 또는 2008)
- 제조업 생산 관련 정보: 설비, 수율 등
- 금융/카드 회사 고객 정보
데이터 과학(2010 ~ 현재)
- 위의 데이터 마이닝 포함
- 스마트폰 사용 패턴 데이터: 앱 사용, 각종 통신사 고객 사용 패턴 등
- 게임 데이터: 자체 경제 시스템, 사용자 데이터 등
- 검색 엔진 트렌드 데이터
- 이미지 데이터: 딥러닝 관련
- 음성 데이터: 딥러닝 관련
- 대화형 데이터 시각화 Interactive Data Visualization
- High Availability Hadoop Ecosystem
2. 업무 수행
데이터 마이닝(90년대 후반 ~ 2007 또는 2008)
- 프로그래밍 언어: 컴파일 + 스크립팅(느림)
- 직접 구현 또는 비싼 상용 프로그램: 문서화 ㅠㅠ 유지 보수 ㅠㅠ
데이터 과학(2010 ~ 현재)
- 훨씬 더 빠른 스크립팅 언어: 예) Intel® Python + Cython
- 오픈소스 대중화, GitHub
- 훨씬 더 가볍고 빠르게 작업: Jupyter notebook
- 자동화된 문서화 도구
- 웹 기반 공동 작업 환경: Google Colab 등
마무리하며
현재의 데이터 과학 분야는 이전의 데이터 마이닝 분야를 포함합니다. 하지만 예전과 다를바가 없다고는 말하기 힘듭니다. (업데이트 예정)
이 글의 맨 앞에서 소개한 이야기로 돌아가봅시다. 개인적으로는 어느정도 일리가 있는 이야기라고 생각합니다. 즉, 예전부터 있었던 해오던 데이터 마이닝 업무의 연장선상에서 언어만 Python 이나 R 로 바꾸고 데이터 과학 업무한다고 주장하는 것을 가리켜 반발하는 것 같습니다. 업무 수행 전반을 아우르는 패러다임까지 변해야 현대적인 데이터 과학자라고 할 수 있겠습니다. (업데이트 예정)
데이터 마이닝 업무에서 데이터 종류, 분석 기법, 추가된 변수 등이 없는데도 데이터 과학 시대라고 떠들면서 무분별하게 편승하는 행태도 잘 구별할 필요가 있겠습니다.