데이터 과학자 되기 - 8단계 과정
April 16, 2017
이 글은 "Karlijn Willems"님이 DataCamp 블로그에 올리신 "Learn Data Science - Infographic"라는 글을 한글로 옮겨 사용하여 글쓴이의 생각과 함께 남긴 것입니다. 데이터 과학자가 되는 과정을 8단계로 소개하는 내용입니다. 순서는 아래와 같이 원문의 것을 따릅니다.
위의 슬라이드에서는 수학, 통계, 기계학습을 온라인으로 공부할 수 있는 곳을 소개합니다. 칸 아카데미(Khan Academy), MIT OpenCourseWare (MIT OCW), OpenIntro Statistics, Udacity, DataCamp, Stanford Online, Coursera 등이 있습니다. 비슷한 국내 무료 강의는 KAIST의 KOOC, 서울대의 SNUON 등이 있습니다. 여러 가지 그래프를 직접 보면서 통계 이론을 배울 수 있는 이곳도 추천합니다.
DataCamp에 올라온 포스팅이라서 그런지 이 슬라이드에서는 DataCamp만 소개하고 있습니다. 하지만, learnpython.org에 가면, 브라우저에서 직접 코드를 입력하고 바로 확인하는 식으로 배울 수 있습니다. WikiDocs에 있는 왕초보를 위한 Python 2.7, 점프 투 파이썬 한글 자료로 배우는 것도 좋습니다. 어느정도 익숙하다면 PyData Book이나 The Hitchhiker's Guide to Python을 추천합니다.
R도 Code School - Try R에 가면 브라우저에서 직접 코드를 입력하고 바로 확인하는 식으로 배울 수 있습니다. 기본 문법을 익히고 R로 작업하는 것이 어느정도 익숙하다면 Hadley Wickham의 R for Data Science도 추천합니다.
데이터가 어떤 형태로 어떻게 저장되는지 그리고 저장된 것을 어떻게 불러오는지 이해하는 것은 중요합니다.
아무리 강조해도 지나치지 않을 정도로 정말 중요한 순서를 담고 있는 슬라이드입니다. 데이터 과학자는 이런 순서로 일을 합니다. 이 중에서도 탐험적 데이터 분석(Exploratory Data Anaalysis)에 해당하는 부분이 가장 중요한데, 이 글의 목적이 짧고 간결하게 각 과정을 다루는 것이니 여기에서는 자세히 다루지 않고 이 부분만 따로 떼어 하나의 글로 다루겠습니다.
비즈니스 환경은 급속도로 변하고 있고, 최신 이론, 분석 패키지나 라이브러리 등은 끊임없이 쏟아져 나오고 있습니다. 이러한 시대의 흐름에 뒤처지지 않기 위해 끊임없이 전문가들을 만나고 교류하며 배워야합니다. 이런 이유에서 특별히 데이터 과학자는 무엇이든 열린 마음으로 빠르게 잘 배울 수 있어야 합니다. 가장 빠르게 잘 배울 수 있고, 몸에 녹아들어가는 경험을 쌓을 수 있는 방법은 실제 연구나 프로젝트를 수행하는 것입니다. 지속적으로 데이터를 다루면서 자라가야합니다. 그렇지 않으면 무뎌지는 것은 한순간입니다. 당시에는 놀라운 결과였을지라도 한물 간 따분한 것으로 치부되는 것도 순식간에 벌어집니다. 어리고 뛰어난 사람들이 항상 치고 올라올 때 폼을 유지하더라도 능력의 격차를 줄어드는 것을 막기란 쉽지 않을텐데 경력 단절로 동향을 따라가지 못한다면 어떻겠습니까?
스스로 완벽하게 미친듯이 몰입하여 더욱 나아가는 것이 중요합니다.