데이터 과학은 정말로 과학인가?

Is data science real science?

August 27, 2017

과학은 단순히 지식의 집합이 아닙니다. 생각하는 방법입니다.

칼 세이건

제목의 질문을 다음과 같이 바꿀 수도 있겠습니다. "데이터 과학자"Jeff HammerbacherDJ Patil이 새로운 직업을 설명할 때 처음으로 사용한 단어라고 합니다.는 정말로 "과학자"인가? 이외에도 관련된 여러 파생 질문이 가능하겠습니다만, "데이터", "과학", "과학자" 이렇게 세 가지 단어의 정의를 각각 살펴보고 종합하여 현실과 일관적인지 따져보면, 그리 만족스럽진 않더라도 첫 시작으로는 꽤 괜찮은 답을 할 수 있겠습니다.

제가 직접 질문에 답하기 보다는, 앞서 고민한 사람들의 이야기를 먼저 살펴보는 것이 좋겠습니다. 아래는 미국 시카고 대학교의 Rayid Ghani 님이 2013년 7월 13일 블로그에 작성하신 글출처: Is Data Science a Real Science? 중에서 일부를 제가 한글로 옮긴 것입니다.

저를 포함하여 많은 사람들은 종종 "과학"이라는 단어가 들어가면 아마도 진짜 과학이 아닐 것이라고 말합니다. 컴퓨터 과학, 정치 과학, 사회 과학, 로켓 과학...엄밀하게 이야기하면
이러한 것들은 공학이거나 인문학입니다.
과학과 공학은 다릅니다.
과학이 자연의 원리를 이해하는 학문이라면,
공학은 과학에서 얻은 원리를
인류를 위해 응용하는 학문입니다.
거기에 어떤 진실이 있다고 해도, 완전하게 신뢰하진 않습니다. 그렇다면 데이터 과학은 어떻겠습니까?

뭐, 현재의 데이터 과학이라는 단어와 (분야와 관련하여) 비슷한 신조어들이 많습니다(이 단어가 어떤 의미가 있는지는 잠시 무시하고, 이 단어를 잠시 데이터 마이닝, 기계 학습, 애널리틱스 등의 다른 데이터 관련 신조어의 유의어로 부릅시다.) 기업들은 뭔가를 합리적인 방식으로 하는 것에 어떠한 가치가 있다는 것을 깨닫고 있습니다. 데이터를 모으는데 더 많은 자원을 투자하고 있습니다. 심지어 데이터를 무엇을 할 수 있는지 묻고 있습니다. 사실 데이터 주도(data driven) 분석에 기반하여 판단을 내리는 방식으로 변하는 것은 정말 혁신적인 모습입니다.

그렇다고 해서 이러한 모습이 데이터 과학을 과학으로 만들어주겠습니까? 사실 그렇지 않습니다. 데이터를 가지고 의사결정을 향상시키는 것은 좋고 쓸모 있는 일입니다만 그렇다고해서 과학은 아닙니다. 동시에, 저 같은 사람이 하는 일에는 분명히 수많은 과학이 깔려 있습니다. 과학에 근거하여 모델을 세웁니다. 통계적이고 과학적인 타당성을 가지는 실험들을 합니다. 일반화하는, 예견하는, (필요한 경우에) 어떤 때는 설명력과 인과력을 가진 예측값들을 냅니다. 이것이 과학입니다.

어떤 사람들은 제 의견에 동의하지 않고, 훌륭하고 오래된 "생성 가설", "실험 실행", "과학에 대한 이론적 접근" 등의 방식을 고수할 수 있겠지만 저는 그것이 유일한 과학적 방식이라고 생각하지 않습니다. 수많은 진짜 과학은 가설과 관련이 있지만, 그 중 많은 부분은 답을 찾는 것과 그 답을 제공 할 수 있는 시스템을 만들 필요에서 유래합니다.

저는 분명히 좋은 데이터 과학자는 데이터 해커와 다르다고 생각합니다. 데이터 해킹은 확실히 쓸모가 있습니다만 (그리고 가치가 있기도 합니다만) 적절한 주의 사항, 제한 사항, 고지 사항 등을 수반하지 않을 경우 위험합니다.

(중략)

두 가지 이야기를 말씀드리려고 합니다. 첫 번째는 다음과 같습니다. 큰 회사가 허리케인이 생기기 몇 달 전에 허리케인을 예측하는 것을 부탁했습니다. 그 회사는 데이터에 관한 과장 광고를 들었고, 허리케인에 관한 지난 100년간의 데이터가 있었기 때문에, 데이터를 많이 보유할 수록 무엇이든 예측할 수 있다고 생각했습니다(아니면 일부 전문가의 말을 단순하게 인용했을 수도 있습니다). 이렇게 데이터를 모으는 작업이 1년 뒤 일어날 일을 예측할 수 있도록 만들지 않습니다.산업계에서는 과학자만 모여있지는 않기 때문에 이런 상황이 쉽게 일어날 수 있습니다. 일어나도 비웃거나 무시하지 않도록 주의합시다. 누구나 모르면 실수할 수 있습니다.

(중략)

답변을 할 수 있다는 것은 중요합니다만, 여러분이 얻은 답이 적합한지 판단하는 능력도 똑같이 중요합니다. 여러분의 분석 방식을 언제 적용할지 적용하지 말아야 하겠습니까? 그것이 얼마나 일반화되겠습니까? 여러분은 어떤 가정을 세우셨습니까?

그래서, 저는 분명히 데이터 과학에 수많은 과학적인 요소가 있다고 생각하고, 이러한 작업을 하기 위해 과학적인 전문성이 필요하다고 생각하고, 이러한 작업을 할 때 과학적인 원리를 따를 필요가 있다고 생각하며, 그리고 이러한 것들을 익히는 작업이 여러분을 더욱 훌륭한 (가치있는) 데이터 과학자가 되도록 만든다고 생각합니다.같은 주제를 다루는 또 다른 글에서도 열린 마음으로 다른 사람들의 합리적인 의견을 수용하는 것, 비판 등 과학적 원리와 과학적 가치가 "데이터 과학자"에게 있어서 중요하다고 강조합니다. 이렇게 하지 않는 사람들이 얻은 결과는 아무리 좋아보여도 신뢰하기 어렵습니다. 나는 데이터 과학이 유용한 과학이라면, 그것이 진짜 과학이건 가짜 과학이건 상관 없다고 생각합니다.

데이터 과학은 과학이 아니다

위에 인용한 글의 저자의 이야기처럼, "데이터 과학"을 "과학"으로, "데이터 과학자"를 "과학자"로 볼 수는 없겠습니다. 학계와 산업계를 통틀어 흔히 "데이터 과학자"로 불리는 사람들이 하는 일을 보면, 원인과 결과 사이의 관계이러한 인과 관계와 상관 관계를 혼동하지 않는 것은 아무리 강조해도 지나치지 않습니다.를 밝혀내는 일이 거의 없기 때문에, 오히려 "데이터 공학"이나 "데이터 공학자"라고 부르는 것이 훨씬 적절할 것 같습니다. 특히, 산업계에서는 돈을 잘 버는 기법이 최선이고 회사 정치에 따라 "데이터 과학자"가 문제를 해결하려는 상황에서 비과학적인 노가다 접근 방식을 강요 받을 가능성을 배제할 수 없기에 "과학자"로 부르기 더 힘들 것 같습니다.

하지만, 무비판적으로 수용하여 널리 퍼져 이미 "데이터 과학"이라는 단어가 굳어가고 있다는 것도 무시할 수 없는 사실입니다. 그리고 위에 인용한 글의 시작 부분에서도 이야기하듯이 "데이터 과학"을 따질 때는 "과학" 단어가 들어가지만 엄밀하게는 과학이 아닌 다른 분야도 똑같이 따지고 들어가야 공평하겠습니다. 물고 늘어지기 좋아하는 사람도 있기 마련이고, 개떡같이 말해도 찰떡같이 알아듣는 사람도 있기 마련이니, 개인적으로는 "데이터 과학"이나 "데이터 과학자"라는 단어 자체를 설명해야할 때는 오해를 줄이는 방향으로 엄밀하게 하되, 어떤 일을 하고 있는지 위주로 전달할 생각입니다.

하지만 미래에는 과학이 될 수도 있다

"데이터 과학자"는 앞으로 어떻게 변할 것인지 궁금합니다. 이러한 궁금증을 해소하기 위해 여러가지 추측을 누구나 자유롭게 할 수 있겠지만, 앞으로 어떤 특징을 가진 데이터가 어디에서 어떻게 나올지와 밀접하게 관련이 있다고 보는 것이 가장 가까운 답일 것 같습니다. 사물인터넷(IoT)에서 앞으로 쏟아져 나올 데이터와 관련하여 이야기를 풀어나가는 것이 실현 가능성이 꽤 높은 편이라고 생각합니다. Dell EMC Services의 CTO인 Bill Schmarzo가 데이터 과학자의 정체성과 IoT를 주제로 2017년 1월 30일 작성한 글이 글의 제목도 "데이터 과학은 정말로 과학인가?(Is Data Science Really Science?)"입니다.이 있는데 일부를 한글로 옮겨 아래에 인용하였습니다.

사물 인터넷과 왜의 "탄생"

사물 인터넷(IOT; the Internet of Things) 시대에는 왜 특정한 입력이 예측 가능한 출력으로 나오는지 이해하고 문서화하는 일이 기업들에게 필요할 것입니다. 예를 들면, 제조업체들이 다음과 같은 질문에 답변하려고 노력하는 것을 통해, 어떤 제품의 특정 구성 요소들이 왜 자주 고장 났는지 이해하고 목록으로 만드는 것이 중요하게 될 것입니다.

- 구성 요소를 만드는 데 사용 된 재료 때문에 고장났습니까?
- 구성 요소의 설계 때문에 고장났습니까?
- 구성 요소의 사용 때문에 고장났습니까?
- 구성 요소의 설치 때문에 고장났습니까?
- 구성 요소의 유지 보수 때문에 고장났습니까?

IOT 세상이 다가올 수록, 분석(analytics)과 물리학의 협업이 늘어나는 것을 보기 시작할 것입니다. GE 같은 회사들이 "디지털 쌍둥이(Digital Twins)"라는 개념을 가지고 하고 있는 일을 보시길 바랍니다.

디지털 쌍둥이는 산업용 인터넷을 통해 새로운 사업 및 서비스 모델을 성장시키고 창출하기 위해, (제트 엔진에서 기관차까지) 모든 기계의 디지털 모델 또는 쌍둥이를 구축하는 작업을 포함합니다.

디지털 쌍둥이는 다양한 용도로 사용할 수 있는 물리적 자산들의 전산화된 동반자입니다. 디지털 쌍둥이는 실제 물체에 설치된 센서의 데이터를 사용하여 실시간 상태, 작동 상태 또는 위치를 나타냅니다.

GE는 제품 및 구성 요소의 물리적 구조를 반영하는 디지털 모델을 구축하고 있습니다. 이를 통해 새로운 제품 개발을 가속화 할 수 있으면서, 많은 상황에서 제품을 테스트하여 평균 고장 시간, 스트레스 저항력 및 구조적 부하와 같은 측정 기준을 결정할 수 있습니다.

물리학의 세계와 IOT가 충돌함에 따라, 디지털 세계가 물리학, 공기 역학, 화학 및 전기와 같은 학문을 지배하는 법칙에 의해 지배되기 시작할 때, 데이터 과학자는 더욱 더 다른 "과학자"와 같이 변해갈 것입니다.

제가 물리학과 출신이라서 그런지 위와 같은 미래를 빠른 시일 내에 만날 수 있기를 그리고 진정한 "과학자"의 정체성을 가지고 활동할 "데이터 과학자"가 늘어나길 기대합니다. 방대한 양의 제조업 데이터가 축적되고 있는 것과 이를 분석하는 이들이 점차 늘어나는 추세를 볼 때, 어쩌면 그리 먼 미래는 아닌 것 같기도 합니다. 그리고 이러한 활동 역시 기존 데이터 분석을 대체하기보다는 분석 업무의 지평을 넓히는 형태가 될 것 같습니다.

데이터 과학은 정말로 과학인가? - August 27, 2017 - Daniel Kim, PhD