Articles
-
Data Mining vs. Data Science
May 7, 2018
일하다보면 다음과 같은 이야기를 가끔 듣습니다.
"데이터 과학, 사실 그거 알고보면 다 데이터 마이닝 시절부터 있던 겁니다. 별로 새로운 것이 없습니다."
이 글에서는 크게 2가지 관점에서 데이터 마이닝과 데이터 과학을 비교하여 무엇이 새로운지 살펴보겠습니다.순전히 개인적인 의견입니다. 아직은 초안입니다. 시간 생기는대로 업데이트하려고 합니다.
- 1. 데이터
- 2. 업무 수행
-
Ubuntu 16.04 Desktop에서 NVIDIA 최신 driver 쉽게 설치하기
February 19, 2018
Ubuntu 16.04 Desktop 버전에서 NVIDIA 최신 드라이버를 나름 쉽게 설치하는 방법입니다.
-
산업계 데이터 과학 업무에서 조심해야 할 10가지 오류
October 27, 2017
"현재 머신러닝과 데이터 과학을 둘러싼 과장 광고가 많은 것이 사실이다. (중략) 학계에서 최첨단 기술로 무언가를 할 줄 아는 것과 실제 이뤄낸 것 사이에는 엄청난 격차가 있다."출처:
머신러닝·오픈소스로 확 바뀐 블룸버그, 어떻게? (CIO Korea)이 글은 Shane Brennan 님이 2017년 9월 18일 Medium에 작성하신 글을 제가 한글로 옮긴 것입니다.출처: The Ten Fallacies of Data Science 이 글에서는 주로 공부를 마치고 취직한지 얼마되지 않은 신입 데이터 과학자가 산업계에서 데이터 과학 업무를 맡으며 겪게 되는 상황들을 작업 순서에 따라 다룹니다. 그리고 이제 막 산업계로 옮긴 이들이 일을 하는 과정에서 놓치기 쉬운 부분과 흔히 저지르기 실수들도 소개합니다.
이 글에서 다루는 상황들이 어쩌면 학계에 비해 국내외 기업들을 우회적으로 비하하는 것으로 비춰질 수도 있겠으나, 데이터 기반, 분석 기반, 더 나아가 AI 기반 사업이나 프로젝트를 추진하는 회사라면, 이 글에서 언급하는 사례가 회사 사업이나 프로젝트에 있지는 않은지 점검해보는 것도 괜찮을 것 같습니다.
원문 제목에는 산업계라는 단어가 없지만, 해당 단어는 본문 내용과 관련이 깊기에 한글로 옮기며 추가했습니다. 초벌 번역 수준이라 어색하거나 잘못 옮긴 부분이 있을 수 있습니다. 이러한 오류나 좀 더 자연스러운 표현 등의 제안은 댓글로 남겨주시면 확인하는대로 수정하도록 하겠습니다. 혹시 저작권 관련하여 문제가 생기면 바로 삭제하겠습니다. 모든 측주(sidenote)는 옮긴이가 남긴 것입니다. 참고하시길 바랍니다. 아래부터 옮긴 글의 내용입니다.
-
데이터 과학은 정말로 과학인가?
August 27, 2017
과학은 단순히 지식의 집합이 아닙니다. 생각하는 방법입니다.
제목의 질문을 다음과 같이 바꿀 수도 있겠습니다. "데이터 과학자"Jeff Hammerbacher와 DJ Patil이 새로운 직업을 설명할 때 처음으로 사용한 단어라고 합니다.는 정말로 "과학자"인가? 이외에도 관련된 여러 파생 질문이 가능하겠습니다만, "데이터", "과학", "과학자" 이렇게 세 가지 단어의 정의를 각각 살펴보고 종합하여 현실과 일관적인지 따져보면, 그리 만족스럽진 않더라도 첫 시작으로는 꽤 괜찮은 답을 할 수 있겠습니다.
-
논문 한글 요약 - arXiv:1608.07249v7
May 10, 2017
이 글은 "Benchmarking State-of-the-Art Deep Learning Software Tools"라는 제목의 논문(arXiv:1608.07249v7) 내용을 아주 간단하게 요약한 것입니다. 논문에서는 최신 딥러닝 소프트웨어 5가지Caffe, CNTK, MXNet, TensorFlow, Torch의 단위 학습량 당 걸리는 시간을 크게 3가지CPU only, single GPU, multi-GPU 상황에서 3가지 신경망Fully Connected Network (FCN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN)을 단위 학습량 규모를 바꾸면서 비교합니다. 내용 요약은 다음과 같습니다.
-
대한민국 시군구 행정구역 TopoJSON 지도(2016년2월)
April 29, 2017
작업하는 자료를 d3.js로 대한민국 시군구 단위로 시각화하려는데 최신 TopoJSON 지도 파일을 찾기 힘들었습니다. 찾을 수 있는 파일에서는 세종시가 없거나, 세종시가 있더라도 청주 청원구와 서원구2014년 7월 1일 청원군과 통합하면서 청원구와 서원구가 새로 설치되었습니다.가 없었습니다. 그래서 대한민국 시군구 TopoJSON 지도를 직접 만들었습니다. 이 글에서는 만든 과정과 결과 파일을 소개하겠습니다.
-
대학원생 그래프에 반드시 필요한 것들
April 23, 2017
이 글에서는 대학원생이 그래프를 그릴 때 꼭 해야할 것을 이야기하려고 합니다. 여기에서 이야기하는 내용은 아주 중요한 필수 사항입니다. 이러한 필수 사항을 안 챙기고 그림을 급하게 그려서 지도 교수님께 가져가면 거의 100% 혼날 것입니다.지도 교수님의 성격이 좋으면 안 혼나겠습니다. 물론 잘 그려가도 혼날 수 있습니다.
-
탐험적 데이터 분석
April 22, 2017
아래는 Hadley WickhamR 사용자들이 지금까지 가장 많이 내려받은 패키지인 dplyr와 ggplot2를 만든 사람입니다.이 지은 R for Data Science 1장과 2장에 있는 그림입니다. 이 글에서는 아래의 그림에 나타난 순서대로 탐험적 데이터 분석의 각 과정을 소개하고 특별히 모델링에 관한 내용을 강조하겠습니다.아주 짧게 결론부터 이야기하면, 이 모델링에서 가치가 창출되기 때문입니다. 구체적인 내용은 아래에서 다루겠습니다. 그리고 일반적인 과학 활동보다는 비즈니스 상황에서 데이터 과학자가 일하는 방식, 겪게되는 상황 등을 위주로 다루겠습니다.
-
데이터 과학자 되기 - 8단계 과정
April 16, 2017
이 글은 "Karlijn Willems"님이 DataCamp 블로그에 올리신 "Learn Data Science - Infographic"라는 글을 한글로 옮겨 사용하여 글쓴이의 생각과 함께 남긴 것입니다. 데이터 과학자가 되는 과정을 8단계로 소개하는 내용입니다. 순서는 아래와 같이 원문의 것을 따릅니다.
-
DQN-tensorflow on Windows 7 and 10
April 8, 2017
이 글의 목적은 고전 게임을 심층강화학습하는 코드인 DQN-tensorflow를 Windows 7이나 10에서 실행하는 방법을 소개하는 것입니다. 혹시 코드와 관련된 이론적인 배경이 궁금하시다면 논문을 직접 읽어보시거나 천상혁님의 논문 리뷰를 참조하시길 바랍니다.
-
6.4.4.10. 계절적인 데이터에 대한 박스-젠킨스 분석
November 25, 2016
시계열 G 이 예제에서는 Box, Jenkins, and Reinsel 1994에 있는 시계열 데이터 G를 사용하여 계절적인 데이터에 대한 박스-젠킨스 시계열 분석 방법을 다룰 것이다. 아래 그림에서 볼 수 있듯이 144개의 관측값이 있다.
-
6.4.4.9. 단변량 박스-젠킨스 분석 예제
November 25, 2016
시계열 F Box, Jenkins, and Reinsel, 1994에 있는 시계열 F 데이터를 살펴보자. 다음 그래프에서 볼 수 있는 것처럼 원본 데이터에는 70개의 점이 있다.
-
6.4.4.8. 박스-젠킨스 모델 진단
November 25, 2016
안정적인 단변량 과정에서 가정 박스-젠킨스 모델에서 모델을 진단하는 것은 비선형 최소 제곱법 맞춤에서 모델을 검증하는 것과 비슷하다.
즉, 오차 항 \(A_{t}\)가 정상적인 단변량 과정의 가정을 따른다고 가정한다. 원 데이터에서 맞춘 곡선을 뺀 나머지는 일정한 평균과 분산을 가지는 어떤 고정된 분포에서 나온 백색 소음일 것이다(아니면 분포가 정규 분포면 독립적). 박스-젠킨스 모델이 데이터에 잘 맞는 모델일면, 나머지는 이러한 가정에 잘 맞을 것이다.
이러한 가정이 맞지 않으면, 좀 더 적절한 모델로 맞출 필요가 있다. 즉, 모델 판별 과정으로 돌아가서 좀 더 나은 모델을 찾아야 한다. 나머지 분석이 더 적절한 모델을 만드는 데 단서가 되기를 바란다.
-
6.4.4.8.1 박스-융 테스트
November 25, 2016
적합성에 대한 테스트 박스-융 테스트(1978)는 시계열이 모델에 잘 맞는지 진단하는 방법이다.
데이터를 ARMA(p,q) 모델로 맞춘 다음, 시계열의 나머지에 테스트를 적용하면 된다. 테스트에서 나머지에 대한 m개의 자기상관을 검사한다. 자기상관이 아주 작다면, 모델이 적합하지 않다고 말할 수 없다는 결과를 준다.
-
6.4.4.7. 박스-젠킨스 모델 측정
November 25, 2016
소프트웨어 사용 박스-젠킨스 모델에서 매개변수를 측정하는 것은 상당히 복잡한 비선형 계산 문제이다. 이러한 이유에서, 매개변수 측정은 박스-젠킨스 모델을 잘 맞추는 좋은 소프트웨어의 몫으로 남겨두자. 다행히, 요즘은 많은 상용 통계 소프트웨어에서 박스-젠킨스 모델로 맞출 수 있다.
-
6.4.4.6 박스-젠킨스 모델 판별
November 25, 2016
정상성과 계절성 박스-젠킨스 모델을 다룰 때 첫 번째 단계는 시계열이 정상적(stationary)인지와 모델링이 필요한 의미있는 계절성이 있는지 확인하는 것이다.
-
6.4.4.6.3. 부분 자기상관 그래프
November 25, 2016
목적: 박스-젠킨스 모델 판별 부분 자기상관 그래프(Box and Jenkins, pp. 64-65, 1970)는 박스-젠킨스 모델 판별 과정에서 흔히 사용하는 방법이다.
\(k\) 뒤처짐에서 부분 상관은 \(1\) 뒤처짐 부터 \(k-1\) 뒤처짐으로 설명하지 않은 \( X_{t} \)와 \( X_{t-k} \) 사이의 자기상관이다.
여기에서 소개하지 않았지만 표본 자기상관에 기초를 두고 부분 자기 상관을 계산하는 다른 알고리즘도 있다. 자세한 내용은 Box, Jenkins, and Reinsel 1970 이나 Brockwell, 1991을 보라.
특별히, 부분 자기상관은 자동회귀 모델의 차수를 판별할 때 사용하면 좋다. \( AR(p) \) 과정의 부분 상관은 \(p+1\) 이상의 뒤처짐에서 0이다. 표본 자기상관 그래프가 어떤 AR 모델이 적합할 수도 있다는 것을 보여주면, 차수를 판별하기 위해 표본 부분 자기상관 그래프를 확인하자. 부분 자기상관이 0이 되기 시작하는 점을 보자. 이 때 통계적 유의미함에 대한 95% 신뢰 구간을 사용하면 좋다.
근사적으로 부분 자기상관에 대한 95% 신뢰 구간은 \( \pm 2 / \sqrt{N} \) 이다.
-
6.4.4.6.2. 이산화탄소 농도 데이터에서 모델 판별
November 25, 2016
월별 이산화탄소 농도 에제 두 번째 예제는 월별 이산화탄소 농도 데이터이다. 첫 번째 예제처럼, 먼저 정상성을 확인하기 위해 진행 순서 그래프(Run sequence plot)를 보자.
-
6.4.4.6.1. 남방 진동 데이터에서 모델 판별
November 25, 2016
남방 진동 예제 두 개의 서로 다른 예제에 대해 박스-젠킨스 모델링에서 시계열의 그래프로 모델 판별하는 과정을 살펴보자.
첫 번째 예제는 남방 진동 데이터이다. 먼저, 정상성(stationarity)과 계절성(seasonality)을 고려해야 하는지 판단하기 위해 진행 순서 그래프와 계절적인 부 시계열 그래프를 보자.
-
6.4.4.5. 박스-젠킨스 모델
November 25, 2016
박스-젠킨스 접근법 박스-젠킨스 ARMA 모델은 (이전에 살펴본 것처럼) AR과 MA 모델을 결합한 것이다. $$ \begin{align*} X_{t} =& \delta + \phi_{1} X_{t-1} + \phi_{2} X_{t-2} + \cdots + \phi_{p} X_{t-p} + \\ & A_{t} - \theta_{1} A_{t-1} - \theta_{2} A_{t-2} - \cdots - \theta_{q} A_{t - q} \end{align*} $$ 위의 식은 AR과 MA 모델에서 봤던 것과 크게 다르지 않다.
-
6.4.4.4. 단변량 시계열을 다루는 일반적인 방법
November 25, 2016
시계열을 모델링하는 여러가지 방법이 있다. 아래에서 가장 일반적인 몇 가지 방법들을 살펴보자.
추세, 계절적인, 나머지 분해 한 가지 방법은 시계열을 추세, 계절적인 부분, 나머지 성분으로 분해하는 것이다.
삼중 지수 평활법은 이 접근 방식의 한 예이다. 또 다른 예는 클리브랜드Cleveland가 1993년에 언급한 계절적인 loess라고 하는 방법인데, 지역적 가중치 최소 제곱법(locally weighted least squares)에 근거한다. 여기에서는 계절적인 loess방법은 다루지 않는다.
-
6.4.4. 단변량 시계열 모델
November 23, 2016
지수 평활법은 유용하다고 입증된 방법이다 "단변량 시계열" 용어는 일정한 시간 간격에 따라 순서대로 기록한 한 종류의 (스칼라 scala) 관측값들로 구성되는 시계열이다. 월별 평균 이산화탄소 농도와 엘니뇨 현상을 예측하가 위한 남방 진동 같은 데이터가 이에 해당한다.
보통 단변량 시계열이 한 열(column)을 구성하는 숫자로 주어지긴 하지만, 사실상 시계열 자체에 이미 시간 변수가 있는셈이다. 데이터를 시간 축에서 같은 간격으로 기록했다면, 시간 변수나 색인 등을 일일이 분명하게 보여줄 필요가 없다. 물론, 시계열로 그래프를 그릴 때는 시간 변수를 분명하게 나타내야 한다. 하지만, 시계열 모델 자체에서는 그렇게 하지 않는다.
-
6.4.4.3. 계절성(Seasonality)
November 23, 2016
계절성 많은 시계열은 계절성을 나타낸다. 계절성은 주기적인 변동을 의미한다. 예를 들면, 소매 형태 판매량의 시계열은 크리스마스 기간에 최고조에 다다르고 나서 기간이 지나면 감소한다. 그래서 소매 형태 판매량의 시계열은 보통 9월부터 12월까지 증가하는 추세를, 1월과 2월에 감소하는 추세를 보인다.
경제 분야 시계열에서 계절성은 아주 흔한 현상이지만, 공학이나 과학 분야 시계열에서는 그렇지 않다.
계절성이 나타나면, 시계열 모델에서 반드시 고려해야 한다. 이 절에서는 계절성을 감지하는 기법을 살펴보자. 계절성을 모델링하는 작업은 이후의 절에서 다루겠다.
-
6.4.4.3.1. 계절적인 부 시계열 그래프
November 23, 2016
목적 계절적인 부 시계열 그래프(클리브랜드Cleveland 1993)는 시계열에서 계절성을 감지하기 위한 도구이다.
이 그래프는 계절성의 주기를 이미 알고 있을 때만 쓸모 있다. 사실 많은 경우에, 주기를 알 수 있다. 예를 들면, 보통 월별 데이터의 주기는 12이다.
주기를 모른다면, 주기를 결정하기 위해 자기 상관 그래프나 분광 그래프(spectral plot)를 사용하면 된다.
-
6.4.4.2. 정상성(Stationarity)
November 23, 2016
정상성 흔히 많은 시계열 기법들은 데이터가 정상적(stationary)이라고 가정한다.
정상 과정(stationary process)은 평균, 분산, 자기상관 구조가 시간에 따라서 변하지 않는 특징이 있다. 정상성은 정확한 수학적 용어로 정의할 수 있지만, 이 글에서는 추세를 무시하면, 분산이 일정하고, 시간에 따라 일정한 자기상관 구조가 있으며, 주기적인 변동(계절성)이 없는 평평한 시계열 정도로 이야기하면 충분하다.
실용적인 목적에서 보통 진행 순서 그래프(run sequence plot)를 보고 정상성을 판단할 수 있다.
-
6.4.4.1. 표본 데이터
November 23, 2016
표본 데이터 이 절에서는 아래 두 가지 데이터를 사용한다.
1. 월별 평균 이산화탄소 농도 2. 남방 진동
-
6.4.4.1.2. 남방 진동 데이터
November 23, 2016
출처와 배경 남방 진동(Southern Oscillation)은 해수면에서 기압계로 타히티(Tahiti)와 다윈섬(the Darwin Islands)의 기압차로 정의한다. 남방 진동은 차례차례 세계 기후 변화를 이끄는 원인으로 불리는 엘니뇨의 예측 변수(predictor)이다. 특별히 반복적으로 -1보다 작게 나타나는 남방 진동값을 엘니뇨로 정의한다. 메모: 두 번째 열에서 소수점 값은 (월 값 - 0.5)/12 로 구한 것이다.
-
6.4.4.1.1. 월별 평균 이산화탄소 농도
November 23, 2016
출처와 배경 이 데이터는 마우나 로아 관측소에서 1974년부터 1987년까지 선별한 월별 평균 이산화탄소 농도를 관측한 것이다. 이산화탄소 농도는 미 국립 해양 대기청(National Oceanic and Atmospheric Administration; NOAA) 대기 자원 연구소의 기후변화 부서에서 지구 물리학적 모니터링용 연속적인 적외선 분광기로 측정하였다. '환경 조건'의 근사치를 위해 선별작업을 하였다. 토닝과 공동 연구자들이 "마우나 로아 관측소에서 대기 중 이산화탄소: 1974년부터 1985까지 NOAA/GMCC 데이터 분석"이라는 제목으로 지구 물리 연구지에 제출한 논문을 보면 자세한 내용이 있다.(Thoning et al., "Atmospheric Carbon Dioxide at Mauna Loa Observatory: II Analysis of the NOAA/GMCC Data 1974-1985", Journal of Geophysical Research)
이 데이터는 1988년 NOAA의 짐 엘킨스가 제공한 것이다.
-
터프티Tufte CSS
November 21, 2016
터프티Tufte CSS는 에드워드 터프티의 책과 유인물(handout)에 있는 개념을 가지고 웹문서를 디자인할 때 필요한 기능을 제공합니다. 터프티 양식은 간결함, 측주(sidenote), 글과 긴밀하게 엮인 그림, 신중하게 선택한 글씨체 등으로 알려져 있습니다.
데이브 리프만Dave Liepmann이 터프티 CSS를 제작하였고 터프티 CSS는 이제 에드워드 터프티 프로젝트의 일부입니다. 처음에 터프티-LaTeX 와 R Markdown’s 터프티 유인물 포맷을 모방하는 것에서 시작했습니다. 이러한 프로젝트에 공헌한 모든 사람에게 진심으로 감사의 말을 전합니다.
터프티 CSS에 개선할 부분을 발견하시면, Github tufte-css 프로젝트에서 issue나 pull 요청 형태로 참여하세요. 기여하실 때 참고 사항을 유의하시길 바랍니다.
-
6.4. 시계열 분석 입문
November 19, 2016
시계열 기법은 데이터에 있을 수도 있는 내부 구조를 살핀다 산업 공정을 모니터링하거나 기업의 사업 지표를 추적할 때 종종 시계열 데이터를 접한다. 데이터를 시계열을 다루는 방법으로 모델링하는 것과 공정을 모니터링하는 방법(이 장의 앞 부분에서 다룬)에는 다음과 같은 중요한 차이가 있다.
시계열 분석은 시간에 따라 수집한 데이터를 설명한다. 이러한 데이터에는 꼭 고려해야 할 자기상관(autocorrelation), 추세(trend), 계절적인 변화(seasonal variation)문자적으로만 계절이 아니다. 같은 내부 구조가 있을 수 있다.
이 절(section)에서는 급성장하는 시계열 분석과 모델링 분야에서 많은 이들이 사용하는 기법을 간략하게 설명하겠다.
-
6.4.3. 지수 평활법이란?
November 19, 2016
지수 평활법은 과거 관측값을 지수적으로 감소하는 가중치로 다룬다 이 방법은 평활한 시계열을 구할 때 사람들이 정말 많이 사용하는 방법이다. 단일 이동 평균은 과거 관측값을 동일한 가중치로 다루지만, 지수 평활법은 관측값이 오래된 것일 수록 지수적으로 감소하는 가중치로 다룬다.
다시 말해, 예측할 때 최근 관측값에 오래된 관측값보다 상대적으로 더 높은 가중치가 붙는다는 것이다.
이동 평균은 관측값을 정확하게 같은 가중치 \( 1/N \)로 다룬다. 하지만, 지수 평활법에서는 정하거나 계산해서 넣어줘야 할 1개 이상의 평활 매개변수가 있다. 이러한 매개변수에 따라 가중치 값이 변한다.
-
6.4.3.7. 지수 평활법 요약
November 19, 2016
요약
지수 평활법은 유용하다고 입증된 방법이다 지수 평활법은 많은 시간에 걸쳐 예측이 필요한 많은 경우에 있어서 아주 유용하다고 입증된 방법이다. 1957년 C. C. 홀트(Holt)가 계절성과 추세가 없는 시계열에 사용하려고 처음 고안하였다. 이후 홀트는 1958년에 추세를 다루는 방법을 제시하였다. 1965년 윈터스(Winters)가 이 방법에 계절성을 넣어 일반화했기 때문에 "홀트-윈터스 기법"이라는 이름이 붙었다.
-
6.4.3.6. 삼중 지수 평활법 예제
November 19, 2016
단일, 이중, 삼중 지수 평활법을 비교하는 예 이 예제에 있는 데이터를 통해 단일, 이중, 삼중 지수 평활법을 비교해보자.
다음 데이터에는 24개 관측값이 있다. 6년에 걸친 분기별 데이터이다(1년에는 4개의 분기가 있다).
-
6.4.3.5. 삼중 지수 평활법
November 19, 2016
만약에 데이터에 추세와 계절성 둘 다 있다면 어떻게 해야할까?
계절성을 다루기 위해 3번째 매개변수를 추가해야 한다 이런 경우에는 이중 평활법이 적합하지 않다. 계절성(때때로 주기성이라고도 부르는)을 다루기 위해 3번째 식을 도입하자. 이를 제안한 사람의 이름을 따라 "홀트-윈터스"(Holt-Winters, 약자로 HW)로 부른다.
-
6.4.3.4. 이중 지수 평활법을 이용한 예측(LASP)
November 19, 2016
예측 식 한 시점 앞을 예측하는 식은 다음과 같이 쓸 수 있다. $$ F_{t+1} = S_{t} + b_{t} $$ m 시점 앞을 예측하는 식은 다음과 같이 쓸 수 있다. $$ F_{t+m} = S_{t} + m b_{t} $$
-
6.4.3.3. 이중 지수 평활법
November 19, 2016
이중 지수 평활법에는 두 개의 상수 매개변수가 있고, 이 방법은 추세를 다루기에 좀 더 적합하다 바로 이전에 본 것처럼, 단일 평활법은 추세가 있는 경우를 다루기에 좋지 않다. 기본 등식과 함께 \( \gamma \)라는 상수를 포함하는 한 가지 식을 더 고려하면 단일 평활법을 개선할 수 있다. \( \gamma \)는 반드시 \( \alpha \)와 함께 사용해야 한다.
아래는 이중 지수 평활법을 나타내는 두 식이다. $$ \begin{align*} S_{t} &= \alpha y_{t} + (1-\alpha)( S_{t-1} + b_{t-1} ) \ , \qquad 0 \le \alpha \le 1 \\ b_{t} &= \gamma ( S_{t} - S_{t-1} ) + (1-\gamma)b_{t-1} \ , \qquad 0 \le \gamma \le 1 \end{align*} $$ 이중 지수 평활법에서 시계열의 현재 값은 평활화한 현재 값을 계산하는데 사용된다.
-
6.4.3.2. 단일 지수 평활법을 이용한 예측
November 19, 2016
예측 식
다음 값을 예측하기 기본 등식을 예측 식으로 사용한다. $$ S_{t+1} = \alpha y_{t} + (1 - \alpha)S_{t} \ , \quad 0 < \alpha \le 1, \quad t > 0. $$
-
6.4.3.1. 단일 지수 평활법
November 19, 2016
지수 평활법은 미래 값을 예측하기 위해 과거 관측값을 지수적으로 감소하는 가중치로 다룬다 이 평활법은 \( S_{2} \) 를 \( y_{1} \)로 두는 것부터 시작한다. \( S_{i} \)는 평활화한 관측이나 EWMA (Exponentially Weighted Moving Average)를, \( y \)는 원래의 관측값을 나타낸다. 아래 첨자는 시기를 의미한다\( (1, 2, ..., n) \). 3번째 시기에 대해 다음과 같이 쓸 수 있다. \( S_{3} = \alpha y_{2} + (1-\alpha)S_{2} \). 다른 시기에 대해서도 마찬가지로 쓸 수 있지만, \( S_{1} \) 값은 없다.
어떤 시기 \( t \)에 대해, 평활화한 값 \( S_{i} \) 는 다음과 같이 계산할 수 있다. $$ S_t = \alpha y_{t-1} + (1-\alpha)S_{t-1} \qquad 0 < \alpha \le 1 \qquad t \ge 3 $$
이것이 지수 평활법의 기본 등식이고, 상수 또는 매개변수 \( \alpha \) 를 평활 상수라고 한다.
메모: 기본 등식에서 \( y_{t-1} \)을 \( y_{t} \)로 바꾼 방법도 있다. EWMA 제어 차트 절에 Robert가 1959년에 제안한 이 방법을 서술하였다. 여기에서 사용하는 등식은 1986년에 Hunter가 제안한 것을 따른다.
-
6.4.2. 이동 평균과 평활법이란?
November 19, 2016
데이터 평활은 무작위적인 변화를 줄이고 추세와 주기적인 요소를 보여준다 시간에 따라 수집한 데이터에는 무작위적인 변화량이 있다. 무작위적인 변화로 생기는 효과를 줄이기 위한 방법들이 있다. 산업에서 흔히 사용하는 기법은 "평활"이다. 이 방법을 제대로 사용하면 추세, 계절성, 주기성과 관련된 구성 요소를 더욱 분명하게 확인할 수 있다.
두 가지 평활법이 있다.
- 평균법
- 지수 평활법
-
6.4.2.2. 중앙 이동 평균
November 19, 2016
이동 평균을 계산할 때, 평균을 중간 시기에 놓는 것이 직관적이다 이전 예제에서 처음 3개 시기의 평균을 계산하여, 3번째 숫자 다음에 계산한 값을 두었다. 평균값을 계산했던 구간의 중앙에 놓을 수도 있었다. 즉, 2번째 숫자 다음에 놓을 수도 있었다는 말이다. 이러한 방법은 홀수개의 숫자가 있을 때는 사용해도 괜찮지만, 짝수개의 숫자가 있을 때는 사용하기 곤란하다. 그렇다면 \( M = 4 \)일 때, 첫 번째 이동 평균값을 어디에 두어야 할까?
엄밀하게 따지면, 이동 평균은 \( t = 2.5, 3.5, \cdots \) 같은 곳에 놓일 것이다.
이런 경우를 피하기 위해, \( M = 2 \)으로 이동 평균을 평활하자. 평활한 값을 평활하자는 이야기이다!
-
6.4.2.1. 단일 이동 평균
November 19, 2016
이동 평균은 평활하는 과정이다 과거 데이터 중에서 전부가 아닌 일부의 평균을 다음과 같이 계산하여 과거 데이터를 요약할 수도 있다.
무작위로 뽑은 12명의 공급자 예제에서 사용한 데이터를 다시 떠올려보자. 다음과 같은 공급량이 있었다. \( 9, 8, 9, 12, 9, 12, 11, 7, 13, 9, 11, 10 \). 크기가 3인 집합 \( M \)이 있다고 하자. 이 때 처음부터 3번째 값까지의 평균은 \( (9 + 8 + 9) / 3 = 8.667 \)이다.
이것을 "평활"smoothing이라고 한다. 평활은 한 구간에서 시작해서 첫 번째 값을 제외한 그 다음 3개의 값의 평균을 계산하는 방식으로 진행한다.
-
6.4.1. 정의, 응용, 기법
November 19, 2016
정의 시계열의 정의: 시간 순서에 따라 정렬된 변수값의 수열. 이 때, 나눈 시간 간격은 정확하게 같다.
-
에드워드 터프티 Edward Tufte
November 17, 2016
-
Tufte CSS
November 13, 2016
Tufte CSS provides tools to style web articles using the ideas demonstrated by Edward Tufte’s books and handouts. Tufte’s style is known for its simplicity, extensive use of sidenotes, tight integration of graphics with text, and carefully chosen typography.
Tufte CSS was created by Dave Liepmann and is now an Edward Tufte project. The original idea was cribbed from Tufte-LaTeX and R Markdown’s Tufte Handout format. We give hearty thanks to all the people who have contributed to those projects.
If you see anything that Tufte CSS could improve, we welcome your contribution in the form of an issue or pull request on the GitHub project: tufte-css. Please note the contribution guidelines.
Finally, a reminder about the goal of this project. The web is not print. Webpages are not books. Therefore, the goal of Tufte CSS is not to say “websites should look like this interpretation of Tufte’s books” but rather “here are some techniques Tufte developed that we’ve found useful in print; maybe you can find a way to make them useful on the web”. Tufte CSS is merely a sketch of one way to implement this particular set of ideas. It should be a starting point, not a design goal, because any project should present their information as best suits their particular circumstances.