6.4.4.6 박스-젠킨스 모델 판별
November 25, 2016
정상성과 계절성 박스-젠킨스 모델을 다룰 때 첫 번째 단계는 시계열이 정상적(stationary)인지와 모델링이 필요한 의미있는 계절성이 있는지 확인하는 것이다.
정상성 감지하기 정상성은 진행 순서 그래프로 판단할 수 있다. 진행 순서 그래프에서 일정한 위치와 척도가 나타나야 한다. 자가상관 그래프로도 감지할 수 있다. 특별히, 비-정상성이 있다면 종종 자기상관 그래프가 아주 느리게 감소하는 패턴으로 나타난다.
계절성 감지하기 계절성(또는 주기성)은 자기상관 그래프, 계절적인 부 시계열 그래프, 분광 그래프 등으로 판단할 수 있다.
정상성을 얻기 위한 뺄셈 박스와 젠킨스는 정상성을 얻기 위해 뺄셈 접근법을 추천한다. 하지만, 곡선을 맞추고 원본 데이터에서 맞춘 값을 빼는 것은 박스-젠킨스 모델에서도 사용할 수 있다.
계절적인 차이 모델 판별 단계의 목표는 계절성을 감지하는 것과 (만약 계절성이 있다면) 계절적인 자동회귀와 게절적인 이동 평균의 항의 차수를 판별하는 것이다. 많은 시계열의 경우에 주기는 알려져 있고, 한 가지 계절성 항으로도 충분하다. 예를 들면, 월별 데이터의 경우에 계절적인 AR 12 항이나 계절적인 MA 12 항을 보통 추가한다. 박스-젠킨스 모델의 경우에 모델을 맞추기 전에 계절성을 분명하게 제거하지는 않는다. 대신, ARIMA 계산 소프트웨어에 계절적인 항의 차수를 넣는다. 하지만 계절적인 차이를 데이터에 적용하는 것과 자기상관과 부분 자기상관 그래프를 보는 것은 도움이 된다. 이러한 작업은 모델에서 비-계절적인 성분을 판별할 때 도움이 될 수도 있다. 몇몇 경우에, 계절적인 차이가 거의 또는 모든 계절적인 효과를 없애기도 한다.
\(p\)와 \(q\)를 판별하기 정상성과 계절성을 조사하고, 그 다음 해야할 일은 자동회귀와 이동 평균 항의 차수를 판별하는 것이다(즉, \(p\)와 \(q\)).
자기상관과 부분 자기상관 그래프 이러한 작업에서는 주로 자기상관 그래프와 부분 자기상관 그래프를 사용한다. 차수를 알 때, 표본 자기상관 그래프와 표본 부분 자기상관 그래프를 이론적인 예측과 비교한다.
자동회귀 과정의 차수 \(p\) 특별히, AR(1) 과정에서 표본 자기상관 함수는 지수적으로 감소해야 한다. 하지만, 흔히 더 높은 차수의 AR 과정은 지수적으로 감소하는 것과 감쇠하는 사인 함수가 섞여서 나타난다.
높은 차수의 자동회귀 과정에서 표본 자기상관을 볼 때 부분 자기상관 그래프도 같이 볼 필요가 있다. \(AR(p)\) 과정의 부분 자기상관은 \(p+1\) 이상의 뒤처짐 값부터 0이 된다. 그래서 0에서 벗어나는지 확인하기 위해 표본 부분 자기상관 함수를 볼 필요가 있다. 보통은 표본 부분 자기상관 그래프의 95% 신뢰 구간을 가지고 판단한다(표본 자기상관 그래프를 그려주는 대부분의 소프트웨어에서 신뢰구간도 그려준다). 소프트웨어가 신뢰 구간을 안 그려준다면 근사적으로 \( \pm 2 / \sqrt{N} \) 값을 사용해서 그리면 된다. \(N\)은 표본 크기이다.
이동 평균 과정의 차수 \( q \) \( MA(q) \) 과정의 자기상관 함수는 \(q+1\) 이상의 뒤처짐 값부터 0이 된다. 어디에서부터 0이 되는지 표본 자기상관 함수로 살펴봐야 한다. 이것은 표본 자기상관 그래프에서 표본 자기상관 함수와 95% 신뢰 구간을 보고 알 수 있다. 자기상관 그래프를 그려주는 대부분의 소프트웨어에서 이러한 신뢰 구간도 그려준다.
일반적으로 표본 부분 자기상관 함수는 이동 평균의 차수를 판별할 때 도움이 안 된다.
자기상관 함수의 형태 다음 표는 모델을 판별할 때 표본 자기상관 함수를 어떻게 사용해야 할 지 요약한 것이다.
형태 | 사용할 모델 |
---|---|
0을 향해 지수적으로 감소 | 자동 회귀 모델. 자동회귀 모델의 차수를 판별하기 위해 부분 자기상관 그래프를 사용하자. |
양수와 음수가 반복적으로 나타나면서 0으로 감소 | 자동회귀 모델. 자동회귀 모델의 차수를 판별하기 위해 부분 자기상관 그래프를 사용하자. |
하나 이상의 뾰족한 막대를 제외하고 나머지는 거의 0 | 이동 평균 모델, 그래프가 0이 되기 시작하는 지점을 차수로 둔다. |
몇 시점 후에 감소 | 자동회귀와 이동 평균 모델이 혼합된 것을 사용. |
모두 0이거나 0에 가깝다 | 무작위적인 데이터. |
일정한 간격에서 높은 값이 나타난다 | 계절적인 자동회귀 항을 넣는다. |
0으로 감소하지 않는다 | 정상적(stationary)이지 않은 시계열. |
판별하기 어려운 혼합된 모델 실제 상황에서, 표본 자기상관과 부분 자기상관 함수는 확률 변수이고, 이론적인 함수처럼 나타나지 않을 것이다. 어떤 모델을 사용할 지 판별하는 일은 어렵다. 특별히, 혼합된 모델은 판별하기 더 어렵다.
이러한 표본 그래프로 좋은 모델을 만들 때는 많은 시행 착오를 겪는다. 이러한 이유에서, 최근에는 FPE (Final Prediction Error, 마지막 예측 오차)와 AIC (Akaike Information Criterion, 아카이케 정보 기준) 등 정보기반 기준이 인기를 끌고 있다. 이러한 기법은 모델 판별 과정을 자동화하는데 도움이 된다. 소프트웨어로 이러한 기법을 사용해야 한다. 다행히도, ARIMA 모델링을 지원하는 많은 상용 통게 소프트웨어에서 이러한 기법을 사용할 수 있다.
이러한 기법을 더 알고 싶으면 브록웰과 데이비스의 1987년 2002년 논문을 보라. Brockwell and Davis 1987, 2002
예제 아래 시계열 데이터의 그래프를 그려서 초기 모델 판별하는 과정을 살펴보자.
1. 남방 진동 데이터
2. 월별 이산화탄소 농도 데이터