원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc442.htm
Univariate time series라는 용어는 동일한 간격의 시간의 증가에 대해 순차적으로 기록된 한개의 변수의 관찰치로 구성된 시계열을 지칭한다. 예제는 monthly CO2 concentrations 와 southern oscillations to predict el nino effects가 있다.
비록 단변량 시계열(univariate time series)데이터 셋은 보통 한 열(변수)의 수들로 주어질지라도, 시간은 시계열에서 사실상 하나의 암묵적인 변수이다. 만약 데이터가 동일공간(시간)상에 있다면,시계열 변수 혹은 인덱스, 는 명시적으로 주어질 필요는 없다. 시계열을 그래프로 그릴때에는 때때로 시간변수가 명시적으로 사용되나, 시계열 모형자체에서는 쓰이지 않는다.
데이터가 일정시간의 증가로 수집되지 않은 시계열 분석은 이 포스팅의 범위를 벗어나므로 따로 찾아보길 바란다.
1. Stationarity
많은 시계열 기술들에서 일반적인 가정은 데이터가 stationary 하다는 것이다. 한국말로는 정상성(stationarity)를 갖는다고 한다.
stationary process는 평균, 분산 그리고 자기상관성 구조가 시간에 따라 변하지 않는다는 특성을 가진다. 정상성은 정확하게 수학적 용어들로 정의될 수 있으나, 직관적인 설명으로 해보자면, 우리는 평탄한 시계열분포 즉 trend가 없으며, 시간에 대해 고정된 분산을 가지고, 시간에 대해 고정된(상수) 자기상관성(autocorrelation) 그리고 주기적변동(seasonality)가 없는 시계열 분포를 의미한다.
실질적인 목적들에 대해서, 정상성은 run sequence plot으로 부터 보통 결정되어 질 수 있다.
만약 시계열이 정상성을 가지고 있지 않다면, 우리는 다음 기술들 중 하나를 사용하여 정상성을 다시 찾을 수 있다.
1)데이터를 차분(difference)할 수 있다. 시계열 데이터 로 우리는 새로운 시계열은 만든다.
차분된 데이터는 전기의 데이터를 뺐으므로 본래의 orginal 데이터보다 1단위 작은 값일 것이다. 비록 한번이상 데이터를 차분할 수 있을지라도, 보통 한번의 차분이면 충분하다.
2) 만약 데이터가 trend가 있다면, 우리는 어떤 종류의 곡선을 데이터에 적합시키고 이로부터 잔차를 모델링할 수 있다. 왜냐하면 적합(fit)의 목적이 장기적 트렌트를 단순히 없애는 것이기 때문에 직선같은 단순적합이 보통 쓰여진다.
3) 변동분산에 대해서는 시계열에 대해 로그를 씌우거나 square root를 씌워 분산을 안정화 시킨다. 음수를 가진 데이터에 대해서는, 변환을 하기 전 모든 데이터를 양수로 만들기 위해 적절한 상수를 더할수 있다. 이 상수는 예측된( 즉 적합된) 값들을 얻거나 이후의 데이터포인트들에 대해 예측을 하기 위해 모델로 부터 제거될 수 있다.
위의 기술들은 고정된 location과 scale을 가진 시계열을 생성하도록 해준다. 비록 계절성이 또한 정상성을 위반할 수 있지만, 보통 이것또한 명확히 시계열 모델에 포함된다.
다음 그래프는 다음 예제들로 부터 나온것이다.
초기 데이터의 run sequence plot은 상승 트렌트를 가리킨다. 이 그래프의 visual inspection은 이러한 상승 트렌트를 없애기 위해, 단순한 선형적합으로 충분할 것이라는걸 나타낸다.
이 그래프는 또한 주기적 행동(일정하게 상승과 하강을 함)을 보이는데, 이에 대해서는 다음 포스팅에서 다룬다.
이 그래프는 original 데이터에 선형적합한 것으로부터 나온 잔차들을 포함한다. 비록 잔차의 패턴이 체계적 방식의 모델로 부터 데이터가 나왔다는것을 볼 수 있을 지라도, 선형 트렌트를 없앤 후에, run sequence plot은 데이터가 고정된 location과 variance를 가진것을 보여준다.
'Statistics' 카테고리의 다른 글
Common Probability Distributions: The Data Scientist’s Crib Sheet (0) | 2016.04.12 |
---|---|
Time Series Analysis 13 - Seasonality (0) | 2016.04.04 |
Time Series Analysis 10 - Exponential Smoothing Summary (0) | 2016.03.28 |
Time Series Analysis 9 - Example of Triple Exponential Smoothing (0) | 2016.03.28 |
Time Series Analysis 8 - Triple Exponential Smoothing (0) | 2016.03.28 |