본문 바로가기

Statistics

Time Series Analysis1 - What are Moving Average or Smoothing Techniques?

원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc42.htm

Moving Average 또는 Smoothing Techniques 가 무엇인가?


어떠한 형식의 불규칙한 변동은 시간에 따른 데이터집합에서 내재적인 것이다. 이러한 불규칙한 변동 때문에 본래의 효과가 줄어드는것을 막아주는 방법들이 존재하는데, 이것이 Smoothing 이다. 적절하게 적용이 되었을때, 이 테크닉은 기저에 있는 트랜드나 계절성 혹은 주기성 요소들을 더 명확하게 나타내도록 해준다.

이러한 Smoothing 방법들에는 크게 2가지 그룹으로 나뉜다.


      • Averaging Methods
      • Exponential Smoothing Methods

먼저 averaging methods에 관해 설명하겠다. 방법은 간단하다. 모든 과거의 데이터에 대해 간단히 평균을 내는 것이다.

창고매니저가 1000달러 단위로 일반적인 납품업체가 얼마나 배달(즉 물건을 얼마나 필요로 하는지, 그래야 창고 매니저가 납품업체가 필요한 양만큼 창고에 적재할 것이기 때문)을 하는지를 알고 싶었다. 그는 무작위로 12개의 납품업체를 하나의 샘플로 뽑았고, 다음 결과를 얻었다.

SupplierAmountSupplierAmount

19711
2887
39913
412109
591111
6121210

위 데이터(Amount)의 계산된 평균은 10이다. 매니저는 이 수치를 일반적인 납품업체의 지출에 대한 예측치로 사용하기로 했다. 

이것은 좋은 예측일까? 안좋은 예측일까?

이를 알기위해 MSE(Mean Squared Error)를 계산해 봤다.

      • Error = 실제 납품업체가 사용한 양 - 예측한 양(10) 이다.
      • Error squared 는 위 Error를 제곱한 것이다.
      • SSE는 제곱한 오차의 합이다.
      • MSE는 제곱한 오차의 평균이다.

이 결과로

Error and Squared Errors

The estimate = 10

Supplier$ErrorError Squared

19-11
28-24
39-11
41224
59-11
61224
71111
87-39
91339
109-11
111111
121000

이렇게 나왔다. SSE=36, MSE=36/12=3 이다.

그렇다면 각 납품업체가 쓴 양에 대한 예측이 얼마나 좋은가? 우리가 추정한 예측치(10)와 다른 추정치(7,8,12)를 비교해 보자, 즉 우리는 각 납품업체가 7,9,12 달러를 썼다고 추정한다.

성능은 다음과 같이 나온다.


Estimator791012

SSE144483684
MSE1243

7


MSE가 가장 적은 추정치가 가장 좋은 예측성능을 가진 것이다. 임의의 데이터셋에 대한 MSE를 최소화 하는 추정치는 평균(10)이라는 것이 수학적으로 보여진다. 

다음은 평균이 시간에 따른 총수입을 얼마나 잘 예측하는지를 보기 위해 실험을 해보겠다.

1985에서 1994년 사이의 PC 생산의 세전 수입을 보여준다.



MSE 는 1.8129이다.

여기서 한가지 의문이 든다. 만약 데이터가 트렌드를 가진다고 의심이 들때, 평균이 미래의 수입을 예측하는데 사용될 수 있을까? 아래 그래프를 보면 명백히 우리는 평균을 사용하면 안됨을 알 수 있다.

 


요약하자면 


1. 모든 과거 관측치에 대한 단순한 평균은 트렌드가 없들때의 예측에서만 유용한 추정치이다. 만약 트렌드가 있다면 트렌드를 고려한 다른 추정치를 사용해야 한다.


2. 평균은 모든 과거의 관찰치를 동등하게 가중치를 매긴다. 예를 들어 3,4,5,의 평균은 4이다. 우리는 일반적으로 평균을 구할때 모든 수를 더해 이를 값의 개수로 나눈다. 다른 방법은 각각의 값을 값의 갯수로 나누어 더하는 것이다.


    3/3 + 4/3 + 5/3 = 1 + 1.3333 + 1.6667 = 4.

여기서 1/3을 우리는 가중치라고 부른다. 이를 일반화 시키면 


x¯=1ni=1nxi=(1n)x1+(1n)x2+...+(1n)xn.


1/n들이 다 가중치들이고 이것들의 합은 1인 성질을 가지고 있다.