원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc42.htm
Moving Average 또는 Smoothing Techniques 가 무엇인가?
어떠한 형식의 불규칙한 변동은 시간에 따른 데이터집합에서 내재적인 것이다. 이러한 불규칙한 변동 때문에 본래의 효과가 줄어드는것을 막아주는 방법들이 존재하는데, 이것이 Smoothing 이다. 적절하게 적용이 되었을때, 이 테크닉은 기저에 있는 트랜드나 계절성 혹은 주기성 요소들을 더 명확하게 나타내도록 해준다.
이러한 Smoothing 방법들에는 크게 2가지 그룹으로 나뉜다.
- Averaging Methods
- Exponential Smoothing Methods
Supplier | Amount | Supplier | Amount |
---|---|---|---|
1 | 9 | 7 | 11 |
2 | 8 | 8 | 7 |
3 | 9 | 9 | 13 |
4 | 12 | 10 | 9 |
5 | 9 | 11 | 11 |
6 | 12 | 12 | 10 |
위 데이터(Amount)의 계산된 평균은 10이다. 매니저는 이 수치를 일반적인 납품업체의 지출에 대한 예측치로 사용하기로 했다.
- Error = 실제 납품업체가 사용한 양 - 예측한 양(10) 이다.
- Error squared 는 위 Error를 제곱한 것이다.
- SSE는 제곱한 오차의 합이다.
- MSE는 제곱한 오차의 평균이다.
The estimate = 10
Supplier | $ | Error | Error Squared |
---|---|---|---|
1 | 9 | -1 | 1 |
2 | 8 | -2 | 4 |
3 | 9 | -1 | 1 |
4 | 12 | 2 | 4 |
5 | 9 | -1 | 1 |
6 | 12 | 2 | 4 |
7 | 11 | 1 | 1 |
8 | 7 | -3 | 9 |
9 | 13 | 3 | 9 |
10 | 9 | -1 | 1 |
11 | 11 | 1 | 1 |
12 | 10 | 0 | 0 |
이렇게 나왔다. SSE=36, MSE=36/12=3 이다.
그렇다면 각 납품업체가 쓴 양에 대한 예측이 얼마나 좋은가? 우리가 추정한 예측치(10)와 다른 추정치(7,8,12)를 비교해 보자, 즉 우리는 각 납품업체가 7,9,12 달러를 썼다고 추정한다.
성능은 다음과 같이 나온다.
Estimator | 7 | 9 | 10 | 12 |
---|---|---|---|---|
SSE | 144 | 48 | 36 | 84 |
MSE | 12 | 4 | 3 | 7 |
MSE가 가장 적은 추정치가 가장 좋은 예측성능을 가진 것이다. 임의의 데이터셋에 대한 MSE를 최소화 하는 추정치는 평균(10)이라는 것이 수학적으로 보여진다.
다음은 평균이 시간에 따른 총수입을 얼마나 잘 예측하는지를 보기 위해 실험을 해보겠다.
1985에서 1994년 사이의 PC 생산의 세전 수입을 보여준다.
MSE 는 1.8129이다.
여기서 한가지 의문이 든다. 만약 데이터가 트렌드를 가진다고 의심이 들때, 평균이 미래의 수입을 예측하는데 사용될 수 있을까? 아래 그래프를 보면 명백히 우리는 평균을 사용하면 안됨을 알 수 있다.
요약하자면
1. 모든 과거 관측치에 대한 단순한 평균은 트렌드가 없들때의 예측에서만 유용한 추정치이다. 만약 트렌드가 있다면 트렌드를 고려한 다른 추정치를 사용해야 한다.
2. 평균은 모든 과거의 관찰치를 동등하게 가중치를 매긴다. 예를 들어 3,4,5,의 평균은 4이다. 우리는 일반적으로 평균을 구할때 모든 수를 더해 이를 값의 개수로 나눈다. 다른 방법은 각각의 값을 값의 갯수로 나누어 더하는 것이다.
- 3/3 + 4/3 + 5/3 = 1 + 1.3333 + 1.6667 = 4.
여기서 1/3을 우리는 가중치라고 부른다. 이를 일반화 시키면
x¯=1n∑i=1nxi=(1n)x1+(1n)x2+...+(1n)xn.
1/n들이 다 가중치들이고 이것들의 합은 1인 성질을 가지고 있다.
'Statistics' 카테고리의 다른 글
Time Series Analysis 3 - What is Exponential Smoothing? (0) | 2016.03.22 |
---|---|
Time Series Analysis 2- Single/Centered Moving Average and Double Moving Averages for a Linear Trend Process (0) | 2016.03.20 |
Time Series Analysis 0 (0) | 2016.03.20 |
Time Series Analysis - White noise & Stationary Time Series (0) | 2016.03.18 |
편향-분산 트레이드오프와 Regularization (1) | 2016.02.16 |