White Noise 라는건 Uncontrolable variable 즉 회귀식에서 설명되지 않은 Error의 의미와 유사하다고 볼 수 있다.
시계열에서 White Noise가 통계적 분석이 가능하기 위해서는 몇가지 가정이 필요하다.
1. 특정시점의 데이터와 관련이 없다. 즉 비상관(Uncorrelated)성을 가진다. 식으로 나타내면
이렇게 센터링을 하고 로 나타낼 수 있다. 이렇게 서로 다른 두시간(t,s) 사이에서는 관계가 없다고 본다. 반대로 당연하게도 자기자신과는 1의 공분산,상관관계를 가질 것이다.
2. White noise를 모든 데이터에서 관측했다면 이것의 평균은 0이다.
3. 즉 t에 대해서는 상수이다. 이는 특정시점이 아닌 모든 시점에서 분산은 일정해야 한다는 말이다.
우리는 보통 시간에 따라 관찰치가 순서대로 있는 Stochastic process가 있을때 i.i.d를 가정한 Gaussian distribution을 따르는 White noise를 보통 가정한다.
다시말해 어느 t 시점에서나 정규분포를 따르는 관찰치에서 white noise가 랜덤하게 뽑힌다는 말이다.
i.i.d 는 Independant and Identically distributed를 지칭하는 약자인데 Identity는 특정 noise만 큰것이 아니라 모든 데이터에서의 noise가 동일하다는 말이고, independant는 말그대로 noise 간에 독립성이 있다는 말이다. 여기서 한가지 집고 넘어가야 하는것이 있는데. White noise가 어떤 특정 2시점사이에서 독립이라는 말은 둘의 공분산(cov(x,y)=0)가 0이라는 말이 될 수 있으나, 둘의 상관계수가 0이라고해서 이것이 독립은 아니라는 것이다. 즉 역의 관계가 성립하지 않는다. 이것의 예를 들어보면 밑의 에서 x와 y는 선형관계가 아니다. 그렇다면 x와 y는 독립인가? 아니다. x가 증가할수록 y가 늘어나기때문에 둘의 관계는 종속관계이다. 식을 봐도 그렇다.
이쯤에서 이제 상관계수(Correlation coeffecient)를 보자
위식의 범위는 -1:1 이다. (코시슈바르츠 부등식 증명) 시계열에서 이 x,y의 상관계수를 주로로 나타낸다.
2. Stationary time series
stationary 라는 말은 정적이라는 말이다. 따라서 많은 움직이는(unstationary) 시계열들에서 우리가 이를 전부 분석하는 것은 힘드므로 반대로 정적인 시계열을 하나 찾고 잔차분석을 하여 영가설(관계가 없다) 부정하는 방식으로 분석을 한다. 따라서 일단 Stationary 하다는 것이 무엇을 뜻하는지를 우선 알아야 한다.
시계열에서 Stationary 하다는 것은 특정 시점에서의 관찰치에 대한 결합분포가 변하지 않는다는 말이다.
더 자세히 말하면 Stationary time series는 크게 2가지로 나뉘는데 Strictly stationary 와 Weakly stationary이다.
Strictly stationary는 인 CDF를 정의할 때, 가 h()기 만큼 shift 될때의 CDF 와 같을때 이를 Strictly stationary하다고 말한다. 다르게 표현하자면
혹은 이 되겠다. h가 얼마나 shift했느냐와 관계 없이 t와 s 시점간의 관계(auto-correlation)은 같다는 것이다.
Weakly stationary는 가 0이 아닌 상수이고 이어야 하며 마지막으로 이면 Weakly 하게 stationary 라고 할 수 있다.
따라서 Weakly station을 하나의 식으로 정의하자면 여기서 보듯 오직 h 에 대해서만 의존적인 공분산으로 정의 할 수 있고 이것이 의미하는것은 시간에 의존적이지 않다. 즉 시간을 옮겨도 이와는 관련이 없고 오직 한 시점(h)만 관련이 있다는 말이다. 이를 auto-covariance function 이라고 하며로 나타낸다. 여기서 h가 바로 lag 이다.
이제 그럼 White noise가 stationary 하는가를 보면 (일반적으로 Weakly stationary로 정의한다.)
1.
2.
만약 s=t 라면
3.
따라서 White noise는 Weakly stationary를 만족한다.