본문 바로가기

Statistics

데이터 종류

1. Cross-sectional data sets

주어진 시간 혹인 한 시점에서 얻은 데이터

특징은 관찰치간 독립적이다. ,즉 모집단으로부터 임의표본추출을 한 관찰치이다.


2. Time series data

어떤 변수(들)의 시간에 따라 얻은 관찰치 (Ex. 주가, GDP 등)

특징은 관찰치들 사이에 Serial Correlation이 있음, 이에 따라 Trend 혹은 Seasonality 등이 생겨남

Serial Correlation이라는 것은 현재의 Error term이 다음시기의 Error term에도 상관을 갖는다는 것을 의미한다.

따라서 이러한 자기상관이 있는지 없는지를 테스트 한 후 (Ex. Durbin-Watson test) 이걸 고정시키는 작업이 필요하다. 

이에 관련해서는 나중에 따로 포스팅을 해보도록 하겠다.



참고 : https://www.analystforum.com/forums/cfa-forums/cfa-level-ii-forum/9932779

http://www.statisticshowto.com/serial-correlation-autocorrelation/


3. Pooled cross sectional data sets

한 데이터셋에 두개 이상의 시점을 기준으로 나누어 그룹핑 해 만든 데이터 셋을 말한다.

각 시점내의 관찰치들은 독립적이고 보통 이러한 데이터 셋은 정책효과를 평가할때 사용된다.

예를 들어 집값에 대한 재산세 정책변화에 대한 효과를 알고 싶을때 정책시행 전후를 나누어 데이터를 구성할 수 있다.


4. Panel or Longitudinal data


시간에 따라 변하지 않고(Time-invariant) 변하지 않는 본래의 특성을 가진(Unobservables) 관찰치를 가지고 일정 시간에 따른 (Lagged) 변화를 기록한 관찰치를 말한다.

Panel 데이터는 Cross-sectional 과 Time-series 를 둘다 가지고 있다. 얘를 들어 아래 Industry는 시간에 따라 변하지 않는 동일한 관찰치이다. 그리고 이 동일한 성격의 관찰치는 시간에 따라 다른 변수들(sal, pay, cap, abat)이 어떻게 변하는지 보고 싶을때 구성할 수 있는 데이터 셋이라 할 수 있다.

참고 : https://stats.stackexchange.com/questions/122794/time-variant-time-invariant-time-related

'Statistics' 카테고리의 다른 글

Causality vs Correlation  (0) 2018.02.27
표본분포  (0) 2017.01.11
기술통계  (0) 2016.12.25
통계학의 주제  (0) 2016.12.21
What is the difference between Bayesian and frequentist statistics?  (0) 2016.11.18