본문 바로가기

Statistics

표본분포

1. 표본분포

모집단으로부터 일정한 크기의 표본을 무작위로 추출하였다면 추출된 표본의 특성을 나타내는 통계량(statistic)이 존재하게 된다. 또한 이렇게 추출된 표본은 모집단으로부터 추출될 수 있는 표본들 중의 하나일 뿐이다. 모집단으로부터의 표본 추출을 반복시행하여, 추출할 수 있는 모든 가지 수의 표본을 추출하였다면, 추출된 표본가지 수 만큼의 통계량이 존재하게 되는데 이들 통계량에 대한 분포를 표본분포(sampling distribution)이라 한다.


모집단의 평균과 표준편차의 표시문자는 표본집단의 평균과 표준편차의 표시문자와 다르게 나타낸다. 


(모집단 : 평균, 표준편차( )

(표본집단 : 평균, 표준편차( )


모집단의 평균과 표준편차는 모집단의 특성을 나타내는 특성값이라 하여 모수(Parameter)라고 한다. 이에 반해 표본의 평균과 표준편차는 통계량(statistic)이라고 한다. 



1-1. 표본평균의 표본분포

모집단으로부터 표본을 추출하였을 때 얻을 수 있는 모든 표본평균()값을 확률변수로 하는 확률분포를 표본평균의 표본분포(sampling distribution of sample means)라 한다,



1-2. 표본평균의 표본분포에서의 평균과 표준편차

표본평균()의 표본분포의 평균은 모집단 평균()과 동일하고 표준편차는 인 정규분포를 한다. 표본평균 의 평균과 표준편차는 각각 ,로 표시하는데 특히 표본평균 의 표준편차 를 평균의 표준오차(standard error of the mean) 또는 간단히 표준오차(standard error)라고 한다.

정리하면, 표본평균의 기대값 : , 표본평균의 분산 :  = , 표본평균의 표준오차 :  =  이다.

모집단의 크기가 무한대일때 한해서 표본평균의 표준오차는  = 가 되며 모집단의 크기가 유한할 때의 표본평균의 표준오차는 에 유한모집단 수정계수(finite population correction factor) 을 곱해 주어야 한다. 여기서 모집단의 크기가 유한하다는 말은 모집단의 크기가 알려져 있다는 의미이다. 또한 수정계수는 표본의 크기(n)가 모집단 크기의 5% 이상 되면 유한모집단 수정계수를 사용하여 표본평균의 표준편차를 구한다.


 =  (N = 모집단크기, n = 표본크기)



1-3. 중심극한정리

모평균이 이고 모표준편차가 인 모집단으로부터 표본크기를 n개로 하여 추출한 표본들에 대한 표본평균 의 표본분포는, 표본크기 n이 크다면, 모집단의 분포가 정규분포를 하는가의 여부에 관계없이 평균이 , 표준오차가 인 정규분포를 하는데 이를 중심극한정리(central limit theorem)이라 한다.


통계학에서 사실 이 중심극한의 정리가 정말 중요하다고 하는데 왜 그런 것일까? 앞에서 우리는 '정규분포를 하는 모집단'으로부터 n 개를 추출하여 얻을 수 있는 모든 표본들에 대한 표본평균 들의 표본분포는 모집단과 마찬가지로 '정규분포'를 하며, 더 나아가 모집단의 평균과 표준편차가 와 이 됨을 보았다. 그러나 현실적으로 모집단이 정규분포를 하는지의 여부를 모르거나, 설령 정규분포형태를 가진다하더라도 비대칭인 경우가 ㅇ많다. 이러한 측면에서 중심극한정리가 빚을 바라는데, 모집단이 정규분포를 하고 있지 않더라도 평균과 표준편차가 와 인 모집단으로부터 추출하는 표본크기 n이 크기만 하면 '표본평균 의 표본분포는 정규분포를 하며 평균과 표준오차는 와 이 된다는 사실이다.

따라서 이제, 모집단 분포가 정규분포를 하는지 여부에 대해 꼭 알아야 할 필요가 없기 때문에 표본을 기초로 하는 분석이 좀더 자유로워졌다.

중심극한정리에 따라 표본평균 의 표본분포가 모집단의 분포 형태에 관계없이 정규분포를 하는 것으로 가눚되기 위해서는 표본의 크기가 커야 하는데, 이 때 대두되는 문제는 어느 정도의 크기를 표본크기가 큰것으로 보느냐 하는 것이다. 결론부터 말하면 정해진 크기는 없다. 일반적으로 모집단 분포가 대칭이기는 하지만 정규분포가 아닌경우 n=10 ~15 정도의 표본크기면 표본평균의 표본분포는 거의 정규분포를 하는 것으로 볼 수 있으나 표본의 크기가 다소 비대칭인 경우 통상적으로 적어도 n=30 이 될 때, 중심극한정리를 적용하는 것에 무리가 없는 것으로 받아들여지고 있다. 비대칭정도가 클수록 표본크기가 더 커져야 중심극한정리가 적용되는데 무리가 없다.


1-4. 표본평균의 표준화


표본평균는 정규분포의 확률변수로서 평균이 이고 표준오차가 이므로 의 표준화 값은 다음과 같이 구한다.

표준화값 Z는 확률변수인 표본평균 가 표본평균들의 평균인 로 부터 표본평균들의 표준편차인 표준오차의 몇 배만큼 떨어져 있는가를 표시하는 것이다. Z는 평균이 0, 표준편차가 1인 정규분포의 확률변수이기 때문에 정규분포의 특성에 따라 다음과 같은 확률법칙이 성립한다.






2. 표본평균의 구간확률

표본평균이 어떤 구간의 값을 가질 확률을 구하려면 먼저 표본평균을 표준화한후 표준정규분포표를 이용하면 된다.


3. 표본비율의 표본분포


3.1 표본비율

크기가 N인 모집단으로부터 표본의 크기가 n인 표본을 추출했을 때, 이 표본을 구성하는 n개의 개체들을 통해 조사하고자 하는 결과가 성공, 실패와 같이 '두 가지' 형태로 구분되는 경우가 있다. 이 때 표본을 구성하는 n개의 개체중에서 성공으로 나타나는 개체수의 비율을 표본비율(sample proportion)이라고 하고 보통 p로 표시한다.


(X = 표본중에서 성공으로 나타난 개체수, n = 표본의 개체수)



3.2 표본비율의 표본분포

표본으로 추출될 가능성이 있는 모든 표본들에 대한 표본비율 값의 확률분포를 표본비율의 표본분포(sampling distribution of sample proportion) 이라 한다.

모비율과 비슷한 표본비율을 가진 표본들이 추출될 가능성은 매우 클것으로 기대할 수 있는 반면 모비율과 크게 차이가 나는 표본비율을 가진 표본이 추출될 가능성은 그만큼 희박해질 것임을 예상해볼수있다. 표본으로 추출될 가능성이 있는 모든 표본에 대한 표본비율 값을 표본분포라 한다.



3.3 표본비율에 표본분포에서의 평균과 표준오차

표본크기가 클 때 중심극한정리에 따라 표본비율의 표본분포는 평균이 이고 표준오차가 인 정규분포를 한다.

( : 모비율, n : 표본크기,  : 표본비율의 표준오차)

'표본의 크기가 클때' 라는 것의 기준은 보통  와  가 모두 성립하여야 한다. 그러나 가 0 또는 1에 아주 가까운 값을 가지는 경우 이 기준은 적합하지 않기 때문에 이러한 경우는 주의를 해야한다.



3.3 표본비율의 표본분포

표본비율의 표준화 값을 구하는 과정에서 표본평균에 대한 표준화 값을 구하는 과정이 매우 유사함을 볼 수 있다. 

 



'Statistics' 카테고리의 다른 글

Causality vs Correlation  (0) 2018.02.27
데이터 종류  (0) 2018.02.20
기술통계  (0) 2016.12.25
통계학의 주제  (0) 2016.12.21
What is the difference between Bayesian and frequentist statistics?  (0) 2016.11.18