보통 도수분포표나 히스토그램을 통해 표본의 데이터 값들을 하나의 도표에 표시하고 있어 데이터값들이 어떻게 분포되어 있는가를 파악하는데 편리하였다. 이러한 분포의 특성을 도표가 그래프가 아닌 수치로 나타내는 방법에 대해 살펴보겠다.
분포의 특성을 나타내는 방법은 먼저 자료를 구성하는 데이터 값들이 주로 어느 값을 중심으로 위치해 있는가를 파악하는 중심위치의 측정과 과 또 이러한 데이터 값들이 서로 얼마나 차이를 두고 넓게 퍼져 있는가를 파악하는 분산의 측정이라는 두가지를 들 수 있다.
1. 중심위치측정
1-1. 평균
자료의 중심이 어디에 있는가를 측정하는 가장 대표적인 세가지 개념으로는 평균값(Mean), 중앙값(Median), 최빈값(Mode)을 들 수 있다. 평균은 데이터 값들을 모두 더한 후, 이를 데이터 값들의 개수로 나누어 구한다. 즉 표본조사를 통해 얻은 n개의 데이터 값이 x1, x2, .... ,xn 일때 이 표본에 대한 평균(x바)은 다음과 같이 구할 수 있으며 이를 산술평균이라고도 한다.
N 개의 데이터 X1, X2, ... XN으로 구성된 모집단에 대한 평균은 표본자료를 통해 얻은 표본평균과 구분하기 위해 다음과 같이 그리스 문자
로 표시한다. 그리고 이를 모집단으로 부터 얻은 평균이라 하여 모평균이라 한다.
※ 가중평균
n개의 데이터 값들이 X1, X2, ... ,Xn 일 때 이들 값에 대해 각각 w1,w2, ... ,wn의 가중치를 부여하여 얻은 평균을 가중평균(weighted mean)이라 하며 이는 다음과 같이 계산한다.
1-2. 중앙값
모든 데이터 값들을 오름차순으로 배열하였을 때 중앙에 위치한 데이터값을 중앙값이라 한다. 중앙값의 기본 개념은 데이터값을 모두 오름차순으로 배열했을 때 중앙값보다 큰 데이터값들의 수와 중앙값보다 작은 데이터값들의 수가 동일하도록 결정된 값이다. 따라서 데이터값들의 수가 홀수일 때는 중앙값이 하나가 되지만 데이터 값들의 수가 짝수일 때는 중앙에 위치한 값이 두개가 되므로 이러한 경우에는 이 중앙의 두 데이터 값을 평균하여 중앙값으로 한다.
1-3. 최빈값
최빈값은 단순히 데이터 값들 중에서 빈도수가 가장 높은 데이터 값을 최빈값(mode)라 한다.
2. 분산의 측정
자료의 분포에 대한 특성을 정확히 파악하기 위해서는 자료의 중심을 나타내는 평균의 측정과 함께, 자료의 데이터 값들이 이 평균을 중심으로 얼마나 퍼져있는지를 측정하여야 한다.
위 그림은 평균 개념만으로는 분포의 특성을 정확히 파악할 수 없다는 사실을 보여준다. 두 집단의 분포는 평균은 같으나 퍼짐의 정도(분산)가 다름을 보여주고 있다.
이러한 자료의 퍼짐을 측정하는 방법으로 범위(range), 분산(variance), 표준편차(standard deviation) 등이 있다.
2-1. 범위
데이터 값들 중에서 최대 데이터 값(max)과 최소 데이터 값(min) 사이의 차이(max-min)를 범위(range)라 한다. 수식으로 나타내면
range = max-min 이다.
2-2. 분산
평균이 인 n 개의 데이터 값 X1, X2, ..., Xn에 대한 표본분산은 다음과 같이 정의된다.
위 식에서 는 데이터값이 평균으로 부터 얼마나 떨어져 있나를 나타내는 것으로 편차(deviation)이라고 하는데, 분산은 바로 이러한 편차를 각각의 데이터 값에 대해 구한후 이를 그냥 합하게 되면 양의 편차와 음의 편차가 상쇄가 되어 0이 될 수 있기 때문에 제곱하여 합한 것을 n-1로 나눈것이다. 따라서 표본의 데이터 값들이 평균으로부터 멀리 떨어져 있을수록 분산은 커지게 된다.
※ 통계학에서 모집단(population)과 표본(sample)의 구분은 일단 위에 정의한 분산은 n 개의 데이터 값들로 이루어진 '표본'을 대상으로 한 것이다. N 개의 데이터 값들로 구성된 '모집단'에 대한 분산()은 다음과 같이 정의된다.
표본이든 모집단이든 간에 분산에 대한 개념에 차이가 있는 것은 아니다. 그러나 문제가 되는 것은 모분산의 경우는 그대로 N으로 나누는 데 반해 표본분산은 표본을 구성하는 데이터 값의 개수에서 1을 뺀 (n-1)로 나눈다는 점인데, 이는 표본분산의 경우 편차 제곱의 합을 n으로 나누게 되면 이 결과가 모분산의 추정량으로 사용하기에는 과소평가되는 경향이 있기 때문에 이를 조정하기 위해 (n-1)로 나누는 이론적 근거는 자유도라는 개념이다. 이를 간단히 설명하면 편차의 합은 0이기 때문이다. 따라서 n 개의 편차중 (n-1)개의 편차가 결정되면 나머지 1개는 자동적으로 결정되어진다. 이런 의미에서 표본분산은 (n-1)의 자유도를 가지고 있다고 하며 분산을 구할때는 편차의 합이 0이 되는 것을 피하기 위해 편차를 제곱한 것의 합을 구하고 이를 자유도로 나누는 것이다. 또한 분석 대상이 되는 자료는 대부분 표본조사에 의해 얻은 데이터 값들이기 때문에 현실적으로는 표본분산이 주로 활용된다.
2-3. 표준편차
분산에 양의 제곱근을 취한것을 표준편차(standard deviation)라 한다.
데이터 값들이 평균으로부터 얼마나 떨어져 있나를 파악하는 수단으로 분산을 계산하지만 분산의 단위(제곱)는 데이터 값 단위와 일치하지 않기 때문에 분산에 대한 해석을 데이터 값의 단위를 기준으로 비교하는데는 적절하지 못한 면이 있다. 따라서 분산의 단위를 원래 데이터 값들의 단위와 맞춰주기 위해 분산에 다시 제곱근을 취한 것이고 이것이 표준편차이다. 모집단의 표준편차 또한 모분산에 양의 제곱근을 취해 얻게 된다.
3. 비대칭성의 측정
3-1. 변동계수
표준편차를 평균에 대한 백분율로 표시한 것을 변동계수(coefficient of variation)이라 한다.
X를 투자에 대한 수익률(rate of return)이라 하면 평균 는 투자자의 기대수익률이며 표준편차 S는 수익률이 기대수익률로부터 얼마나 떨어져 있는가를 표시하는 것이므로 투자자의 위험을 측정하는 기준이 된다. 따라서 변동계수는 기대수익률을 기준으로 위험이 어느 정도인지를 나타내는 척도가 되는 것이다. 어떠한 두 표본의 변동성을 비교할 때 두 표본의 표본평균이 같다면 절대적인 표준편차로 비교하여 어느 표본이 변동성이 큰지를 알 수 있지만 표본평균이 다르다면 표준편차값으로 절대적인 비교가 불가능하므로 각 표본집단의 평균을 기준으로 표본표준편차가 얼마나 되는지 상대적인 변동성의 크기를 구해 비교를 한다.
3-2. 왜도
자료의 분포가 좌우 대칭 상태에서 얼마나 벗어났는가를 나타내는 것이 왜도(skewness)이다.
이때 g=0 이면 자료의 분포는 대칭을 이룬다. g>0 이면 오른쪽 분포의 꼬리가 길게 늘어지는 모양을 내고 g<0 이면 반대로 왼쪽 분포의 꼬리가 길게 늘어짐으로 왼쪽으로 완만한 경사를 보인다. 가 되어 자료의 분포가 좌우 대칭인 경우 앞에서 살펴본 산술평균, 최빈값, 중앙값은 모두 일치하나, 가 되어 자료의 분포가 좌우 비대칭으로 이루어진 경우는 중앙값이 최빈값과 산술평균 사이에 위치하게 된다.
3-3. 4분위값
4분위값(quartile)을 이해하기 위해서는 먼저 %분위값(percentile)을 정의해야 한다. k% 분위값(k percentile)이란 데이터 값들에 대한 도수 분포를 작성했을 때 k%분위값을 중심으로 이보다 작은 값을 가지는 데이터 값들의 도수가 적어도 전체 도수의 k%가 되는 값을 의미하여 이를
로 표시한다. 따라서 k% 분위값보다 큰 데이터값들의 도수는 전체 도수의 (100-k)%가 된다.
은 50% 분위값으로 보다 큰 값들의 도수가 전체도수의 50%이고 보다 작은 값들의 도수가 전체도수의 50%이므로 중앙값을 의미한다. 특히 , , 는 데이터값들을 오름차순으로 나열했을 때 1/4의 간격을 가지고 위치해 있어 이들을 각각 1사분위값,2사분위값, 3사분위값이라고 하며 %분위값과 구분하여 각각 로 표시한다. 와 의 범위를 4분위 범위(interquartile range)라 한다.
사분위 값은 각 프로그램마다 분위값이 정의되는 식이 다를 수 있다. 중앙값은 어느 분위값 식이 정의 되던지 같지만 다른 분위값은 다르게 계산될 수 있다.
3-4. 상자그림(Box plot)
상자그림은 자료의 분포 형태를 4분위값과 최소값, 최대값의 다섯가지 정보를 이용하여 그래프로 나타낸 것으로서, 데이터 값들이 어떤 분포의 형태를 띠고 있으며 이들 데이터 값들 중 이상값이 있는지 여부를 알아내는데 유용하다.
이상값이란 데이터 값들의 분포를 그렸을 때 평균으로부터 4*표준편차이상 떨어져 위치한 데이터 값을 말한다. 즉 어떤 표본의 평균이
이고 표준편차가 S일 때 데이터 값이 이고 표준편차가 S 일때 데이터 값이 보다 자긍면 이 데이터 값을 이상값이라고 한다. (경험법칙) 이러한 이상값이 존재하게 되면 이로 인해 평균이나 분산이 크게 영향을 받게 되기 때문에 자료 분석에서 이상값 유무를 확인하는 것은 매우 중요하다. (주의할 점은 그렇다고 이상값이라고 해서 무조건 제거해야 하는것도 아니라는 점이다. 이상값이 생겼더라도 의미가 있는 이상값인지 아니면 단지 측정의 잘못으로 인해 나온것이지에 대한 조사가 필요하다.)
※ 수준별(Levels) 상자그림을 그릴때, 한 수준의 IQR(InterQuartile Range)이 다른 수준의 IQR과 겹치지 않을때 이 두 수준의 유의할 수도 있다는 직관을 얻을 수도 있다. 물론 실제 검정(t 또는 anova 검정)을 해야한다. 단지 그래프로 직관을 얻을 뿐이다.
4. 그룹화된 데이터의 중심위치와 분산의 측정
4-1. 그룹화된 데이터의 평균
데이터 값이 도수분포표의 형태로 그룹화되어 있는 자료에 대한 평균은 도수를 가중치로 사용하여 구하게 된다. 즉 각 계급의 중앙에 위치한 중앙값을 구하고 여기에 해당 계급의 도수를 곱한 후 이를 총도수로 나누어 계산한다. 이를 수식으로 나타내면 다음과 같다.
: 평균, : i번째 계급의 도수, : i번째 계급의 중앙값 : 계급의 수 n: 총도수
4-2. 그룹화된 데이터의 중앙값
즉정자료가 도수분포표의 현태로 그룹화되어 있는 경우에는 먼저 중앙값이 속해 있는 계급을 확인한후, 그 계급에서 중앙값이 위치해 있는 순위가 몇번째인지를 계산하고 이에 보간법(interpolation)을 적용하여 중앙값을 산출한다. 이는 다음과 같은 식으로 나타낼 수 있다.
: 중앙값이 속해 있는 계급의 하한값(lower limit) : 총도수, : 중앙값이 속해 있는 바로 전 계급까지의 누적도수 : 중앙값이 속해 있는 계급의 도수 : 중앙값이 속해 있는 계급의 급간
4-3. 그룹화된 자료의 최빈값
그룹화된 자료에서 최빈값은 일반적으로 빈도수가 가장 높은 계급을 의미하는 것이기 때문에 정확하게 표현한다면 최빈계급이라는 용어가 더 적합하다. 만약 계급이 아닌 하나의 값을 최빈값으로 취하고자 한다면 최빈계급의 하한값과 상한값의 중간에 위치한 값을 최빈값으로 한다.
4-4 그룹화된 데이터의 분산과 표준편차
: 표본의 분산, : i 번째 계급의 중앙값, : i 번째 계급의 도수, : 계급수, : 총도수(=)
4-5 표준편차에 관한 경험법칙
데이터 값들의 도수분포가 좌우 대칭(symmetric)이고 종 모양(bell-shaped)의 형태를 지니는 경우 평균과 표준편차 사이에 다음과 같은 경험적 사실이 성립한다.
(1) 관찰된 데이터 값들의 약 68%는 에서 사이에 들어 있다.
(2) 관찰된 데이터 값들의 약 95%는 에서 사이에 들어 있다.
(3) 관찰된 데이터 값들의 약 99.7%는 에서 사이에 들어 있다.
데이터의 분포에서 어떤 데이터의 값이 평균으로부터 표준편차 4배 이상 떨어진 곳에 위치하고 있을 때 이를 이상값(outlier)이라고 한다. 즉 경험법칙 측면에서 볼때 사이에 속하는 값을 가지는 데이터는 분포를 이루는 전체 데이터의 99.7%에 달하는데 이보다 더 큰 범위인 ,를 설정할 경우 거의 모든 데이터가 이 범위에 속한다고 볼 수 있다. 따라서 이 범위를 벗어난 데이터 값은 정상적인 범위를 벗어 났다고 판단하고 이상값이라고 한다.
표본의 크기가 100을 넘는 경우 위의 경험법칙이 거의 그대로 성립하기 때문에 범위는 표준편차의 약 6배에 해당한다. 따라서 표준편차의 근사값은 다음과 같이 표시할 수 있다.
※ 표본의 크기가 30에서 100 이내인 경우는 표준편차의 근사값은 에 의해 더 정확하게 계산되며 표본의 크기가 30 미만인 경우는 범위와 표준편차 사이의 관계가 안정적으로 성립하지 않기 때문에 근사값의 정확성이 떨어진다.
※ 체비세프 정리 : 경험법칙은 일반적으로 분포의 형태가 좌우 대칭이고 종모양을 가진다는 전제하에 성립하는 것인데, 러시아 수학자 체비세프는 이보다 한걸음 더 나아가 모든 분포에 대해 적용할 수 있는 체비세프 정리를 제시하였다. 체비세프 정리에 따르면, 데이터의 분포의 형태에 관계없이 데이터 값이 평균을 중심으로 표준편차의 k배 사이의 범위 즉 사이에 속하는 데이터 값들의 비율은 '최소한' 이 된다. (여기서 k는 k>1인 상수)
'Statistics' 카테고리의 다른 글
데이터 종류 (0) | 2018.02.20 |
---|---|
표본분포 (0) | 2017.01.11 |
통계학의 주제 (0) | 2016.12.21 |
What is the difference between Bayesian and frequentist statistics? (0) | 2016.11.18 |
Common Probability Distributions: The Data Scientist’s Crib Sheet (0) | 2016.04.12 |