본문 바로가기

Statistics

통계학의 주제

1. 통계학이란?


효율적인 의사결정을 하기위해 자료를 수집, 요약분석하고 그리고 그 분석결과를 해석하는 과정 및 기법을 연구하는 학문이다.


통계학의 핵심은 (1) 자료의 수집 (2)자료의 요약분석 (3) 결과의 해석에 있으며 이러한 과정의 목적은 좀더 정확한 의사결정을 하는데 도움이 되는 정보를 얻는데 있다.



2. 모집단과 표본


모집단 : 통계분석에서 어떤 관심분야에 대한 조사 대상들의 집합을 모집단(Population)이라 한다.

표본집단 :  모집단의 일부 즉 모집단의 부분집합을 표본(Sample)이라 한다.


예를 들어, 회사 전직원 2000명에서 회사원 평균 월급을 조사한다고 했을때, 조사대상인 전직원 2000평은 모집단이 되고, 조사항목은 회사원들의 월급이 된다. 그러나 모집단 2000명을 모두 조사하는 것은 시간이나 비용적으로 어려우므로, 일부를 뽑아 200명을 조사했다면 이 집단이 표본집단이 된다. 우리는 이 과정에서 표본의 통계량들(대표값들 e.g 평균,분산,왜도,첨도)을 알아내 모수(모집단의 대표값)을 추론한다.   

모집단을 요약하여 하나의 값으로 표시한 척도를 모수(Parameter)라 하고 표본(Sample)을 요약하여 하나의 값으로 표시한 척도를 통계량이라 한다. 여기서 모수란 것은 하나의 참값으로 정해진 값(상수)이다. 그러나 통계량은 표본에 따라 달라질 수 있기 때문에 확률변수이다.

결론적으로 통계분석의 중요한 역할 중 하나는 표본의 통계량을 통해 모수를 추정하는데 있다.



3. 기술통계학과 추측통계학


기술통계학 : 수집된 자료를 요약분석하여 자료에 내재되어 있는 특성을 알기 쉽게 표시하는 통계적 방법을 말한다.

추측통계학 : 표본에 포함된 정보를 통해 이 표본이 뽑혀진 모집단의 특성을 추측하는데 사용되는 통계적 방법을 말한다.



4. 자료의 측정유형


 통계자료를 측정하는 자(Ruler)에 해당하는 척도를 명목척도, 순위척도, 등간척도, 비율척도의 네가지로 크게 구분된다. 


    • 명목척도 : 측정 척도를 몇개의 범주(category)로 구분하고, 조사된 측정 대상이 이중 어떤 범주에 속하는지를 분류하는데 사용되는 척도.
    • 순위척도 : 등급 또는 중요성의 정도에 따라 순위를 측정하는 척도
    • 등간척도 : 측정척도 사이의 간격이 일정한 척도
    • 비율척도 : 측정 척도의 간격이 일정할 뿐 아니라 측정 척도 자체에 비율의 의미가 내재되어 있는 척도


명목척도는 반드시 문자로만 된것이 아니라 숫자로도 나타낼 수 있다. 예를 들어 자녀가 "있다"라고 대답하는 경우 "1"을 표시하고, "없다"라고 답한 경우 "2"로 표시한다고 해도 숫자 1과 2의 의미가 아닌 분류를 하기 위해 숫자를 쓴것 이므로 여전히 명목척도형으로 말할 수 있다.

순위척도는 손님의 친절도를 조사하기 위해 "아주 친절하다", "약간 친절하다", "보통이다", "약간 불친절하다", "아주 불친절하다" 다섯가지로 나누었다면 친절도 변수가 취할 수 있는 값은 친절의 정도를 나타내는 다섯가지 순위로 표시한 것이다. 여기서 주의할 점은 두 값 사이의 차이에 의미가 없다는 것이다. 예를 들어 "아주 친절하다"를 5로 "약간 친절하다"를 4로 두었다고 해서 "약간 친절하다"가 "아주 친절하다" 보다 1만큼 덜 친절하다라고 볼수는 없는것이다. 단지 4보다 5가 "뒤에 있다" 혹은 "더 높다" 라는 순서(위치)만 나타낼 뿐이다.

등간척도는 순위척도의 특성과 측정척도의 간격이 동일하다는 특징이 더해졌다. 단지 순서가 있을 뿐 아니라, 데이터값들 사이의 차이가 의미를 지닌다는 것이다. 측정값 사이가 일정하기 때문에, 구체적으로 100원에서 110원이 오르고 100원에서 120원이 올랐을때, 전자보다 후자가 10원 더 크게 올랐다고 말할 수 있다. 여기서 주의할 점은 어떤 등간척도(단위)를 사용하느냐에 따라 데이터값이 달라질 수 있기 때문에 등간척도에 의해 측정된 값들의 "비율"은 어떤 의미도 가지지 않는다. 쉽게 말해 어떤 기준점 ("0")에 대한 정의가 없다는 것이다. 예를 들어 섭씨(Celsius)는 20도에서 10도로 떨어졌다면 우리는 "기온이 2배로 떨어졌다"라고 말할 수 있을까? 아니란 애기다. 일단은 0이 "아무것도 없다" 라는 의미가 아니고 또한 단위를 화씨(Fahrenheit)로 바꾸면 도에서 68도에서 50도가 되어 2배가 되지 않으므로 비율이 맞지 않음을 볼 수 있다. 

비율척도 는 등간척의 특징에 더하여 0의 의미를 추가했다. 따라서 소득이 0달러 라는 말은 소득이 없다는 의미이고 이는 화폐단위가 원으로 바뀌어 0원이라고 해도 여전히 소득이 없다는 의미로 바뀌지가 않는다. 따라서 비율척도에서는 단위가 달라도 0의 의미는 변하지 않는다. 또한 단위가 바뀌어도 10달러에서 20달러의 차이가 원으로 단위가 바뀌어도 2배의 차이가 된다.