본문 바로가기

Statistics

Causality vs Correlation 기본적인 개념이지만 모델링 후의 해석과정에서 많은 사람들이 실수하는 부분이므로 간략한 정리를 해보고자 한다. 일단 결론적으로 Causality는 인과관계가 드러난 것이고 Correlation은 인과관계가 드러나진 않았지만 서로 연관성이 있다는 말이다. Causality의 정의는 관련된 다른 모든 요인들(factors)이 상수로 고정되었다는 가정하에서 한 사건이 다른 사건의 결과가 되는 것을 말한다. Correlation은 관련된 다른 모든 요인들(factors)이 상수로 고정되었다는 가정하에서 두개이상의 변수들 사이의 관계의 크기와 방향을 나타내는 통계치를 말한다. 그러나 주의할 것은 변수끼리 Correlation이 있다고 해서 반드시 한 변수의 변화가 다른변수값에 변화를 주는 원인이라고 말할 수 없다. 더보기
데이터 종류 1. Cross-sectional data sets주어진 시간 혹인 한 시점에서 얻은 데이터특징은 관찰치간 독립적이다. ,즉 모집단으로부터 임의표본추출을 한 관찰치이다. 2. Time series data어떤 변수(들)의 시간에 따라 얻은 관찰치 (Ex. 주가, GDP 등)특징은 관찰치들 사이에 Serial Correlation이 있음, 이에 따라 Trend 혹은 Seasonality 등이 생겨남Serial Correlation이라는 것은 현재의 Error term이 다음시기의 Error term에도 상관을 갖는다는 것을 의미한다.따라서 이러한 자기상관이 있는지 없는지를 테스트 한 후 (Ex. Durbin-Watson test) 이걸 고정시키는 작업이 필요하다. 이에 관련해서는 나중에 따로 포스팅을 해보.. 더보기
표본분포 1. 표본분포모집단으로부터 일정한 크기의 표본을 무작위로 추출하였다면 추출된 표본의 특성을 나타내는 통계량(statistic)이 존재하게 된다. 또한 이렇게 추출된 표본은 모집단으로부터 추출될 수 있는 표본들 중의 하나일 뿐이다. 모집단으로부터의 표본 추출을 반복시행하여, 추출할 수 있는 모든 가지 수의 표본을 추출하였다면, 추출된 표본가지 수 만큼의 통계량이 존재하게 되는데 이들 통계량에 대한 분포를 표본분포(sampling distribution)이라 한다. 모집단의 평균과 표준편차의 표시문자는 표본집단의 평균과 표준편차의 표시문자와 다르게 나타낸다. (모집단 : 평균, 표준편차( )(표본집단 : 평균, 표준편차( ) 모집단의 평균과 표준편차는 모집단의 특성을 나타내는 특성값이라 하여 모수(Param.. 더보기
기술통계 보통 도수분포표나 히스토그램을 통해 표본의 데이터 값들을 하나의 도표에 표시하고 있어 데이터값들이 어떻게 분포되어 있는가를 파악하는데 편리하였다. 이러한 분포의 특성을 도표가 그래프가 아닌 수치로 나타내는 방법에 대해 살펴보겠다. 분포의 특성을 나타내는 방법은 먼저 자료를 구성하는 데이터 값들이 주로 어느 값을 중심으로 위치해 있는가를 파악하는 중심위치의 측정과 과 또 이러한 데이터 값들이 서로 얼마나 차이를 두고 넓게 퍼져 있는가를 파악하는 분산의 측정이라는 두가지를 들 수 있다. 1. 중심위치측정 1-1. 평균자료의 중심이 어디에 있는가를 측정하는 가장 대표적인 세가지 개념으로는 평균값(Mean), 중앙값(Median), 최빈값(Mode)을 들 수 있다. 평균은 데이터 값들을 모두 더한 후, 이를 데.. 더보기
통계학의 주제 1. 통계학이란? 효율적인 의사결정을 하기위해 자료를 수집, 요약분석하고 그리고 그 분석결과를 해석하는 과정 및 기법을 연구하는 학문이다. 통계학의 핵심은 (1) 자료의 수집 (2)자료의 요약분석 (3) 결과의 해석에 있으며 이러한 과정의 목적은 좀더 정확한 의사결정을 하는데 도움이 되는 정보를 얻는데 있다. 2. 모집단과 표본 모집단 : 통계분석에서 어떤 관심분야에 대한 조사 대상들의 집합을 모집단(Population)이라 한다.표본집단 : 모집단의 일부 즉 모집단의 부분집합을 표본(Sample)이라 한다. 예를 들어, 회사 전직원 2000명에서 회사원 평균 월급을 조사한다고 했을때, 조사대상인 전직원 2000평은 모집단이 되고, 조사항목은 회사원들의 월급이 된다. 그러나 모집단 2000명을 모두 조사.. 더보기
What is the difference between Bayesian and frequentist statistics? 원문 : http://blog.keithw.org/2013/02/q-what-is-difference-between-bayesian.html #오역이 있을 수도 있으니 주의바람! 보는대로 수정할 것임.. (수정중) 수학적으로 말하자면, 빈도주의론자와 베이지안론자의 방법들은 그들이 '무엇에 신경쓰느냐' 와 그들이 받아들이는 오차의 종류에서 차이가 난다. 일반적으로 말하자면, 빈도주의론자의 접근법들은 세상은 오직 절대적인 한 방법밖에 없다는 것이다. (예를 들어 한 파라미터(모수)가 오직 하나의 특정 참값을 가진다는 것) 그리고 결과가 파라미터의 참값이 뭐든간에 최소한의 확률으로라도 (참값을 향해) 조정될 실험을 실행하려 노력한다는 것이다. 결과적으로, 실험후에 우리가 아는 것에 대한 불확실성을 표현하기 위.. 더보기
Common Probability Distributions: The Data Scientist’s Crib Sheet 원문 : https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/ 데이터 사이언티스트들은 선택해야 할 수백가지의 확률분포들을 가지는데, 어디서부터 시작을 해야할까? 데이터 사이언스, 이게 뭐가 됐든, 아주 중요한것임은 분명하다. "데이터 사이언티스트는 어느 소프트엔지니어보다는 통계학을 더 잘 안다." 이 말은 어느지역모임과 해커톤에서 어느 전문가가 한 말이다. 통계학자들이 뜬 20세기 이후로 잠잠했기 때문에, 요즘 활발한 활동을 하는 응용수학자들은 20세기에서의 복수를 했다고도 한다. 응용수학자들은 그들만의 아무도 무시할 수 없는 정당한 벤다이어그램을 가졌다. 그런데 갑자기, .. 더보기
Time Series Analysis 13 - Seasonality 원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc443.htm 많은 시계열은 계절성을 띈다. 계절성이라는 것은 주기적인 변동을 의미한다. 예를들어 소매업은 크리스마스 시즌에 절정이다가 그 후에 감소세로 돌아선다. 따라서 소매업의 시계열들은 전형적으로 10월에서 12월까지 증가를 보이다가 1월과 2월에 감소한다. 계절성은 경제시계열에서는 꽤 일반적이고 공학과 과학데이터에서는 덜 일반적이다. 만약 계절성이 있다면 이것은 반드시 시계열모델로 다뤄야한다. 이 섹션에서, 우리는 계절성을 찾는 기술들을 논의한다. 계절성을 모델링하는것은 다음 섹션들로 미루겠다. Graphical technique들이 계절성을 찾는데 사용되어 질수 있다. 1. Run Seq.. 더보기
Time Series Analysis 11,12 - Univariate Time Series Models & Stationarity 원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc442.htm Univariate time series라는 용어는 동일한 간격의 시간의 증가에 대해 순차적으로 기록된 한개의 변수의 관찰치로 구성된 시계열을 지칭한다. 예제는 monthly CO2 concentrations 와 southern oscillations to predict el nino effects가 있다. 비록 단변량 시계열(univariate time series)데이터 셋은 보통 한 열(변수)의 수들로 주어질지라도, 시간은 시계열에서 사실상 하나의 암묵적인 변수이다. 만약 데이터가 동일공간(시간)상에 있다면,시계열 변수 혹은 인덱스, 는 명시적으로 주어질 필요는 없다. 시계열을.. 더보기
Time Series Analysis 10 - Exponential Smoothing Summary 원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc437.htm Summary Exponential smoothing은 forecasting을 하는데 있어서 수년동안 매우 유용하다고 증명되어 왔다. 1957년에 C.C Holt에 의해 처음 제안되고, trend를 보이지 않는 non-seasonal time series를 위해서만 사용되도록 하였으나, 그는 1958년에 trend를 다루는 smoothing method를 제안했고, 1965년 winters는 Holt-Winters Method라는 이름의 seasonality를 포함한 방법으로 더 일반화 시켰다. Holt-Winter Method는 3개의 updating equation들을 가진다. .. 더보기