본문 바로가기

분류 전체보기

Common Probability Distributions: The Data Scientist’s Crib Sheet 원문 : https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/ 데이터 사이언티스트들은 선택해야 할 수백가지의 확률분포들을 가지는데, 어디서부터 시작을 해야할까? 데이터 사이언스, 이게 뭐가 됐든, 아주 중요한것임은 분명하다. "데이터 사이언티스트는 어느 소프트엔지니어보다는 통계학을 더 잘 안다." 이 말은 어느지역모임과 해커톤에서 어느 전문가가 한 말이다. 통계학자들이 뜬 20세기 이후로 잠잠했기 때문에, 요즘 활발한 활동을 하는 응용수학자들은 20세기에서의 복수를 했다고도 한다. 응용수학자들은 그들만의 아무도 무시할 수 없는 정당한 벤다이어그램을 가졌다. 그런데 갑자기, .. 더보기
Clustering Evaluation and assessment 클러스터링 결과의 평가는 cluster validation이라고도 한다.두 클러스터링 간 유사도 측정에 대한 몇가지 제안들이 있다. 이러한 측정법은 한 데이터 셋에서 작동하는 데이터 클러스터링 알고리즘이 얼마나 다른가를 비교하는데 사용될 수 있다. Internal evaluation 스스로 클러스터링 된 데이터를 기반으로 해, 클러스터링의 결과가 평가된다. 이 방법들은 보통 최고점수를 클러스터간의 낮은 유사성과 클러스터내의 높은 유사성을 가진 클러스터들을 만든 알고리즘에 부여한다. 클러스터 평가에서 internal criteria를 사용할 때 한가지 단점은 높은 평가점수가 반드시 효과적인 정보복원능력(information retrieval application, 대략적으로 말하자면, 본래 데이터내에 가지.. 더보기
PAM (Partitioning Around Medroid) PAM은 K-medoid clustering이 가장 일반적으로 실현화된 것이다. 그렇다면 일단 먼저 K-medoids에 대해 알아보자. 이 알고리즘은 k-means 알고리즘과 관련된 군집 알고리즘이고 medoidshift 알고리즘이다. k-means 와 k-medoids 알고리즘 둘다 나누는 일을 하고(즉 데이터셋을 군집들로 쪼갠다는 의미)또한 한 군집 안에 있는 포인트들과 그 군집의 중심점 사이의 거리를 최소화 하려고한다. k-means 알고리즘과는 다르게(한 군집의 평균을 중심점으로 잡음), k-medoids는 데이터 포인트들을 중심점(medoids 또는 exemplars라고 함)으로 선택한다. k-medoid는 n개의 객체의 데이터셋을 priori(사전에 k를 정해주는것을 말함)를 아는 k개의 클러.. 더보기
Time Series Analysis 13 - Seasonality 원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc443.htm 많은 시계열은 계절성을 띈다. 계절성이라는 것은 주기적인 변동을 의미한다. 예를들어 소매업은 크리스마스 시즌에 절정이다가 그 후에 감소세로 돌아선다. 따라서 소매업의 시계열들은 전형적으로 10월에서 12월까지 증가를 보이다가 1월과 2월에 감소한다. 계절성은 경제시계열에서는 꽤 일반적이고 공학과 과학데이터에서는 덜 일반적이다. 만약 계절성이 있다면 이것은 반드시 시계열모델로 다뤄야한다. 이 섹션에서, 우리는 계절성을 찾는 기술들을 논의한다. 계절성을 모델링하는것은 다음 섹션들로 미루겠다. Graphical technique들이 계절성을 찾는데 사용되어 질수 있다. 1. Run Seq.. 더보기
Bayesian machine learning 원문 : http://fastml.com/bayesian-machine-learning/ Beyesian machine learning Bayes rule을 안다면, 어떻게 이것이 machine learning과 관련이 있을까? 이것은 어떻게 퍼즐 조각들이 딱 맞는지를 이해하는것은 꽤 어려울 것이다. 이 포스팅은 이에 대한 설명이다. 다음 글은 전문가적 입장에서 쓴 글이 아니기 때문에 부정확한 내용이 포함될 수도 있다. criticism은 언제나 환영이다. 1. Bayesian and Frequentists 기본적으로 Bayesian은 확률(probabilistic)을 말한다. 확률(probability)에 대한 2가지 접근이 있기 때문에 구체적 용어로 구별짓는다. Bayesian들은 probabilit.. 더보기
Time Series Analysis 11,12 - Univariate Time Series Models & Stationarity 원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc442.htm Univariate time series라는 용어는 동일한 간격의 시간의 증가에 대해 순차적으로 기록된 한개의 변수의 관찰치로 구성된 시계열을 지칭한다. 예제는 monthly CO2 concentrations 와 southern oscillations to predict el nino effects가 있다. 비록 단변량 시계열(univariate time series)데이터 셋은 보통 한 열(변수)의 수들로 주어질지라도, 시간은 시계열에서 사실상 하나의 암묵적인 변수이다. 만약 데이터가 동일공간(시간)상에 있다면,시계열 변수 혹은 인덱스, 는 명시적으로 주어질 필요는 없다. 시계열을.. 더보기
Time Series Analysis 10 - Exponential Smoothing Summary 원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc437.htm Summary Exponential smoothing은 forecasting을 하는데 있어서 수년동안 매우 유용하다고 증명되어 왔다. 1957년에 C.C Holt에 의해 처음 제안되고, trend를 보이지 않는 non-seasonal time series를 위해서만 사용되도록 하였으나, 그는 1958년에 trend를 다루는 smoothing method를 제안했고, 1965년 winters는 Holt-Winters Method라는 이름의 seasonality를 포함한 방법으로 더 일반화 시켰다. Holt-Winter Method는 3개의 updating equation들을 가진다. .. 더보기
Time Series Analysis 9 - Example of Triple Exponential Smoothing 원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc436.htm 이 예제는 single, double 그리고 triple exponential smoothing을 비교한 예제이다. 다음 데이터셋은 24개의 관찰치가 있고, 분기 데이터 6년치가 있다 (각 년도마다 4분기를 가진다). 컴퓨터가 각 Smoothing 방법들로 MSE를 최소화하는 방향으로 계수를 업데이트하고 있다. 1. Example of the computaion of the Initial Trend 데이터셋은 분기별 판매 데이터로 구성됐다. 1번째 season이고, 각 연차마다 4분기이기 때문에, L=4이다. 따라서 다음과 같은 식을 얻는다. 2. Example of the comp.. 더보기
Time Series Analysis 8 - Triple Exponential Smoothing 원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc435.htm 그렇다면 trend와 seasonality가 있다면 어떻게 할것인가? 이러한 경우에는 smoothing이 작동하지 않을것이다. 따라서 seasonality(또는 periodicity라고도 함)를 다루기 위해서는 3번째 파라미터를 도입해야 한다. 이 방정식을 우리는 발명가의 이름을 따 Holt-Winters(HW) 방법이라고 부른다. 기본적인 방정식은 아래와 같다. 는 관찰치는 Smoothing된 관찰치는 트렌드요소는 계절성 지수(seasonal index)는 m 기후의 예측치는 시간주기를 가리킨다.그리고 그리고 는 상수이다. 이 상수들은 MSE를 최소화해주는 방식으로 측정되어야만 한.. 더보기
Time Series Analysis 7 - Forecasting with Double Exponential Smoothing(LASP) 원문 : http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc434.htm Forecasting 식은 다음과 같다.1기 예측 은 m기 예측은 1. Example 데이터가 다음과 같다고 가정하자. 이제 우리는 그리고 인 double smoothing model을 적용할 것이다. 본래의 시기와 한 period 앞의 시기를 시계열에서 비교할때, 가능한 가장 낮은 MSE가 측정된 예측치들이 있다. 왜냐하면 이 double exponential smoothing은 smoothing된 값을 계산하기 위해, 현재의 값을 사용하기 때문에, smoothed series들은 최소 MSE를 가진 를 정할 수없다. 즉 이전기의 Smoothing값이 없기때문에 계산을 못한다는 것.. 더보기