본문 바로가기

Statistics

Time Series Analysis - White noise & Stationary Time Series 1. White Noise White Noise 라는건 Uncontrolable variable 즉 회귀식에서 설명되지 않은 Error의 의미와 유사하다고 볼 수 있다. 시계열에서 White Noise가 통계적 분석이 가능하기 위해서는 몇가지 가정이 필요하다. 1. 특정시점의 데이터와 관련이 없다. 즉 비상관(Uncorrelated)성을 가진다. 식으로 나타내면 이렇게 센터링을 하고 로 나타낼 수 있다. 이렇게 서로 다른 두시간(t,s) 사이에서는 관계가 없다고 본다. 반대로 당연하게도 자기자신과는 1의 공분산,상관관계를 가질 것이다. 2. White noise를 모든 데이터에서 관측했다면 이것의 평균은 0이다.3. 즉 t에 대해서는 상수이다. 이는 특정시점이 아닌 모든 시점에서 분산은 일정해야 한다는 .. 더보기
편향-분산 트레이드오프와 Regularization 일반적으로 우리가 훈련을 잘 시킨다는 것은 훈련데이터에 대해 잘 적합(fit)시킨다는 말로도 해석한다. 그러나 이 훈련데이터에 너무 잘 적합을 시킨다면 흔히 말하는 과다적합(overfiting)문제가 발생한다. 그렇다고 하여 훈련데이터에 대해 간단히 추세만 나타낼 정도로만 모델을 만들면 과소적합(underfitting)문제가 발생한다. 과다적합 상황에서는 편향(Bias)이 낮고 분산(Variance)은 높다고 하고 반대로 과소적합상황에서는 편향이 높고 분산이 낮다고 한다. 이런 분산과 편향사이의 관계를 편향-분산 트레이드 오프관계라고 한다. 지도학습 알고리즘이 트레이닝 셋의 범위를 지나치게 일반화 하는 것을 예방하기 위해 두 종류의 오차(편향, 분산)를 최소화 할 때 겪는 문제이다. 즉 편향을 줄이려고 .. 더보기
Modeling Buying Behavior with Negative Binomial Distribution in Stan/ 감마분포와 포아송분포를 통한 음이항 분포의 도출 http://www.marketingdistillery.com/2015/01/10/modeling-buying-behavior-with-negative-binomial-distribution-in-stan/ Stan(패키지 이름)에서 음이항분포로 구매습관 모델링하기 소비자 행동 모델들은 e-commerce시장에서 성공적인 CRM 캠페인에 집중됐습니다. 한가지 쉬운 질문인 "이 고객이 얼마나 많은 주문을 할 것인가?"를 봅시다. 기초적인 토대부터 시작해보겠습니다. 지속적인 구매행위 우리의 모델은 고객들이 어느시간에나 자유롭게 구매할수 있게 지속적인 설정을 할 것입니다. e-commerce나 소매부분에서 표준적 시나리오들은 식료품, 서적, 영화, 호텔숙박 등, 이같은 상품에 대한 시나리오들입니다. 당신이 당.. 더보기