본문 바로가기

분류 전체보기

Factorization Machine 요약 이 논문은 Support Vector Machine(SVM) 의 장점과 Factorization model들을 합친 새로운 모델Factorization Machine을 소개한다. SVM같이 FM은 real valued 피처벡터를 사용하는 모델이다. 그러나 SVM과 다른 점은 피처간 상관관계 또한 Factorized Parameter를 통해 사용한다는 것이다. 그러므로 Sparisity가 큰 데이터에서는 작동하지 못하는 SVM과는 달리 FM은 상관관계들을 추정할 수 있다. 이 논문에서 FM의 공식들이 어떻게 선형시간(Linear Time)으로 계산되어 바로 최적화가 될 수 있는지에 대해 설명한다. 따라서 비선형기법인 SVM과는 다르게 Dual form 에서의 변형이 필요없고 support vector.. 더보기
Catboost 1. Introdunction Gradient boosting은 weak learner를 loss function상에서 gradient descent라는 최적화 기법으로 기울기가 가장 큰 (greedy procedure) 방향으로 sub tree들을 반복적으로 추가하여 결합하는 방법으로 성능을 향상시키는 boosting 기법의 중 하나이다. catboost가 다른 gbm 알고리즘보다 좋은 성능을 낼 수 있는 것은 ordering-principle의 개념을 대입하여 기존의 data-leakage로 인한 prediction-shift 에 대한 문제 그리고 high cardinality를 가진 category 변수에 대한 전처리 문제를 해결했다. 첫번째 장점은 범주형변수처리 방법의 개선으로 인한 학습시간 단축.. 더보기
보험개론 - 보험이란? ● 정의 개인, 기업등의 경제주체는 각자 자기의 책임하에 생활과 기업활동을 하고 있다. 이 생활과 기업활동의 원활한 수행을 저해하고 위협하는 것은 예측할 수 없는 사태의 발생 및 불운, 지진, 태풍등의 자연재해, 화재, 교통하고, 질병, 사망, 상해, 실업, 환율변동, 금리변동 같은 경제변동 등의 발생이라 할 수 있다. 과거에는 자연재해가 생활을 위협하는 가장 중요한 요인으로 작용하였으나, 최근 교통사고, 환경오염 등이 중요 위험요인으로 등장하고 있다. 따라서 이러한 위험에 대처하기 위해 각종 수단 및 대책이 나오게 된다. 이러한 위험을 줄이기 위해 나올 수 있는 대책은 첫째 위험발생의 예방, 방지, 둘째 위험의 회피, 셋째 위험의 전가로 크게 3가지를 들 수 있다. 보험은 세번째 케이스로 위험을 전가함.. 더보기
Causality vs Correlation 기본적인 개념이지만 모델링 후의 해석과정에서 많은 사람들이 실수하는 부분이므로 간략한 정리를 해보고자 한다. 일단 결론적으로 Causality는 인과관계가 드러난 것이고 Correlation은 인과관계가 드러나진 않았지만 서로 연관성이 있다는 말이다. Causality의 정의는 관련된 다른 모든 요인들(factors)이 상수로 고정되었다는 가정하에서 한 사건이 다른 사건의 결과가 되는 것을 말한다. Correlation은 관련된 다른 모든 요인들(factors)이 상수로 고정되었다는 가정하에서 두개이상의 변수들 사이의 관계의 크기와 방향을 나타내는 통계치를 말한다. 그러나 주의할 것은 변수끼리 Correlation이 있다고 해서 반드시 한 변수의 변화가 다른변수값에 변화를 주는 원인이라고 말할 수 없다. 더보기
데이터 종류 1. Cross-sectional data sets주어진 시간 혹인 한 시점에서 얻은 데이터특징은 관찰치간 독립적이다. ,즉 모집단으로부터 임의표본추출을 한 관찰치이다. 2. Time series data어떤 변수(들)의 시간에 따라 얻은 관찰치 (Ex. 주가, GDP 등)특징은 관찰치들 사이에 Serial Correlation이 있음, 이에 따라 Trend 혹은 Seasonality 등이 생겨남Serial Correlation이라는 것은 현재의 Error term이 다음시기의 Error term에도 상관을 갖는다는 것을 의미한다.따라서 이러한 자기상관이 있는지 없는지를 테스트 한 후 (Ex. Durbin-Watson test) 이걸 고정시키는 작업이 필요하다. 이에 관련해서는 나중에 따로 포스팅을 해보.. 더보기
용어해석 (Terminology) ㄱ 근보증(계속적 보증) : 장래의 채무에 대한 보증, 계속적인 거래 관계에서 생기는 일체의 채무를 보증하기로 하는 계약 (민법 제 428조의 3항) ☆계속적거래 : 재화 또는 용역을 1개월 이상 계속적으로 또는 부정기적으로 공급하는 계약으로서 중도에 해지할 경우 대금 환급이 제한되거나 위약금에 관한 약정이 있는 거래를 말함. (방문판매 등에 관한 법률, 제 2조 제 10호) 근저당 : 장래에 생길 채권의 담보로서 미리 설정하는 저당권 ☆ 저당 : 부동산이나 동산을 채무의 담보로 잡거나 잡히는것 담보물은 차입자가 부채의무를 충족시키지 못할 경우 대출기관이 임의로 처분하여 채권을 회수하게 되지만, 그럴 일이 발생하기 전까지는 점유권과 사용권은 채무자가 보유한다. ☆ 저당권 : 채무가 이행되지 않은 경우에,.. 더보기
Decision Tree의 종류 원문 : https://www.quora.com/What-are-the-differences-between-ID3-C4-5-and-CART참고 : http://stackoverflow.com/questions/9979461/different-decision-tree-algorithms-with-comparison-of-complexity-or-performance 결정트리의 종류는 다음의 기준에 따라 달라진다.분할기준 (즉 어떻게 분산이 계산되는가?)이것이 회귀모형(연속형종속변수, 예를 들어 점수같은)이냐 혹은 분류모형(이산형종속변수, 예를들어 등급)인지 오버피팅을 제거/줄이기 위한 테크닉불완전한 데이터를 다룰수 있는지 여부 주된 결정트리 알고리즘은 다음과 같다.ID3, or Iternative Dich.. 더보기
표본분포 1. 표본분포모집단으로부터 일정한 크기의 표본을 무작위로 추출하였다면 추출된 표본의 특성을 나타내는 통계량(statistic)이 존재하게 된다. 또한 이렇게 추출된 표본은 모집단으로부터 추출될 수 있는 표본들 중의 하나일 뿐이다. 모집단으로부터의 표본 추출을 반복시행하여, 추출할 수 있는 모든 가지 수의 표본을 추출하였다면, 추출된 표본가지 수 만큼의 통계량이 존재하게 되는데 이들 통계량에 대한 분포를 표본분포(sampling distribution)이라 한다. 모집단의 평균과 표준편차의 표시문자는 표본집단의 평균과 표준편차의 표시문자와 다르게 나타낸다. (모집단 : 평균, 표준편차( )(표본집단 : 평균, 표준편차( ) 모집단의 평균과 표준편차는 모집단의 특성을 나타내는 특성값이라 하여 모수(Param.. 더보기
기술통계 보통 도수분포표나 히스토그램을 통해 표본의 데이터 값들을 하나의 도표에 표시하고 있어 데이터값들이 어떻게 분포되어 있는가를 파악하는데 편리하였다. 이러한 분포의 특성을 도표가 그래프가 아닌 수치로 나타내는 방법에 대해 살펴보겠다. 분포의 특성을 나타내는 방법은 먼저 자료를 구성하는 데이터 값들이 주로 어느 값을 중심으로 위치해 있는가를 파악하는 중심위치의 측정과 과 또 이러한 데이터 값들이 서로 얼마나 차이를 두고 넓게 퍼져 있는가를 파악하는 분산의 측정이라는 두가지를 들 수 있다. 1. 중심위치측정 1-1. 평균자료의 중심이 어디에 있는가를 측정하는 가장 대표적인 세가지 개념으로는 평균값(Mean), 중앙값(Median), 최빈값(Mode)을 들 수 있다. 평균은 데이터 값들을 모두 더한 후, 이를 데.. 더보기
통계학의 주제 1. 통계학이란? 효율적인 의사결정을 하기위해 자료를 수집, 요약분석하고 그리고 그 분석결과를 해석하는 과정 및 기법을 연구하는 학문이다. 통계학의 핵심은 (1) 자료의 수집 (2)자료의 요약분석 (3) 결과의 해석에 있으며 이러한 과정의 목적은 좀더 정확한 의사결정을 하는데 도움이 되는 정보를 얻는데 있다. 2. 모집단과 표본 모집단 : 통계분석에서 어떤 관심분야에 대한 조사 대상들의 집합을 모집단(Population)이라 한다.표본집단 : 모집단의 일부 즉 모집단의 부분집합을 표본(Sample)이라 한다. 예를 들어, 회사 전직원 2000명에서 회사원 평균 월급을 조사한다고 했을때, 조사대상인 전직원 2000평은 모집단이 되고, 조사항목은 회사원들의 월급이 된다. 그러나 모집단 2000명을 모두 조사.. 더보기