본문 바로가기

ML & DM/Ensemble Learning

Catboost 1. Introdunction Gradient boosting은 weak learner를 loss function상에서 gradient descent라는 최적화 기법으로 기울기가 가장 큰 (greedy procedure) 방향으로 sub tree들을 반복적으로 추가하여 결합하는 방법으로 성능을 향상시키는 boosting 기법의 중 하나이다. catboost가 다른 gbm 알고리즘보다 좋은 성능을 낼 수 있는 것은 ordering-principle의 개념을 대입하여 기존의 data-leakage로 인한 prediction-shift 에 대한 문제 그리고 high cardinality를 가진 category 변수에 대한 전처리 문제를 해결했다. 첫번째 장점은 범주형변수처리 방법의 개선으로 인한 학습시간 단축.. 더보기
A Gentle Introduction to XGBoost for Applied Machine Learning 원문 : http://machinelearningmastery.com/gentle-introduction-xgboost-applied-machine-learning/ XGBoost는 최근 Kaggle competition들과 응용기계학습에서 가장 잘나가는 알고리즘이다.XGBoost는 gradient boosted decision trees(속칭 GBM)을 속도와 성능면에서 향상시킨 알고리즘이다.이 포스팅에서, XGBoost가 무엇이고, 어디서 유래되었고, 또 어떻게 학습시키는지 등을 설명할 것이다.이 포스팅을 읽고 난 후, 여러분은 다음을 알게될 것이다. :XGBoost가 무엇이고 이 프로젝트의 목적들이 무엇인지.왜 XGBoost는 따로 머신러닝 툴킷으로 나왔는지.당신의 다음 머신러닝 프로젝트에 사용하기.. 더보기
Random Forest Random Forest 는 앙상블기법의 하나로 Bagging과 Random space method 방법을 사용하여 과적합과 탐욕알고리즘의 성향 으로 인한 Decision Tree의 성능의 변동 폭이 크다는 결점을 극복한 하나의 방법이다. 오히려 이러한 과적합의 성향, 탐욕알고리즘의 성향을 이용하여 더 높은수준의 학습기를 만들어 냈다고 할 수 있겠다. 결정트리는 학습데이터에 따라 생성되는 결정트리가 매우 달라지기 때문에 일반화하여 사용하는데 어려움이 따른다. 특히 결정트리는 계층적 접근방식이기 때문에 만약 중간에 에러가 발생한다면 다음 단계로 에러가 계속 전파되는 특성을 가진다. 하지만 랜덤포레스트에서는 결정트리를 학습시킬때 임의화 기술(변수선택의 임의성(흔히 말하는 Random space method).. 더보기