본문 바로가기

통계학의 주제 1. 통계학이란? 효율적인 의사결정을 하기위해 자료를 수집, 요약분석하고 그리고 그 분석결과를 해석하는 과정 및 기법을 연구하는 학문이다. 통계학의 핵심은 (1) 자료의 수집 (2)자료의 요약분석 (3) 결과의 해석에 있으며 이러한 과정의 목적은 좀더 정확한 의사결정을 하는데 도움이 되는 정보를 얻는데 있다. 2. 모집단과 표본 모집단 : 통계분석에서 어떤 관심분야에 대한 조사 대상들의 집합을 모집단(Population)이라 한다.표본집단 : 모집단의 일부 즉 모집단의 부분집합을 표본(Sample)이라 한다. 예를 들어, 회사 전직원 2000명에서 회사원 평균 월급을 조사한다고 했을때, 조사대상인 전직원 2000평은 모집단이 되고, 조사항목은 회사원들의 월급이 된다. 그러나 모집단 2000명을 모두 조사.. 더보기
A Gentle Introduction to XGBoost for Applied Machine Learning 원문 : http://machinelearningmastery.com/gentle-introduction-xgboost-applied-machine-learning/ XGBoost는 최근 Kaggle competition들과 응용기계학습에서 가장 잘나가는 알고리즘이다.XGBoost는 gradient boosted decision trees(속칭 GBM)을 속도와 성능면에서 향상시킨 알고리즘이다.이 포스팅에서, XGBoost가 무엇이고, 어디서 유래되었고, 또 어떻게 학습시키는지 등을 설명할 것이다.이 포스팅을 읽고 난 후, 여러분은 다음을 알게될 것이다. :XGBoost가 무엇이고 이 프로젝트의 목적들이 무엇인지.왜 XGBoost는 따로 머신러닝 툴킷으로 나왔는지.당신의 다음 머신러닝 프로젝트에 사용하기.. 더보기
Using XGBoost For Feature Selection by Mei-Cheng Shih (With Python) 이 커널은 JMT5802의 포스팅에서 영감을 받음. 이 커널의 목적은 boruta 패키지의 중요요소인 RF(랜덤포레스트)를 대채하기 위해 XGBoost를 사용하는 것이 목적이다. 이 Case에서 XGBoost가 RF보다 더 좋은 예측을 내기 때문에, 이 kernel의 결과는 이를 잘 나타낸다. 더욱이, 이 코드는 필자가 사용했던 데이터전처리 과정을 포함한다.먼저 전처리와 데이터를 불러오기 위한 패키지를 불러온다.In [1]:from scipy.stats.mstats import mode import pandas as pd import numpy as np import time from sklearn.preprocessing import LabelEncoder """ Read Data """ train=p.. 더보기