본문 바로가기

Decision Tree의 종류 원문 : https://www.quora.com/What-are-the-differences-between-ID3-C4-5-and-CART참고 : http://stackoverflow.com/questions/9979461/different-decision-tree-algorithms-with-comparison-of-complexity-or-performance 결정트리의 종류는 다음의 기준에 따라 달라진다.분할기준 (즉 어떻게 분산이 계산되는가?)이것이 회귀모형(연속형종속변수, 예를 들어 점수같은)이냐 혹은 분류모형(이산형종속변수, 예를들어 등급)인지 오버피팅을 제거/줄이기 위한 테크닉불완전한 데이터를 다룰수 있는지 여부 주된 결정트리 알고리즘은 다음과 같다.ID3, or Iternative Dich.. 더보기
표본분포 1. 표본분포모집단으로부터 일정한 크기의 표본을 무작위로 추출하였다면 추출된 표본의 특성을 나타내는 통계량(statistic)이 존재하게 된다. 또한 이렇게 추출된 표본은 모집단으로부터 추출될 수 있는 표본들 중의 하나일 뿐이다. 모집단으로부터의 표본 추출을 반복시행하여, 추출할 수 있는 모든 가지 수의 표본을 추출하였다면, 추출된 표본가지 수 만큼의 통계량이 존재하게 되는데 이들 통계량에 대한 분포를 표본분포(sampling distribution)이라 한다. 모집단의 평균과 표준편차의 표시문자는 표본집단의 평균과 표준편차의 표시문자와 다르게 나타낸다. (모집단 : 평균, 표준편차( )(표본집단 : 평균, 표준편차( ) 모집단의 평균과 표준편차는 모집단의 특성을 나타내는 특성값이라 하여 모수(Param.. 더보기
기술통계 보통 도수분포표나 히스토그램을 통해 표본의 데이터 값들을 하나의 도표에 표시하고 있어 데이터값들이 어떻게 분포되어 있는가를 파악하는데 편리하였다. 이러한 분포의 특성을 도표가 그래프가 아닌 수치로 나타내는 방법에 대해 살펴보겠다. 분포의 특성을 나타내는 방법은 먼저 자료를 구성하는 데이터 값들이 주로 어느 값을 중심으로 위치해 있는가를 파악하는 중심위치의 측정과 과 또 이러한 데이터 값들이 서로 얼마나 차이를 두고 넓게 퍼져 있는가를 파악하는 분산의 측정이라는 두가지를 들 수 있다. 1. 중심위치측정 1-1. 평균자료의 중심이 어디에 있는가를 측정하는 가장 대표적인 세가지 개념으로는 평균값(Mean), 중앙값(Median), 최빈값(Mode)을 들 수 있다. 평균은 데이터 값들을 모두 더한 후, 이를 데.. 더보기