본문 바로가기

ML & DM/Clustering

Clustering Evaluation and assessment 클러스터링 결과의 평가는 cluster validation이라고도 한다.두 클러스터링 간 유사도 측정에 대한 몇가지 제안들이 있다. 이러한 측정법은 한 데이터 셋에서 작동하는 데이터 클러스터링 알고리즘이 얼마나 다른가를 비교하는데 사용될 수 있다. Internal evaluation 스스로 클러스터링 된 데이터를 기반으로 해, 클러스터링의 결과가 평가된다. 이 방법들은 보통 최고점수를 클러스터간의 낮은 유사성과 클러스터내의 높은 유사성을 가진 클러스터들을 만든 알고리즘에 부여한다. 클러스터 평가에서 internal criteria를 사용할 때 한가지 단점은 높은 평가점수가 반드시 효과적인 정보복원능력(information retrieval application, 대략적으로 말하자면, 본래 데이터내에 가지.. 더보기
PAM (Partitioning Around Medroid) PAM은 K-medoid clustering이 가장 일반적으로 실현화된 것이다. 그렇다면 일단 먼저 K-medoids에 대해 알아보자. 이 알고리즘은 k-means 알고리즘과 관련된 군집 알고리즘이고 medoidshift 알고리즘이다. k-means 와 k-medoids 알고리즘 둘다 나누는 일을 하고(즉 데이터셋을 군집들로 쪼갠다는 의미)또한 한 군집 안에 있는 포인트들과 그 군집의 중심점 사이의 거리를 최소화 하려고한다. k-means 알고리즘과는 다르게(한 군집의 평균을 중심점으로 잡음), k-medoids는 데이터 포인트들을 중심점(medoids 또는 exemplars라고 함)으로 선택한다. k-medoid는 n개의 객체의 데이터셋을 priori(사전에 k를 정해주는것을 말함)를 아는 k개의 클러.. 더보기
DBSCAN(Density-based spatial clustering of applications with noise) Algorithm DBSCAN에 대한 이 글은 http://deepcumen.com/2015/04/clustering/ 여기에 잘 설명되어 있어서 여기있는 내용의 일부를 첨부하였고 위키피디아에 있는 설명을 좀 덧붙였다. DBSCAN(Density-based spatial clustering of applications with noise)은 Density model들중 하나이고 K-Means와 같이 데이터의 위치정보를 이용한다. 하지만 K-Means 처럼 데이터의 분포(평균과의 거리가 얼마나 떨어져 있는지로 군집을 결정 했으므로) 를 통해 군집을 정하는 것이 아니라, 데이터들의 밀도를 이용한다. 같은 군집내의 데이터들은 밀도가 높게 위치해 있을것이라는 가정이다. 즉 주변데이터들의 밀도를 이용해 군집을 생성해 나가는 방식이.. 더보기
K-Means Algorithm K-Means 알고리즘은 Centroid model들 중 하나이고 실행하기 이전에 K를 명시해야 하며 K개 군집을 뜻한다 목적은 각 군집 내에 있는 데이터의 차이를 최소로 하고, 군집간의 차이는 최대로 만드는 일이다 (유유상종). 알고리즘은 지역적인(지정된 K개 에서) 최적의 해결책을 찾는 휴리스틱(무작위시작에서 실험적 반복을 통해 조금씩 성능을 향상시키는 과정)과정을 사용한다. 최종적으로는 군집내 동질성의 향상을 목표로 한다. K-Means 알고리즘은 크게 2가지 파트로 나뉜다. 1. 초기값설정2. 반복단계 1. 초기값설정 KNN (최근접이웃)과 마찬가지로 K 평균은 다중 속성공간의 좌표로 속성값을 다룬다. (오해하진 말자 KNN과 K평균은 카테고리가 다르다. 단지 K라는 글자만 같을뿐이다.) 첨언을 .. 더보기
Clustering 군집분석은 데이터마이닝(통계), 기계학습분야에 있는 이론이다. 기계학습에서 이 군집분석이 들어가는 카테고리는 비지도학습(Unsupervised Learning), 다르게 말하면 비교사학습이다. 통계에서는 데이터마이닝쪽에 들어가게 되고 이 데이터마이닝이 패턴인식 혹은 통계적규칙을 찾아내는 학문인데, 이러한 군집분석은 특성에 따라 데이터의 패턴이나 규칙을 통해 여러개의 집단으로 나누는 것이므로 이러한 마이닝 분야에 들어갈 수 있겠다. 군집화는 예측보다는 지식의 발견에 사용된다. 마이닝에서 군집분석의 첫번째 목적은 적절한 군집으로 나누는 것이고, 두 번째 목적은 각 군집의 특성, 군집간의 차이 등에 대해 분석하는 것이다. 사실 엄밀히 말하면 데이터마이닝과 기계학습 분야에서의 clustering의 의미는 약간 .. 더보기