본문 바로가기

ML & DM

Clustering 군집분석은 데이터마이닝(통계), 기계학습분야에 있는 이론이다. 기계학습에서 이 군집분석이 들어가는 카테고리는 비지도학습(Unsupervised Learning), 다르게 말하면 비교사학습이다. 통계에서는 데이터마이닝쪽에 들어가게 되고 이 데이터마이닝이 패턴인식 혹은 통계적규칙을 찾아내는 학문인데, 이러한 군집분석은 특성에 따라 데이터의 패턴이나 규칙을 통해 여러개의 집단으로 나누는 것이므로 이러한 마이닝 분야에 들어갈 수 있겠다. 군집화는 예측보다는 지식의 발견에 사용된다. 마이닝에서 군집분석의 첫번째 목적은 적절한 군집으로 나누는 것이고, 두 번째 목적은 각 군집의 특성, 군집간의 차이 등에 대해 분석하는 것이다. 사실 엄밀히 말하면 데이터마이닝과 기계학습 분야에서의 clustering의 의미는 약간 .. 더보기
Loading vs eigenvectors in PCA http://stats.stackexchange.com/questions/143905/loadings-vs-eigenvectors-in-pca-when-to-use-one-or-another PCA에서, 당신은 공분산( 또는 상관관계) 행렬을 공분산(상관관계)의 크기 부분(고유값들)과 공분산의 방향부분(고유벡터들)로 나눈다. 그 다음 당신은 아마 고유 벡터가 고유값을 지니고 있을거라 생각한다. 그래서 loadings는 변수들간에 관찰된 공분산/상관관계를 가진 크기로 비교가 가능해진다. 왜냐하면 변수들의 공분산으로부터 도출된것이 변수들과 주성분들사이의 공분산 형태로 반환되기 때문이다. 사실상 Loadings들은 원래 변수들과 단위척도화된 주성분간의 공분산/상관관계들 이다. Loadings: 주성분 혹은 요.. 더보기
BETTER COMPUTER GO PLAYER WITH NEURAL NETWORK AND LONG-TERM PREDICTION 1부 다음은 http://arxiv.org/pdf/1511.06410v2.pdf 이 논문을 2부에 나눠 번역한 것이다. Long-Term Prediction과 인공 신경망을 적용시킨 더 발전된 컴퓨터 바둑기사(BETTER COMPUTER GO PLAYER WITH NEURAL NETWORK AND LONG-TERM PREDICTION) 저자 : Yuandon Tian, Yan Zhu 초록 오래된 고전게임인 바둑에서 프로기사와 대결하는 것이 AI의 장기목표였습니다. 바둑의 분기계수(한마디로 각 위치에서의 다음수의 개수? 혹은 전체 자식노드의 최대개수? 를 말하는듯.. DeepMind에서 발표한 영상에서는 이게 200개가 된다고 함)는 심지어 독보적인 하드웨어에서 조차 기존의 전통적인 탐색기술들을 무력화시킵니다... 더보기
Clustering 과 Dimensionality Reduction의 차이 Clustering 과 Dimension reduction의 차이 그림에서 보다시피 Clustering 은 instance()을 요약하는 것, 행을 요약하는 것이고 Feature나 특징, 변수들이 있는 열에 대해서 요약을 하는것이 바로 차원축소이다. 더보기
Dimension Reduction 아래 설명은 http://deepcumen.com/2015/04/dimension-reduction/ 과 http://darkpgmr.tistory.com/110의 설명을 정리해본것이다.수학적 설명은 최대한 배제하여 직관적이고 개괄적인 부분만 설명을 했으므로 PCA와 LDA가 뭔지에 대해서 개념을 잡는데 초점을 맞추었다. 1. 벡터화에 대한 간단한 언급 일단 설명을 위해 먼저 벡터화에 대해서 설명을 간략하게 하겠다. 위 사진을 보면 28*28 픽셀의 이미지가 있다. 이 이미지 파일 안에 있는 총 픽셀수는 28*28=784개의 픽셀수가 있고, 픽셀하나를 하나의 차원으로 놓고 각 차원은 하나의 Feature가 된다. 이 Feature안에서 값들은 RGB(0~225)가 될 것이다. 따라서 하나의 벡터요소는 해.. 더보기