본문 바로가기

분류 전체보기

Clustering 군집분석은 데이터마이닝(통계), 기계학습분야에 있는 이론이다. 기계학습에서 이 군집분석이 들어가는 카테고리는 비지도학습(Unsupervised Learning), 다르게 말하면 비교사학습이다. 통계에서는 데이터마이닝쪽에 들어가게 되고 이 데이터마이닝이 패턴인식 혹은 통계적규칙을 찾아내는 학문인데, 이러한 군집분석은 특성에 따라 데이터의 패턴이나 규칙을 통해 여러개의 집단으로 나누는 것이므로 이러한 마이닝 분야에 들어갈 수 있겠다. 군집화는 예측보다는 지식의 발견에 사용된다. 마이닝에서 군집분석의 첫번째 목적은 적절한 군집으로 나누는 것이고, 두 번째 목적은 각 군집의 특성, 군집간의 차이 등에 대해 분석하는 것이다. 사실 엄밀히 말하면 데이터마이닝과 기계학습 분야에서의 clustering의 의미는 약간 .. 더보기
추론과 예측의 차이 이건 용어적것 인데 추론과 예측의 차이가 추론은 답이 있는데 이를 논리적으로 이 결과가 나오는지를 설명하는거고, 예측은 답이 현재 없는데 과거의 정보들을 가지고 결과를 예상하는걸 말함.아래에 잘 설명되어 있음. http://m.blog.naver.com/gbamaster/80190471761 추론 : https://ko.wikipedia.org/wiki/%EC%B6%94%EB%A1%A0예측(prediction) : https://en.wikipedia.org/wiki/Prediction 더보기
Loading vs eigenvectors in PCA http://stats.stackexchange.com/questions/143905/loadings-vs-eigenvectors-in-pca-when-to-use-one-or-another PCA에서, 당신은 공분산( 또는 상관관계) 행렬을 공분산(상관관계)의 크기 부분(고유값들)과 공분산의 방향부분(고유벡터들)로 나눈다. 그 다음 당신은 아마 고유 벡터가 고유값을 지니고 있을거라 생각한다. 그래서 loadings는 변수들간에 관찰된 공분산/상관관계를 가진 크기로 비교가 가능해진다. 왜냐하면 변수들의 공분산으로부터 도출된것이 변수들과 주성분들사이의 공분산 형태로 반환되기 때문이다. 사실상 Loadings들은 원래 변수들과 단위척도화된 주성분간의 공분산/상관관계들 이다. Loadings: 주성분 혹은 요.. 더보기
BETTER COMPUTER GO PLAYER WITH NEURAL NETWORK AND LONG-TERM PREDICTION 1부 다음은 http://arxiv.org/pdf/1511.06410v2.pdf 이 논문을 2부에 나눠 번역한 것이다. Long-Term Prediction과 인공 신경망을 적용시킨 더 발전된 컴퓨터 바둑기사(BETTER COMPUTER GO PLAYER WITH NEURAL NETWORK AND LONG-TERM PREDICTION) 저자 : Yuandon Tian, Yan Zhu 초록 오래된 고전게임인 바둑에서 프로기사와 대결하는 것이 AI의 장기목표였습니다. 바둑의 분기계수(한마디로 각 위치에서의 다음수의 개수? 혹은 전체 자식노드의 최대개수? 를 말하는듯.. DeepMind에서 발표한 영상에서는 이게 200개가 된다고 함)는 심지어 독보적인 하드웨어에서 조차 기존의 전통적인 탐색기술들을 무력화시킵니다... 더보기
PCA설명 오류 ..... - 1회차 - 어제 내가 현용이 형이 PCA를 설명해 보라고 하여 나는 "첫번째꺼 부터 답하면 일단 차원 축소 자체가 각 데이터 마다 공통적으로 가지고 있는 차원은 특징이 될수 없기 때문에 이를제외 한다 라는 하나의 기준을 가지고 이런걸 제거한다는것" 이라고 답했고 현용이 형의 답은 "PCA는 그런 식으로 동작하지 않습니다" 였다. 후에 현용이 형이 설명을 해줬지만 이해가 안되었다.(지금도 수학적 부분은 이해가 안됨....)나는 완전히 차원이 다른 대답을 했음을 현재 깨달았다. 어제 현용이형이 말한거 좀 이해가 되서 다시 설명을 하면 PCA는 Feature extraction의 한 방법으로 전체 P개의 피쳐를 이용해 가장 잘 설명할수 있는 L개의 피쳐를 가진 벡터로 나타낸다는 것임 . 여기서 가장 잘 설.. 더보기
Clustering 과 Dimensionality Reduction의 차이 Clustering 과 Dimension reduction의 차이 그림에서 보다시피 Clustering 은 instance()을 요약하는 것, 행을 요약하는 것이고 Feature나 특징, 변수들이 있는 열에 대해서 요약을 하는것이 바로 차원축소이다. 더보기
파인만 알고리즘 (일반적 문제 해결법) http://thoughts.chkwon.net/feynman-algorithm/ "고민이 있을 때는, ‘문제’가 무엇인지를 명확히 구체화 시켜 보자. 열심히 생각하면 그 문제를 해결 할 수 있을지도 모른다. 문제를 명확히 구체화 시킬 수 없을 때는, 두 가지 경우가 있을 수 있다. (1) 문제가 아니다. 그러므로, 고민 거리가 아니다. (2) 내 능력으로는 문제를 구체화 시킬 수 없다. 고로, 당연히 문제를 해결 할 수도 없다. 고민 거리가 아니다." 더보기
[수기공모전 최우수상] 누가, 무엇으로 치킨을 튀기는가? - 통계로 튀기는 치킨 [출처] [수기공모전 최우수상] 누가, 무엇으로 치킨을 튀기는가? - 통계로 튀기는 치킨|작성자 통계청 http://blog.naver.com/hi_nso/220489542903 실생활에 쓰이는 통계입니다. 최우수상 받을만 하네요~ 내용 요약을 해봅니다. 첫번째 문제 인식 : 치킨의 맛은 재료, 밑간 그리고 조리법 이렇게 3가지 정도로 결정되는데 밑간과 튀김가루를 발라 튀기는 요령에는 노하우가 필요한 부분이므로 시간이 지나면 해결될 문제 그러나 닭의 신선도는 판매량 예측이 정확해야 구매한 재료가 오래되지 않아 신선한 상태로 판매를 할 수 있음. 목표설정 : 계육소모량을 알아내자! 가중치 계육소모량의 주요변수는 크게 3개1. 계절 2. 날씨 3. 이벤트 1과 2는 누구나 생각 가능, 그러나 이벤트 변수를 도출하기가 힘듬.이 이벤트를 찾는것이 또 다른 문제입니다. 일단 데이터가 없었으니 데이터를 모아야겠죠 글.. 더보기
바둑 이세돌 vs. 인공지능 컴퓨터...오는 3월 세기의 대결 http://m.ytn.co.kr/news_view.php?s_mcd=0107&key=201601280603549304 "그동안 바둑은 인공지능 컴퓨터 분야에 난공불락의 영역으로 여겨져 왔습니다. 비슷한 종류의 게임인 체스에 비해 경우의 수나 전략이 훨씬 더 복잡하고 다양해 현재까지 개발된 최고의 컴퓨터 바둑 프로그램은 아마 5∼6단 정도의 실력을 지닌 것으로 평가됐습니다. " 이제는 바둑도 컴퓨터의 영역이.... ㅎㄷㄷㄷ https://www.youtube.com/watch?v=SUbqykXVx0A 이건 구글 딥마인드의 보드게임에서 AI 컴퓨터의 성과들을 말해주고 현재 어느 단계까지 왔는지에 대한 설명입니다. 구글 딥마인드가 개발한 인공지능 바둑 프로그램인 '알파고' 가 최근 유럽 바둑 챔피언 출신 중.. 더보기
Intro MIT 선형대수강좌의 요약이 되어있는 사이트를 선형대수공부하는 김에 포스팅 할것이다.본 요약본은 선형대수쪽에서 아주 유명하신 Gilbert Strang 교수를 정리한 것이다. You Tube에 있는 MITOpenCourse에 올라와 있는 강의 링크 이제 시작해보자~!!! 더보기