본문 바로가기

분류 전체보기

편향-분산 트레이드오프와 Regularization 일반적으로 우리가 훈련을 잘 시킨다는 것은 훈련데이터에 대해 잘 적합(fit)시킨다는 말로도 해석한다. 그러나 이 훈련데이터에 너무 잘 적합을 시킨다면 흔히 말하는 과다적합(overfiting)문제가 발생한다. 그렇다고 하여 훈련데이터에 대해 간단히 추세만 나타낼 정도로만 모델을 만들면 과소적합(underfitting)문제가 발생한다. 과다적합 상황에서는 편향(Bias)이 낮고 분산(Variance)은 높다고 하고 반대로 과소적합상황에서는 편향이 높고 분산이 낮다고 한다. 이런 분산과 편향사이의 관계를 편향-분산 트레이드 오프관계라고 한다. 지도학습 알고리즘이 트레이닝 셋의 범위를 지나치게 일반화 하는 것을 예방하기 위해 두 종류의 오차(편향, 분산)를 최소화 할 때 겪는 문제이다. 즉 편향을 줄이려고 .. 더보기
패턴인식 & 선형대수 올해 첫 책 구입 목표... 그러나 현재 둘 다 절판... 형들한테 빌려서 제본이라도 할까.... 알기쉬운 선형대수 Howard Anton , Chris Rorres 지음http://book.interpark.com/product/BookDisplay.do?_method=detail&sc.shopNo=0000400000&sc.prdNo=210105591&sc.saNo=003002001&bid1=search&bid2=product&bid3=img&bid4=001 패턴인식과 기계학습저 : 박혜영, 이관용출판사 : 이한출판사(이한미디어) http://book.interpark.com/product/BookDisplay.do?_method=detail&sc.shopNo=0000400000&sc.prdNo=207.. 더보기
Image Text Recognition in Python http://francescopochetti.com/text-recognition-natural-scenes/ 더보기
DBSCAN(Density-based spatial clustering of applications with noise) Algorithm DBSCAN에 대한 이 글은 http://deepcumen.com/2015/04/clustering/ 여기에 잘 설명되어 있어서 여기있는 내용의 일부를 첨부하였고 위키피디아에 있는 설명을 좀 덧붙였다. DBSCAN(Density-based spatial clustering of applications with noise)은 Density model들중 하나이고 K-Means와 같이 데이터의 위치정보를 이용한다. 하지만 K-Means 처럼 데이터의 분포(평균과의 거리가 얼마나 떨어져 있는지로 군집을 결정 했으므로) 를 통해 군집을 정하는 것이 아니라, 데이터들의 밀도를 이용한다. 같은 군집내의 데이터들은 밀도가 높게 위치해 있을것이라는 가정이다. 즉 주변데이터들의 밀도를 이용해 군집을 생성해 나가는 방식이.. 더보기
Team AIkorea & Lunit meetup Team AIkorea & Lunit meetup 발표 슬라이드 http://aikorea.org/meetup/ 더보기
Standardization VS Normalization http://www.dataminingblog.com/standardization-vs-normalization/ Normalization은 "해당 속성(변수)값-최소값/최대값-최소값"으로 0~1사이의 값으로 나타내는 척도법이고 Standardization은 특정한 분포(ex. 정규분포)들의 평균과 분산 혹은 표준편차를 이용해 "속성값-평균/표준편차"로 해당 분포에서의 이 속성값이 평균으로부터의 위치를 표준편차 단위로 옮겨서 다시 나타낸 것이다. 더보기
K-Means Algorithm K-Means 알고리즘은 Centroid model들 중 하나이고 실행하기 이전에 K를 명시해야 하며 K개 군집을 뜻한다 목적은 각 군집 내에 있는 데이터의 차이를 최소로 하고, 군집간의 차이는 최대로 만드는 일이다 (유유상종). 알고리즘은 지역적인(지정된 K개 에서) 최적의 해결책을 찾는 휴리스틱(무작위시작에서 실험적 반복을 통해 조금씩 성능을 향상시키는 과정)과정을 사용한다. 최종적으로는 군집내 동질성의 향상을 목표로 한다. K-Means 알고리즘은 크게 2가지 파트로 나뉜다. 1. 초기값설정2. 반복단계 1. 초기값설정 KNN (최근접이웃)과 마찬가지로 K 평균은 다중 속성공간의 좌표로 속성값을 다룬다. (오해하진 말자 KNN과 K평균은 카테고리가 다르다. 단지 K라는 글자만 같을뿐이다.) 첨언을 .. 더보기
Introduction to Neural Machine Translation with GPUs (part 1) 원문 : https://devblogs.nvidia.com/parallelforall/introduction-neural-machine-translation-with-gpus/ Neural machine translation은 최근 순수 신경망에만 기초한 기계번역으로 제안된 프레임워크다. 이 포스팅은 neural machine translation 시스템을 구현한 간단한 encoder-decoder 모델을 설명한 시리즈중 첫번째 포스팅이다. [Cho et al., 2014; Sutskever et al., 2014; Kalchbrenner and Blunsom, 2013]. 차후 포스팅에서는, 어떻게 attention mechanism 이 간단한 encoder-decoder모델에 통합될 수 있는지를 설명.. 더보기
[튜토리얼] 10분안에 ‘아프리카TV’같은 비디오 채팅 앱 만들어 보기 http://blog.sendbird.com/ko/%ED%8A%9C%ED%86%A0%EB%A6%AC%EC%96%BC-10%EB%B6%84%EC%95%88%EC%97%90-%EC%95%84%ED%94%84%EB%A6%AC%EC%B9%B4tv%EA%B0%99%EC%9D%80-%EB%B9%84%EB%94%94%EC%98%A4-%EC%B1%84%ED%8C%85-%EC%95%B1-%EB%A7%8C/ 더보기
넷플릭스가 추천 및 검색 알고리즘을 개선하는 방법 http://www.hellodatascience.com/?p=587 넷플릭스의 추천 및 검색 알고리즘을 개선하는 방법에 관한 아티클을 정리한 것이다. 검색/추천 품질에 관심이 있다면 실무에서 어떠한 것이 이슈이고 이것들을 넷플릭스에서는 어떻게 해결하는지에 대한 내용이다. 더보기