본문 바로가기

ML & DM/Deep Learning

Learning rate decay Learning rate decay 보통 일반적인 Stochastic gradient descent를 이용한 backprop을 할때 weight 의 learning rate를 잘 조정하는 것이 중요하다. 초기에는 이 learning rate를 grid search(요즘엔 random search를 사용하는 추세이다.)로 찾아 가장 오차를 적게하는 learning rate로 고정을 시켰다. 그러나 이는 실제 오차함수의 최적해를 찾는 과정을 보면 알맞지 않은 방법이다. 이를 골짜기를 향해 내려가는 것에 비유해보면 걸음폭을 일정하게 가지만 골짜기로 내려 갈수록 이 걸음폭을 줄여야만 가장 움푹 패인 곳에 도달할 수 있기 때문이다. 다시말해 최적해를 구하기 위해서는 각 스텝(혹은 iteration, step)이 .. 더보기
Introduction to Neural Machine Translation with GPUs (part 1) 원문 : https://devblogs.nvidia.com/parallelforall/introduction-neural-machine-translation-with-gpus/ Neural machine translation은 최근 순수 신경망에만 기초한 기계번역으로 제안된 프레임워크다. 이 포스팅은 neural machine translation 시스템을 구현한 간단한 encoder-decoder 모델을 설명한 시리즈중 첫번째 포스팅이다. [Cho et al., 2014; Sutskever et al., 2014; Kalchbrenner and Blunsom, 2013]. 차후 포스팅에서는, 어떻게 attention mechanism 이 간단한 encoder-decoder모델에 통합될 수 있는지를 설명.. 더보기
BETTER COMPUTER GO PLAYER WITH NEURAL NETWORK AND LONG-TERM PREDICTION 1부 다음은 http://arxiv.org/pdf/1511.06410v2.pdf 이 논문을 2부에 나눠 번역한 것이다. Long-Term Prediction과 인공 신경망을 적용시킨 더 발전된 컴퓨터 바둑기사(BETTER COMPUTER GO PLAYER WITH NEURAL NETWORK AND LONG-TERM PREDICTION) 저자 : Yuandon Tian, Yan Zhu 초록 오래된 고전게임인 바둑에서 프로기사와 대결하는 것이 AI의 장기목표였습니다. 바둑의 분기계수(한마디로 각 위치에서의 다음수의 개수? 혹은 전체 자식노드의 최대개수? 를 말하는듯.. DeepMind에서 발표한 영상에서는 이게 200개가 된다고 함)는 심지어 독보적인 하드웨어에서 조차 기존의 전통적인 탐색기술들을 무력화시킵니다... 더보기