본문 바로가기

기사/블로그 스크랩

KAGGLE ENSEMBLING GUIDE 원문 : http://mlwave.com/kaggle-ensembling-guide/ # 번역이 매끄럽지 않은점 양해 부탁드림. 오역이 있을 수 있으니 주의바람. 댓글로 알려주시면 바로 고치겠습니다. 모델 앙상블은 다양한 기계학습문제에서 정확도를 높인 매우 강력한 테크닉이다. 이 포스팅 에서는 Kaggle Competition에 쓰인 앙상블 기법을 설명하겠다. 처음은 제출파일로부터 앙상블을 만드는 것을 볼 것이고, 두번째 파트는 stacked generalization이나 blending을 통한 앙상블과 왜 앙상블이 일반화오차(generalization error)를 줄이는지를 볼 것이다. 마지막에는 다른 방법의 앙상블기법의 결과들을 보고 스스로 코딩을 하는 것을 보일 것이다. This is how yo.. 더보기
데이터에 맞는 그래프를 제안해주는 사이트 ‘The Data Visualisation Catalogue’ 주소는 http://www.datavizcatalogue.com/ "가령 아크 다이어그램이나 막대 차트, 버블 차트, 데이터 맵 등에 대한 설명과 장점 단점을 알려줍니다. 또 데이터를 해당 그래프로 변환하는 프로그램이나 사이트를 추천해주기 때문에 여러모로 유용합니다.그래프 작업을 할 때 데이터를 효율적으로 시각화하는 것이 핵심입니다. 이 말은 숫자를 이미지로 바꾼다는 뜻인데 제작경험이 적다면, 완성된 모습을 상상하기가 쉽지 않습니다. 이 때문에 팀원끼리 회의를 하고 합의를 한 상황도 막상 결과물이 나왔을 땐 기대에 못 미치는 경우도 많습니다.그러므로 데이터 시각화 작업을 하기 전에 ‘The Data Visualisation Catalogue’.. 더보기
[강화학습 기반의 자율적인 행동 학습] 링크 : http://www.gameai.net/Article/RLAgent/RLAgent.htm 더보기
[JTBC]냉장고를 부탁해 - 머신러닝 알고리즘을 활용한 각종 분석 링크 : http://jsideas.net/python/2015/07/07/fridge_please_final.html 더보기
10 Machine Learning Algorithms Explained to an ‘Army Soldier’ 다음은 기계학습 알고리즘들을 군인에게 설명하기위해 전쟁에 비유해 설명한 기사이다. 원문 : http://www.analyticsvidhya.com/blog/2015/12/10-machine-learning-algorithms-explained-army-soldier/ Note: The objective of this article is to help people learn machine learning in a fun and interesting way. You’ll also notice every algorithm has its own special situation where it is used. Intro는 건너 뛰겠다. 머신러닝의 범주에는 3가지가 있다. 지도학습 : 전쟁을 하고있고 당신에게 오는.. 더보기
Image Text Recognition in Python http://francescopochetti.com/text-recognition-natural-scenes/ 더보기
Team AIkorea & Lunit meetup Team AIkorea & Lunit meetup 발표 슬라이드 http://aikorea.org/meetup/ 더보기
Standardization VS Normalization http://www.dataminingblog.com/standardization-vs-normalization/ Normalization은 "해당 속성(변수)값-최소값/최대값-최소값"으로 0~1사이의 값으로 나타내는 척도법이고 Standardization은 특정한 분포(ex. 정규분포)들의 평균과 분산 혹은 표준편차를 이용해 "속성값-평균/표준편차"로 해당 분포에서의 이 속성값이 평균으로부터의 위치를 표준편차 단위로 옮겨서 다시 나타낸 것이다. 더보기
넷플릭스가 추천 및 검색 알고리즘을 개선하는 방법 http://www.hellodatascience.com/?p=587 넷플릭스의 추천 및 검색 알고리즘을 개선하는 방법에 관한 아티클을 정리한 것이다. 검색/추천 품질에 관심이 있다면 실무에서 어떠한 것이 이슈이고 이것들을 넷플릭스에서는 어떻게 해결하는지에 대한 내용이다. 더보기
[수기공모전 최우수상] 누가, 무엇으로 치킨을 튀기는가? - 통계로 튀기는 치킨 [출처] [수기공모전 최우수상] 누가, 무엇으로 치킨을 튀기는가? - 통계로 튀기는 치킨|작성자 통계청 http://blog.naver.com/hi_nso/220489542903 실생활에 쓰이는 통계입니다. 최우수상 받을만 하네요~ 내용 요약을 해봅니다. 첫번째 문제 인식 : 치킨의 맛은 재료, 밑간 그리고 조리법 이렇게 3가지 정도로 결정되는데 밑간과 튀김가루를 발라 튀기는 요령에는 노하우가 필요한 부분이므로 시간이 지나면 해결될 문제 그러나 닭의 신선도는 판매량 예측이 정확해야 구매한 재료가 오래되지 않아 신선한 상태로 판매를 할 수 있음. 목표설정 : 계육소모량을 알아내자! 가중치 계육소모량의 주요변수는 크게 3개1. 계절 2. 날씨 3. 이벤트 1과 2는 누구나 생각 가능, 그러나 이벤트 변수를 도출하기가 힘듬.이 이벤트를 찾는것이 또 다른 문제입니다. 일단 데이터가 없었으니 데이터를 모아야겠죠 글.. 더보기