본문 바로가기

study

(15)
지도학습 : KNN 최근접 이웃 알고리즘 지도학습의 머신러능 알고리즘에 대해 알아보고 정리를 해보았다. 출처는 아래 남겨두었다. 1. KNN(K-Nearest Neighbor) 최근접 이웃 알고리즘 1.1. 특징 - 가장 간단한 머신러닝 알고리즘 - 새로운 데이터를 예측할 때 가장 가까운 데이터로 예측하는 방법 - 이웃(범위)의 수를 설정해주어야 한다 - 거리는 유클리디안 거리방식을 사용한다 1.2. 장단점 - 훈련 세트의 수나 피쳐 수가 많을 경우 예측이 느려진다 - 부분의 값이 0일 경우 잘 작동하지 않는다 - 쉽지만 예측이 느리고 여러 피쳐를 처리하기에는 성능이 부족해 현업에서는 잘 쓰지 않는다 1.3. KNN을 활용한 분류와 회귀 # 필요한 모듈 설치 !pip install numpy scipy matplotlib ipython scik..
라이브러리 모듈 패키지 차이 헷갈리는 개념 1. 모듈 (moule) 모듈은 데이터, 함수, 클래스 등이 담겨져있는 파일을 말한다. 내장 함수가 아닌 외장 함수의 경우 외부의 라이브러리(모듈)을 사용하기 위해서는 따로 import 하는 작업이 필요하다. 예를 들어 늘 하는 import가 바로 그것 import pandas as pd 2. 패키지 비슷한 모듈의 집합을 말한다. 아래는 urllib2 모듈에서 request 모듈 불러오는 것 from urllib2 import request 3. 라이브러리 패키지와 같은 개념
Colab 시작하기 1.1 구글 코랩이란 Colaboratory(또는 줄여서 'Colab')를 사용하면 브라우저에서 Python을 작성하고 실행할 수 있습니다. 구성 필요 없음 No python GPU 무료 액세스 간편한 공유 https://medium.com/better-programming/one-stop-guide-to-google-colab-d67c94d30516 Your One-Stop Guide to Using Google Colab Get started with deep learning in cloud medium.com
러닛 - 자연어 처리 기초 1. NLP(Natural Language Process) 자연어 처리 자연어는 우리가 일상생활에서 쓰는 언어를 말한다. 정형화 되어 있지 않는 자연어를 활용하기 위해서는 다양항 전처리가 필요하다. 이를 통틀어 자연어 처리라고 부른다. 1.1. 주요 용어 - 토큰화(tokenizing) : 나는 사람이다. -> 나(명사), 는(조사).. - 정제(normalization) : 알게써 -> 얼겠어 - 어간추출(stemming) : 모두들 안녕하신가? -> 모두, 안녕,합니까? - 표제어 추출(lemmatization) : 사랑들 좀 합시다. -> 사랑, 하다 1.2. 다양한 모델 Word2Vec, cohesion score 등등이 있다. 1.3. KoNLPy 한글 자연어 처리를 위한 패키지로 여러 분석기를..
[Kaggle] IMDB 감정 분석 Part 1 오늘은 캐글 튜토리얼인 IMDB의 영화 리뷰 데이터의 감성분석을 진행해보고자 한다. 깃헙에 한글로 총 4파트로 나누어 친절하게 작성된 코드가 있어 참고고하여 정리해보았다. 아래 출처를 남겨두었다. 순서는 아래와 같다. 원문은 https://www.kaggle.com/c/word2vec-nlp-tutorial이다. Tutorial Part 1 : Preprocessing & Bag Of Words modeling Tutorial Part 2 : Word2Vec & Randomforest modeling Tutorial Part 3 : Word2Vec & K-means algorithm Tutorial Part 4 : TF-IDF & XGBoost algorithm 1. 데이터 수집 2. 데이터 정제 3. ..