본문 바로가기

study25

Youtube 댓글 크롤링 목표 : 특정 유투브 채널의 댓글 자동으로 수집하기 1. 준비 사항 2. 크롤링 1. 준비사항 1.1. 필요한 모듈 설치 여기서 가장 중요한 모듈은 selenium, BeautifulSoup 두가지이다. Selenium는 웹앱을 테스트하기 위한 프레임워크이다. 반복적인 크롤링 작업을 대신 해줄 도구라 보면 된다. BeautifulSoup은 HTML 및 XML 문서 구문 분석을 하기위한 Python 패키지이다. import requests from bs4 import BeautifulSoup import time import urllib.request from selenium.webdriver import Chrome from selenium import webdriver import re from sel.. 2020. 4. 5.
지도학습 : 나이브베이즈 지도학습의 머신러능 알고리즘에 대해 알아보고 정리를 해보았다. 출처는 아래 남겨두었다. 3. 나이브 베이즈 분류기 나이브 베이즈에서 나이브는 순진하다라는 뜻으로 모든 데이터의 특징을 동등하고 독립적이라고 가정하기 때문에 비롯되었다. 이 분류기를 이해하기 위해서는 베이즈 정리를 이해해야한다. 나이브 베이즈는 조건부확률에 대한 수학적 정리를 통해 어떤 사건을 추론할 수 있는것이다. 날씨 예제를 통해 나이브 베이즈 좀더 자세히 알아보자 Feature가 하나일 때 나이브 베이즈 분류문제 1. 날씨가 overcast일 때 경기를 할 확률은? P(Yes|Overcast) = P(Overcast|Yes) P(Yes) / P(Overcast) 1. 사전 확률 P(Overcast) = 4/14 = 0.29 , P(Yes.. 2020. 3. 30.
지도학습 : 선형 모델 지도학습의 머신러능 알고리즘에 대해 알아보고 간단히 정리를 해보았다. 2. 선형모델 선형 모델은 입력 특성에 대한 선형 함수를 만들어 예측을 수행한다. 예를 들어 2차원 평면에 랜덤하게 100개의 좌표가 점으로 찍혀있을때 모든 점을 지나는 하나의 선은 그을 수 없다. 우리는 실제와 비슷한 선을 예측하여 그릴 뿐이다. 이 때 예측하는 선과 실제 점 사이에 오차가 발생한다. 이를 최소하는 것이 예측력을 높이는 중요한 과제이다. 그리고 오차를 줄이는 방법에 따라 다양한 모델이 있다. 다음으로 선형 회귀에 어떤 모델이 있는지 간단히 알아보자. 2.1 예측모델 2.1.1. Bias와 Variace, 오차 그리고 정규화 선형 회귀 모델의 종류를 살펴보기 전에 알아둬야하는 내용이 있다. 첫번째로 Bias와 Varia.. 2020. 3. 29.
지도학습 : KNN 최근접 이웃 알고리즘 지도학습의 머신러능 알고리즘에 대해 알아보고 정리를 해보았다. 출처는 아래 남겨두었다. 1. KNN(K-Nearest Neighbor) 최근접 이웃 알고리즘 1.1. 특징 - 가장 간단한 머신러닝 알고리즘 - 새로운 데이터를 예측할 때 가장 가까운 데이터로 예측하는 방법 - 이웃(범위)의 수를 설정해주어야 한다 - 거리는 유클리디안 거리방식을 사용한다 1.2. 장단점 - 훈련 세트의 수나 피쳐 수가 많을 경우 예측이 느려진다 - 부분의 값이 0일 경우 잘 작동하지 않는다 - 쉽지만 예측이 느리고 여러 피쳐를 처리하기에는 성능이 부족해 현업에서는 잘 쓰지 않는다 1.3. KNN을 활용한 분류와 회귀 # 필요한 모듈 설치 !pip install numpy scipy matplotlib ipython scik.. 2020. 3. 28.