지도학습의 머신러능 알고리즘에 대해 알아보고 정리를 해보았다. 출처는 아래 남겨두었다.
3. 나이브 베이즈 분류기
나이브 베이즈에서 나이브는 순진하다라는 뜻으로 모든 데이터의 특징을 동등하고 독립적이라고 가정하기 때문에 비롯되었다. 이 분류기를 이해하기 위해서는 베이즈 정리를 이해해야한다.
나이브 베이즈는 조건부확률에 대한 수학적 정리를 통해 어떤 사건을 추론할 수 있는것이다. 날씨 예제를 통해 나이브 베이즈 좀더 자세히 알아보자
Feature가 하나일 때 나이브 베이즈 분류문제 1. 날씨가 overcast일 때 경기를 할 확률은?
P(Yes|Overcast) = P(Overcast|Yes) P(Yes) / P(Overcast)
1. 사전 확률
P(Overcast) = 4/14 = 0.29 , P(Yes) = 9/14 = 0.64
2. 사후 확률
P(Overcast|Yes) = 4/9 = 0.44
3. 베이즈 정리 공식에 대입
P(Yes|Overcast) = P(Overcast|Yes) P(Yes) / P(Overcast) = 0.44 * 0.64 / 0.29 = 0.98
즉, 날씨가 Overcast일 때 축구를 할 확률이 0.98이라는 뜻입니다. 이와 같이 구한 확률을 추론의 척도로 사용하는 것이다.
나이브 베이즈 분류기는 앞의 선형 모델과 매우 유사하다. scikit-learn에 구현된 분류기는 3가지이다.
GaussianNB : 연속적인 데이터에도 적용 가능
BernouliNB : 이진 데이터에 적용 가능
MultinomialNB : 카운트 데이터(특성이 어떤 것을 헤아린 정수. 베르누이와 함께 텍스트 데이터 분류시 많이 사용
출처
*Reference: 나이브 베이즈 예제 - https://bkshin.tistory.com/
www.hanbit.co.kr
'study' 카테고리의 다른 글
리그 오브 레전드 승패 예측 (0) | 2020.04.13 |
---|---|
Youtube 댓글 크롤링 (0) | 2020.04.05 |
지도학습 : 나이브베이즈 (0) | 2020.03.30 |
지도학습 : 선형 모델 (0) | 2020.03.29 |
지도학습 : KNN 최근접 이웃 알고리즘 (0) | 2020.03.28 |
라이브러리 모듈 패키지 차이 (0) | 2020.03.26 |
댓글0