본문 바로가기

study

지도학습 : 나이브베이즈

지도학습의 머신러능 알고리즘에 대해 알아보고 정리를 해보았다. 출처는 아래 남겨두었다. 

3. 나이브 베이즈 분류기

나이브 베이즈에서 나이브는 순진하다라는 뜻으로 모든 데이터의 특징을 동등하고 독립적이라고 가정하기 때문에 비롯되었다. 이 분류기를 이해하기 위해서는 베이즈 정리를 이해해야한다. 

베이즈 정리

 

나이브 베이즈는 조건부확률에 대한 수학적 정리를 통해 어떤 사건을 추론할 수 있는것이다.  날씨 예제를 통해 나이브 베이즈 좀더 자세히 알아보자

가장 쉽게 설명한 내용이라 퍼왔다. 출처는 맨아래 남겨두었다.

Feature가 하나일 때 나이브 베이즈 분류문제 1. 날씨가 overcast일 때 경기를 할 확률은?
P(Yes|Overcast) = P(Overcast|Yes) P(Yes) / P(Overcast)   

1. 사전 확률
P(Overcast) = 4/14 = 0.29   ,  P(Yes) = 9/14 = 0.64

2. 사후 확률
P(Overcast|Yes) = 4/9 = 0.44

3. 베이즈 정리 공식에 대입
P(Yes|Overcast) = P(Overcast|Yes) P(Yes) / P(Overcast) = 0.44 * 0.64 / 0.29 = 0.98
즉, 날씨가 Overcast일 때 축구를 할 확률이 0.98이라는 뜻입니다. 이
와 같이 구한 확률을 추론의 척도로 사용하는 것이다. 

 

나이브 베이즈 분류기는 앞의 선형 모델과 매우 유사하다. scikit-learn에 구현된 분류기는 3가지이다.

GaussianNB : 연속적인 데이터에도 적용 가능
BernouliNB : 이진 데이터에 적용 가능 
MultinomialNB : 카운트 데이터(특성이 어떤 것을 헤아린 정수. 베르누이와 함께 텍스트 데이터 분류시 많이 사용

 

 

출처

나이브 베이즈 예제 - https://bkshin.tistory.com/

 

파이썬 라이브러리를 활용한 머신러닝(번역개정판) : 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

현업에서 머신러닝을 연구하고 인공지능 서비스를 개발하기 위해 꼭 학위를 받을 필요는 없습니다. 사이킷런(scikit-learn)과 같은 훌륭한 머신러닝 라이브러리가 복잡하고 난해한 작업을 직관적인 인터페이스로 감싸주는 덕분이죠. 이 책에서는 사이킷런의 핵심 개발자가 복잡한 수학을 동원하지 않고 실용적으로 머신러닝을 구축하는 모든 단계를 설명합니다. 미적분, 선형대수, 확률 이론을 공부하지 않았어도 이 책을 통해 머신러닝을 활용할 수 있게

www.hanbit.co.kr