본문 바로가기

study

지도학습 : 결정트리의 앙상블

지도학습의 머신러능 알고리즘에 대해 알아보고 정리를 해보았다. 출처는 아래 남겨두었다. 결정트리에 대한 내용은 생략한다. 

4.결정트리의 앙상블

4.1. 앙상블

앙상블(ensemble)은 여러 개의 모형을 만들어 각 모형의 예측을 다수결이나 평균하는 방법이다. 하나의 모형만을 학습시키는 것보다 대체로 나은 결과를 보여준다. 대표적으로 배깅(bagging), 부스팅(boosting) 방법이 있다. 머신러닝 모델과 결합하여 강력한 성능을 낸다.

 

4.1.1. 배깅

Bagging은 Bootstrap Aggregation의 약자이다. 배깅은 샘플을 여러 번 뽑아(Bootstrap) 각 모델을 학습시켜 결과물을 집계(Aggregration)하는 방법이다. 이를 활용한 모델이 랜덤포레스트이다.

 

4.1.2. 부스팅(Boosting)

부스팅은 가중치를 활용하는 방법. 각 각의 샘플에 적용된 결정트리가 독립적으로 값을 예측하는 것과는 다르게 부스은 순차적으로 진행하여 값을 예측한다. 처음 모델이 예측했을때 결과값에 따라 가중치를 부여한다. 오답의 경우 높은 가중치를 부여하여 두번째 학습에 영향을 끼치게 한다. 이렇게 순차적으로 학습하면서 오답을 좀 가려내는 데 초점을 맞춘다. 그러다보니 정확도가 높은 만큼 훈련 데이터에 과대적합될 가능성이 높고 이상치에 취약하다. 이를 활용한 대표적인 모델이  그레디언트 부스트와 XGBoost 등이 있다.

 

출처

http://www.hanbit.co.kr/store/books/look.php?p_code=B5750278775

https://swalloow.github.io/bagging-boosting

https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-15-Gradient-Boost

 

Swalloow Blog

{% if page.logo %}{% endif %} {% if page.navigation %} Menu {% endif %} {{ site.name }} {{ site.description }}...

swalloow.github.io

 

파이썬 라이브러리를 활용한 머신러닝(번역개정판) : 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

현업에서 머신러닝을 연구하고 인공지능 서비스를 개발하기 위해 꼭 학위를 받을 필요는 없습니다. 사이킷런(scikit-learn)과 같은 훌륭한 머신러닝 라이브러리가 복잡하고 난해한 작업을 직관적인 인터페이스로 감싸주는 덕분이죠. 이 책에서는 사이킷런의 핵심 개발자가 복잡한 수학을 동원하지 않고 실용적으로 머신러닝을 구축하는 모든 단계를 설명합니다. 미적분, 선형대수, 확률 이론을 공부하지 않았어도 이 책을 통해 머신러닝을 활용할 수 있게

www.hanbit.co.kr