본문 바로가기

study

비지도학습 : 데이터 전처리

지도학습의 머신러능 알고리즘에 대해 알아보고 정리를 해보았다. 출처는 아래 남겨두었다.

1. 비지도 학습의 종류

비지도 변환 : 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘. 가장 널리 사용되는 분야는 특성이 많은 고차원 데이터를 특성의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현하는 차원 축소이다. 또한 소셜 데이터 분석을 통해 주제를 탐색하는데에도 사용된다.

군집 : 데이터를 비슷한 것끼리 묶는 것을 말한다.

 

2. 비지도 학습의 도전 과제  

비지도 학습은 레이블이 없다보니 무엇이 올바른 출력인지 알 수 없다. 알고리즘에게 우리가 원하는 출력을 알려줄 방법이 없다. 따라서 비지도 학습 알고리즘은 데이터 탐색 단계에서 많이 사용된다. 즉, 지도학습의 전처리 단계에서 많이 사용된다. 

 

3. 데이터 전처리와 스케일 조정 

3.1 여러가지 전처리 방법

- StandardScaler : 각 특성의 평균을 0, 분산을 1로 조정
- RobustScaler : 중간 값을 0 사분위 값을 1로 조정
- MinMaxScaler : 모든 특성이 0과 1사이에 위치하도록 조정
- Nomalizer : 특성 벡터의 유클리디안 길이가 1이 되도록 조정, 다시 말해 지름이 1인 원에 데이터를 투영한다.

분석시에 스케일러를 활용하면 분석 정확도가 높게 나온다. 효과가 좋다.

import mglearn
mglearn.plots.plot_scaling()

 

 

출처

http://www.hanbit.co.kr/store/books/look.php?p_code=B5750278775

 

파이썬 라이브러리를 활용한 머신러닝(번역개정판) : 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

현업에서 머신러닝을 연구하고 인공지능 서비스를 개발하기 위해 꼭 학위를 받을 필요는 없습니다. 사이킷런(scikit-learn)과 같은 훌륭한 머신러닝 라이브러리가 복잡하고 난해한 작업을 직관적인 인터페이스로 감싸주는 덕분이죠. 이 책에서는 사이킷런의 핵심 개발자가 복잡한 수학을 동원하지 않고 실용적으로 머신러닝을 구축하는 모든 단계를 설명합니다. 미적분, 선형대수, 확률 이론을 공부하지 않았어도 이 책을 통해 머신러닝을 활용할 수 있게

www.hanbit.co.kr