본문 바로가기

study

(25)
추천 시스템에 대하여 추천 시스템을 공부해보았다. 요즘 많이 주목받고 있는 분야이기도하고 그 전부터 궁금했다. 크게 협업 필터링과 콘텐츠기반 필터링으로 나뉜다. 간단히 정리해보자. 1. 추천 시스템의 정의 추천 시스템(recommender system)이란 사용자(user)가 선호하는 상품(item)을 예측하는 시스템이다. 기본 원리는 "과거는 곧 미래다."이다. 즉, 추천을 위해 필요한 데이터는 유저들의 행위에 대한 기록이다. 2. 추천 시스템의 분류 전체추천 : 불특정 다수에게 추천하는 형태(검색 엔진의 메인화면의 게시물) 그룹추천 : 사용자들을 특정 그룹으로 나누어 각 그룹에 특화된 컨텐츠를 추천하는 형태 개인추천 : 개인의 과거 이력을 바탕으로 그에 맞는 아이템을 추천하는 형태(일반적으로 CF 알고리즘을 사용) 연관아..
Mapbox를 활용한 지역별 코로나 감염자 시각화 Reference - https://dailyheumsi.tistory.com/145?category=854906 공간정보 시각화 라이브러리 중에 가장 직관적이며 시각적으로 매력적이다. 정리가 잘 되어 있는 블로그가 있어 참고했다. 파이썬에서 사용가능한 라이브러리도 있고 마침 구별 경계 json파일이 있어 코로나 이슈에 맞게 활용해보았다. (내가 가진 geojson 파일은 행정동이라 블로그에서 사용한 데이터를 활용했다.) 1. 데이터 수집 2. 데이터 가공 3. 시각화 1. 데이터 수집 import urllib.request url = "http://www.seoul.go.kr/coronaV/coronaStatus.do#status_page_top" page = urllib.request.urlopen(..
[Python 문법] 정규 표현식 데이터 전처리 과정에서 꼭 사용하게 되는 정규 표현식이지만 그 때마다 부족함을 느껴 한번 정리해보고자 한다. Reference - https://wikidocs.net/4308 정규표현식(Regular Expressions) 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어이다. 주로 Programming Language나 Text Editor 등 에서 문자열의 검색과 치환을 위한 용도로 쓰인다. 1. re 모듈 - 정규표현식을 활용하기 위한 모듈 import re 로 불러 온 뒤 str = re.compile('정규표현식') 로 컴파일한다. 컴파일한 객체 p를 메서드를 활용하여 가공한다. 2. 메서드 - 문자열 검색 # 패턴이 다음과 같을 때 각각 메서드가 어떻게 기능하는지 알아보자 p..
Interactive Widget 활용한 시각화 Reference - https://towardsdatascience.com/interactive-controls-for-jupyter-notebooks-f5c94829aee6 Interactive Controls for Jupyter Notebooks How to use IPywidgets to enhance your data exploration and analysis towardsdatascience.com Data 출처 JTBC 유투브 채널 / 2020.05.10 16:52:08 / 88개의 영상정보(최신순) 1. Data load 데이터 수집 및 전처리 과정은 생략한다. 데이터는 아래 깃허브 주소를 참고하면 된다. jtbc = pd.read_csv("C:/Users/kjh96/Github/cra..
lesson learned_2 (동작구 빅데이터활용 공모전) 동작구에서 주최한 빅데이터 활용 정책제안 공모전에 참가한 후 배운 lesson learned을 간단히 정리하고자 한다. 1. 지리 정보 관련 지식 지리 정보에 대한 기초지식이 없어 공모전 내내 상당히 애를 먹었다. 새로 알게된 내용을 정리하고자 한다. 지리 정보는 좌표와 특성 정보로 이루어져있다. 1.1. 좌표계 위경도 좌표를 나타내는 방법으로 다양한 좌표계가 존재한다. 목적에 따라 사용하는 좌표계가 다르며 시각화에서는 주로 EPSG 4326가 사용된다. 지리정보 시각화 패키지인 keplergl을 사용할때도 EPSG 4326 좌표계를 사용했다. 1.2. 파일 형식 - Shape file (.shp) Shape file은 일반적으로 .shp 형식 외에도 .dbf 형식과 .shx 파일 등 몇개의 파일 묶음을..
lesson learned_1 (동작구 빅데이터활용 공모전) 동작구에서 주최한 빅데이터 활용 정책제안 공모전에 참가한 후 배운 lesson learned을 간단히 정리하고자 한다. 해당 공모전을 통해 전처리와 분석순서에 대한 기초를 잡을 수 있었다. 또한 전처리와 시각화 부분은 기초적이지만 가장 중요한 부분으로 내가 많이 간과하고 있음을 느꼈다. 시각화를 통한 EDA를 기계적으로 하도록 연습해야겠다. 1. 전처리 2. 시각화 3. 분석 # encoding= "utf8"로 인코딩이 잘 안될 경우 pd.read_csv("./data/data.csv", encoding= "utf8-sig") 1.2. 데이터 재구조화 from pandas import DataFrame data = DataFrame({'cust_ID' : ['C_001', 'C_001', 'C_002',..
비지도학습 : PCA 주성분 분석 비지도 학습을 사용해 데이터를 변환하는 이유는 여러가지이다. 가장 일반적으로는 데이터를 시각화 압축, 추가 처리를 위해 정보가 더 잘 드러나도록 하기 위해서이다. 1. 주성분 분석(PCA) PCA의 본질은 탐색적 분석이다. 즉, 변인을 탐색해서 변환을 통해 주성분을 결정하는 방법이다. 주성분이란 데이터를 구성하는 특성 중 데이터를 가장 잘 설명하는 특성을 말한다. 데이터의 특성이 많을때 중요하다고 판단되는 일부 특성을 활용하여 데이터를 설명 또는 모델링하고자 할때 PCA를 사용한다. 그러다보니 주성분을 알아보는 것 외에 차원을 축소하는 기능을 한다고 볼 수 있는 것이다. mglearn.plots.plot_pca_illustration() 왼쪽 위 그래프에서 분산이 가장 큰 방향을 찾는다. 바로 성분 1이..
비지도학습 : 데이터 전처리 지도학습의 머신러능 알고리즘에 대해 알아보고 정리를 해보았다. 출처는 아래 남겨두었다. 1. 비지도 학습의 종류 비지도 변환 : 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘. 가장 널리 사용되는 분야는 특성이 많은 고차원 데이터를 특성의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현하는 차원 축소이다. 또한 소셜 데이터 분석을 통해 주제를 탐색하는데에도 사용된다. 군집 : 데이터를 비슷한 것끼리 묶는 것을 말한다. 2. 비지도 학습의 도전 과제 비지도 학습은 레이블이 없다보니 무엇이 올바른 출력인지 알 수 없다. 알고리즘에게 우리가 원하는 출력을 알려줄 방법이 없다. 따라서 비지도 학습 알고리즘은 데이터 탐색 단계에서 많이 사용..