본문 바로가기

분류 전체보기32

Interactive Widget 활용한 시각화 Data 출처 JTBC 유투브 채널 / 2020.05.10 16:52:08 / 88개의 영상정보(최신순) 1. Data load 데이터 수집 및 전처리 과정은 생략한다. 데이터는 아래 깃허브 주소를 참고하면 된다. jtbc = pd.read_csv("C:/Users/kjh96/Github/crawling_JTBC.csv", encoding="CP949", header=None) 2. 시각화 위젯을 사용하기 위한 패키지를 불러온다. import ipywidgets as widgets from ipywidgets import interact, interact_manual import numpy as np import pandas as pd import scipy # import plotly.plotly as.. 2020. 5. 13.
lesson learned_2 (동작구 빅데이터활용 공모전) 동작구에서 주최한 빅데이터 활용 정책제안 공모전에 참가한 후 배운 lesson learned을 간단히 정리하고자 한다. 1. 지리 정보 관련 지식 지리 정보에 대한 기초지식이 없어 공모전 내내 상당히 애를 먹었다. 새로 알게된 내용을 정리하고자 한다. 지리 정보는 좌표와 특성 정보로 이루어져있다. 1.1. 좌표계 위경도 좌표를 나타내는 방법으로 다양한 좌표계가 존재한다. 목적에 따라 사용하는 좌표계가 다르며 시각화에서는 주로 EPSG 4326가 사용된다. 지리정보 시각화 패키지인 keplergl을 사용할때도 EPSG 4326 좌표계를 사용했다. 1.2. 파일 형식 - Shape file (.shp) Shape file은 일반적으로 .shp 형식 외에도 .dbf 형식과 .shx 파일 등 몇개의 파일 묶음을.. 2020. 5. 2.
lesson learned_1 (동작구 빅데이터활용 공모전) 동작구에서 주최한 빅데이터 활용 정책제안 공모전에 참가한 후 배운 lesson learned을 간단히 정리하고자 한다. 해당 공모전을 통해 전처리와 분석순서에 대한 기초를 잡을 수 있었다. 또한 전처리와 시각화 부분은 기초적이지만 가장 중요한 부분으로 내가 많이 간과하고 있음을 느꼈다. 시각화를 통한 EDA를 기계적으로 하도록 연습해야겠다. 1. 전처리 2. 시각화 3. 분석 # encoding= "utf8"로 인코딩이 잘 안될 경우 pd.read_csv("./data/data.csv", encoding= "utf8-sig") 1.2. 데이터 재구조화 from pandas import DataFrame data = DataFrame({'cust_ID' : ['C_001', 'C_001', 'C_002',.. 2020. 5. 1.
비지도학습 : PCA 주성분 분석 비지도 학습을 사용해 데이터를 변환하는 이유는 여러가지이다. 가장 일반적으로는 데이터를 시각화 압축, 추가 처리를 위해 정보가 더 잘 드러나도록 하기 위해서이다. 1. 주성분 분석(PCA) PCA의 본질은 탐색적 분석이다. 즉, 변인을 탐색해서 변환을 통해 주성분을 결정하는 방법이다. 주성분이란 데이터를 구성하는 특성 중 데이터를 가장 잘 설명하는 특성을 말한다. 데이터의 특성이 많을때 중요하다고 판단되는 일부 특성을 활용하여 데이터를 설명 또는 모델링하고자 할때 PCA를 사용한다. 그러다보니 주성분을 알아보는 것 외에 차원을 축소하는 기능을 한다고 볼 수 있는 것이다. mglearn.plots.plot_pca_illustration() 왼쪽 위 그래프에서 분산이 가장 큰 방향을 찾는다. 바로 성분 1이.. 2020. 4. 18.