본문 바로가기

study

(27)
Mapbox를 활용한 지역별 코로나 감염자 시각화 Reference - https://dailyheumsi.tistory.com/145?category=854906 공간정보 시각화 라이브러리 중에 가장 직관적이며 시각적으로 매력적이다. 정리가 잘 되어 있는 블로그가 있어 참고했다. 파이썬에서 사용가능한 라이브러리도 있고 마침 구별 경계 json파일이 있어 코로나 이슈에 맞게 활용해보았다. (내가 가진 geojson 파일은 행정동이라 블로그에서 사용한 데이터를 활용했다.) 1. 데이터 수집 2. 데이터 가공 3. 시각화 1. 데이터 수집 import urllib.request url = "http://www.seoul.go.kr/coronaV/coronaStatus.do#status_page_top" page = urllib.request.urlopen(..
[Python 문법] 정규 표현식 데이터 전처리 과정에서 꼭 사용하게 되는 정규 표현식이지만 그 때마다 부족함을 느껴 한번 정리해보고자 한다. Reference - https://wikidocs.net/4308 정규표현식(Regular Expressions) 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어이다. 주로 Programming Language나 Text Editor 등 에서 문자열의 검색과 치환을 위한 용도로 쓰인다. 1. re 모듈 - 정규표현식을 활용하기 위한 모듈 import re 로 불러 온 뒤 str = re.compile('정규표현식') 로 컴파일한다. 컴파일한 객체 p를 메서드를 활용하여 가공한다. 2. 메서드 - 문자열 검색 # 패턴이 다음과 같을 때 각각 메서드가 어떻게 기능하는지 알아보자 p..
Interactive Widget 활용한 시각화 Reference - https://towardsdatascience.com/interactive-controls-for-jupyter-notebooks-f5c94829aee6 Interactive Controls for Jupyter Notebooks How to use IPywidgets to enhance your data exploration and analysis towardsdatascience.com Data 출처 JTBC 유투브 채널 / 2020.05.10 16:52:08 / 88개의 영상정보(최신순) 1. Data load 데이터 수집 및 전처리 과정은 생략한다. 데이터는 아래 깃허브 주소를 참고하면 된다. jtbc = pd.read_csv("C:/Users/kjh96/Github/cra..
lesson learned_2 (동작구 빅데이터활용 공모전) 동작구에서 주최한 빅데이터 활용 정책제안 공모전에 참가한 후 배운 lesson learned을 간단히 정리하고자 한다. 1. 지리 정보 관련 지식 지리 정보에 대한 기초지식이 없어 공모전 내내 상당히 애를 먹었다. 새로 알게된 내용을 정리하고자 한다. 지리 정보는 좌표와 특성 정보로 이루어져있다. 1.1. 좌표계 위경도 좌표를 나타내는 방법으로 다양한 좌표계가 존재한다. 목적에 따라 사용하는 좌표계가 다르며 시각화에서는 주로 EPSG 4326가 사용된다. 지리정보 시각화 패키지인 keplergl을 사용할때도 EPSG 4326 좌표계를 사용했다. 1.2. 파일 형식 - Shape file (.shp) Shape file은 일반적으로 .shp 형식 외에도 .dbf 형식과 .shx 파일 등 몇개의 파일 묶음을..
lesson learned_1 (동작구 빅데이터활용 공모전) 동작구에서 주최한 빅데이터 활용 정책제안 공모전에 참가한 후 배운 lesson learned을 간단히 정리하고자 한다. 해당 공모전을 통해 전처리와 분석순서에 대한 기초를 잡을 수 있었다. 또한 전처리와 시각화 부분은 기초적이지만 가장 중요한 부분으로 내가 많이 간과하고 있음을 느꼈다. 시각화를 통한 EDA를 기계적으로 하도록 연습해야겠다. 1. 전처리 2. 시각화 3. 분석 # encoding= "utf8"로 인코딩이 잘 안될 경우 pd.read_csv("./data/data.csv", encoding= "utf8-sig") 1.2. 데이터 재구조화 from pandas import DataFrame data = DataFrame({'cust_ID' : ['C_001', 'C_001', 'C_002',..