본문 바로가기

데이터 분석

(4)
[Kaggle] IMDB 감정 분석 Part 1 오늘은 캐글 튜토리얼인 IMDB의 영화 리뷰 데이터의 감성분석을 진행해보고자 한다. 깃헙에 한글로 총 4파트로 나누어 친절하게 작성된 코드가 있어 참고고하여 정리해보았다. 아래 출처를 남겨두었다. 순서는 아래와 같다. 원문은 https://www.kaggle.com/c/word2vec-nlp-tutorial이다. Tutorial Part 1 : Preprocessing & Bag Of Words modeling Tutorial Part 2 : Word2Vec & Randomforest modeling Tutorial Part 3 : Word2Vec & K-means algorithm Tutorial Part 4 : TF-IDF & XGBoost algorithm 1. 데이터 수집 2. 데이터 정제 3. ..
아파트 분양가격 동향 이번에도 유투브 채널 오늘 코드에 올라온 아파트 분양가격 동향 강의를 따라해보고자 한다. 순서는 다음과 같다. 1. 데이터 수집 2. 시각화 1. 데이터 수집 공공데이터포털(https://www.data.go.kr/)에 제공하는 전체 민간 신규아파트 분양가격 데이터이며 2020년 1월 기준이다. # 필요한 모듈 설치 import pandas as pd import numpy as np import re import missingno as msno import seaborn as sns # 데이터 로드 및 확인 pre_sale = pd.read_csv('C:/Users/user/Github/Study_Public data/주택도시보증공사_전국 평균 분양가격(2020년 1월).csv', encoding = ..
[Kaggle] Survival on the Titanic 구글의 예측모델 및 분석 대회 플랫폼인 kaggle의 가장 기초적인 문제를 풀어보았다. 영화로도 유명한 타이타닉호의 생존자를 예측하는 문제이다. 해당 내용은 유투브 채널 오늘의 코드와 허민석, 현재 수강 중인 교육 플랫폼 learnit의 영상을 토대로 작성하였다. 1. EDA 2. Feature engineering 3. 모델 적용 및 타당성 검증 1. EDA **Data Dictionary** - Survival : 0 = No, 1 = Yes - pclass : Ticket class (1 = 1st, 2 = 2nd, 3 = 3rd) - sibsp : # of siblings / spouses aboard the Titanic - parch : # of parents / children aboard ..
카카오톡 채팅 분석 본인을 포함한 대학동기 4명이 속한 카톡 단체 채팅방의 대화 내용을 분석해보았다. 동의를 구하고 익명처리하여 정리해보고자 한다. 간단한 데이터 형태와 분석 순서는 아래와 같다. 기간 : 2017-01-19 ~ 2020-02-27 대화 : 149,208건 1. 데이터 수집 및 가공 2. 시각화를 통한 EDA 3. 불용어 제거 및 konlpy를 통한 전처리 4 LDA 토픽 모델링 1. 데이터 수집 및 가공 1-1. 데이터 수집 "채팅방 -> 우측 상단 햄버거바 -> 대화 내용 -> 대화 내보내기"를 하면 해당 채팅방의 채팅이 txt파일로 다운받아진다. 휴대폰과 맥북의 경우 csv파일로 저장되니 참고하면 된다. 다만 csv파일의 경우 초기 데이터를 전처리 과정이 생략된다. # 코드 인용 https://gith..