본문 바로가기

study

(25)
러닛 - 자연어 처리 기초 1. NLP(Natural Language Process) 자연어 처리 자연어는 우리가 일상생활에서 쓰는 언어를 말한다. 정형화 되어 있지 않는 자연어를 활용하기 위해서는 다양항 전처리가 필요하다. 이를 통틀어 자연어 처리라고 부른다. 1.1. 주요 용어 - 토큰화(tokenizing) : 나는 사람이다. -> 나(명사), 는(조사).. - 정제(normalization) : 알게써 -> 얼겠어 - 어간추출(stemming) : 모두들 안녕하신가? -> 모두, 안녕,합니까? - 표제어 추출(lemmatization) : 사랑들 좀 합시다. -> 사랑, 하다 1.2. 다양한 모델 Word2Vec, cohesion score 등등이 있다. 1.3. KoNLPy 한글 자연어 처리를 위한 패키지로 여러 분석기를..
[Kaggle] IMDB 감정 분석 Part 1 오늘은 캐글 튜토리얼인 IMDB의 영화 리뷰 데이터의 감성분석을 진행해보고자 한다. 깃헙에 한글로 총 4파트로 나누어 친절하게 작성된 코드가 있어 참고고하여 정리해보았다. 아래 출처를 남겨두었다. 순서는 아래와 같다. 원문은 https://www.kaggle.com/c/word2vec-nlp-tutorial이다. Tutorial Part 1 : Preprocessing & Bag Of Words modeling Tutorial Part 2 : Word2Vec & Randomforest modeling Tutorial Part 3 : Word2Vec & K-means algorithm Tutorial Part 4 : TF-IDF & XGBoost algorithm 1. 데이터 수집 2. 데이터 정제 3. ..
아파트 분양가격 동향 이번에도 유투브 채널 오늘 코드에 올라온 아파트 분양가격 동향 강의를 따라해보고자 한다. 순서는 다음과 같다. 1. 데이터 수집 2. 시각화 1. 데이터 수집 공공데이터포털(https://www.data.go.kr/)에 제공하는 전체 민간 신규아파트 분양가격 데이터이며 2020년 1월 기준이다. # 필요한 모듈 설치 import pandas as pd import numpy as np import re import missingno as msno import seaborn as sns # 데이터 로드 및 확인 pre_sale = pd.read_csv('C:/Users/user/Github/Study_Public data/주택도시보증공사_전국 평균 분양가격(2020년 1월).csv', encoding = ..
스타벅스 이디야 매장 수 비교 오늘은 데이터 공부하면서 자주 참고하는 유튜브 채널인 오늘의 코드에 올라온 스타벅스와 이디야 상권분석을 따라해보고자 한다. 순서는 아래와 같다. 1. 데이터 수집 2. 시각화 # 요약 folium # 지리정보 시각화 모듈 reset.index() # 인덱스 정리 .str.lower() # 영문 소문자화 .str.contains("x" | "y") # ~을 포함하는 문자 df.plot.scatter(x,y) # 산점도 sns.barplot(data=??, x=??, y=??, hue = ??) # 카테고리 변수를 뜻하는 hue 인수 1. 데이터 수집 분석에 사용된 데이터는 공공데이터포털(https://www.data.go.kr/)에 제공하는 데이터이다. 상가업소정보 외에도 다양한 데이터를 제공하고 있으며 ..
러닛 - 우주 최초 플립러닝 플랫폼 공부하다가 우연히 발견한 교육플랫폼 러닛(Learnit), 오늘은 러닛이라는 서비스를 소개하고자 한다. 러닛은 혼자 할 수 있는 것은 혼자, 같이 할 수 있는 것은 같이하는 온라인 성장 플랫폼이다. 시공간의 제약이 없는 온라인 강의의 이점은 살리되, 온라인 커뮤니케이션이 가능한 피드 기능, 함께 미션에 도전하는 스터디 서비스 등을 활용해 수강생에게 학습동기 동기 및 즐거운 학습경험을 제공함으로써 학습 완주를 돕는다. 혼자 할 수 있는 것은 혼자, 같이 할 수 있는 것은 같이 공부를 하다보면 어떤 개념을 이해보다는 익숙해지려고 노력한다. 어차피 모든 걸 한번에 이해할 수는 없기 때문이다. 그러다보니 강의실에서 이해하지못하는 내용만 쌓는 기존의 방식은 나와 맞지 않았다. 많은 스터디를 경험했지만 만나서 함께..
Database 기초 Reference - 생활코딩 https://www.youtube.com/user/egoing2 데이터 베이스 관련 기초를 이해하기 쉽게 정리해놓은 강의가 있어 소개하고자 한다. 유투브 생활코딩이라는 채널로 총 2 파트로 31강이다. 강의 당 길이가 짧아서 단기간에 데이터 베이스에 대해 개괄적으로 이해하기에 딱이다. 아래는 강의를 보면서 간단히 정리한 내용이다. Database 1 1.1. 정의 file 가진 한계를 극복하기 위해 고안된 소프트웨어 1.2. 핵심(CRUD) input : Create / Update / Delete output : Read 1.3. file vs database 대량의 정보를 구조적으로 파악하고 관리할 수 있다. (File < Spreadsheet < Database) 1..
[Kaggle] Survival on the Titanic 구글의 예측모델 및 분석 대회 플랫폼인 kaggle의 가장 기초적인 문제를 풀어보았다. 영화로도 유명한 타이타닉호의 생존자를 예측하는 문제이다. 해당 내용은 유투브 채널 오늘의 코드와 허민석, 현재 수강 중인 교육 플랫폼 learnit의 영상을 토대로 작성하였다. 1. EDA 2. Feature engineering 3. 모델 적용 및 타당성 검증 1. EDA **Data Dictionary** - Survival : 0 = No, 1 = Yes - pclass : Ticket class (1 = 1st, 2 = 2nd, 3 = 3rd) - sibsp : # of siblings / spouses aboard the Titanic - parch : # of parents / children aboard ..
카카오톡 채팅 분석 본인을 포함한 대학동기 4명이 속한 카톡 단체 채팅방의 대화 내용을 분석해보았다. 동의를 구하고 익명처리하여 정리해보고자 한다. 간단한 데이터 형태와 분석 순서는 아래와 같다. 기간 : 2017-01-19 ~ 2020-02-27 대화 : 149,208건 1. 데이터 수집 및 가공 2. 시각화를 통한 EDA 3. 불용어 제거 및 konlpy를 통한 전처리 4 LDA 토픽 모델링 1. 데이터 수집 및 가공 1-1. 데이터 수집 "채팅방 -> 우측 상단 햄버거바 -> 대화 내용 -> 대화 내보내기"를 하면 해당 채팅방의 채팅이 txt파일로 다운받아진다. 휴대폰과 맥북의 경우 csv파일로 저장되니 참고하면 된다. 다만 csv파일의 경우 초기 데이터를 전처리 과정이 생략된다. # 코드 인용 https://gith..