Kaggle 4

[E-commerce] kaggle Olist 분석 | 팀 프로젝트 후기

3주간의 길다면 길고 짧다면 짧은 SQL 프로젝트가 끝이 났다.체감으로는 참 길었는데 데이터를 보다 깊게 파고들기에는 짧게 느껴졌던 3주였는데, 정신없이 프로젝트 하고 나니 다 지나가버린 2월...🥲​​SQL 프로젝트 데이터는 kaggle의 olist_dataset이었다.  Brazilian E-Commerce Public Dataset by Olist100,000 Orders with product, customer and reviews infowww.kaggle.com 발표가 3번이 있었는데,1차에서 브라질 시장과 olist 비즈니스 모델 파악 및 데이터셋 EDA,2차에서 1차 EDA한 것들을 깊게 건드려보면서 3차까지 가지고 갈 유의미한 주제들을 걸러내고 단 2-3가지 데이터들을 다각도로 더 깊게..

분석 프로젝트 2024.06.03

[Netflix] WordCloud, 이미지로 결과 표현하기

워드 클라우드란?문서의 키워드, 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각화하는 기법이다. 보통 Review나 Description 등 텍스트에서 빈출어를 뽑아내는 등 텍스트 마이닝 용도로 사용된다. from wordcloud import WordCloud : 워드 클라우드 생성에 필요한 모듈from PIL import Image : 워드 클라우드를 원하는 형태로 그리기 위해 그림을 불러오는 패키지WordCloud( ).generate(text) : 선언해준 text에서 wordcloud를 생성  - text 변환 : wordcolud에서 작동할 수 있도록 데이터프레임을 list로 1차 변환시키고 str(문자열)로 2차 변환  - mask : 단어를 그릴 위치 설정, 흰색(#FFFFFF) ..

Python 2024.05.31

[Netflix] 시각화 (matplotlib.plotly, seaborn)

# 넷플릭스 브랜드 상징 색깔 시각화sns.palplot(['#221f1f', '#b20710', '#e50914','#f5f5f1'])plt.title("Netflix brand palette ", loc='left', fontfamily='serif', fontsize=15, y=1.2)plt.show() 앞서 전처리를 마친 Netflix를 가지고 시각화하여 분석해보았다.시각화에 사용할 색깔로 넷플릭스의 브랜드 컬러인 4가지 색깔을 활용하였다. Type별 비율(%) by PieChartplt.pie( ) : 파이 플롯 시각화  - labels : 부채꼴 조각 이름  - autopct : 부채꼴 안에 표기될 숫자 형식 지정 문자열 % 포맷팅으로 %0.f 형태는 소수점 없이 정수처럼 인식 진짜 %를 표시..

Python 2024.05.31

[Netflix] 전처리(결측치 처리, 데이터타입 변경), Feature Engineering

데이터셋 Netflix Movies and TV ShowsListings of movies and tv shows on Netflix - Regularly Updatedwww.kaggle.com Kaggle에 올라와있는 Nexflix 데이터를 활용하였다. 2008년부터 2021년까지의 데이터를 확인할 수 있다.  EDA결측치, 데이터 형식 등을 파악하기 위한 EDA를 진행하고 전처리를 진행했다.import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# csv 파일 읽어오기url = "파일경로.csv"netflix = pd.read_csv(url)# 컬럼명 확인netflix.columns  # 데이터 일..

Python 2024.05.31