전체 글 28

[Netflix] WordCloud, 이미지로 결과 표현하기

워드 클라우드란?문서의 키워드, 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각화하는 기법이다. 보통 Review나 Description 등 텍스트에서 빈출어를 뽑아내는 등 텍스트 마이닝 용도로 사용된다. from wordcloud import WordCloud : 워드 클라우드 생성에 필요한 모듈from PIL import Image : 워드 클라우드를 원하는 형태로 그리기 위해 그림을 불러오는 패키지WordCloud( ).generate(text) : 선언해준 text에서 wordcloud를 생성  - text 변환 : wordcolud에서 작동할 수 있도록 데이터프레임을 list로 1차 변환시키고 str(문자열)로 2차 변환  - mask : 단어를 그릴 위치 설정, 흰색(#FFFFFF) ..

Python 2024.05.31

[Netflix] 시각화 (matplotlib.plotly, seaborn)

# 넷플릭스 브랜드 상징 색깔 시각화sns.palplot(['#221f1f', '#b20710', '#e50914','#f5f5f1'])plt.title("Netflix brand palette ", loc='left', fontfamily='serif', fontsize=15, y=1.2)plt.show() 앞서 전처리를 마친 Netflix를 가지고 시각화하여 분석해보았다.시각화에 사용할 색깔로 넷플릭스의 브랜드 컬러인 4가지 색깔을 활용하였다. Type별 비율(%) by PieChartplt.pie( ) : 파이 플롯 시각화  - labels : 부채꼴 조각 이름  - autopct : 부채꼴 안에 표기될 숫자 형식 지정 문자열 % 포맷팅으로 %0.f 형태는 소수점 없이 정수처럼 인식 진짜 %를 표시..

Python 2024.05.31

[Netflix] 전처리(결측치 처리, 데이터타입 변경), Feature Engineering

데이터셋 Netflix Movies and TV ShowsListings of movies and tv shows on Netflix - Regularly Updatedwww.kaggle.com Kaggle에 올라와있는 Nexflix 데이터를 활용하였다. 2008년부터 2021년까지의 데이터를 확인할 수 있다.  EDA결측치, 데이터 형식 등을 파악하기 위한 EDA를 진행하고 전처리를 진행했다.import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# csv 파일 읽어오기url = "파일경로.csv"netflix = pd.read_csv(url)# 컬럼명 확인netflix.columns  # 데이터 일..

Python 2024.05.31

A/B Test

A/B Test 목적 서비스 개선에 있어서 더 효율적이라고 생각되는 가설을 적용할 때 혹시라도 오히려 이탈율을 높이는 요인일 가능성으로 고객을 놓치는 손해를 줄이기 위해서 일부에게만 미리 테스틀해서 효과를 검증한 후에 전체 서비스에 적용하기 위한 분석 방법이다. A/B Test 분석 과정  1. 가설 설정상세하고 측정이 가능하게 설정해야 한다.예) • 귀무가설 최저가를 강조하면 CTR에 변화가 없다.• 대립가설 최저가를 강조하면 CTR이 높아진다. 2. 샘플링• 표본 수를 높여 2번부터 반복• 단순 샘플링 (Simple Random Sampling) : 단순 랜덤으로 샘플을 추출• 계통 샘플링 (Systematic Sampling) : 모집단 데이터에 1~n 개의 번호를 임의로 매긴 다음 일정 간격마다 ..

분석방법론 2024.05.30

퍼널분석(Funnel Analysis)과 (A)AARRR은 어떻게 다른가?

퍼널분석(Funnel Analysis) 퍼널이란 깔때기라는 뜻으로 사용자가 유입되어 결제로 이어지는 일련의 과정을 말한다.퍼널의 단계가 높아질수록 유저(사용자, 고객)의 수가 감소하는 현상이 점점 좁아지는 깔때기와 같다고 하여 붙여진 이름이다.도메인, 프로덕트마다 다른 퍼널을 가질 수 있으며, 프로덕트 별로 유의미한 퍼널을 정의하여 개선할 수 있는 포인트를 찾는 것이 퍼널분석의 핵심이다. 그리고 그 깔때기마다의 과정을 AARRR로 정의하는 것이다.퍼널분석, AARRR이 혼용되어 사용되고 있고 채용공고 같은 곳에서도 중복되어 기재되어 있는 경우가 많아서 두개가 다른 분석방법론인가 헷갈렸던 적이 있는데 결국 같은 말이라고 이해해도 되겠다.   개선 포인트 개선 포인트는 퍼널의 기준을 비즈니스 모델에 맞게 세..

분석방법론 2024.05.30

[Yammer] A/B Test 유의성 검정

[Yammer 분석 프로젝트]1. WAU(Weekly Active Users) 하락 원인 분석2. 검색 기능(Search Functionality) 분석3. A/B Test 유의성 검정데이터셋   control_group : 대조군 (기존의 기능을 접하는 대상)treatment_group : 실험군 (새로운 기능을 접하는 대상) 발단6월 한달 동안 publisher 기능 개선 테스트를 위해 A/B Test를 진행한 결과 treatment_group에서 약 1.5나 좋은 효과가 나타났다.보통 이렇게까지 유의미한 결과가 나오는 경우는 많지 않아서 실험이 제대로 진행된 것이 맞는지 검증이 필요한 상황 users : 각 그룹에 배정된 유저수total_treated_users : A/B 실험에 포함된 전체 유저 ..

분석 프로젝트 2024.05.30

[Yammer] 검색 기능(Search Functionality) 분석

[Yammer 분석 프로젝트]1. WAU(Weekly Active Users) 하락 원인 분석2. 검색 기능(Search Functionality) 분석3. A/B Test 유의성 검정Yammer 검색 기능  상단에 검색창이 있고, 어떤 검색어를 검색했을 때 카테고리별로 검색어에 대한 결과를 확인할 수 있다.또한 하단의 'See All Search Results'를 누르면 모든 결과를 확인 가능한 'Search Results' 페이지로 넘어간다.그리고 기존의 검색어에 추가적으로 추가검색어, 특정 그룹, 날짜 설정이 가능하다.  검색 기능 분석을 하기 전에 생각해 볼 점검색 기능이 분석할 만한 가치가 있는 기능인가? 애초에 많이 사용되지 않은 기능이라면? (가치비용 효율성의 측면)만약에 가치가 있다면, 우..

분석 프로젝트 2024.05.28

[Yammer] WAU(Weekly Active Users) 하락 원인 분석 | 신규유저, 기존유저 Cohort WAU, Device별 WAU

About Analytics Training | SQL Analytics Training - ModeIn this lesson we'll cover: This section is meant to help those with solid SQL knowledge sharpen their analytical thinking ability. We've interviewed Analytics managers and re-created some of the problems they shared with us using fake data. These problemsmode.comMode라는 플랫폼에서 제공해주는 SQL Analytics training 데이터를 활용하여 분석 프로젝트를 Study Case 하였다.분석..

분석 프로젝트 2024.05.27