데이터 분석 28

[Netflix] 전처리(결측치 처리, 데이터타입 변경), Feature Engineering

데이터셋 Netflix Movies and TV ShowsListings of movies and tv shows on Netflix - Regularly Updatedwww.kaggle.com Kaggle에 올라와있는 Nexflix 데이터를 활용하였다. 2008년부터 2021년까지의 데이터를 확인할 수 있다.  EDA결측치, 데이터 형식 등을 파악하기 위한 EDA를 진행하고 전처리를 진행했다.import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# csv 파일 읽어오기url = "파일경로.csv"netflix = pd.read_csv(url)# 컬럼명 확인netflix.columns  # 데이터 일..

Python 2024.05.31

A/B Test

A/B Test 목적 서비스 개선에 있어서 더 효율적이라고 생각되는 가설을 적용할 때 혹시라도 오히려 이탈율을 높이는 요인일 가능성으로 고객을 놓치는 손해를 줄이기 위해서 일부에게만 미리 테스틀해서 효과를 검증한 후에 전체 서비스에 적용하기 위한 분석 방법이다. A/B Test 분석 과정  1. 가설 설정상세하고 측정이 가능하게 설정해야 한다.예) • 귀무가설 최저가를 강조하면 CTR에 변화가 없다.• 대립가설 최저가를 강조하면 CTR이 높아진다. 2. 샘플링• 표본 수를 높여 2번부터 반복• 단순 샘플링 (Simple Random Sampling) : 단순 랜덤으로 샘플을 추출• 계통 샘플링 (Systematic Sampling) : 모집단 데이터에 1~n 개의 번호를 임의로 매긴 다음 일정 간격마다 ..

분석방법론 2024.05.30

퍼널분석(Funnel Analysis)과 (A)AARRR은 어떻게 다른가?

퍼널분석(Funnel Analysis) 퍼널이란 깔때기라는 뜻으로 사용자가 유입되어 결제로 이어지는 일련의 과정을 말한다.퍼널의 단계가 높아질수록 유저(사용자, 고객)의 수가 감소하는 현상이 점점 좁아지는 깔때기와 같다고 하여 붙여진 이름이다.도메인, 프로덕트마다 다른 퍼널을 가질 수 있으며, 프로덕트 별로 유의미한 퍼널을 정의하여 개선할 수 있는 포인트를 찾는 것이 퍼널분석의 핵심이다. 그리고 그 깔때기마다의 과정을 AARRR로 정의하는 것이다.퍼널분석, AARRR이 혼용되어 사용되고 있고 채용공고 같은 곳에서도 중복되어 기재되어 있는 경우가 많아서 두개가 다른 분석방법론인가 헷갈렸던 적이 있는데 결국 같은 말이라고 이해해도 되겠다.   개선 포인트 개선 포인트는 퍼널의 기준을 비즈니스 모델에 맞게 세..

분석방법론 2024.05.30

[Yammer] A/B Test 유의성 검정

[Yammer 분석 프로젝트]1. WAU(Weekly Active Users) 하락 원인 분석2. 검색 기능(Search Functionality) 분석3. A/B Test 유의성 검정데이터셋   control_group : 대조군 (기존의 기능을 접하는 대상)treatment_group : 실험군 (새로운 기능을 접하는 대상) 발단6월 한달 동안 publisher 기능 개선 테스트를 위해 A/B Test를 진행한 결과 treatment_group에서 약 1.5나 좋은 효과가 나타났다.보통 이렇게까지 유의미한 결과가 나오는 경우는 많지 않아서 실험이 제대로 진행된 것이 맞는지 검증이 필요한 상황 users : 각 그룹에 배정된 유저수total_treated_users : A/B 실험에 포함된 전체 유저 ..

분석 프로젝트 2024.05.30

[Yammer] 검색 기능(Search Functionality) 분석

[Yammer 분석 프로젝트]1. WAU(Weekly Active Users) 하락 원인 분석2. 검색 기능(Search Functionality) 분석3. A/B Test 유의성 검정Yammer 검색 기능  상단에 검색창이 있고, 어떤 검색어를 검색했을 때 카테고리별로 검색어에 대한 결과를 확인할 수 있다.또한 하단의 'See All Search Results'를 누르면 모든 결과를 확인 가능한 'Search Results' 페이지로 넘어간다.그리고 기존의 검색어에 추가적으로 추가검색어, 특정 그룹, 날짜 설정이 가능하다.  검색 기능 분석을 하기 전에 생각해 볼 점검색 기능이 분석할 만한 가치가 있는 기능인가? 애초에 많이 사용되지 않은 기능이라면? (가치비용 효율성의 측면)만약에 가치가 있다면, 우..

분석 프로젝트 2024.05.28

[Yammer] WAU(Weekly Active Users) 하락 원인 분석 | 신규유저, 기존유저 Cohort WAU, Device별 WAU

About Analytics Training | SQL Analytics Training - ModeIn this lesson we'll cover: This section is meant to help those with solid SQL knowledge sharpen their analytical thinking ability. We've interviewed Analytics managers and re-created some of the problems they shared with us using fake data. These problemsmode.comMode라는 플랫폼에서 제공해주는 SQL Analytics training 데이터를 활용하여 분석 프로젝트를 Study Case 하였다.분석..

분석 프로젝트 2024.05.27

[Leetcode] IFNULL, JOIN 다중조건

1251. Average Selling Price  product의 가격 테이블과 판매된 수량에 대한 테이블이 있는 것을 조인해서 '(판매가격*수량) / 판매수량'으로 평균 판매 가격을 구하는 문제였다. 단, 신경써야 할 부분이 2가지 였는데,1. 정답 쿼리는 단 한개도 판매되지 않은 상품까지도 결과에 조회가 되야 한다는 것 (IFNULL 사용)2. 같은 상품이라도 판매한 날짜에 따라 가격이 다르다는 것 (JOIN 조건 추가) [정답]SELECT product_id , IFNULL(ROUND(SUM(total) / SUM(units),2),0) AS average_price -- 만일 unitssold의 값이 없어서 null이라면 0을 반환FROM ( SELECT p.product_id --..

SQL 2024.05.25

[Leetcode] SUM/AVG() OVER (ORDER BY ~ ROWS ~)

SUM(~) OVER (ORDER BY ~)엘레베이터에 차례(Turn)대로 탔을 때 1000kg가 넘지 않는 조건에서 누구까지 탈 수 있는지 구하는 문제였다. [정답]SELECT person_nameFROM (SELECT person_name, weight, turn, SUM(weight) over (order by turn) as totalFROM Queue)aWHERE total  SUM, AVG 뒤에 OVER(ORDER BY ~)를 붙이면 누적 합계, 누적 평균을 행 단위로 구할 수 있다.  AVG/SUM(~) OVER (ORDER BY ~ ROWS BETWEEN n PRECEDING AND CURRENT ROW)오늘 날짜 기준으로 지난 7일간의 매출 합계, 평균 구..

SQL 2024.05.21

[Leetcode] 조건에 해당되지 않는 대상에 고정값 적용하기

바뀐 가격만 알 수 있는 테이블이 있고, 여기에 해당되지 않는 product_id는 원래의 값인 10원을 유지한다는 조건이었다.기존의 가격인 10원이 어느 테이블에도 들어있지 않았기 때문에 따로 지정을 해줘야 했다. [정답]SELECT product_id, new_price AS priceFROM productsWHERE (product_id, change_date) IN ( SELECT product_id, MAX(change_date) as recent FROM Products WHERE change_date 고정된 값 10을 SELECT 문에 쓰고 alias로 column명을 지정해주면 해당 컬럼이 추가가 된다.

카테고리 없음 2024.05.21