데이터 분석 공부일기

[기술통계] 정규분포와 중심극한정리

정규분포정규분포는 연속확률분포에서 가장 많이 사용되는 분포이다.평균에 대해서 좌우 대칭 모양이며 평균값의 분포가 가장 높아 종모양을 띈다. 평균과 표준편차에 따라 정규분포의 모양은 조금씩 다르다. 중심극한정리 중심극한정리란 표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규분포에 가까워지는 것을 말한다.다시 말해 표본 평균의 평균은 모집단의 모평균과 같고, 표본 평균의 표준 편차는 모집단의 모 표준 편차름 표본 크기의 제곱근으로 나눈 것과 같다는 것이다. 여기서 중요한 부분은 '표본의 크기가 커질수록' 인데 그렇다면 최소한 몇개의 표본을 가지고 있어야 중심극한정리가 성립되는지 궁금했다.찾아보니 보통 30개 이상은 넘어야 하는 것으로 보고 있는데 실제로 도메인이나 분석 목적에..

기초통계 2024.06.10

[Leetcode] 특정 문자열 처리 함수 REGEXP

https://leetcode.com/problems/find-users-with-valid-e-mails/description/?envType=study-plan-v2&envId=top-sql-50 유효한 이메일을 찾는 문제로, 유효한 이메일의 기준은 아래와 같다.The prefix name is a string that may contain letters (upper or lower case), digits, underscore '_', period '.', and/or dash '-'.이메일 아이디는 글자, 숫자, '_', '.', '-'를 포함할 수 있다.The prefix name must start with a letter.이메일은 반드시 알파벳으로 시작해야 한다.The domain is '@..

SQL 2024.06.10

[Leetcode] 중복ID 제거(DELETE)

https://leetcode.com/problems/delete-duplicate-emails/description/?envType=study-plan-v2&envId=top-sql-50 Write a solution to delete all duplicate emails, keeping only one unique email with the smallest id.중복되는 이메일을 제거해라. 단, 가작 작은 수의 ID를 가진 이메일만 남겨놓고.* For SQL users, please note that you are supposed to write a DELETE statement and not a SELECT one. [정답]DELETE p1FROM person p1, person p2WHER..

SQL 2024.06.08

[기술통계] 모집단과 표본집단, 샘플링 방법

모집단과 표본집단모집단 (Population) : 통계를 통해 알고 싶어하는 모든 집단모수(parameter): 모집단의 특성 (모평균, 모분산, 모표준편차 등)표본 (Sample) : 모집단의 분포, 특성을 알기 위해 모집단에서 추출된 일부 집단통계량(statistic): 표본의 특성 (표본평균, 표본분산, 표본표준편차 등)추론 (Inference) : 표본 통계량으로 모집단의 특성을 추론추출 (Sampling) : 모집단에서 표본을 추출하는 방법 어떤 그림으로 너무 잘 표현해주신 것을 찾아서 가지고 와봤다. (출처) 샘플링(Sampling)단순 샘플링 (Simple Random Sampling): 무작위로 샘플을 추출층화 샘플링 (Stratified Sampling): 모집단을 몇 개의 그룹으로 ..

기초통계 2024.06.04

[분포] 분산과 표준편차, 사분위, 변동계수, 왜도, 첨도

분산과 표준편차분산과 표준편차는 값들의 밀집과 퍼짐 정도를 알려주는 값이다.분산은 (표준편차)²로 분산과 표준편차 모두 값의 크기가 클수록 퍼짐 정도가 크다는 것을 의미한다.따라서 분산, 표준편차가 크다면 산술평균의 값을 대표값으로 설정하기 어렵다는 것을 염두할 수 있다. 사분위수값을 같은 개수로 4등분한 범위를 사분위수라고 한다.예를 들면, 값이 100개가 있다면 이것을 25개씩 나누는 것이다.이렇게 4개씩 나눴을 때 그 분기점을 1분위(Q1, 25%), 2분위(Q2, 50%,Median), 3분위(Q3, 75%)라고 한다. (Q3 - Q1)을 IQR(사분위간 범위)이라고 하며 이 값을 이용해서 최솟값(Min)과 최댓값(Max)을 구한다.그리고 이 최솟값과 최댓값 범위 밖에 위치하는 값을 이상치로 판..

기초통계 2024.06.04

[대표값] 평균(Mean) vs 중앙값(Median) vs 최빈값(Mode)

평균평균를 구하는 방법은 여러가지가 있다. 대표적으로 3가지 평균이 항상 언급되는데 바로 산술 평균(arithmetic mean), 기하 평균(geometric mean), 조화 평균(harmonic mean)이다. 각 평균의 공식은 아래와 같다. 산술평균 (Arithmetic Mean) 산술평균은 우리에게 가장 익숙하고 흔히 쓰이는 평균이다.계산법은 단순하다. 값을 모두 더하고, 기준이 되는 것의 개수로 나눈다. 예를 들면, 사원의 연봉이 A는 3000만원, B는 4000만원, C는 5000만원일 때 이들의 평균 연봉은 얼마일까?(3000+4000+5000)/3 = 4000 (만원) 단, 이상치나 편차가 큰 경우 기준으로 사용하기 적절하지 않다는 단점이 있다. -- Python 산술평균 코드df.m..

기초통계 2024.06.03

[E-commerce] kaggle Olist 분석 | 팀 프로젝트 후기

3주간의 길다면 길고 짧다면 짧은 SQL 프로젝트가 끝이 났다.체감으로는 참 길었는데 데이터를 보다 깊게 파고들기에는 짧게 느껴졌던 3주였는데, 정신없이 프로젝트 하고 나니 다 지나가버린 2월...🥲SQL 프로젝트 데이터는 kaggle의 olist_dataset이었다. Brazilian E-Commerce Public Dataset by Olist100,000 Orders with product, customer and reviews infowww.kaggle.com 발표가 3번이 있었는데,1차에서 브라질 시장과 olist 비즈니스 모델 파악 및 데이터셋 EDA,2차에서 1차 EDA한 것들을 깊게 건드려보면서 3차까지 가지고 갈 유의미한 주제들을 걸러내고 단 2-3가지 데이터들을 다각도로 더 깊게..

분석 프로젝트 2024.06.03

코호트(Cohort) 분석

코호트 분석이란? 특정 기간 동안 공통된 특성이나 경험을 갖는 사용자 집단. 그룹 단위로 분석하는 방법을 말한다. 예시) 수도권에 사는 20대 후반 여자가 구글 서치 중에 배너 클릭으로 서비스에 진입했다. 1. 수도권 cohort - 지역2. 20대 cohort - 연령3. 여자 cohort - 성별4. 구글 검색 cohort - 유입경로5. 배너 클릭 cohort - 유입경로 그러면 사용자 집단을 그룹핑할 수 있는 방법은 다양하다. 예를 들어도 5개의 기준으로 코호트 분석을 해볼 수 있다. 보통은 Weekly, Monthly로 보는 경우가 많다. Cohort 분석 목적 사실 대부분의 고객분석방법론의 목적은 서비스를 개선점을 찾아 개선, 고객의 만족도 향상을 통해 궁극적으로 매출 향상에 기여할..

분석방법론 2024.05.31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 분석 공부일기

전체 글 28

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역