기초통계 4

[기술통계] 정규분포와 중심극한정리

정규분포정규분포는 연속확률분포에서 가장 많이 사용되는 분포이다.평균에 대해서 좌우 대칭 모양이며 평균값의 분포가 가장 높아 종모양을 띈다. 평균과 표준편차에 따라 정규분포의 모양은 조금씩 다르다. 중심극한정리  중심극한정리란 표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규분포에 가까워지는 것을 말한다.다시 말해 표본 평균의 평균은 모집단의 모평균과 같고, 표본 평균의 표준 편차는 모집단의 모 표준 편차름 표본 크기의 제곱근으로 나눈 것과 같다는 것이다. 여기서 중요한 부분은 '표본의 크기가 커질수록' 인데 그렇다면 최소한 몇개의 표본을 가지고 있어야 중심극한정리가 성립되는지 궁금했다.찾아보니 보통 30개 이상은 넘어야 하는 것으로 보고 있는데 실제로 도메인이나 분석 목적에..

기초통계 2024.06.10

[기술통계] 모집단과 표본집단, 샘플링 방법

모집단과 표본집단모집단 (Population) : 통계를 통해 알고 싶어하는 모든 집단모수(parameter): 모집단의 특성 (모평균, 모분산, 모표준편차 등)표본 (Sample) : 모집단의 분포, 특성을 알기 위해 모집단에서 추출된 일부 집단통계량(statistic): 표본의 특성 (표본평균, 표본분산, 표본표준편차 등)추론 (Inference) : 표본 통계량으로 모집단의 특성을 추론추출 (Sampling) : 모집단에서 표본을 추출하는 방법 어떤 그림으로 너무 잘 표현해주신 것을 찾아서 가지고 와봤다. (출처)   샘플링(Sampling)단순 샘플링 (Simple Random Sampling): 무작위로 샘플을 추출층화 샘플링 (Stratified Sampling): 모집단을 몇 개의 그룹으로 ..

기초통계 2024.06.04

[분포] 분산과 표준편차, 사분위, 변동계수, 왜도, 첨도

분산과 표준편차분산과 표준편차는 값들의 밀집과 퍼짐 정도를 알려주는 값이다.분산은 (표준편차)²로 분산과 표준편차 모두 값의 크기가 클수록 퍼짐 정도가 크다는 것을 의미한다.따라서 분산, 표준편차가 크다면 산술평균의 값을 대표값으로 설정하기 어렵다는 것을 염두할 수 있다. 사분위수값을 같은 개수로 4등분한 범위를 사분위수라고 한다.예를 들면, 값이 100개가 있다면 이것을 25개씩 나누는 것이다.이렇게 4개씩 나눴을 때 그 분기점을 1분위(Q1, 25%),  2분위(Q2, 50%,Median), 3분위(Q3, 75%)라고 한다. (Q3 - Q1)을 IQR(사분위간 범위)이라고 하며 이 값을 이용해서 최솟값(Min)과 최댓값(Max)을 구한다.그리고 이 최솟값과 최댓값 범위 밖에 위치하는 값을 이상치로 판..

기초통계 2024.06.04

[대표값] 평균(Mean) vs 중앙값(Median) vs 최빈값(Mode)

평균평균를 구하는 방법은 여러가지가 있다. 대표적으로 3가지 평균이 항상 언급되는데 바로 산술 평균(arithmetic mean), 기하 평균(geometric mean), 조화 평균(harmonic mean)이다. 각 평균의 공식은 아래와 같다.  산술평균 (Arithmetic Mean)  산술평균은 우리에게 가장 익숙하고 흔히 쓰이는 평균이다.계산법은 단순하다. 값을 모두 더하고, 기준이 되는 것의 개수로 나눈다. 예를 들면, 사원의 연봉이 A는 3000만원, B는 4000만원, C는 5000만원일 때 이들의 평균 연봉은 얼마일까?(3000+4000+5000)/3 = 4000 (만원) 단, 이상치나 편차가 큰 경우 기준으로 사용하기 적절하지 않다는 단점이 있다. -- Python 산술평균 코드df.m..

기초통계 2024.06.03