분산과 표준편차
분산과 표준편차는 값들의 밀집과 퍼짐 정도를 알려주는 값이다.
분산은 (표준편차)²로 분산과 표준편차 모두 값의 크기가 클수록 퍼짐 정도가 크다는 것을 의미한다.
따라서 분산, 표준편차가 크다면 산술평균의 값을 대표값으로 설정하기 어렵다는 것을 염두할 수 있다.
사분위수
값을 같은 개수로 4등분한 범위를 사분위수라고 한다.
예를 들면, 값이 100개가 있다면 이것을 25개씩 나누는 것이다.
이렇게 4개씩 나눴을 때 그 분기점을 1분위(Q1, 25%), 2분위(Q2, 50%,Median), 3분위(Q3, 75%)라고 한다.
(Q3 - Q1)을 IQR(사분위간 범위)이라고 하며 이 값을 이용해서 최솟값(Min)과 최댓값(Max)을 구한다.
그리고 이 최솟값과 최댓값 범위 밖에 위치하는 값을 이상치로 판단한다.
변동계수 (CV) = 표준편차 / 평균
상대적으로 얼마나 변동이 많은지를 보기 위한 지표
단위가 다르거나, 표준편차가 비슷한 그룹끼리 비교하고 싶을 때 일정한 기준에 따른 비교가 가능하다.
변동계수가 클수록 변동이 많고 불안정함을 의미한다.
[예시]
[A회사] 평균 매출액 : 100억, 표준편차 : 12억 → CV = 12억/100억 = 0.12
[B회사] 평균 매출액 : 40억, 표준편차 : 2억 → CV = 2억/40억 = 0.05
이 경우에 A회사가 평균매출액은 훨씬 더 높지만, 월간변동폭도 더 커서 불안정하다고 볼 수 있다.
왜도 (Skewness)
분포의 비대칭도를 나타내는 통계량 비대칭이 커질수록 왜도의 절대값은 증가한다.
일반적으로 왜도가 -1~+1 범위는 치우침이 없는 데이터이다.
첨도 (Kurtosis)
꼬리 부분의 길이와 중앙 부분의 뾰족함으로 데이터의 분포들 알 수 있다.
Mesokurtic : 정규 분포 모양
Leptokurtic : 중앙 부분은 Mesokurtic보다 높고 뾰족하기 때문에 이상치(outlier)가 많을 수 있음
Platykurtic : Leptokurtic와 반대, 이상치(outlier)가 없음. 데이터 다시 확인 필요
'기초통계' 카테고리의 다른 글
[기술통계] 정규분포와 중심극한정리 (1) | 2024.06.10 |
---|---|
[기술통계] 모집단과 표본집단, 샘플링 방법 (1) | 2024.06.04 |
[대표값] 평균(Mean) vs 중앙값(Median) vs 최빈값(Mode) (0) | 2024.06.03 |