기초통계

[분포] 분산과 표준편차, 사분위, 변동계수, 왜도, 첨도

DAdiary 2024. 6. 4. 14:13

분산과 표준편차

분산과 표준편차는 값들의 밀집과 퍼짐 정도를 알려주는 값이다.

분산은 (표준편차)²로 분산과 표준편차 모두 값의 크기가 클수록 퍼짐 정도가 크다는 것을 의미한다.

따라서 분산, 표준편차가 크다면 산술평균의 값을 대표값으로 설정하기 어렵다는 것을 염두할 수 있다.

예시

 


사분위수

값을 같은 개수로 4등분한 범위를 사분위수라고 한다.

예를 들면, 값이 100개가 있다면 이것을 25개씩 나누는 것이다.

이렇게 4개씩 나눴을 때 그 분기점을 1분위(Q1, 25%),  2분위(Q2, 50%,Median), 3분위(Q3, 75%)라고 한다.

 

(Q3 - Q1)을 IQR(사분위간 범위)이라고 하며 이 값을 이용해서 최솟값(Min)과 최댓값(Max)을 구한다.

그리고 이 최솟값과 최댓값 범위 밖에 위치하는 값을 이상치로 판단한다.

 

 


변동계수 (CV) = 표준편차 / 평균

상대적으로 얼마나 변동이 많은지를 보기 위한 지표

단위가 다르거나, 표준편차가 비슷한 그룹끼리 비교하고 싶을 때 일정한 기준에 따른 비교가 가능하다.

 

변동계수가 클수록 변동이 많고 불안정함을 의미한다.

 

[예시]

[A회사] 평균 매출액 : 100억, 표준편차 : 12억 → CV = 12억/100억 = 0.12
[B회사] 평균 매출액 : 40억, 표준편차 : 2억 → CV = 2억/40억 = 0.05

이 경우에 A회사가 평균매출액은 훨씬 더 높지만, 월간변동폭도 더 커서 불안정하다고 볼 수 있다.

 

 


왜도 (Skewness)

분포의 비대칭도를 나타내는 통계량 비대칭이 커질수록 왜도의 절대값은 증가한다.

일반적으로 왜도가 -1~+1 범위는 치우침이 없는 데이터이다.

 

 


첨도 (Kurtosis)

꼬리 부분의 길이와 중앙 부분의 뾰족함으로 데이터의 분포들 알 수 있다.

Mesokurtic : 정규 분포 모양

Leptokurtic : 중앙 부분은 Mesokurtic보다 높고 뾰족하기 때문에 이상치(outlier)가 많을 수 있음

Platykurtic : Leptokurtic와 반대, 이상치(outlier)가 없음. 데이터 다시 확인 필요