기초통계

[대표값] 평균(Mean) vs 중앙값(Median) vs 최빈값(Mode)

DAdiary 2024. 6. 3. 18:00

평균

평균를 구하는 방법은 여러가지가 있다. 대표적으로 3가지 평균이 항상 언급되는데 바로 산술 평균(arithmetic mean), 기하 평균(geometric mean), 조화 평균(harmonic mean)이다.

 

각 평균의 공식은 아래와 같다.

 

 


산술평균 (Arithmetic Mean)

 

산술평균은 우리에게 가장 익숙하고 흔히 쓰이는 평균이다.

계산법은 단순하다. 값을 모두 더하고, 기준이 되는 것의 개수로 나눈다.

 

예를 들면, 사원의 연봉이 A는 3000만원, B는 4000만원, C는 5000만원일 때 이들의 평균 연봉은 얼마일까?

(3000+4000+5000)/3 = 4000 (만원)

 

단, 이상치나 편차가 큰 경우 기준으로 사용하기 적절하지 않다는 단점이 있다.

 

-- Python 산술평균 코드
df.mean()

기하평균 (Geometric Mean)

 

산술평균은 합의 평균이라면, 기하평균은 곱의 평균이다.

주로 '비율'의 평균을 구할 때 사용된다.

 

2019년 매출은 15억, 2020년 매출은 30억, 2021년 매출은 25억일 때 평균 매출 증가율은?

15억-> 30억 2배
30억-> 25억 0.833배

(2*0.833)½ = 1.29 (배)

 

 

-- Python 기하평균 코드

import statistics as st -- 통계 라이브러리
st.geometric_mean(df)

조화평균 (Harmonic Mean)

 

조화평균은 시간의 차원에서 평균을 구하는 방법이다. 주로 속력을 구할 때 사용된다.

 

라이더 A씨가 배달 갈 때는 3m/s, 배달을 마치고 올 때는 1m/s로 주행하였을 때, 평균 속력은? (단, 동일한 경로로 주행했다고 가정한다.)

a = 3, b = 1
(2*3*1) / (3+1) = 2 (m/s)

 

 

 

-- Python 조화평균 코드

import statistics as st -- 통계 라이브러리
st.harmonic_mean(df)

 


중앙값

 

데이터를 크기 순으로 정렬했을 때 딱 중간에 있는 값을 말한다.

 

 

-- Python 중앙값 코드
df.median()

최빈값

빈도가 가장 높은 값을 말한다.

 

-- Python 최빈값 코드
df.mode()

 

분석을 진행하면서 대표값을 선정할 때 어떤 값으로 해야 적절할지 평균, 중앙값, 최빈값 등과 함께 분포를 살펴보며 적합한 대표값을 선정해야 한다. 그래야 활용 가능한 분석 결과를 도출할 수 있다.

 

 

실제로 분포에 따라 평균(Mean), 중앙값(Median), 최빈값(Mode)의 위치가 모두 다를 수 있다.

데이터의 분포가 정규분포를 따르는 경우일 때만 3가지 값이 동일하게 나온다. 그러나 실제 현실에서의 데이터는 이렇게 정규분포를 따르는 경우는 거의 없다고 보면 될 것 같다.