평균
정의
- 모든 데이터의 값을 더한 뒤, 이를 데이터의 개수로 나눈 값
특징
- 가장 많이 사용되는 중심위치 통계 기법이다.
- 값이 크거나 작은 이상치에 민감하다(=영향을 크게 받는다.)
이상치에 민감하다는 예시
예를 들어 인원이 10명인 회사에서, 직원 중 한 명이 1,000만원의 상여금을 받았다. 그렇다고 해서 “이 회사의 평균 상여금은 100만원입니다.” 라고 말하는 것은 현실을 반영하지 못하는 것이다. 이렇게 튀는 숫자를 “특이함”이라고 하며, 이 경우엔 “중앙값”을 중심위치로 삼는 게 권장된다.
계산법
\[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\]예시
1
2
3
A 집단의 연령 : 10, 11, 20, 31, 50, 34
A 집단의 평균 = (10 + 11 + 20 + 31 + 50 + 34)/6 = 26
--> 26세
관련 일화
19세기 이전까지는 평균을 좋게 생각하지 않았다. 데이터의 유용 정보를 버릴 수 있고(희석시키고), 잘못된 정보가 섞일 수도 있다고 생각했다고 한다.
관련된 일화로, 벨기에 통계학자 케틀레는 여러 사회 데이터를 모아 사람들의 평균적인 부분을 합친 “평균인”이라는 개념을 도입했다. 그런데 당시 여러 지식인들이 “평균인은 괴물이다.” “데이터를 조작한 것이다.”라는 등의 여러 비난을 했다고 한다.
이후 천문학이 발전하면서 평균이 많이 쓰였고, 과학적 관측에서 현실의 많은 현상에서 데이터들이 평균을 중심으로 분포한다는 것이 밝혀졌다. 그리고 나서는 평균이 사회의 여러 분야로 확산되기 시작했다.
20세기 평균은 민주주의, 집단지성, 크라우드소싱 등으로 발전되었으며, 국가 통계에서 평균은 가장 기본적인 통계 작성 방식 중 하나이다.
mean 과 average 의 차이
일상적으로는 mean 과 average 를 동일하게 사용해도 무리가 없지만, 통계학적으로는 mean 이 더 정확한 용어이며, average 는 더 넓고 모호한 표현이다.
mean은, 통계학에서 “평균”을 지칭하는 정확한 용어로, 특히 산술평균(arithmetic mean)을 의미하는 경우가 대부분이다. 통계 책, 논문 수식 등에서는 대부분(거의 항상) mean 을 사용한다.
average 는 일상적인 표현으로, 다양한 평균류를 통칭한다. 산술평균, 기하평균(geometric mean), 가중평균(weighted average) 등, 더 넓은 개념이다.
Reference
통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의
Comments