중심위치

정의

데이터가 어떤 “대표값”을 중심으로 분포하는지

  • 데이터가 전반적으로 어느 값 주변에 모여 있는지를 나타내는 통계
  • 즉, 데이터가 어떤 “대표값”을 중심으로 분포하는지 알려주는 핵심 요약 지표
  • 데이터의 대표값을 찾아가는 과정.

중심위치의 종류

종류 설명
평균 - 모든 값을 더한 뒤 데이터 개수로 나누는 값
- 가장 많이 사용되는 중심위치 통계량이다.
- 값이 크거나 작은 이상치에 민감하다(=영향을 크게 받는다.)
중앙값 - 데이터를 순서대로 정렬했을 때 가운데에 위치하는 값
- 이상치에 영향이 거의 없다.
- 분포가 한쪽으로 치우친 경우에도 안정적이다.
최빈값 - 가장 자주 등장하는 값
- 범주형 데이터에서 유용하며, 연속형에서는 잘 사용되지 않을 수도 있음

중심위치의 의미

  • 전체 데이터의 전반적 수준을 평가할 수 있다.
  • 서로 다른 두 집단의 대표값을 비교할 수 있다.

주의할 점

  • 이상치나 분포 형태에 따라 적절한 중심위치 통계량을 선택해야 한다.
  • 데이터가 정규분포이면서 연속형이라면 -> 평균
  • 데이터가 비대칭적으로 분포했다면 -> 중앙값
  • 범주형 데이터라면 -> 최빈값

Reference

통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의

Comments