표본상관계수

정의

  • sample correlation coefficient
  • 두 변수의 관련성의 방향과 정도의 수치를 파악하기 위한 계수
  • 표본상관계수는 -1 ~ 1 사이의 값을 가진다.
  • 1이나 -1 근처에 위치할 때 강한 관련성이 있다고 하며
  • 0에 가까울 수록 관련성이 약한 것이다.
  • 양수인 경우 양의 상관성, 음수인 경우 음의 상관성이다.
  • 양의 상관성은 두 변수 중 하나가 증가할 때 다른 변수도 증가하는 경향을 말하며
  • 음의 상관성은 반대로 하나의 변수가 증가하면 다른 변수는 감소하는 경향을 말한다.

계산식

\[r = \frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}\sum{_{i=1}^{n}(y_{i}-\bar{y})^{2}}}}\]

예시

타격 관련 변수와 연봉의 표본상관계수

구분 타율 홈런 타점 출루율 장타력 공격공헌도
연봉 0.255 0.236 0.162 0.366 0.231 0.289
  • 출루율과 연봉간 상관계수가 가장 높은 것을 볼 수 있다.
  • 그리고 이들은 모두 양의 상관관계를 가지고 있다.
  • 이는 데이터가 타율, 홈런, 공격공헌도들이 높을수록 연봉이 높은 경향을 보이고 있다는 것을 시사한다.

투수 관련 변수와 연봉의 표본상관계수

구분 평균자책점 이닝당 주자허용률 이닝당 평균삼진수
연봉 -0.097 -0.153 -0.079
  • 이닝당 출루허용률과 연봉 간 상관계수가 가장 높은 것을 볼 수 있다.
  • 그리고 둘 간은 음의 상관성을 보이고 있다.
  • 즉, 데이터가 이닝당 주자허용률이 낮을수록 연봉이 높은 경향읋 보이고 있다는 것을 시사한다.

Reference

통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의

Comments