교란작용

정의

  • confounding
  • 변수 X와 Y간에 인과관계가 없더라도, 교란변수 때문에 X와 Y간 상관관계가 관측되는 현상
  • 교란변수 : 변수 X와 Y 둘 다에 영향을 주는 제 3의 변수
  • 교란변수는 반드시 X와 Y의 원인이어야 한다. 결과면 안된다.
  • 교란변수는 $Z$ 로 표기한다.

제 3의 변수가 X와 Y의 원인이면 - 교란변수
제 3의 변수가 X와 Y의 결과(영향을 받으면)면 - 충돌기 편향

예시1 - 커피와 심장질환 발생률

예시 소개

커피 섭취 여부(X)와 심장질환 발생 여부(Y) 간 관계를 조사한 결광다.
총 200명 조사

커피 섭취 여부 심장질환 있음 심장질환 없음 질병 발생률
섭취함 42 58 42%
섭취하지 않음 18 82 18%
  • 위 데이터만 봤을 때에는 커피 섭취 여부와 심장질환 여부가 상관이 있음

연령별 분리 - 저연령층

커피 섭취 여부 심장질환 있음 심장질환 없음 질병 발생률
섭취함 2 18 10%
섭취하지 않음 8 72 10%
  • 연령이 낮은 경우, 커피의 섭취율이 낮은 것을 볼 수 있다. (Z -> X)
  • 연령이 낮은 경우, 심잘질환율이 낮은 것을 볼 수 있다. (Z -> Y)

연령별 분리 - 고연령층

커피 섭취 여부 심장질환 있음 심장질환 없음 질병 발생률
섭취함 40 40 50%
섭취하지 않음 10 10 50%
  • 연령이 높은 경우, 커피의 섭취율이 높은 것을 볼 수 있다. (Z -> X)
  • 연령이 높은 경우, 심잘질환율이 높은 것을 볼 수 있다. (Z -> Y)

교란작용 입증

  • 가장 첫 표를 봤을 때에는, 커피가 심장질환 위험을 2.23배 높이는 것처럼 보인다.
  • 교란변수를 통제한 결과, 저연령층과 고연령층 모두 커피로 인한 질환 발생 위험 증가율이 1.0배 (즉, 증가 없음)라는 것을 볼 수 있다.
  • 이처럼 연령이 X(커피)와 Y(심장 질환) 모두에 영향을 미쳐 실제로는 없는 연관성을 마치 있는 것처럼 왜곡해 보여주는 게 교란작용이다.

예시2 - 선행학습과 영재학교 입학률

예시 소개

초등학교 때 선행학습을 했는지 여부와, 영재학교 합격 여부간 인과관계를 밝히려 한다.
X : 초등학교 선행학습 여부
Y : 영재학교 합격 여부
관측 데이터는 아래와 같다.

구분 영재학교 합격 영재학교 불합격
선행학습 실시함 31명 79명
선행학습 안함 13명 97명
  • 위 표만 봤을 때에는 선행학습 여부와 영재학교 합격 여부 간에는 상관관계가 존재한다.
  • 하지만, 이를 “가정의 소득 수준 기준”으로 나눠 보면 아래와 같은 데이터가 나온다.

고소득 가정인 경우

구분 영재학교 합격 영재학교 불합격
선행학습 실시함 30명 70명
선행학습 안함 3명 7명

저소득 가정인 경우

구분 영재학교 합격 영재학교 불합격
선행학습 실시함 1명 9명
선행학습 안함 10명 90명

해석

  • 고소득층의 높은 합격률이 선행학습을 실시한 집단에 과도하게 집중되어, 마치 선행학습 자체가 합격률을 2.39배 높이는 것처럼 겉보기를 왜곡시킴

교란작용에 대한 고찰

  • 교란변수가 존재할 경우, 실제 인과관계가 없는 두 변수도 상관관계를 가질 수 있음
  • 변수 간 상관관계가 관측될 경우, 교란변수 때문인지 늘 의심할 것
  • 실제 두 변수 간 인과관계가 있더라도, 교란변수가 존재하면 인과관계가 과소 또는 과대추정될 수 있음
  • 교란변수를 통제하는 연구 디자인 및 통계 기법이 필요

Reference

통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의

Comments