교란작용
정의
- confounding
- 변수 X와 Y간에 인과관계가 없더라도, 교란변수 때문에 X와 Y간 상관관계가 관측되는 현상
- 교란변수 : 변수 X와 Y 둘 다에 영향을 주는 제 3의 변수
- 교란변수는 반드시 X와 Y의 원인이어야 한다. 결과면 안된다.
- 교란변수는 $Z$ 로 표기한다.
제 3의 변수가 X와 Y의 원인이면 - 교란변수
제 3의 변수가 X와 Y의 결과(영향을 받으면)면 - 충돌기 편향
예시1 - 커피와 심장질환 발생률
예시 소개
커피 섭취 여부(X)와 심장질환 발생 여부(Y) 간 관계를 조사한 결광다.
총 200명 조사
| 커피 섭취 여부 |
심장질환 있음 |
심장질환 없음 |
질병 발생률 |
| 섭취함 |
42 |
58 |
42% |
| 섭취하지 않음 |
18 |
82 |
18% |
- 위 데이터만 봤을 때에는 커피 섭취 여부와 심장질환 여부가 상관이 있음
연령별 분리 - 저연령층
| 커피 섭취 여부 |
심장질환 있음 |
심장질환 없음 |
질병 발생률 |
| 섭취함 |
2 |
18 |
10% |
| 섭취하지 않음 |
8 |
72 |
10% |
- 연령이 낮은 경우, 커피의 섭취율이 낮은 것을 볼 수 있다. (Z -> X)
- 연령이 낮은 경우, 심잘질환율이 낮은 것을 볼 수 있다. (Z -> Y)
연령별 분리 - 고연령층
| 커피 섭취 여부 |
심장질환 있음 |
심장질환 없음 |
질병 발생률 |
| 섭취함 |
40 |
40 |
50% |
| 섭취하지 않음 |
10 |
10 |
50% |
- 연령이 높은 경우, 커피의 섭취율이 높은 것을 볼 수 있다. (Z -> X)
- 연령이 높은 경우, 심잘질환율이 높은 것을 볼 수 있다. (Z -> Y)
교란작용 입증
- 가장 첫 표를 봤을 때에는, 커피가 심장질환 위험을 2.23배 높이는 것처럼 보인다.
- 교란변수를 통제한 결과, 저연령층과 고연령층 모두 커피로 인한 질환 발생 위험 증가율이 1.0배 (즉, 증가 없음)라는 것을 볼 수 있다.
- 이처럼 연령이 X(커피)와 Y(심장 질환) 모두에 영향을 미쳐 실제로는 없는 연관성을 마치 있는 것처럼 왜곡해 보여주는 게 교란작용이다.
예시2 - 선행학습과 영재학교 입학률
예시 소개
초등학교 때 선행학습을 했는지 여부와, 영재학교 합격 여부간 인과관계를 밝히려 한다.
X : 초등학교 선행학습 여부
Y : 영재학교 합격 여부
관측 데이터는 아래와 같다.
| 구분 |
영재학교 합격 |
영재학교 불합격 |
| 선행학습 실시함 |
31명 |
79명 |
| 선행학습 안함 |
13명 |
97명 |
- 위 표만 봤을 때에는 선행학습 여부와 영재학교 합격 여부 간에는 상관관계가 존재한다.
- 하지만, 이를 “가정의 소득 수준 기준”으로 나눠 보면 아래와 같은 데이터가 나온다.
고소득 가정인 경우
| 구분 |
영재학교 합격 |
영재학교 불합격 |
| 선행학습 실시함 |
30명 |
70명 |
| 선행학습 안함 |
3명 |
7명 |
저소득 가정인 경우
| 구분 |
영재학교 합격 |
영재학교 불합격 |
| 선행학습 실시함 |
1명 |
9명 |
| 선행학습 안함 |
10명 |
90명 |
해석
- 고소득층의 높은 합격률이 선행학습을 실시한 집단에 과도하게 집중되어, 마치 선행학습 자체가 합격률을 2.39배 높이는 것처럼 겉보기를 왜곡시킴
교란작용에 대한 고찰
- 교란변수가 존재할 경우, 실제 인과관계가 없는 두 변수도 상관관계를 가질 수 있음
- 변수 간 상관관계가 관측될 경우, 교란변수 때문인지 늘 의심할 것
- 실제 두 변수 간 인과관계가 있더라도, 교란변수가 존재하면 인과관계가 과소 또는 과대추정될 수 있음
- 교란변수를 통제하는 연구 디자인 및 통계 기법이 필요
Reference
통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의
Comments