선택편향
정의
- Selection Bias
- 실제 모집단 내의 상관관계와 표본에서 나타나는 상관관계가 다른 경우
원인
- 표본추출 과정에서 모집단을 대표하지 못하는 편향이 있는 표본이 추출된 것
극복 방법
- 모집단 전체를 잘 대표하는 표본 추출이 가장 중요
- 연구나 조사의 계획과 설계에서 선택편향에 대해 항상 주의할 것
- 선행연구 참고시 표본이 어떤 방식으로 추출되었는지 살피고, 선택편향 발생 가능성 의심하기
선택편향의 종류
| 종류 | 영문 | 설명 |
|---|---|---|
| 충돌기 편향 | collider bias | |
| 생존자 편향 | survivorship bias | |
| 불멸 시간 편향 | immortal time bias | |
| 등 |
충돌기 편향
정의
- colloder bias
- 두 변수 X와 Y가 영향을 미치는 제 3의 변수의 존재로 인해 표본 데이터에서 발생하는 편향
예시
새로 개발된 다이어트용 젤리 효과 측정을 위해 임상시험을 실시했다.
총 200명의 자원자를 모집했고, 각 100명씩 두 그룹으로 나눠 배정했다.
나눠진 그룹은 “젤리를 섭취하면서 다이어트를 하는” A그룹과 “젤리를 섭취하지 않고 다이어트를 하는” B그룹이다.
3개월 후 체중감량 성공여부를 조사한다.
- 이 때 변수 X는 “젤리 섭취 여부” 이며, 변수 Y는 “다이어트 성공 여부”이다.
- 모든 임상시험이 그렇듯, 이 예제에서도 “중도 탈락자”가 발생할 수 있다.
- 중도탈락자의 데이터는 더이상 수집하지 못하므로 결과에 포함될 수 없다.
- 보통은 B그룹과 같이 대조군쪽이거나 시험의 결과(다이어트)가 잘 안되는 사람들이 중도탈락한다.
가정1
A그룹은 50명이 다이어트에 성공, B그룹도 50명이 다이어트에 성공
- 이 경우 귀무가설이 기각되지 않으며, X와 Y간 상관관계가 없다고 볼 수 있다.
- 따라서 X와 Y는 인과관계도 아니다.
가정 추가
(1) A 그룹은 모두 임상시험을 완료했고,
(2) B 그룹은 50명이 임상시험을 완료했고, 50명은 중도탈락했다.
- 이 가정에서는 중도탈락을 제외하고 총 150명의 데이터가 관측되었을 것
- A그룹 : 총 100명 중 50명 다이어트 성공(50%)
- B그룹 : 총 50명 중 50명 다이어트 성공(100%)
- 오히려 다이어트젤리는 다이어트 성공율과 음의 상관관계가 있다는 결론이 발생
왜 이러한 편향이 발생할까?
- 이 예시에서 충돌기 편향을 일으키는 제 3의 변수는 임상시험 중단 여부이다.
- 다이어트 젤리를 받지 못한 사람들이 조기에 중도 탈락하였고 (변수 X)
- 다이어트가 잘 되지 않은 사람들 또한 중도 탈락했다. (변수 Y)
Reference
통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의
Comments