선택편향

정의

  • Selection Bias
  • 실제 모집단 내의 상관관계와 표본에서 나타나는 상관관계가 다른 경우

원인

  • 표본추출 과정에서 모집단을 대표하지 못하는 편향이 있는 표본이 추출된 것

극복 방법

  • 모집단 전체를 잘 대표하는 표본 추출이 가장 중요
  • 연구나 조사의 계획과 설계에서 선택편향에 대해 항상 주의할 것
  • 선행연구 참고시 표본이 어떤 방식으로 추출되었는지 살피고, 선택편향 발생 가능성 의심하기

선택편향의 종류

종류 영문 설명
충돌기 편향 collider bias  
생존자 편향 survivorship bias  
불멸 시간 편향 immortal time bias  
   

충돌기 편향

정의

  • colloder bias
  • 두 변수 X와 Y가 영향을 미치는 제 3의 변수의 존재로 인해 표본 데이터에서 발생하는 편향

예시

새로 개발된 다이어트용 젤리 효과 측정을 위해 임상시험을 실시했다.
총 200명의 자원자를 모집했고, 각 100명씩 두 그룹으로 나눠 배정했다.
나눠진 그룹은 “젤리를 섭취하면서 다이어트를 하는” A그룹과 “젤리를 섭취하지 않고 다이어트를 하는” B그룹이다.
3개월 후 체중감량 성공여부를 조사한다.

  • 이 때 변수 X는 “젤리 섭취 여부” 이며, 변수 Y는 “다이어트 성공 여부”이다.
  • 모든 임상시험이 그렇듯, 이 예제에서도 “중도 탈락자”가 발생할 수 있다.
  • 중도탈락자의 데이터는 더이상 수집하지 못하므로 결과에 포함될 수 없다.
  • 보통은 B그룹과 같이 대조군쪽이거나 시험의 결과(다이어트)가 잘 안되는 사람들이 중도탈락한다.

가정1
A그룹은 50명이 다이어트에 성공, B그룹도 50명이 다이어트에 성공

  • 이 경우 귀무가설이 기각되지 않으며, X와 Y간 상관관계가 없다고 볼 수 있다.
  • 따라서 X와 Y는 인과관계도 아니다.

가정 추가
(1) A 그룹은 모두 임상시험을 완료했고,
(2) B 그룹은 50명이 임상시험을 완료했고, 50명은 중도탈락했다.

  • 이 가정에서는 중도탈락을 제외하고 총 150명의 데이터가 관측되었을 것
  • A그룹 : 총 100명 중 50명 다이어트 성공(50%)
  • B그룹 : 총 50명 중 50명 다이어트 성공(100%)
  • 오히려 다이어트젤리는 다이어트 성공율과 음의 상관관계가 있다는 결론이 발생

왜 이러한 편향이 발생할까?

  • 이 예시에서 충돌기 편향을 일으키는 제 3의 변수는 임상시험 중단 여부이다.
  • 다이어트 젤리를 받지 못한 사람들이 조기에 중도 탈락하였고 (변수 X)
  • 다이어트가 잘 되지 않은 사람들 또한 중도 탈락했다. (변수 Y)

Reference

통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의

Comments