랜덤화

정의

  • Randomization
  • 무작위 배정
  • 실험 대상을 무작위로 배정해 교란변수가 실험군과 통제군에 모두 고르게 분포되도록 함

랜덤화의 효과

  • 실험군과 통제군에 교란변수의 값이나 분포가 유사하도록 고르게 섞이도록 한다.
  • 이에 따라 원인으로 추정되는 변수 X의 값에 영향을 주는 교란변수를 제거한다.
  • 즉, 실험군과 통제군 사이의 X의 변화의 원인은 랜덤화이며, 그 외의 영향 요인은 제거된다.
  • 또한 실험군과 통제군은 변수 X를 제외하면 통계적으로 동일한 특성을 갖게 된다.
  • 따라서 이후 관측되는 X와 Y의 상관관계는 (X때문에 발생한)인과관계라고 확신할 수 있다.
  • 랜덤화의 가장 큰 장점은 인지하지 못한 잠재적 교란변수까지 제거할 수 있다는 점이다.
  • 이 때문에 랜덤화는 인과 추론에서 가장 신뢰도 높은 방법으로 간주된다.

사용하는 경우

  • 변수 X가 범주형 변수면서, 값을 임의로 정할 수 있는 변수인 경우
  • 이유 : 균등하게 나누기 위해서는 비교 가능한 그룹으로 나눌 수 있어야 하기 때문

제한

  • 랜덤화는 인과관계를 밝히는 가장 강력한 기법이나, 현실적으로는 적용하기 어렵다.
  • 따라서 현실에서 랜덤화를 성공적으로 적용시키는 사례는 드물다.
랜덤화 적용 불가 경우 설명
X의 값을 임의로 정할 수 없음 - 물리적, 법칙적으로 X의 값을 임의로 정할 수 없는 경우
예시 - 비만여부가 소득에 미치는 영향에 대한 연구
비만여부라는 것은 임의로 배정할 수 없다.
마른 이에게 바로 비만이 되라고 할 수 없고, 그 반대도 불가능하다.
윤리적 이유로 랜덤화 불가능 - 윤리적으로 실험대상에게 어떤 행위를 강제할 수 없는 경우
예시 - 모유수유와 같이 이미 어느 한쪽이 이롭다고 알려진 경우
연구를 위해 어떤 대상자에게는 이미 이롭다고 알려진 모유수유를 못하게 할 수 없음.
현실적 이유로 랜덤화 불가능 - 물리, 법칙적으로는 가능하나, 연구가 현실적으로 통제할 수 없는 요인
예 - 커피가 췌장암에 미치는 영향에 대한 연구
연구 참여자에게 커피 섭취 여부를 랜덤하게 지정하더라도
참여자가 기호에 맞지 않는 행동을 지속적으로 할 가능성 낮음

장단점

  • 장점 : 인과관계를 밝힐 수 있는 가장 강력한 방법
  • 단점 : 적용할 수 있는 경우가 제한적임

예시

선행학습 여부(X)와 영재학교 입학 여부(Y)의 관계를 분석한다고 하자. 그러나 두 변수 모두에 영향을 주는 가정 소득 수준(Z)이라는 교란변수가 존재하므로, 단순 상관관계만으로는 인과를 판단하기 어렵다.

그렇다면 선행학습 여부(X)를 무작위로 배정하면 어떻게 될까? 학생의 가정 소득과 상관없이 일정 비율로 선행학습을 하도록 하거나 하지 않도록 임의로 지정한 뒤, 이후 영재학교 입학 결과를 비교하는 방식이다.

이렇게 X를 랜덤으로 결정하면, 충분한 표본크기 하에서 선행학습 실시 그룹과 비실시 그룹 간에는 가정 소득, 성별, 지능, 부모 학력, 공부 습관 등 교란변수가 유사한 분포를 갖게 된다.

즉, 연구자가 X의 값을 직접 지정하는 순간, 다른 어떠한 요인도 X를 결정할 수 없기 때문에 교란변수의 영향이 제거된다. 따라서 이후 두 그룹의 영재학교 합격률 차이가 관측된다면, 그것은 선행학습 여부로 인한 효과라고 해석할 수 있다.

과학 연구에서의 랜덤화

  • 엄격한 인과관계를 성립시켜야ㅐ 하는 신약개발과 같은 연구에서는 랜덤화를 해야 한다.
  • 랜덤화는 우리가 인지하지 못한 교란변수의 영향까지 확실히 제거할 수 있다.
  • 랜덤화는 사실상 X 가 Y를 일으킨다는 인과관계를 확실하게 결론내릴 수 있는 유일한 방법이다.

Reference

통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의

Comments