매칭
정의
- matching
- 교란변수 Z의 값은 같지만, X(또는 Y)가 다른 두 개체를 1:1 짝지어 표집하는 방식
- 전체 데이터를 사용하는 게 아니라, 매칭된 쌍들만 사용한다.
- 변수 Y를 기준으로 매칭하는 경우 환자-대조군 연구라고 부른다.
효과
- 매칭되어 표집된 데이터들 내에서는 분포가 동일해지므로 교란변수의 영향이 제거된다.
사용하는 경우
- 짝짓는 기준이 되는 X 또는 Y가 이분형 변수일 때 사용
- 이분형이 아닌 범주형도 가능하긴 하지만, 이 경우 매우 복잡함
예시
변수 X 를 기준으로 매칭하는 경우
연구 주제 : 흡연 여부가 폐암에 미치는 영향
X : 흡연 여부
Y : 폐암 여부
Z : 성별, 확실하지는 않지만 교란변수로 우려될 경우
- (1) 흡연자 여성 + 비흡연자 여성을 매칭하거나
- (2) 흡연자 남성 + 비흡연자 남성을 매칭해
- 1-2 단계를 계속 반복하면 흡연자 vs 비흡연자의 성별 분포가 동일해진다.
- 결과적으로 성별이 X-Y 관계를 교란하지 않게 된다.
변수 Y를 기준으로 매칭하는 경우 : 환자-대조군 연구
연구 주제 : 흡연 여부가 폐암에 미치는 영향
X : 흡연 여부
Y : 폐암 여부
Z : 성별, 확실하지는 않지만 교란변수로 우려될 경우
- (1) 폐암에 걸린 여성 + 폐암에 걸리지 않은 여성을 매칭하거나
- (2) 폐암에 걸린 남성 + 폐암에 걸리지 않은 남성을 매칭해
- 1-2 단계를 계속 반복하면 폐암그룹 vs 폐암이 아닌 그룹의 성별 분포가 동일해진다.
- 결과적으로 성별이 X-Y 관계를 교란하지 않게 된다.
- 장점 : 비용과 시간이 절약된다. - 모집 후 폐암 보유 여부와 흡연(및 과거 흡연) 여부만 조사하면 되기 때문
- 단점 : 데이터(표본)의 모집단에 대한 대표성이 희생되고, 통계분석 방법이 복잡하고 어려워짐
시간이 절약되는 이유
X 기준 매칭 : 흡연자 100명, 비흡연자 100명 매칭 -> 매우 적은 수의 폐암 보유자만 존재함
Y 기준 매칭 : 폐암 100명, 폐암 아님 100명 매칭 -> 조사만 하면 되며, 더 많은 폐암과 흡연에 대한 정보 수집 가능
제한
왜곡 존재
- 매칭은 전체 데이터를 쓰는게 아니라 교란변수 값이 동일한 쌍만 선택해 쓰게 됨
- 따라서 표본이 모집단과 다른 분포를 가질 수 있고, 이로 인해 왜곡이 생길 수 있다.
- 예: 폐암 환자 100명과 비환자 100명을 매칭할 경우 유병률 50% / 반면 현실에서 폐암 유병률은 매우 낮음
- 즉, 표본 구성 자체가 현실과 다르게 형성됨
매칭된 개체들은 서로 독립이 아님
- 매칭은 일부 특성이 같도록 의도적으로 선택되기 때문에 표본 간 독립성 보장 안됨
- 그러나 일반적인 통계 기법은 독립성 가정을 전제한다.
- 따라서 매칭을 이용할 경우 개체 간 유사성을 고려한 분석방법을 사용해야 함
Reference
통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의
Comments