층화
정의
- stratification, 데이터 그룹 나누기
- 즉, 교란변수 수준이 동일한 개체들끼리 묶어, 각각의 그룹에서 결과를 비교하는 방법
- 교란변수의 값을 기준으로 데이터를 여러 하위 집단(층, strata)로 나누고, 각 층 내부에서 변수 X와 Y의 관계를 따로 비교하고 분석하는 방법
효과
- 교란변수의 수준이 동일한 개체들끼리 비교하기 때문에 교란변수의 영향이 사라진다.
- 같은 층 내에서는 교란이 통제되므로 X-Y 관계를 더 정확히 볼 수 있다.
- 각 층에서 관측한 X와 Y의 상과관계가 어느 층이든 비슷하다면, 이를 “교란작용을 통제했을 때의 X와 Y의 관계”라고 할 수 있다.
사용하는 경우
- 교란변수 Z가 범주형 변수인 경우 층화를 적용할 수 있다.
- 만약 교란변수 Z가 양적인 변수라면, 구간을 나눠 범주형 변수로 전환한 뒤 층화를 적용할 수 있다.
예시
연구 예시
연구 질문 : 운동을 하면 건강이 좋아지는가?
변수 X : 운동 여부
변수 Y : 건강 양호 여부
교란변수 Z : 연령대
- 운동 여부와 건강 양호 여부 관계 (모든 연령대)
| 운동 여부 |
건강 양호 |
건강 불량 |
계 |
| 운동 함 |
66 |
34 |
100 |
| 운동 안 함 |
70 |
30 |
100 |
| 계 |
136 |
64 |
200 |
층화
층화 : 교란변수 Z의 범위(저연령대/고연령대)로 개체를 그룹으로 나눔
| 운동 여부 |
건강 양호 |
건강 불량 |
계 |
| 운동 함 |
18 |
2 |
20 |
| 운동 안 함 |
64 |
16 |
80 |
| 계 |
82 |
18 |
100 |
| 운동 여부 |
건강 양호 |
건강 불량 |
계 |
| 운동 함 |
48 |
32 |
80 |
| 운동 안 함 |
6 |
14 |
20 |
| 계 |
54 |
46 |
100 |
결과 분석
| 구분 |
운동 함 |
운동 안함 |
| 건강 양호 % |
66% |
70% |
- 층화 후 저연령대 : 운동을 한 경우 건강이 더 양호
| 구분 |
운동 함 |
운동 안함 |
| 건강 양호 % |
90% |
80% |
- 층화 후 고연령대 : 운동을 한 경우 건강이 더 양호
| 구분 |
운동 함 |
운동 안함 |
| 건강 양호 % |
60% |
30% |
연령을 무시했을 경우, 운동을 한 경우가 건강이 더 불량하다는 분석이 되지만
연령을 고려해 층화를 수행한 결과, 저연령대와 고연령대 모두에서 운동을 한 경우 건강이 더 양호하다는 결과를 얻음
층화를 통해 교란 변수를 효과적으로 통제했고, 이 때의 X-Y 간의 관계를 명확히 볼 수 있었다.
제한
- 각 층에서 관측한 X와 Y의 상관관계가 층별로 서로 다른 경우, 층간의 상호작용이 존재하는 것이다.
- 예를 들어 저소득 층에서는 양의 상관관계가 보이지만, 고소득층에서는 음의 상관관계가 보이는 등
- 이런 경우 상호작용과 관련된 별도의 방법을 추가로 적용해야 한다.
Reference
통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의
Comments