유의수준($a$)
정의
- significance level
- 우연히 발생한 차이를 실제 효과라고 잘못 판단할 확률을 허용하는 기준
- 즉, 1종 오류에 대한 허용 수준
- 얼마나까지 우연을 허용할 것인가?
- 실험 전에 사람이 정하는 값
- 0.05(5%), 0.01(1%), 0.1(10%) 등이 일반적으로 사용된다.
예시
신약이 치료의 효과를 시험한 임상시험에서, 치료군의 치료율이 대조군보다 30% 높게 나왔다고 가정해보자. 이때 “신약은 치료 효과가 없다”는 귀무가설을 기각하기 위해서는 귀무가설이 참이라고 가정했을 때 지금의 임상시험과 같거나 더 극단적인 결과가 우연히 발생할 가능성이 충분히 낮아야 한다. 그러면 얼마나 낮아야 귀무가설을 기각할 수 있을까? 여기서 “우연으로 인정할 수 있는 최대 허용치”가 바로 유의수준이다.
예를 들어 아래와 같은 관측치가 있다고 가정해보자.
독감 A에 대한 임상시험 결과(일주일)
- 치료군(신약 투여) : 100명 중 50명 완치
- 대조군(위약 투여) : 100명 중 20명 완치
이 경우 귀무가설(신약 효과 없음)을 전제로 유의확률을 계산하면, 신약이 실제로 효과가 없는데도 치료군과 대조군 간 완치율이 30% 이상 차니날 확률은 0.0000087 (0.00087%) 이다. 대부분의 사람들은 이 결과를 보고 “이 정도 차이는 우연이라고 보기 어렵다. 당연히 신약의 효과가 없다는 귀무가설을 기각해야 한다”고 판단할 것이다. 우리가 이런 결론에 이르는 이유는, 유의확률이 상식적으로 매우 낮다고 느껴지기 때문이다. 여기에도 우리가 평소에 인지하지 못하고 있는 어떠한 것, 즉 유의수준이 숨어있다.
우리가 “당연히 귀무가설을 기각해야 한다”라고 판단하는 이유는 뭘까? 유의확률이 매우 낮게 계산되었기 때문일 것이다. 신약의 효과가 없다고 하기엔 관측된 사건이 발생할 확률이 너무도 낮기 때문에 귀무가설을 기각해야한다고 생각하는 것이다. 우리는 경험적, 직관적으로 또는 학습을 통해 자연스레 0.00087%는 일상에서 접할 경우도 적고, 접했더라도 경험상 매우 낮은 확률이라는 것을 알고 있다. 때문에 0.00087%라는 확률이 “귀무가설을 기각하기에 충분히 낮다”고 판단할 수 있는 것이다.
그렇다면 유의확률이 어느정도 낮아야 낮다고 표현할 수 있을까? 10%? 5%? 귀무가설을 기각하려면 유의확률이 어느 정도 낮아야 하는 것일까? “확률이 낮다”라는 것은 너무도 주관적이어서 사람에 따라 다르게 정의되며, 심지어 같은 사람이더라도 시간에 따라, 혹은 사안에 따라서도 “확률이 낮다”라고 표현할 수 있는 최소 기준선이 달라질 수 있다.
때문에 통계적 검정에서는 “확률이 낮다” 라는 표현을 할 수 있는 확실한 기준선이 필요하며, 그 기준으로 설정하는 게 바로 유의수준인 것이다.
역할
- 통계적인 가설 검정의 기준값이 되어, 유의확률이 유의수준보다 작으면 귀무가설($H_{0}$)을 기각한다.
- 쉽게 말해, “유의확률이 유의수준을 넘었다” 라는 것은 곧 “1종 오류(효과가 없으나 효과가 있다고 하는 것)의 확률이 허용 기준을 넘었다” 라는 것이다. 따라서 귀무가설을 기각하지 않게 된다.
기각역과 기각역의 입곗값
정의
- 기각역 : 귀무가설을 기각하는 검정통계량 값의 영역
- 기각역의 임곗값 : 귀무가설 하 검정통계량의 확률분포에서 유의수준에 해당하는 값
유의수준과 유의확률 예시
재판이 진행되고 있다. 재판에서는 일단 피고가 무죄라고 가정(귀무가설)한다. 이 상황에서 굉장히 의심스러운 정황가 증거가 나왔다. 만약 피고가 진짜로 무죄라면 이런 정도의 의심스러운 정황이 순전히 우연히 나올 확률이 얼마나 될까? 이걸 숫자로 계산한 값이 바로 유의확률, p-value 이다.
의심스러운 정황과 증거를 예시로 들어, p-value의 크기를 설명하면 다음과 같다.
| No | 정황 및 증거 | 유의확률(p-value) |
|---|---|---|
| 1 | CCTV가 조금 흔들렸다 | 충분히 우연일 수 있음. p-value 큼 |
| 2 | 지문이 범행도구에 선명하게 찍혔다 | 우연이라고 보기 어려움. p-value 작음 |
| 3 | 범행 장면에 얼굴까지 선명하게 찍혔다 | 우연일 리 없음. p-value 매우 작음 |
단, p-value 값이 “귀무가설이 참일 확률”을 뜻하는 것은 아니다. 단지, 귀무가설이 참이라고 가정했을 때, 지금 관측된 결과가 우연히 나올 확률이 얼마나 되는지를 뜻하는 것이다. 재판을 다시 예로 들어보면, 유의확률 p-value 는 “무죄일 확률”이 아니라 “이러한 증거가 우연히 나올 확률” 이다.
\[유의확률 \ne 무죄일 \, 확률 \\ 유의확률 = 관측된 결과(증거)가 \, 우연히 \, 나올 \, 확률\]이런 증거들이 나왔으니, 피고인의 무죄 확률은 3% 이다.
재판에서는 이런 말을 하지는 않는다.
재판은 “무죄라고 추정되는 피고인이 진짜 무죄일 때, 이러한 증거들이 나올 수 있는지”를 살펴보는 과정이지, 무죄 그 자체의 확률을 계산하지는 않는다. 통계도 동일하다.
재판에서 “증거가 이 정도 이상 강력하니, 무죄(귀무가설)”을 뒤집겠다.
라고 할 때의 그 기준선이 유의수준이 되는 것이다.
유의수준은, 귀무가설을 기각해도 좋은 기준선(허용 오차) 이다. 즉, “이 정도 확률 이하로 드문 일이 나왔으니, 귀무가설을 버리자”라고 미리 정해둔 값이다. 유의수준 0.05 (5%) 는 무죄라고 가정했을 때 이런 정황이 나올 확률이 5% 이하라면, 더 이상 무죄라고 볼 수 없다. 따라서 유죄를 인정한다 (귀무가설 기각) 라는 의미이다.
유의확률과 유의수준으로 대립가설을 입증할 수 있는가?
결론부터 말하면, 유의확률(p-value)과 유의수준($a$)만으로는 대립가설이 참임을 증명할 수 없다. 이들은 단지 귀무가설을 기각 여부 판단을 위한 기준일 뿐이다. 만약 귀무가설이 기각됐다면, 그 순간에는 단지 대립가설이 더 설득력 있어 보일 뿐이다.
예를 들어 치료를 위한 신약에 대한 200명 규모의 임상시험을 가정해보자.
| 구분 | 내용 |
|---|---|
| 상황 | 신약의 질병 치료 임상 시험 |
| 귀무가설 | 신약의 치료 효과는 없다. |
| 대립가설 | 신약의 치료 효과는 있다. |
| 측정된 데이터 | - 치료군 100명 중 48명 치료됨, 52명 치료되지 않음 - 대조군 100명 중 26명 치료됨, 74명 치료되지 않음 |
| 유의확률 | 0.001 (0.1%) |
| 유의확률 해석 | 신약의 치료 효과가 없다고 가정할 때, 이런 데이터가 관측될 확률은 0.1% |
유의확률을 해석해보면, “신약의 치료 효과가 없다고 가정했을 때, 임상시험의 결과와 같은 데이터가 측정될 확률은 0.1%” 라고 할 수 있다. 굉장히 낮은 확률이며, 따라서 보통의 유의수준(5%) 에서는 귀무가설(신약의 치료 효과가 없다)이 기각된다.
하지만 이게 곧 “신약의 치료 효과가 있다”의 증거가 되는 것은 아니다. 임상시험을 다시 수행했는데 그때은 치료군과 대조군의 완치율이 별 차이가 없을 수도 있는 것이고, 병이 치료된 이유가 신약 때문이 아니라 각 연구 대상자의 연령이나 성별, 평소의 생활 습관에 따른 것일 수도 있기 때문이다.
즉, 유의확률이 유의수준보다 낮다는 것은 단지 “효과가 없다고 보기 어려울 만큼의 결과가 관측되었다”라는 의미일 뿐이다.
유의수준은 어떻게 정하는가
- 유의수준은 보통 5%로 정한다.
- 하지만 주제마다 유의수준은 다르며
- 기각하려는 귀무가설이 굉장히 오랫동안 참이라고 알려졌을 경우나 굉장히 중요한 사안을 기각하기 위해서는 더 낮은 유의수준을 적용하기도 한다.
Reference
통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의
Comments