가설 검정의 기본 방법
가설 검정의 기본
- 기본적으로 유의수준을 설정한 뒤, 관측된 유의확률이 이를 넘는지 밑도는지를 기준으로 가설 기각 여부를 판단한다.
- 보통의 경우 제 1종 오류 위험이 제 2종 오류의 위험보다 더 큰 문제로 간주된다.
- 따라서 1종 오류의 허용 한도(유의수준)을 통제하면서 제 2종 오류를 낮추는 방향으로 수행된다.
범인 99명을 놓치더라도 1명의 억울한 사람을 만들지 마라
가설 검정의 기본 절차
- 유의수준 설정
가장 먼저 제 1종 오류에 대한 허용 한도인 유의수준을 설정한다.
- 귀무가설 기각 평가
측정된 데이터를 기준으로 유의확률이 귀무가설을 기각할 만큼 충분히 작은지 평가한다. 즉, 측정된 데이터(표본)이 귀무가설을 기각할 만큼 충분히 이례적인지를 평가한다.
유의확률 (p-value)
정의
- significance probability, p-value
- 어떠한 가설을 참이라고 가정했을 때, 관찰된 결과와 그 이상의 극단적 사건이 일어날 확률
- 실험 후 데이터로 계산됨
계산 방법
- 어떠한 가설이 참이라고 가정한 뒤, 지금 관찰된 통계량보다 극단적인 값이 나올 확률을 확률분포로 계산하여 구한다.
예시
동전이 공평하다고 가정한 뒤, 동전을 10번 던진 실험에서 앞면이 8면 나왔다고 가정해보자. 이때 유의확률(p-value)은 앞면이 8번 이상 나오는 사건의 확률을 의미하므로, 앞면이 8번, 9번, 10번 나올 확률을 모두 포함한 값이 된다.
이를 계산하면 유의확률은 0.0547(5.47%)이며, 즉 동전이 공평하다면 10회의 시도 중 앞면이 8, 9, 10번 나올 확률이 약 5.47%임을 의미한다.
어떠한 가설이 참이라고 가정하는 이유
유의확률(p-value)은 “관측된 결과와 그보다 더 극단적인 결과가 우연히 나타날 확률”이다. 이해하기 쉽게 말하면 “지금 얻은 데이터가 단순한 우연일 가능성” 정도로 생각할 수 있다. (정확한 정의는 아니지만 직관적 설명을 위해 사용하겠다.) 다음 상황을 예로 들어보자
관측된 사건(표본) : 6면체 주사위를 10번 굴렸을 때, 9번 눈이 1이 나왔다.
-
유의확률을 계산하려면 먼저 전제가 필요하다.
주사위의 각 면이 어떤 숫자를 가지고 있는지, 그리고 각 면이 동일한 확률로 나오도록 설계되었는지에 대한 가정이 없다면 확률을 계산할 수 없기 때문이다. 예들 들어, 6면 중 5면이 1이라면 위의 관측 사건이 전혀 이상한 결과가 아니다. 또한 1이 적힌 면이 유독 넓어 자주 나오게 만들어져있다면 이 역시 관측된 사건은 우연이라고 보기 어렵디ㅏ. 따라서 1~6이 균일하게 새겨져있고, 어떤 면도 유리하지 않은 공정한 주사위라는 전제를 세워야 한다. -
다음으로는 기준이 되는 가설(귀무가설)을 세워야 한다.
앞선 관측된 사건 예시를 보면 대부분의 사람은 이렇게 생각할 것이다. “주사위 10번 굴려서 9번이 같은 눈? 엄청난 우연인데?” 우리가 이렇게 생각하는 것은 자연스러운 것이다. 기본적으로 우리는 주사위의 각 면이 나올 확률이 동일하다는 생각을 가지고 살아가기 때문이다. 이것이 바로 기본 가정인 “귀무가설”에 해당한다. 우리는 경험적으로, 또는 학습을 통해 이러한 귀무가설을 가지고 살아가고 있으며, 이러한 귀무가설이 참이라는 가정이 있기 때문에 우연성을 논할 수 있는 것이다.(이처럼 귀무가설은 우리 삶에 너무도 당연하게 녹아져 있어 인지할 수 없기도 하다.) 따라서 우연성을 평가하려면, 참이라고 여겨지는 기준이 되는 “귀무가설”이 필요한 것이다. -
만약 사회적 통념이 달랐다면?
“1~6 눈을 가진 6면체 주사위를 굴렸을 때, 대부분은 1눈이 나와” 라는 것이 통용되는 상식인 사회를 가정해보자. 이 경우 귀무가설은 “주사위는 공평하지 않으며, 1눈이 나올 확률이 높다”가 된다. 그러한 사회에서는 위에 예시로 든 관측 사건은 전혀 우연적인 사건이 아니며, 당연히 일어날 수 있는 사건인 것이다.
역할
- 유의확률 p값은 통계적 가설 검정에서 “귀무가설이 참일 때 얻어지는 검정통계량 값보다 더 극단적인 값을 얻을 확률”을 뜻한다.
- 즉, 귀무가설을 참이라고 가정했을 때, 귀무가설이 커버할 수 있는 범위를 벗어난 극단적인 값을 얻을(혹은 그런 값이 관측될) 확률
Reference
통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의
Comments