베이즈 정리와 역확률
역확률의 정의
- 결과를 보고 원인의 확률을 추론하는 것
- 역확률을 계산하는 공식이 바로 베이즈 정리이다.
- 베이즈 정리 를 통해 계산되는 조건부 확률을 지칭하는 옛 용어
- 19~20세기에 사용된 용어고, 현재는 사후확률 록은 후험 확률 이라고 부른다.
- 조건부 확률의 개념을 사용하며, 조건부 확률을 역방향으로 구한 것이 바로 역확률이다.
- Inverse Probability, Posterior Probability
베이즈 정리의 정의
- 역확률(=사후확률, 후험확률)을 계산하는 공식
- 어떤 사건 A가 일어날 확률을, 관련된 다른 정보 B가 주어졌을 때 갱신하는 공식
- 1763년, 성직자인 베이즈가 신이 존재함을 입증하기 위해서 만든 것이다.
- 이를 기반으로 베이즈 통계학이 만들어졌다.
- Bayes’ Theorem
계산식
\[P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B|A) \, P(A)}{P(B|A) \, P(A) + P(B|A^{c}) \, P(A^{c})}\]- $P(A)$ : 사전확률 (priori) : 기존에 알고 있던 확률
-
$P(B A)$ : 가능도(likelihood) : A가 참일 떄 B가 관찰될 확률 -
$P(A B)$ : 사후확률(posterior) : B라는 증거를 보고 A의 확률을 계산 - 새로운 정보(B)가 들어왓을 때 기존 확률(A)을 어떻게 업데이트할지 알려주는 공식
예시
진단키트와 감염
- 진단키트 정보 민감도와 특이도를 기반으로 감염 여부를 판단한다.
| 구분 | 감염(D) | 비감염(D^c) | 계 |
|---|---|---|---|
| 양성 진단(T^+) | 900 | 500 | 1400 |
| 음성 진단(T^-) | 100 | 49500 | 49600 |
| 계 | 1000 | 50000 | 51000 |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
- 질병에 걸릴 가능성 P(D) = 1000/51000
- 양성 진단을 받을 가능성 P(T^+) = 1400/51000
- 질병에 걸렸으면서 양성인 경우 P(D ∩ T^+) = 900/51000
(1) 나의 진단 결과가 양성일 때 실제 질병인 경우
P(D|T^+) = P(D ∩ T^+) / P(T^+)
= (900/51000) / (1400/51000)
= 900/1400
= 9/14
= 0.643
(2) 내가 질병에 걸렸을 때 진단 결과가 양성인 경우
P(T^+|D) = P(D ∩ T^+) / P(D)
= (900/51000) / (1000/51000)
= 900 / 1000
= 0.9
O.J. 심슨의 재판
미식축구 스타이자 배우였던 그가 전처와 그녀의 친구를 살해한 혐의로 기소된 형사 재판으로, 1990년대 미국에서 가장 뜨거웠던 사건 중 하나이다. O.J. 심슨의 전처인 니콜 브라운 심슨과 그녀의 친구 론 골드만이 살해된 채 발견된 사건이다. 경찰은 O.J. 심슨을 유력 용의자로 체포하려 했으나, 심슨은 이에 불응하고 경찰과 추격전을 벌였다.
O.J. 심슨은 이전에 아내를 폭행한 이력이 있다. O.J. 심슨의 변호인 더쇼위즈는 아내를 폭행한 이력이 있는 남편이 아내를 살해한 확률은 1/1000 정도의 낮은 확률이라고 주장함. 때문에 폭행한 이력을 토대로 살해죄를 적용하는 것은 맞지 않다고 주장함. 하지만 이에 대해 해리 크랜 교수는 “아내가 살해된 사건” 자체도 확률에 포함시켜야 하며 이 경우 0.97이라는 높은 확률이 나온다고 계산했다.
1
2
3
4
5
6
7
8
9
G : 남편이 아내를 살해한 사건
B : 남편이 아내를 폭행한 사건
M : 아내가 살해된 사건
// 더쇼위즈의 주장
P(G|B) = 1/1000
// 해리 크랜 교수의 계산
P(G|B ∩ M) = 0.97
Reference
통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의
https://m.blog.naver.com/mmysmmys/222009435301
Comments