베이즈 분류기를 이용한 머신러닝 과정
베이즈 분류기를 이용한 머신러닝 과정
순서 | 작업 | 설명 |
---|---|---|
1 | 학습 데이터 수집 | 분류기 학습에 필요한 데이터를 수집하거나 추출한다. |
2 | 클래스별 분포함수 추정 | 학습 데이터들로부터 클래스별 분포함수를 추정한다. 즉, 표본집단인 학습 데이터로부터 모집단인 전체 데이터의 클래스별 분포함수를 추정한다는 것. 이 과정이 바로 “모델의 학습”이다. |
3 | 테스트 데이터 | 테스트 데이터 혹은 현실세계의 데이터인 xnew를 분류기에 넣는다. |
4 | 판별함수 계산 | 분류기에서 새로운 데이터 xnew에 대해 판별함수 값을 계산한다. gk(xnew) = p(x | Ck)p(Ck) |
5 | 클래스 할당 | 판별함수 gk(xnew)의 값이 가장 큰 클래스 k를 xnew의 클래스로 예측한다. |
이론과 현실
앞 포스팅에서는 확률밀도함수의 구체적인 형태를 가정하지 않고, 클래스별 데이터 분포 p(x | Ck)
가 주어졌다는 가정 하에서 확률기반 분류 모델을 알아보았다. 하지만 현실세계의 문제는 각기 다른 분포를 가지고 있고, 분석이 어려운 분포를 가진 데이터들도 많을 것이다.
다음 섹션에서는 클래스별 데이터 분포가 가우시안 분포를 따르는 경우, 결정경계와 판별함수가 어떻게 정해지는지 살펴보겠다.