베이지안 분류기

 

  • 분류기 학습 (훈련)에 사용하는 정보는 '훈련 집합'이라고 한다.
    • 훈련 집합 X = {(x1,t1), (x2,t2), ..., (xn, tn)}
      • Xi = (x1, x2, ..., xd)는 특징 벡터
      • Ti ∈ {w1, w2, ..., wm}은 분류 표지 (이진 분류기의 경우 M=2)

 

최소 오류 베이지안 분류기

 

  • 주어진 특징 벡터 x에 대해 '가장 그럴듯한' 분류로 분류
    • 사후 확률, P(wi|x)을 이용

최소 오류 베이지안 분류기

 

  • 하지만 일반적으로 사후 확률을 직접 구할 수 없다. 그렇기 때문에 베이즈 정리를 이용해 사전 확률과 우도로 이를 구한다.

베이즈 정리

 

  • 이때, 분모는 무시해도 된다. 상수니까
  • 사전 확률 계산:
    • P(w1) = n1 / N, P(w2) = n2 / N ...
    • 정확한 값이 아니라 추정 (N이 커짐에 따라 실제 값에 가까워짐)
  • 우도 계산:
    • 훈련 집합에서 wi에 속하는 샘플들을 가지고 P(x|wi)를 추정
    • 분류 조건부 확률이라고 하고, 매우 중요한 부분이다.

 

최소 오류 베이지안 분류기의 결정 규칙

  • 결정 규칙:

결정규칙

  • 특수한 경우로 이를 해석하면:
    • 사전 확률이 0.5인 경우 우도만을 이용해서 분류
    • P(w1) >> P(w2)인 경우 (사전 확률이 치우친 경우)는 사전 확률이 의사 결정을 주도

 

오류 확률

 

오류 확률
오류 확률

 

+ w2일 수도 있는데, P(x|w1)이 높다는 이유로 w1을 선택하는 경우 + w1일 수도 있는데, P(x|w2)가 높다는 이유로 w2를 선택하는 경우

 

+ 이때 entropy값이 가장 작은 x=t부분이 선택에 있어서 threshold이다.

 

최소 위험 베이지안 분류기

 

  • 성능 기준으로 오류가 적절하지 못한 상황
    • 정상인과 암 환자 분류
    • 과일을 상품과 하품으로 분류
  • 손실 행렬
    • 각 case에 대한 손실을 정리한 행렬

손실 행렬

 

+ C21과 C12가 진짜 손실이다. C11과 C22는 맞춘거니까 사실상 손실은 없다.

 

최소 위험 베이지안 분류기의 결정 규칙

 

결정 규칙

 

이를 우도비로 다시 쓰면

우도비 기준

 

손실에 따라 threshold가 변한다

 

+ 만약 C12가 더 크다면, 즉 1을 2라고 예측할 때의 손실이 더 크다면, 시스템은 2라고 예측하는 기준을 좀 더 strict하게 봐야한다. 그렇기 때문에 threshold를 오른쪽으로 옮긴다.

 

+ 우도비 규칙에 따르면 사전확률의 크기도 threshold를 선정하는데에 중요한 역할을 한다. 만약 P(w1)이 P(w2)보다 더 크다면 왼쪽에 있는 P(x|w1)의 그래프가 더 높아지고, 이는 threshold를 오른쪽으로 미는 역할을 할 것이다.

 

Multiclass 분류 문제로의 확장

 

  • 최소 오류 베이지안 다중 분류기

최소 오류 베이지안 다중 분류기

  • 최소 위험 베이지안 다중 분류기

최소 위험 베이지안 다중 분류기

 

  • 이를 식별 함수로 다시 작성하면:

식별 함수

 

식별 함수

 

  • 식별 함수 표현의 장점
    • 여러 분류기를 하나의 틀로 표현 가능
    • f()가 단조 증가라면 P(x|wi)P(wi)대신 gi(x) = f(P(x|wi)P(wi))를 사용하여도 같은 결과를 만든다
      • f()로는 log를 주로 사용
      • 만약 P()가 정류분포를 띈다면, 지수에 식이 많은데 이에 대한 계산을 단순하게 만들어준다.

 

정규 분포와 식별 함수

 

정규 분포
우도
식별 함수

 

 

+ 즉, 식별 함수는 x에 대한 2차식이 만들어진다.

 

결정 경계

 

  • 두 부류가 차지하는 영역의 경계
    • gi(x) = gj(x)인 점
    • gij(x) = gi(x) - gj(x)일 때, gij(x) = 0인 점

결정 경계

 

선형 분류

 

  • 모든 부류의 공분산 행렬이 같은 경우
    • 식별함수를 다시 쓰면,
    • 2차 항 (x^t)(∑^-1)x가 사라진다. 즉 원래 ∑가 i에 관한 식이었는데, i와 상관없이 모두 같기 때문에 i에 대한 상수가 된다.
    • 그렇게 되면 선형식이 된다.

선형 결정 경계

 

선형 결정 경계식

 

+ 여기에서 만약 분류 i와 j가 서로 독립이어서 ∑가 Identical matrix라면, 선형 결정 경계식은 i와 j의 평균 벡터의 수직으로 형성된다.

 

선형 결정 경계

 

비선형 분류

 

임의의 공분산 행렬을 가질 때:

비선형 결정 경계

 

기각 처리

 

  • 기각
    • 신뢰도가 충분하지 않은 경우는 의사 결정 포기
    • 그림에서 두 부류의 확률 차이가 delta보다 작으면 기각

기각

 

베이지안 분류의 특성

 

  • 비현실성을 내포하기 때문에, 확률 분포 모델링이 핵심이다.
  • 실제 확률 분포를 안다고 가정하면, 최적의 분류 성능을 제공. 또한 최적성을 수학적으로 완벽하게 증명
  • M개 부류 각각에 대해 그에 속할 확률을 식별 함수 값으로 출력, 해석이 가능한 분류기로 이를 신뢰도 값으로 이용하여 다양한 분류기에 활용이 가능하다.
  • 나이브 베이지안 분류기
    • 특징들이 서로 독립이라는 가정
    • 우도 계산을 i.i.d (Independent, Identically distributed) Gaussian로 가정하는 분류기를 나이브 베이지안 분류기라 함
    • 얻은 것: 차원의 저주를 피함
    • 잃은 것: 성능 저하

나이브 베이즈