[인공지능] Bayesian Inference

베이지안 분류기

분류기 학습 (훈련)에 사용하는 정보는 '훈련 집합'이라고 한다.
- 훈련 집합 X = {(x1,t1), (x2,t2), ..., (xn, tn)}
  - Xi = (x1, x2, ..., xd)는 특징 벡터
  - Ti ∈ {w1, w2, ..., wm}은 분류 표지 (이진 분류기의 경우 M=2)

최소 오류 베이지안 분류기

주어진 특징 벡터 x에 대해 '가장 그럴듯한' 분류로 분류
- 사후 확률, P(wi|x)을 이용

하지만 일반적으로 사후 확률을 직접 구할 수 없다. 그렇기 때문에 베이즈 정리를 이용해 사전 확률과 우도로 이를 구한다.

이때, 분모는 무시해도 된다. 상수니까
사전 확률 계산:
- P(w1) = n1 / N, P(w2) = n2 / N ...
- 정확한 값이 아니라 추정 (N이 커짐에 따라 실제 값에 가까워짐)
우도 계산:
- 훈련 집합에서 wi에 속하는 샘플들을 가지고 P(x|wi)를 추정
- 분류 조건부 확률이라고 하고, 매우 중요한 부분이다.

최소 오류 베이지안 분류기의 결정 규칙

결정 규칙:

특수한 경우로 이를 해석하면:
- 사전 확률이 0.5인 경우 우도만을 이용해서 분류
- P(w1) >> P(w2)인 경우 (사전 확률이 치우친 경우)는 사전 확률이 의사 결정을 주도

오류 확률

+ w2일 수도 있는데, P(x|w1)이 높다는 이유로 w1을 선택하는 경우 + w1일 수도 있는데, P(x|w2)가 높다는 이유로 w2를 선택하는 경우

+ 이때 entropy값이 가장 작은 x=t부분이 선택에 있어서 threshold이다.

최소 위험 베이지안 분류기

성능 기준으로 오류가 적절하지 못한 상황
- 정상인과 암 환자 분류
- 과일을 상품과 하품으로 분류
손실 행렬
- 각 case에 대한 손실을 정리한 행렬

+ C21과 C12가 진짜 손실이다. C11과 C22는 맞춘거니까 사실상 손실은 없다.

최소 위험 베이지안 분류기의 결정 규칙

이를 우도비로 다시 쓰면

+ 만약 C12가 더 크다면, 즉 1을 2라고 예측할 때의 손실이 더 크다면, 시스템은 2라고 예측하는 기준을 좀 더 strict하게 봐야한다. 그렇기 때문에 threshold를 오른쪽으로 옮긴다.

+ 우도비 규칙에 따르면 사전확률의 크기도 threshold를 선정하는데에 중요한 역할을 한다. 만약 P(w1)이 P(w2)보다 더 크다면 왼쪽에 있는 P(x|w1)의 그래프가 더 높아지고, 이는 threshold를 오른쪽으로 미는 역할을 할 것이다.

Multiclass 분류 문제로의 확장

최소 오류 베이지안 다중 분류기

최소 오류 베이지안 다중 분류기

최소 위험 베이지안 다중 분류기

이를 식별 함수로 다시 작성하면:

식별 함수

식별 함수 표현의 장점
- 여러 분류기를 하나의 틀로 표현 가능
- f()가 단조 증가라면 P(x|wi)P(wi)대신 gi(x) = f(P(x|wi)P(wi))를 사용하여도 같은 결과를 만든다
  - f()로는 log를 주로 사용
  - 만약 P()가 정류분포를 띈다면, 지수에 식이 많은데 이에 대한 계산을 단순하게 만들어준다.

정규 분포와 식별 함수

+ 즉, 식별 함수는 x에 대한 2차식이 만들어진다.

결정 경계

두 부류가 차지하는 영역의 경계
- gi(x) = gj(x)인 점
- gij(x) = gi(x) - gj(x)일 때, gij(x) = 0인 점

선형 분류

모든 부류의 공분산 행렬이 같은 경우
- 식별함수를 다시 쓰면,
- 2차 항 (x^t)(∑^-1)x가 사라진다. 즉 원래 ∑가 i에 관한 식이었는데, i와 상관없이 모두 같기 때문에 i에 대한 상수가 된다.
- 그렇게 되면 선형식이 된다.

+ 여기에서 만약 분류 i와 j가 서로 독립이어서 ∑가 Identical matrix라면, 선형 결정 경계식은 i와 j의 평균 벡터의 수직으로 형성된다.

비선형 분류

임의의 공분산 행렬을 가질 때:

기각 처리

기각
- 신뢰도가 충분하지 않은 경우는 의사 결정 포기
- 그림에서 두 부류의 확률 차이가 delta보다 작으면 기각

베이지안 분류의 특성

비현실성을 내포하기 때문에, 확률 분포 모델링이 핵심이다.
실제 확률 분포를 안다고 가정하면, 최적의 분류 성능을 제공. 또한 최적성을 수학적으로 완벽하게 증명
M개 부류 각각에 대해 그에 속할 확률을 식별 함수 값으로 출력, 해석이 가능한 분류기로 이를 신뢰도 값으로 이용하여 다양한 분류기에 활용이 가능하다.
나이브 베이지안 분류기
- 특징들이 서로 독립이라는 가정
- 우도 계산을 i.i.d (Independent, Identically distributed) Gaussian로 가정하는 분류기를 나이브 베이지안 분류기라 함
- 얻은 것: 차원의 저주를 피함
- 잃은 것: 성능 저하

'[학교 수업] > [학교 수업] AI' 카테고리의 다른 글

[인공지능] 마르코프 체인 (2)	2024.12.11
[인공지능] Fuzzy Inference (2)	2024.11.29
[인공지능] 지식 표현과 추론 (1)	2024.11.29
[인공지능] Genetic Algorithm (1)	2024.11.25
[인공지능] Game Tree Search (2) - Monte Carlo Tree Search (0)	2024.11.25

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[인공지능] Bayesian Inference

베이지안 분류기

최소 오류 베이지안 분류기

최소 오류 베이지안 분류기의 결정 규칙

오류 확률

최소 위험 베이지안 분류기

최소 위험 베이지안 분류기의 결정 규칙

Multiclass 분류 문제로의 확장

식별 함수

정규 분포와 식별 함수

결정 경계

선형 분류

비선형 분류

기각 처리

베이지안 분류의 특성

'[학교 수업] > [학교 수업] AI' 카테고리의 다른 글

베이지안 분류기

최소 오류 베이지안 분류기

최소 오류 베이지안 분류기의 결정 규칙

오류 확률

최소 위험 베이지안 분류기

최소 위험 베이지안 분류기의 결정 규칙

Multiclass 분류 문제로의 확장

식별 함수

정규 분포와 식별 함수

결정 경계

선형 분류

비선형 분류

기각 처리

베이지안 분류의 특성

'[학교 수업] > [학교 수업] AI' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역