베이즈 통계학 맛보기

베이즈 정리란?

베이즈 정리를 살펴보기 전에 조건부 확률부터 알아보자.

$$ P(A\cap B) = P(B)P(A|B) $$

베이즈 정리는 조건부 확률을 이용하여 정보를 갱신하는 방법을 알려준다.

스크린샷 2022-01-20 오후 1.47.40.png

$\mathcal{D}$는 **새로 관찰하는 데이터(즉, 새로운 정보)**를 의미한다.
$\theta$는 Hypothesis, 또는 모델링하는 이벤트, 또는 모델에서 계산하고 싶어하는 **모수(parameter)**를 의미한다.
$P(\theta|\mathcal{D})$는 사후확률로, 데이터가 주어져 있을 때, hypothesis가 성립할 확률을 의미한다. 즉, 갱신하고 난 후의 신뢰도를 의미한다.
$P(\theta)$는 사전확률로, 모델링하고자 하는 타겟(모수 등)에 대해 데이터를 분석하기 전에 가정한 확률분포를 의미한다. 즉, 갱신하기 전의 신뢰도를 의미한다.
P(D∣θ)는 가능도(likelihood, 우도)로, 현재 주어진 [모수/가정]에서 데이터 $\mathcal{D}$가 관찰될 확률을 의미한다.
P(D)는 Evidence를 의미한다.

<aside> 💡 이를 이용해 새로운 데이터가 들어왔을 때, 이전의 사후확률을 사전확률에 대입하여 새로운 사후확률을 얻는것이 가능하다. (현재의 가정에서 새로운 데이터에 대한 신뢰도를 얻는 것)

</aside>

조건부 확률의 시각화
- 양성으로 판단하였으나 실제로는 음성인 경우는 1종오류(False Positive)라 한다.
- 음성으로 판단하였으나 실제로는 양성인 경우는 2종오류(False Negative)라 한다.
데이터 분석의 성격에 따라 1종 오류와 2종 오류 중 어느 것을 먼저 줄여야 하는 지가 달라진다.

특히 2종 오류(False Negative)같은 경우 의료계에서 매우 심각한 문제이다. 누군가 큰 병에 걸렸는데 이를 오진할 경우, 생명에 위험을 줄 수가 있다.

이에 비해 1종 오류(False Negative)는 상대적으로 위험성이 떨어지므로, 보통은 오탐율(False Alarm)을 희생하더라도, 민감도(Recall)을 최대한 줄이는 방식으로 설계하곤 한다.

이를 가지고 우리는 정밀도를 구할 수 있다.

$TP\over{TP+FP}$로 계산하는데 분모는 양성으로 판단한 경우이고 분자는 실제로 양성인 경우이다. 오탐율($TP\over{FP+TN}$)에 주목을해보면, 오탐율이 커질수록 정밀도는 낮아지고, 반대로 오탐율이 작아지면 정밀도는 높아진다. 또한 민감도($TP\over{TP+FN}$)가 커질수록 정밀도가 높아진다.

이처럼 정밀도(precision)는 오탐율(false alarm)과 민감도(recall)에 영향을 받는다.

조건부 확률 → 인과관계?

조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계를 추론할 때 함부로 사용해서는 안된다.
데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는것은 불가능
인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요

Untitled

베이즈 정리란?

조건부 확률의 시각화

조건부 확률 → 인과관계?