베이즈 정리를 살펴보기 전에 조건부 확률부터 알아보자.
$$ P(A\cap B) = P(B)P(A|B) $$
베이즈 정리는 조건부 확률을 이용하여 정보를 갱신하는 방법을 알려준다.
$\mathcal{D}$는 **새로 관찰하는 데이터(즉, 새로운 정보)**를 의미한다.
$\theta$는 Hypothesis, 또는 모델링하는 이벤트, 또는 모델에서 계산하고 싶어하는 **모수(parameter)**를 의미한다.
$P(\theta|\mathcal{D})$는 사후확률로, 데이터가 주어져 있을 때, hypothesis가 성립할 확률을 의미한다. 즉, 갱신하고 난 후의 신뢰도를 의미한다.
$P(\theta)$는 사전확률로, 모델링하고자 하는 타겟(모수 등)에 대해 데이터를 분석하기 전에 가정한 확률분포를 의미한다. 즉, 갱신하기 전의 신뢰도를 의미한다.
P(D∣θ)는 가능도(likelihood, 우도)로, 현재 주어진 [모수/가정]에서 데이터 $\mathcal{D}$가 관찰될 확률을 의미한다.
P(D)는 Evidence를 의미한다.
<aside> 💡 이를 이용해 새로운 데이터가 들어왔을 때, 이전의 사후확률을 사전확률에 대입하여 새로운 사후확률을 얻는것이 가능하다. (현재의 가정에서 새로운 데이터에 대한 신뢰도를 얻는 것)
</aside>
데이터 분석의 성격에 따라 1종 오류와 2종 오류 중 어느 것을 먼저 줄여야 하는 지가 달라진다.
특히 2종 오류(False Negative)같은 경우 의료계에서 매우 심각한 문제이다. 누군가 큰 병에 걸렸는데 이를 오진할 경우, 생명에 위험을 줄 수가 있다.
이에 비해 1종 오류(False Negative)는 상대적으로 위험성이 떨어지므로, 보통은 오탐율(False Alarm)을 희생하더라도, 민감도(Recall)을 최대한 줄이는 방식으로 설계하곤 한다.
이를 가지고 우리는 정밀도를 구할 수 있다.
$TP\over{TP+FP}$로 계산하는데 분모는 양성으로 판단한 경우이고 분자는 실제로 양성인 경우이다. 오탐율($TP\over{FP+TN}$)에 주목을해보면, 오탐율이 커질수록 정밀도는 낮아지고, 반대로 오탐율이 작아지면 정밀도는 높아진다. 또한 민감도($TP\over{TP+FN}$)가 커질수록 정밀도가 높아진다.
이처럼 정밀도(precision)는 오탐율(false alarm)과 민감도(recall)에 영향을 받는다.