지난주 꼭꼬 편지함에 들어온 요청 기억하시나요? 선거나 여론조사에서 자주 등장하는 신뢰구간에 대해 설명해 달라는 이야기였죠. 그래서 저번 주에는 가설 검정에 대해서 살펴봤습니다. 혹시나 기억의 저편으로 보내버린 분들을 위해 간단하게 복습 들어가겠습니다. 찬찬히 다시 읽어보고 싶다면 저번 주 매드매스를 읽어보세요!
<aside> 📌 1. 가설 검정을 통해 통계적 추론을 한다. 2. 가설에는 귀무가설과 대립가설이 있다. 3. 내가 주장하고 싶은 가설이 있다면 그것과 반대되는 놈을 귀무가설로 놓는다 4. 귀무가설이 틀렸다는 걸 증명한다. 그 경우 대립가설을 채택한다.
</aside>
$$ H_0 : P_K\ne0.5 \\H_1 : P_K=0.5 $$
만일 누군가 꼭꼬가 회식에 참석할 확률이 50%이라는 주장을 한다고 하면, 귀무가설로는 꼭꼬가 회식에 참석할 확률이 50%가 아니다라고 두고 이 귀무가설이 틀렸다는 것만 증명하면 되는 겁니다. 이렇게 가설을 설정해두는 것부터 기본적인 통계적 추론이 시작됩니다. 어떤 가설을 선택해야 하는지, 그리고 그 가설을 선택한 다음엔 어떤 과정이 있는지.
통계검정을 거쳤다고 보면 위와 같이 4가지 시나리오가 있을 겁니다. 시나리오 1, 2의 세계는 꼭꼬의 회식 참석률이 50%가 아닌 세상입니다. 반면 시나리오 3, 4의 세계는 꼭꼬의 회식 참석률이 정확히 50%인 세상 인거죠. 여기서 1과 4는 옳은 결정입니다. 실제와 통계검정의 결과가 같으니까요. 이걸 표로 정리하면 아래와 같습니다.
실제로는 귀무가설($H_0$)이 참인데 거짓으로 판단하고 대립가설($H_1$=꼭꼬가 회식에 참석할 확률이 50%)을 선택한 시나리오2의 경우를 우리는 1종 오류
라고 합니다. 귀무가설이 사실이 아닌데도 불구하고 사실로 판단한 시나리오3의 경우를 2종 오류
라고 하죠. 통계검정에서는 1종 오류가 2종 오류보다 더 중요하게 다뤄집니다. 이를테면 제약회사에서 신약이 심장병 치료에 효과가 있는지 없는지 여부를 가설검정을 한다고 했을 때를 생각해봅시다.
천방지축 1종 오류와 2종 오류는 통제가 필요하다.