꼭꼬에게 날아온 편지, 대망의 마지막 시간입니다. 지난 2주간의 내용을 총정리하는 시간을 가져보도록 하죠. 우선 저번 달에 날아온 편지를 다시 보죠.
<aside> 💌 2020년 11월 5일 10시 10분
마부작침 프로젝트와 레퍼런스를 한 눈에 보기 편하게 요약&소개 해주어서 너무 좋습니다!!
</aside>
신뢰구간 95%에 대해 설명해주세요! 라는 문장. 꼭날편을 열심히 본 독자라면 "응?" 하는 느낌이 들어야 할 겁니다. 지난주에 이야기한 95%, 0.95는 신뢰수준(Confidence Level)에 해당하는 수치기 때문이죠. 다시 한번 정리해봅시다. 통계 검정에서 1종 오류
가 발생할 확률을 통제하기 위해 등장하는 유의수준($\alpha$, Significance Level). 보통 0.05, 0.01이 사용된다고 했죠. 그런 1종 오류
가 발생하지 않을 확률 $1-\alpha$(0.95와 0.99)은 신뢰수준이었습니다.
꼭꼬가 집권할 날이 얼마 남지 않았다
그렇다면 신뢰구간(Confidence Interval)은 뭘까요? 신뢰구간을 자주 접할 수 있는 여론조사 데이터를 보면서 이야기 나눠보죠. **"마부작침 리서치가 조사한 결과(95% 신뢰수준, 표본오차 ±5%p) 꼭꼬 후보의 지지율은 80%로 집계됐다."**는 바람직한 여론조사 데이터가 있다고 해봅시다. 여기서 95% 신뢰수준은 위에서 언급한 것처럼 1종 오류
가 발생하지 않을 확률이 95%라는 의미일 거고요. 표본오차 ±5%p는 지지율 80%의 오차 범위를 뜻하는데 풀어서 쓰면 75%~85%, 그리고 바로 이게 신뢰구간을 의미하죠.
두 문장의 뉘앙스 차이를 느낄 수 있나요? 대부분 신뢰구간을 이해할 때 직관적인 1번 문장처럼 이해하지만, 실제 통계학에서 적용되는 건 2번 문장에 더 가깝습니다. 왜냐하면 꼭꼬 후보의 지지율이라는 모수(다시 등장했습니다만, 기억이 안 나시는 분을 위해 간단히 설명해 드리자면 모집단의 특성을 나타내는 수)는 상수이지만 그 분포를 우리가 알 수는 없기 때문이죠. 대신 신뢰구간은 계산을 통해 확인했으니 이걸 바탕으로 꼭꼬 후보의 지지율을 파악하는 거죠.
오랜만에 등장한 AI 친구, 베이지안의 자손이다.
여기서 다시 프리퀀티스트와 베이지안 이야기로 살짝 넘어가보려고 합니다. 기억하시나요? [006]꼭꼬레터에서 모수에 대한 프리퀀티스트와 베이지안 사이의 간극을! 모수를 변하지 않는 고정된 값이라고 생각하는 프리퀀티스트와 모수 역시 변수로 인식하는 베이지안. 우리가 여태껏 이야기했던 (그리고 자주 사용하는) 신뢰구간은 프리퀀티스트의 개념입니다. 베이지안 역시 신뢰구간에 대응하는 녀석이 있죠. 바로 신용구간(Credible Interval)이라는 녀석인데요, 이 녀석은 우리가 직관적으로 이해하는 1번 문장과 맞닿아있죠. 수식으로 보면 편한데 그러면 너무 어려워질 수 있으니 그건 패스! 이번 주는 여기까지~ 그러면 다음 주까지 안뇽~!