이번 주는 저번에 예고한 대로 통계학의 두 학파인 프리퀀티스트베이지안에 대해 이야기를 해보려고 합니다. 모수를 변하지 않는 고정된 값이라고 생각하는 프리퀀티스트. “아닌데? 모수도 변할 수 있어!”라고 생각하는 베이지안. 혹시 모수가 뭐였는지 기억이 나질 않는다면, 저번 주 매드매스를 참고해주세요.

자, 우리 탐정사무소에는 거의 매일 지각하는 탐정 꾸미가 있습니다. 꾸미가 늦는 시간을 계산해보니 평균 20분 정도 늦고 표준편차는 3분, 그리고 정규분포를 따른다고 생각해봅시다. 혹시나 확률을 배웠던 기억이 있는 독자라면 꾸미가 정규분포 $N(20,3^2)$를 따른다고 표현할 수 있을 겁니다. 정규분포는 우리 주변 세상에서 일어나는 대표적인 확률분포를 뜻하는데 이건 나중에 다시 이야기할 기회가 있을 거예요.

마부작침 탐정사무소는 자율출퇴근제라 사실 꾸미는 지각한 게 아니다

마부작침 탐정사무소는 자율출퇴근제라 사실 꾸미는 지각한 게 아니다

각설하고 꾸미로 돌아가면, 꾸미의 지각을 보고 프리퀀티스트인 북끄 사무장님은 이렇게 이야기합니다. “꾸미는 원래 20분씩 늦는 친구구만” 북끄 사무장은 꾸미의 지각시간이라는 모수가 20분이고 이게 꾸미의 본질이라고 생각합니다. 앞으로도 꾸미는 20분 정도 늦을 거라고 기대하겠죠. 베이지안인 저 꼭꼬는 이렇게 생각합니다. “내가 이제껏 봐 보니 꾸미는 20분 정도 늦는 친구군!” 여태껏 꾸미의 지각 시간을 봐 보니 보통 20분이더라, 그러니 20분일 확률이 가장 높다고 생각하는 거죠. 다음번에도 역시 20분 늦을 거라고 기대할 겁니다.

그런데 이번 주는 꾸미가 지각을 하지 않았어요. 지각하지 않은 꾸미에 대한 두 탐정의 시선이 조금씩 달라집니다. 북끄 사무장님은 이렇게 생각합니다. "꾸미가 정시에 올 확률이 낮지만 있긴 하지. 한 1%?" 프리퀀티스트인 북끄 사무장님은 새로운 관측값이 이미 내린 결론(여기서는 꾸미의 평균 지각 시간 확률분포겠죠)에 부합하는지만을 확인해요. 꾸미의 정규분포에서 평균은 20분이지만 아예 늦지 않을 확률 역시 존재하거든요. 그게 1%인 거죠.

종 모양의 정규분포. 파란색 그래프의 분포를 보면 평균이 0이고 표준편차는 0.2이다

종 모양의 정규분포. 파란색 그래프의 분포를 보면 평균이 0이고 표준편차는 0.2이다

위의 정규분포 파란색 그래프를 보면서 설명해보겠습니다. 파란색 정규분포를 보면 평균이 0이고 표준편차의 제곱이 0.2 군요. 표준편차는 산포도를 나타내는 수치입니다. 수치가 작을수록 자료들이 평균에 몰려있다는 걸 의미하죠. 평균은 같지만, 표준편차는 다른 파란색과 빨간색 그래프를 비교해보면 이해가 되실 겁니다. 다시 파란색 그래프만 보면 이 분포에서 X가 0일 확률이 거의 90%로 가장 높지만, X가 1일 확률도 5% 정도로 있어요. 꾸미의 지각시간 분포 역시 마찬가지라고 생각하면 됩니다. 평균은 20분이지만 0일 확률도 낮지만 존재하는거죠.

베이지안인 꼭꼬는 어떻게 생각할까요? 저 꼭꼬는 이렇게 생각을 합니다. "꾸미가 일찍 오기도 하는 구먼. 다음에도 정시에 올까?" 여기서부터 프리퀀티스트와 베이지안 간의 차이가 생깁니다. 베이지안은 기존에 가지고 있던 결론에 새로운 관측값을 업데이트 해요. 그리곤 새로운 사후분포를 생각하죠. 베이지안 추론은 현재까지 얻은 관측값으로만 이뤄집니다. 모수는 정해진 녀석이 아니라 달라질 수 있는 거라고 생각하는거죠. ①새로운 데이터를 얻으면 그걸 넣고 ②업데이트하고 ③새로운 모수를 찾아내려는 겁니다.

여러분의 관심사를 빅데이터로 분석하여 가장 높은 조회수를 이끌어낼 만한 제목을 도출했습니다

여러분의 관심사를 빅데이터로 분석하여 가장 높은 조회수를 이끌어낼 만한 제목을 도출했습니다

머신러닝에서 베이지안 추론을 주목한 부분이 바로 이 부분입니다. 아무 정보가 없는 상태에서 관측한 데이터를 바탕으로 판단하는 베이지안의 방식이 인간의 사고 논리와 유사하다는 생각이 든 거죠. 새로운 데이터를 입력하고, 이걸로 기존에 내가 가지고 있던 생각을 업데이트 시켜 판단을 내리는 방향으로 인간의 사고가 발전한 것처럼 인공지능과 기계학습에도 적용해보자고 착안한 겁니다. 다음번 매드매스는 이런 기계학습에 대한 아주 간략한 소개와 베이지안 확률 2탄을 이어가려고 해요. 그럼 다음 주까지 안녕~!