프로그래머를 위한 베이지안

이전 포스팅에서 '확률은 믿음'이라는 주제를 주로 다루었다.

  1. 사전확률이 잘못 설정되어도, 많은 데이터가 존재하면 사후확률로 보정된다.

  2. 데이터가 많아도 상수가 아닌 분포를 결과로(Output) 낸다.

  3. 증거가 추가된다면 확률은 변한다.

1.4.1 예제: 문자 메시지 데이터에서 행동 추론

이 데이터는 책의 저자가 자신의 수신 문자 메시지 갯수를 일별로 나열했다. 데이터는 깃허브를 통해 받을 수 있다.

from IPython.core.pylabtools import figsize
import numpy as np
from matplotlib import pyplot as plt
import matplotlib
matplotlib.rc('font', family='Malgun Gothic')

figsize(12.5, 4)

count_data = np.loadtxt("Ch01\\\\txtdata.csv")

n_count_data = len(count_data)
plt.bar(np.arange(n_count_data), count_data, color="#348ABD")
plt.xlabel("시간(일수)",fontsize=13)
plt.ylabel("수신한 문자 메시지 개수",fontsize=13)
# plt.title("사용자의 메시징 습관이 시간에 따라 변하는가?")
plt.xlim(0, n_count_data)

그림을 보고 주어진 시간동안 행동의 변화가 일어났는지 알 수 있을까?

$$ { C }_{ i } ~ Poi(\lambda ) $$