AIFFEL에서 신승연님의 자료를 공부한 내용입니다.
어떤 데이터의 집합이 있을 때, 데이터의 분포를 안다면 새로운 입력값이 들어와도 적절한 출력 값을 추정할 수 있습니다. 하지만, 데이터셋의 정확한 확률 분포를 구하는 것은 어렵습니다.
그래서 parameter에 의해 결정되는 머신러닝 모델을 만들고 parameter를 조절하여 데이터의 분포를 간접적으로 표현합니다.
모델이 표현하는 확률 분포를 데이터의 실제 분포에 가깝게 만드는 최적의 파라미터를 찾는 것이 머신러닝의 목표입니다.
$$ y=ax+b\ \ \ \ a,b \in\R $$
다음과 같은 일차함수 모델이 있을 때, 파라미터인 a, b를 조절하여 모델을 변형시킬 수 있습니다.
여기서 (a, b)가 위하는 $\R^2$공간을 parameter space라고 합니다.
베이지안 머신러닝에서의 핵심 아이디어는 모델 parameter를 고정된 값이 아닌 확률변수(random variable)로 보고, 데이터를 관찰하면서 업데이트 되는 값을 보는 것입니다.
데이터의 집합 X가 있을 때, 데이터가 따르는 어떤 확률 분포 $p(X)$가 있을 것이고, 목표는 $p(X)$를 가장 잘 나타내는 일차함수 모델 $y=ax+b=\theta^Tx$ 를 찾는 것입니다.