En el capitulo 3 quedo una pregunta sin responder: ¿Cuál es el mejor predictor de $Y$ como función de $X$?.
No el mejor predictor constante o lineal, sino el mejor en terminos de minimizar el error cuadrático medio.
En este capitulo vamos a poder responder a esta pregunta.
Queremos entender como se comporta la variable $Y$ si conocemos el valor de $X$ y saber cual es su distribución de probabilidad.
Ya sabemos como se comporta cada variable por separado, como se comportan en conjunto y ahora queremos saber como se comporta una variable si conocemos el valor de la otra.
Definición: Sean $X$ e $Y$ variables aleatorias discretas con $p_X(x)>0$ la función de probabilidad de $Y$ dado que $X=x$ es
$$
p_{Y|X=x}(y)=P(Y=y|X=x)=\frac{P(X=x,Y=y)}{P(X=x)}=\frac{p_{XY}(x,y)}{p_X(x)} $$
Se define como $p_{Y|X=x}(y)=0$ cuando $p_X(x)=0$.
<aside> 💡
Usamos la definición de probabilidad condicional.
</aside>