En el capitulo 3 quedo una pregunta sin responder: ¿Cuál es el mejor predictor de $Y$ como función de $X$?.

No el mejor predictor constante o lineal, sino el mejor en terminos de minimizar el error cuadrático medio.

En este capitulo vamos a poder responder a esta pregunta.

Variables aleatorias condicionadas

Queremos entender como se comporta la variable $Y$ si conocemos el valor de $X$ y saber cual es su distribución de probabilidad.

Ya sabemos como se comporta cada variable por separado, como se comportan en conjunto y ahora queremos saber como se comporta una variable si conocemos el valor de la otra.

Vectores discretos

Definición: Sean $X$ e $Y$ variables aleatorias discretas con $p_X(x)>0$ la función de probabilidad de $Y$ dado que $X=x$ es

p_{Y|X=x}(y)=P(Y=y|X=x)=\frac{P(X=x,Y=y)}{P(X=x)}=\frac{p_{XY}(x,y)}{p_X(x)} $$

Se define como $p_{Y|X=x}(y)=0$ cuando $p_X(x)=0$.

<aside> 💡

Usamos la definición de probabilidad condicional.

</aside>