El curso me enseño a utilizar regresión lineal paso a paso de forma matemática. Lo cual fue útil resolver un problema con papel y lápiz. Porque me dio un conocimiento acerca del funcionamiento del algoritmo de una forma transparente. Que usando python directamente tendría la sensación de una caja negra donde entra datos y salen resultados. Agradezco al profesor Ricardo Celis por su metodología a la hora de explicar uno de los algoritmos mas útiles el ciencia de datos.
hay temas que estan relacionados con regresion lineal que se obviaron para evitar hacer el curso demasado complejo. Como correlacion de pearson, Regresion lineal multiple, por eso hare una reseña de mi recorrido
Cuando tenemos un set de datos en donde la variable independiente (X) crece y la variable dependiente (Y) se comporta de la misma manera. Es decir crece o decrese propocinalmente. Entonces el comportamiento de los datos es lineal. Ejemplo: la altura y el peso de un grupo de persona.
con esa relacion de las dos variable generamos una ecuacion(modelo) que cuantifica esa relacion permitiendo predecir el valor de una a partir de la otra.
la ecuacion que modela el comportamiento de los datos de una regresion lineal es la que se ve en la imagen de arriba. donde a partir de 'x' optenemos 'y'. en el mudo del datacience a y b son llamados parametros que lo que hacen es mover la recta o mejor dicho adjustarla a la distribucion de datos
el parametro 'b' lo que hace es mover la recta verticalmente por el eje Y. Siendo mas tecnico. El valor de b es el resultado de x =0 por tanto b es el valor de cortar el eje Y
el parametro a es la pendiente o inclinacion de la recta y es el resurtado de aplicar el metodo de minimo cuadrado que hablare luego
El método de mínimos cuadrados calcula a partir de los N pares de datos experimentales (x, y), los valores m y b que mejor ajustan los datos a una recta. Se entiende por el mejor ajuste aquella recta que hace mínimas las distancias d de los puntos medidos a la recta.
Es la diferencia entre el valor predicho o esimado y el valor real. esto da como resultado el error en un punto. Cuando se suma los errores individuales da como resultado el error total y si eso se eleva al cuadrado y se divide entre la cantidad de valores da como rezultado el error cuadratico medio
Porque se eleva al cuadrado ? basicamene porque el error cuando es pequeño elevado al cuadrado da como resultado un valor mas pequeño y un valor grande elevado al cuadrado da como resultado un valor mucho mas grande. entonce el error cuadratico medio penaliza los valores si son grande incrementa la diferenca y si son pequeña lo disminuye