If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Introducción a los residuos y a la regresión por mínimos cuadrados

Introducción a los residuos y a la regresión por mínimos cuadrados.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

supongamos que estoy muy interesada en encontrar cuál es la relación entre la altura de las personas en centímetros y su peso en kilogramos entonces me puse a medir la altura y el peso de personas que escogía al azar y para cada persona estoy graficando un punto con su altura y su peso entonces por ejemplo si tomo a una persona que mide un metro ochenta osea 180 centímetros y que pesa 50 kilogramos entonces voy a poner un punto aquí y este punto es el punto ciento 80,50 otra forma de pensar en esto es pensar que la altura la estamos graficando en el eje x y el peso lo estamos graficando en el eje y esta persona está en el punto 180 con 50 donde 180 nos dice que su altura es 180 centímetros y 50 nos dice que su peso son 50 kilogramos pero bueno por el momento hemos tomado estas mediciones para uno dos tres cuatro cinco seis siete ocho nueve personas y yo podría seguir agregando datos a esta gráfica pero incluso con los datos que ya tenemos aquí podemos ver cierta tendencia cierta relación entre la altura y el peso parece como que tenemos una relación lineal por acá y parece como que es una relación positiva eso lo que significa es que entre más aumentemos la altura más aumenta el peso ahora con estos datos que tenemos aquí podemos seguir nuestra intuición y tal vez podemos dibujar una línea recta que aproxime la tendencia de estos datos y para eso vamos a utilizar una herramienta que tengo por aquí esta es una herramienta que tengo para dibujar líneas rectas pero si dibujamos cualquier línea por ejemplo si dibujamos esta línea no estamos representando la tendencia de estos datos por ejemplo con esta línea podemos observar que la mayoría de los datos por debajo de la línea entonces no es una buena aproximación también podemos hacer algo como esto pero esta tampoco es una buena aproximación porque la mayoría de los datos se encuentra por encima de la recta pero bueno por el momento simplemente estamos dibujando estas líneas con nuestra intuición no lo estamos haciendo de una forma precisa pero próximamente vamos a aprender métodos muy buenos para encontrar una mejor aproximación pero bueno esta recta que estoy dibujando por acá parece que es una aproximación suficientemente buena esta línea la podemos ver como la recta de una regresión lineal y su ecuación es igual a m x + b pero aquí todavía nos falta calcular la pendiente y la ordenada al origen ok esto es nada más lo que observamos por acá pero también lo podemos ver de otra forma podemos ver esta ecuación como que el peso es igual a la pendiente a la altura más lo que sea la orden nada al origen que hay aquí para encontrarme tenemos que ver en qué valor del peso se intersecta esta línea pero bueno este es simplemente el modelo que encontramos aproximándolo con nuestra intuición esta es una aproximación de una recta de regresión lineal y es algo que estamos tratando de ajustar a los datos que tenemos y bueno aquí en este ejemplo parece como que la recta pasa por estos tres puntos pero no podemos hacer que la recta pase por todos los datos que tenemos en esta gráfica y siempre va a haber una diferencia entre el dato que tenemos y lo que pudimos haber predicho con esta recta puede haber un par de puntos que si se encuentran en la recta pero eso no sucede para la mayoría de los puntos pero justo esa idea la diferencia que hay entre el punto y lo que hubiéramos predicho con la recta de la regresión lineal esa diferencia se llama residuo vamos a describirlo por acá si obtenemos un residuo para cada uno de los datos entonces y por ejemplo a este dato le decimos que es el dato número uno vamos a obtener un residuo para este dato y le podemos llamar el residuo 1 y el residuo lo vamos a sacar así nos vamos a basar en la altura 180 centímetros y para este dato que tiene 180 centímetros tiene un peso de 50 kilogramos por lo que vamos a poner aquí los 50 kilogramos ya esto le vamos a restar el peso que esta línea predice para una persona de 180 centímetros de altura y lo que esta línea predice para una persona de 180 centímetros lo podemos encontrar en este punto si tuviéramos la pendiente y la ordenada al origen calculados podríamos simplemente sustituir 180 centímetros en la altura y obtendríamos el peso que predice este modelo es que podemos poner por aquí 180 por m b y otra vez lo único que hice aquí es tomar la altura de esta persona 180 centímetros y preguntarnos qué peso perdices este modelo para esa altura pero bueno como no conocemos a m llave y queremos tener aquí un número preciso vamos a borrar esta parte y vamos a ver el valor de esta aproximación esta si parece como una línea recta entonces vamos a ver a qué valor corresponde esa altura entonces este modelo predice 75 kilogramos para una persona de 180 centímetros por lo que el residuo de este dato es de menos 25 nuestro residuo resulta ser un número negativo y eso sucede cuando los datos se encuentran por debajo de la línea de nuestro modelo esto por aquí es el residuo 1 y es un residuo negativo pero claro también podemos tener residuos positivos por ejemplo si tratamos de encontrar el residuo de este dato que se encuentra arriba de la línea del modelo bueno pues este residuo r2 es un residuo positivo porque el valor real del peso es mayor que el valor que hubiera predicho el modelo pero bueno todo esto de los residuos nos sirve para evaluar qué tan bueno es este modelo que tanto nuestra regresión lineal se ajusta a los datos que tenemos estos residuos nos dicen que tanto la regresión se ajusta a los datos reales que tenemos pero bueno una de las cosas muy importantes en las que es muy bueno pensar es en cómo podemos minimizar estos residuos los residuos nos sirven para saber que tanto nuestra regresión lineal se ajusta a los datos reales pero bueno una cosa muy importante en la que sería bueno que pienses es en cómo combinar todos los de los datos y en cómo minimizar esa combinación de residuos en estos momentos tú podrías decir oye por qué no simplemente sumamos todos los residuos de los datos y después vemos la forma de minimizar los pero hay una cosa que tenemos que tomar en cuenta tenemos residuos positivos pero también tenemos residuos negativos y a la hora de sumarlos se cancelarían esos residuos y la suma de los residuos podría incluso llegar a ser cero y parecería como que realmente no tenemos residuos aunque si los tenemos por lo que no podemos simplemente sumarlos pero lo que sí podemos hacer es sumar sus valores absolutos podríamos considerar la suma de los valores absolutos de todos los residuos esta puede ser nuestra forma de combinar los residuos pero ahora si lo que queremos es minimizar esta expresión bueno pues podemos buscar la recta que haga que esta combinación de residuos sea la más pequeña posible y para eso pues simplemente tenemos que mover con la m clave esta sería una muy buena forma de tratar de encontrar la regresión lineal que mejor se ajusta a estos datos pero también hay otras formas de hacer esto y de hecho vamos a ver la forma más usual de hacerlo lo que más personas hacen en estadística es tomar la suma de los residuos elevados al cuadrado por supuesto siempre que elevamos una cantidad al cuadrado el resultado tiene que ser positivo es 10 que ya estamos tomando en cuenta esta parte de que no queremos que se contrarresten los residuos pero además esta técnica de elevar los residuos al cuadrado tiene otras características por ejemplo que los residuos que son grandes a la hora de elevar los al cuadrado cuentan mucho más que los residuos que son pequeños porque cuando elevamos algo al cuadrado entre más grande sea mucho más grande se hace para que quede un poco más claro vamos a poner por aquí algunos números y sus cuadrados correspondientes vamos a poner uno y 4 la diferencia entre cada uno de éstos es de 1 pero si los elevamos al cuadrado 1 al cuadrado es 1 2 al cuadrado es 4 3 al cuadrado es 9 y 4 al cuadrado es 16 los cuadrados de estos números se vuelven cada vez más grandes aquí la diferencia es de 7 mientras que aquí la diferencia es de 3 así es que como podemos observar aquí entre más grande sea el residuo cuando lo elevamos al cuadrado cuando tomamos la suma de todos los residuos elevados al cuadrado los residuos que sean más grandes van a ser los que tengan más peso en esta suma van a estar aportando una mayor cantidad a esta suma y vamos a ver en futuros vídeos que existe una técnica llamada la técnica de regresión de mínimos cuadrados regresión de mínimos cuadrados vamos a ver que existe esta técnica con la que podemos encontrar una m y un ave con las cuales se minimiza la suma de los cuadrados de los residuos y esta técnica es muy valiosa porque toma en cuenta que tanto se están alejando los datos de la recta y a los puntos que distan mucho los toma más en cuenta y esta es una técnica muy valiosa porque además le pone mayor peso a los puntos que se encuentran muy alejados del modelo y encuentra la forma de minimizar todas las distancias tomando en cuenta que tan alejados se encuentran esos datos pero por supuesto esto es simplemente una introducción conceptual en los próximos vídeos vamos a calcular tal cual cuáles son los residuos y también vamos a derivar esta fórmula que minimiza a los valores de m&b encontrando una recta que hace que se minimice la suma de los cuadrados de los residuos