If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Puntos influyentes en la regresión

Los valores atípicos y los puntos de apalancamiento pueden ser influyentes en diferentes mediciones de la regresión por mínimos cuadrados como la pendiente, la ordenada al origen y el coeficiente de correlación (r). Creado por Sal Khan.

¿Quieres unirte a la conversación?

Sin publicaciones aún.
¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

¡Auch! Estoy seguro que esta mañana me desgarré el  músculo de la pantorrilla mientras corría con mi   hijo. Pero las matemáticas no deben parar, ja, ja,  ja, así que estoy aquí para que pensemos en lo que   llamamos puntos influyentes cuando pensamos en  regresiones. Y para ayudarnos tenemos por aquí   esta herramienta tomada desde el sitio web  bfwpub.com, y te invito a que vayas al sitio   web y utilices por tu cuenta esta herramienta, la  cual nos permite dibujar algunos puntos. Así que   vamos a dibujar algunos puntos por aquí, y después  vamos a ajustar una recta de mínimos cuadrados.   Esta es la recta de mínimos cuadrados  por aquí. Puedes ver que la recta,   así como su coeficiente de correlación -el cual  es bastante bueno-, es de 0.8803, muy cercano a 1,   así que tenemos un ajuste bastante bueno  por aquí. Pero vamos a pensar en los puntos   que podrían influir o podrían ser demasiado  influyentes en cuanto a las características   de esta línea de regresión. Se denomina valor  atípico a un tipo de punto influyente. Una buena   forma de identificar un valor atípico  es que se ajusta muy mal a la recta o,   dicho de otra manera, tiene un residuo  muy grande. Si ponemos un punto por aquí,   tendremos un valor atípico, y ¿qué pasa cuando  tenemos un valor atípico como este? Bueno,   antes teníamos un coeficiente de correlación de  0.8 y algo, pero al poner un valor atípico como   este -y observa, es un punto entre 16-, disminuye  drásticamente el coeficiente de correlación,   ya que aquí tenemos un residuo muy grande, así  que un valor atípico como este ha influido mucho   en el coeficiente de correlación. Puedes ver que  no impacta demasiado la pendiente de la recta,   sólo un poco -de hecho, cuando lo puse aquí  casi no impactó la pendiente de la recta-,   sí impacta un poco la intersección con el eje  y, y observa que si ponemos el punto por aquí   no impacta en casi nada la intersección con el  eje y, y cuando lo ponemos por aquí -un poco más   a la izquierda- impacta un poco más. Pero estos  valores atípicos que están cerca del valor de la   media de x parecen ser más relevantes en términos  del impacto, o más influyentes en términos del   coeficiente de correlación. Ahora, ¿qué hay de un  valor atípico que esté muy lejos del valor de la   media de x? Y un punto cuyo valor x esté muy lejos  del valor de la media de x se considera un punto   de gran apalancamiento. Podemos pensarlo así:  imaginemos que esto es una especie de balancín   que de alguna manera gira sobre el valor de la  media de x; ahora bien, si ponemos un punto aquí,   parece que está bajando, es como si alguien  estuviera sentado en este extremo del balancín   y de ahí creo que es de donde proviene el término  apalancamiento. Podemos ver que cuando agregamos   un valor atípico de gran apalancamiento por aquí,  entonces suceden muchas cosas: definitivamente   baja el coeficiente de correlación, cambia la  pendiente y cambia la intersección con el eje   y. Entonces, hace muchas cosas, por eso influye  demasiado en todo lo que acabamos de mencionar.   Y si tenemos un punto de gran apalancamiento que  quizás sea un poco menos atípico -algo como esto-,   con base en los puntos que tenemos, no afecta  tanto el coeficiente de correlación, de hecho,   en este ejemplo, lo mejora, pero sí cambian un poco  en la pendiente y la intersección con el eje y.   Aunque obviamente no es un cambio tan drástico  como cuando hacemos algo de este estilo, y esto   además disminuye el coeficiente de correlación.  Ahora, veamos qué pasa si hacemos cosas por aquí:   si tenemos un valor atípico de gran apalancamiento  por aquí, podemos ver algo similar, parece que un   valor atípico de gran apalancamiento influye en  todo, y si es un punto de gran apalancamiento,   que es menos atípico, una vez más podemos ver  que mejora el coeficiente de correlación. Podemos   decir que persiste su influencia en el coeficiente  de correlación: en este caso lo está mejorando,   pero influye menos en términos de la pendiente y  la intersección y, aunque aún está haciendo una   diferencia por aquí. Entonces te invito a que  juegues con esto y pienses en los diferentes   puntos que podemos agregar. ¿Qué tan lejos  están del valor de la media de x? ¿Qué tamaño   tiene su residuo? ¿Son un valor atípico? Y,  sobre todo, ¿qué tan influyentes son para las   diversas características de una recta de mínimos  cuadrados: la pendiente, la intersección con el   eje y o el coeficiente de correlación? Y, claro,  cuando hablamos del coeficiente de correlación   -también conocido como valor r- hablamos,  por supuesto, de la raíz cuadrada de r².