If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Prueba de hipótesis de la proporción en muestras grandes

Usamos una muestra de gran tamaño para probar si más del 30% de los hogares en Estados Unidos tienen acceso a internet. Creado por Sal Khan.

¿Quieres unirte a la conversación?

  • Avatar mr pants teal style para el usuario cannevalucia
    No entiendo por qué calcula la desviación estándar de la muestra como la raíz cuadrada de 0,3x0,7,¿ no sería la raíz cuadrada de (prob de 0,7x(0-0,3)al cuadrado + prob de 0,3x(1-0,3)al cuadrado)?
    (1 voto)
    Avatar Default Khan Academy avatar para el usuario
¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

queremos probar la hipótesis de que más del 30 por ciento de los hogares en eeuu tienen acceso a internet con un nivel de significación del 5% se toma una muestra de 150 hogares y se encontró que 57 tienen acceso a internet para hacer la prueba de nuestras hipótesis tenemos que establecer nuestra hipótesis cero y nuestra hipótesis alternativa por lo que nuestra hipótesis cero es que este enunciado no es correcto la hipótesis cero indica que es menos de la proporción de hogares en eeuu que tienen acceso a internet va a ser menor o igual que el 30% y nuestra hipótesis alternativa es que en efecto la proporción va a ser mayor que el 30% como ven queremos probar la hipótesis de que existen más del 30 por ciento de hogares en eeuu que tienen acceso a internet esto de aquí es lo que estamos probando la hipótesis alternativa la forma en que vamos a hacer esto es que vamos a asumir valor p con base en la hipótesis 0 una proporción con base en la población y asumiendo esto cuál será la probabilidad de que 57 de los 150 elementos en nuestra muestra en realidad tienen acceso a internet y si esa probabilidad es menor al 5% si es menor a nuestro nivel de significación entonces tendremos que rechazar la hipótesis cero y por lo tanto la hipótesis 1 será la aprobada cómo vamos a resolver esto bueno vamos a comenzar asumiendo vamos a asumir que la hipótesis 0 es verdadera y al asumir esto vamos a tener que elegir una proporción de la población o una media de la población sabemos que por la distribución de bernal y ambas son lo mismo y lo que voy a hacer es elegir una proporción tan alta que maximiza la probabilidad de obtener esto y de hecho aún no sabemos qué número será este así que vamos a pensar un poquito mejor vamos primero encontrar cuál es la proporción de nuestra población 57 elementos de nuestros 150 tienen acceso a internet la proporción de nuestra muestra desde punto 38 vamos a escribirlo la proporción de nuestra muestra es igual a 0.38 cuando asumimos que nuestra hipótesis 0 es correcta o es verdadera vamos a asumir nuestra proporción la proporción de nuestra población que maximice que maximice la probabilidad de obtener esto de acá así que la proporción de la población más alta que tenemos para nuestra hipótesis 0 que maximiza la probabilidad de obtener esto es si estuviéramos justo en el 30% si decimos que nuestra proporción de la población asumiendo que esto es verdad que la hipótesis 0 es verdadera vamos a asumir que es igual a 0.3 y quiero que comprendan esto pudimos haber usado un 29% o un 28% ya que ambos hubieran estado dentro de nuestra hipótesis cero pero para el 29 o el 28% la probabilidad de obtener esto hubiera sido aún más baja si tomamos el máximo la proporción máxima que aún satisface nuestra hipótesis 0 pues vamos a maximizar las probabilidades y obtengamos esto este número es aún bajo a una es menor al 5% podemos confiar en la hipótesis alternativa y ahora para refrescarnos un poco vamos a asumir una proporción de la población de punto 3 y bueno vamos a dibujar la distribución porque a veces esto ayuda mucho a comprender un problema así que vamos a dibujarla esta es la distribución de la población con base en lo que estamos asumiendo lo que estamos asumiendo aquí arriba la distribución de la población tiene un 30% que tiene acceso a internet les vamos a asignar valor 1 y el resto no tiene acceso a internet el resto no tiene acceso a internet es el 70 por ciento y le asignamos el valor 0 esta es una distribución de bernal y sabemos que la media de esta distribución va a ser la misma que la proporción de los que tienen acceso a internet por lo que la media de esta distribución va a caer por acá y va a ser igual a 0.3 el 30 por ciento esa es la media de la población no consumir mejor lo vamos a escribir así la media asumiendo asumiendo que es verdadera la hipótesis 0 la media de la población va a ser igual a 0.3 y la desviación estándar de la población lo vamos a escribir aquí en amarillo la desviación estándar de la población asumiendo que la hipótesis 0 es verdadera vimos esto cuando aprendimos sobre la distribución de berlín que esta desviación estándar va a ser igual va a ser igual a la raíz cuadrada la raíz cuadrada de el porcentaje de la población que tiene acceso a internet en este caso es punto 3 x el porcentaje de la población que no tiene acceso a internet que esto es punto 7 por lo que esto va a ser igual a la raíz cuadrada de 7 por 3 21.21 y más adelante vamos a resolver esto usando nuestra calculadora pero haciendo un lado esto encontrar la probabilidad de encontrar una proporción de la muestra que sea de punto 3 ahora vamos a ver la distribución de las proporciones de las muestras y literalmente podríamos ver cada una de las combinaciones de los 250 hogares y obtener a partir de ello una distribución binomial vamos a dibujar y esto ya lo hemos visto antes también en donde hay una distribución binomial con un conjunto de barras tenemos varias barras como estas pero si n es lo suficientemente grande en particular y esta es una prueba de ello la prueba de que n por p y en este caso p es igual al 30% sea mayor que 5 y que m por 1 p sea mayor que 5 se puede asumir que la distribución de las proporciones de la muestra va a ser normal si pudiéramos ver las diferentes combinaciones de muestras nuestros 150 hogares de esta población tendríamos todas estas barras ya que no está m es bastante grande 150 x p es mayor que 5 y 150 por punto 7 también es mayor que 5 por lo que esto se aproxima a la distribución normal vamos a dibujarlo lo aproximamos con una distribución normal que estoy poniendo en magenta y esa es nuestra distribución normal y ahora la media de la distribución de la proporción de la información asumiendo que se trata de una distribución normal va a ser y acuérdense que estamos trabajando en el contexto de que la hipótesis cero es verdadera por lo que esta media va a ser la media en rosa de nuestra proporción de la muestra va a ser igual a la media de nuestra población por lo tanto esto va a ser igual a 0.3 el mismo valor que la media y nuestra desviación estándar esto viene del teorema del límite central la desviación estándar de las proporciones de nuestra muestra va a ser igual a la raíz cuadrada la raíz cuadrada no no no a ver va a ser igual la desviación estándar de la población la desviación estándar de nuestra población asumiendo que es verdadera la hipótesis 0 dividido entre la raíz cuadrada del número de muestras que en este caso es igual a 150 y ahora vamos a calcular todo esto este número de aquí arriba encontramos que es igual a la raíz cuadrada de punto 21 raíz cuadrada de punto 21 entre la raíz cuadrada de 150 raíz cuadrada de 150 sacamos nuestra calculadora para hacer la operación por lo que vamos a hacerlo tal cual escribimos la raíz cuadrada de punto 21 y voy a dividir esto entre la raíz cuadrada de 150 el resultado es punto 0 37 y encontramos que la desviación estándar de la distribución de la proporción de las muestras va a ser igual a vamos a hacer un espacio 0.0 37 chispas me estoy quedando sin espacio aquí ahora para calcular la probabilidad de tener una proporción de la muestra punto 38 tenemos que encontrar cuántas desviaciones estándares están alejadas de nuestra media o esencialmente calcular una estadística zeta para nuestra muestra ya que la estadística zeta nos dice cuántas desviaciones estándares estamos alejados de la media y para calcular la probabilidad de obtener esa estadística z es más o menos el 5% así pues vamos a calcular cuántas desviaciones estándares estamos alejados de la media y solamente para recordarnos esto la proporción de muestreo que tenemos podemos verla como una muestra de la distribución de todas las muestras posibles así que bueno cuantas desviaciones estándares estamos alejados de la media si tomamos nuestra proporción de muestreo y la restamos la media de la distribución de las proporciones muestrales o de muestreo y todo esto lo dividimos entre la desviación estándar de la distribución de las proporciones muestrales obtenemos punto 38 - punto 3 dividido entre este valor que acabamos de calcular que es 0.03 7 y esto que va a ser igual bueno el numerador va a ser y 0.08 dividido entre 0.0 37 vamos a calcular esto con nuestra hermosa calculadora punto 08 dividido entre punto 0 37 o este valor que tuvimos antes en la respuesta anterior es igual a 2.13 vamos a redondear lo a 2.14 desviaciones estándares esto es igual a esto de aquí que estoy señalando aquí es igual a 2.14 desviaciones estándares y podemos decir que nuestra estadística zeta podemos llamar esto nuestro puntaje z o nuestra estadística zeta o el número de divisiones estándar es que estamos alejados de la media es de 2.14 y para ser precisos son dos puntos catorce desviaciones estándares por encima de la media ahora la pregunta es acaso la probabilidad de obtener esto más o menos del 5% si es menos del 5% vamos a rechazar la hipótesis cero y favorecer la hipótesis alternativa como encontramos esto pensemos en una distribución normal normalizada o podemos llamarla una distribución zeta si quiere en una distribución normal normalizada su media se va a encontrar en 0 su media es 0 y esencialmente cada uno de estos valores son puntaje z aquí tenemos uno literalmente quiere decir que estamos a una desviación estándar de la media si definimos un valor z crítico definimos el valor z crítico aquí aquí le ponemos se está crítica o puntaje z crítico o valor z crítico la probabilidad de obtener un valor z mayor que este es del 5% esta área de aquí es del 5% y esto es porque este es nuestro nivel de significación cualquier cosa que esté por debajo del 5% de probabilidad de ocurrir para nosotros va a ser la validación para rechazar nuestra hipótesis 0 otra forma de verlo es que toda esta área que estoy subrayando en azul es el 95% y de nuevo este es solo una cauda para probar porque solo nos interesan valores que estén por encima de este nivel valores z mayores harán que se valide nuestra hipótesis y para calcular este valor se está crítico pues podemos ir a nuestra tabla zeta y vemos qué valor z la probabilidad de obtener un valor z menor que este sea del 95% y eso es exactamente lo que nos da este número la probabilidad acumulada de obtener un valor menor a este así que estamos buscando aquí estas celdas para encontrar un valor de punto 95 lo que más se acerque y creo que este es para asegurarnos que estemos un poco más cerca o lo más cerca posible este valor le corresponde a las coordenadas 1.6 y su siguiente dígito es 51 puntos 65 por lo que nuestro valor crítico z va a ser igual a 1.65 por lo que la probabilidad de obtener un valor z menor que 1.65 y recordamos que en una distribución normal normalizada la probabilidad de obtener un valor menor que 1.65 o de hecho también se aplica en cualquier distribución normal esta probabilidad de estar por debajo de 1.65 desviaciones estándar es lejos de la media será del 95% y este es nuestro valor z crítico ahora la estadística zeta para nuestra muestra es 2.14 tomando en cuenta estos valores vemos que la probabilidad es definitivamente menor que el 5% incluso podríamos decir que la probabilidad de obtener estas áreas más pequeñas aún las podemos encontrar viendo nuestra tabla zeta podemos encontrar el valor p de este resultado pero de cualquier manera todo este ejercicio nos lleva a rechazar la hipótesis cero con el nivel de significación del 5% vemos que si se pudo realizar mientras tengamos resultados más extremos de nuestro valor se está crítico podemos rechazar la hipótesis cero y favorecer nuestra hipótesis alternativa