If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Margen de error 1

Encontrar el intervalo de confianza del 95% para la proporción de la población que vota por un candidato. Creado por Sal Khan.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

digamos que vivo en un país donde abunda la paz y a todos los habitantes les encantan las matemáticas ahora es un país donde habitan 100 millones de personas y habrá elecciones presidenciales con dos candidatos el candidato y el candidato ve ahora este es un país decisivo todos participan aquí nadie se queda sin participar ya sea voten por el as o por el candidato b entonces existe un porcentaje digamos que hay una realidad que p bueno luego por aquí 1 - pero mejor no mejor pongo primero p ok hay cierta realidad en esto pensemos que p por ciento vota por ver y el resto de las personas de mi país votan por a digamos 1 - p por ciento vota por el candidato a quizás ya reconozcas que esta es una distribución de bernal y donde por cada muestra si yo tengo dos valores en una muestra yo puedo obtener un valor y en esta muestra o estás votando por alcance o por el candidato b esos son los valores pero es difícil lidiar con estos valores ya que no podemos calcular la media entre a y b porque estos son letras no números podemos suponer lo siguiente que la probabilidad de que una persona vote por a es cero y la probabilidad de que una persona vote por el candidato b es 1 entonces usando la distribución de bernuy lo que tenemos es que la media para esta distribución tenemos que la media es igual a p y la manera para obtener esto en este caso es bastante trivial entonces la media será igual bueno de hecho será igual a un valor que esta distribución no puede tomar será igual a p ahora mi país tiene 100 millones de personas las cuales todas son pacíficas y llenas de amor por las matemáticas es imposible para mí ir a cada una de ellas y decirle hey tú por qué vas a votar me es imposible preguntarle a todos no voy a saber exactamente cuál es el parámetro aquí es la media p quién es p entonces haré un estudio al azar haré un estudio de la población veré los datos después de ahí obtener un estimado de quienes en realidad p porque esto es lo que en realidad me importa yo quiero saber quién es p entonces vamos a estimar ap con un estudio una muestra y vamos a ver qué tan buena estimación es lo que haré es un estudio al azar de 100 personas un muestreo de 100 personas y digamos que obtengo los siguientes resultados digamos que 57 personas dijeron que van a votar por el candidato a lo voy a poner de esta otra manera voy a poner 57 57 personas votaron por el candidato a que es equivalente a obtener 57 muestras de 0 y el resto de la población como lo dije es un país decisivo el resto de la población 4343 van a votar por el candidato ve que es equivalente a 43 muestras de 1 dada esta muestra cuál es la media de mi muestra y cuál es la varianza de mi muestra entonces la media de mi muestra va a ser el promedio de estos ceros y éstos unos entonces yo tengo 57 05 43 unos por lo tanto tengo 57 por 0 más mis 43 unos entonces 43 por 1 entre el total de muestras 100 es decir hago la suma de todas mis muestras sobre el total de muestras y que obtengo 57 por 0 20 y 43 por uno entre 100 es 0.43 y esa es la media de mi muestra la media de la muestra con solamente 100 personas ahora cuál es mi varianza muestral mi varianza de muestra es la suma del cuadrado de las diferencias de cualquiera de mis datos a la media dividido por mis muestras menos 1 ahora recuerda esta es una variante muestral y lo que yo quiero obtener es la mejor estimación de la varianza real de esta distribución y para hacer esto no dividimos entre 100 dividimos entre 100 menos 1 entonces tengo 57 lo pongo en el color amarillo mejor este tengo lo siguiente 57 muestras de 0 las cuales cada una tiene distancia a la media de 0 - 0.43 cada una de esas muestras son 0 le restó 0.43 entonces está la distancia y si la quiero la distancia al cuadrado le pongo al cuadrado así es como se calcula la varianza luego más hice el muestreo de 43 veces 1 entonces pongo 1 menos la media o sea la distancia del 1 la media al cuadrado 0.43 es la media entonces pongo un 0.43 al cuadrado ahora no voy a dividir entre n recuerdan no voy a dividir entre 100 lo que yo quiero es la estimación verdadera de la media de esta población y para obtener la mejor estimación de esto yo no voy a dividir entre 100 lo voy a dividir entre 100 menos 1 y esto lo expliqué hace varios vídeos ahora voy a sacar la calculadora para obtener el resultado de nuestra varianza muestral entonces voy a calcular voy a abrir paréntesis para poner a todo lo que esté en el numerador y lo voy a dividir entre 100 menos 1 entonces pongo 57 por 0 - punto 43 que es lo mismo que 0.43 esto elevado al cuadrado más 43 1 - 0.43 y un 0.43 lo elevó otra vez al cuadrado es definición y esto todo esto en el numerador lo voy a dividir en 3 y el menos 1 que es lo mismo que 99 entonces entre 99 es igual a punto 24 75 75 y esto entonces la varianza muestral es igual a 0.24 75 si quiero saber cuál es la desviación estándar de mi muestra solamente tomo la raíz de mi varianza muestral entonces tomó en la calculadora la raíz de 0.24 75 que es igual a punto 43 75 esa es mi desviación estándar de muestra y la voy a redondear mejor a 50 por qué punto 49 7 como que no entonces punto 50 es mi desviación estándar de muestra observas esto y dices ah bueno tu mejor estimación del porcentaje de las personas que van a votar ya sea por ado por ver es justamente esto de aquí tenemos que la mejor estimación de la media es que 43% de las personas van a votar por ver el resto van a votar por el candidato a pero una pregunta interesante es que tan buena estimación es esa es más llevémoslo a un nivel más alto pensemos en un intervalo alrededor de 43% para el cual el 95% está seguro estamos totalmente confiados de que en ese intervalo el 95% estamos seguros de que en ese intervalo está la media real cuando hacemos la media de nuestra muestra lo que estamos es haciendo la muestra de la distribución muestral de nuestra media muestral entonces como estamos haciendo la muestra de una distribución discreta esto va a ser una distribución discreta pero va a tener 100 posibles valores es decir esto puede tomar 100 posibles valores lo que sea 0 y 1 ahora lo voy a dibujar como continuo porque si no tendría que dibujar 100 diferentes barras entonces tendría una barra aquí y otra aquí otra aquí y hasta hasta llegar a 100 entonces así queda mejor sí y además la probabilidad de que tu media muestral fuera 1 sería muy baja será una probabilidad muy baja tendría que dibujar 100 barras entonces mejor dibujo esta curva normal ahora distribución muestras de la media muestral esto es lo voy a poner aquí distribución muestral de la media muestral media muestra muestra ahora aquí aquí hay una media esta media la voy a denotar por su x esto nos dice que aquí está la media de la distribución muestral pero sabemos por varios vídeos anteriores que esta es la media esta es la media poblacional de donde estamos haciendo el muestreo para cada muestra y son 100 muestras entonces esto va a ser igual a mu que va a ser igual a p es decir mucho x muxu x es igual a mu que es igual a p ahora esta varianza aquí la varianza de esta distribución la voy a poner aquí a dibujar aquí es más mejor digo la desviación estándar de esta distribución la desviación estándar esta distancia la desviación estándar de la distribución muestral de la media muestral va a ser y bueno ya lo hemos visto varias veces será la desviación estándar de nuestra distribución poblacional entonces esa desviación estándar será esta distancia de aquí luego hay una desviación estándar asociada a esta distribución y será esa desviación estándar dividida entre la medida de nuestra muestra 100 y ya vimos en varios vídeos anteriores porque esto tiene sentido entonces vamos a tomar aquí la raíz cuadrada de 100 esto es igual a este 4 con sombrero sobre 10 y no sabemos quién sea ese 4 con sombrero la manera que podemos saberlo es haciendo el estudio de las 100 millones de personas en ese país lo cual es prácticamente imposible no imagínate entonces para estimar la desviación estándar lo que vamos a usar es la desviación estándar muestral y la usaremos como la mejor estimación que tenemos de nuestra desviación estándar poblacional ahora recordemos que esta es una estimación no podemos tener el valor exacto con una muestra pero podemos tener una estimación porque este es nuestro mejor estimador para la desviación estándar y si lo dividimos entre 10 tendremos el mejor estimador para la desviación estándar de nuestra distribución muestral de la media muestral ahora recuerda que esta es solamente una estimación de aquí en adelante tendrás que tomar las cosas con un poco de escepticismo entonces esto es aproximadamente 0.50 y ahora recuerda cada vez que tomo aquí una muestra diferente este número cambia no se queda igual no es como una piedra y estancada no es depende de la muestra que tomemos ahora en esta muestra tenemos 0.50 que es la s entonces la vamos a dividir entre 10 tenemos 0.50 entre 10 es igual a punto 05 que es la desviación estándar de aquí la cual podemos ver como 5% ahora lo que quiero es un intervalo alrededor de mí y media muestral donde yo esté totalmente confiado dadas todas las estimaciones que tenemos que hay un 95% de chance de encontrar la verdadera media la que estoy buscando la verdadera media entre dos desviaciones estándar es lo repito lo que estoy diciendo es que hay un 95 por ciento de probabilidad de que entre estas dos desviaciones estándares ahí entre esas dos está la verdadera media a la que yo estoy buscando lo voy a escribir o sea que hay un 95% de que la verdadera media está entre ese intervalo entonces lo que yo quiero es encontrar un intervalo yo esté razonablemente confiado y lo digo de esta forma porque en realidad es una estimación yo no sé que la desviación estándar es exactamente 0.50 por eso hablo de una confianza razonable entre comillas es decir quiero encontrar un intervalo tal que yo esté razonablemente confiada de que existe la 95 por ciento de probabilidad que en ese intervalo la verdadera la verdadera media poblacional entonces escribo la verdadera la verdadera media poblacional que es lo mismo que la proporción de la población que va a votar por el candidato ve o lo que es lo mismo la proporción de las personas o de la población que van a ser un 1 ahora hay que recordar que muy muy es igual a pp y que existe una un 95 por ciento de probabilidad de que pe esté en ese intervalo entonces que está en ese intervalo ahora pausa quiero quiero ponerle pausa que a este vídeo ya llevo 14 minutos entonces quiero que observes que analices lo que hemos hecho hasta ahora nótese obtuvimos la media muestral aquí x barra es la media muestral obtuvimos un estimado de la media muestral no sabemos exactamente quién es la media muestral ésta es una media de la muestra no sabemos exactamente cuál es la media muestral de esta distribución y tampoco sabemos cuál es la desviación muestral nuestra distribución muestral sin embargo fuimos capaces de estimar la mediante nuestra desviación muestral estándar basado en todo lo que hemos visto de intervalos de confianza como podemos encontrar un intervalo tal que se aproxime mucho tanto como un 95 por ciento donde p se encuentre en ese intervalo piénsalo