Vamos a ir publicando en este posteo muchos ejercicios resueltos de prueba de hipótesis sobre la media poblacional.
En este texto no vamos a explicar los conceptos básicos, síno que vamos a ir directo a la resolución.
Sabé que prueba de hipótesis es un tema que requiere saber muchas cosas previas (variable, parametro, estadístico, estimador, distribuciones especiales cómo normal y t de student, hipotesis estadísticas, etc).
Pero podés leer esta introducción a prueba de hipótesis si lo necesitás antes de empezar.
¡Empecemos !
(Cualquier duda podés dejarla en los comentarios, o escribirme por acá)
EJERCICIOS DE PRUEBA DE HIPOTESIS SOBRE LA MEDIA
Diferentes estadísticos que se usan en una prueba de hipótesis sobre la media
Una aclaración antes de empezar propiamente con los ejercicios.
Una de las partes que más confunden al hacer una prueba de hipótesis sobre la media es ¿qué estadístico de prueba hay que usar?
Vamos a tratar de ponerlo bien simple.
Porque hay básicamente tres casos:
Caso 1:
Si las condiciones son:
- La variable X tiene distribución normal
- Conocemos el desvío estándar poblacional \(\sigma \)
Entonces el estadístico que se usa es:
\[\frac{{\bar X – \mu }}{{\sigma /\sqrt n }} \sim N\left( {0,1} \right)\]
Caso 2:
Si las condiciones son (lo único que cambia es que no conocemos el desvío poblacional):
- La variable X es normal
- No conocemos el desvío estándar poblacional \(\sigma \), así que lo estimamos usando el desvío estándar muestral \(S\)
Usamos:
\[\frac{{\bar X – \mu }}{{S/\sqrt n }} \sim {t_{n – 1}}\]
La distribución es t de student con n-1 grados de libertad. Acá cuentan la anécdota de por qué \(t\) de Student.
Caso 3:
Por último si las condiciones son:
- La variable X no sabemos que distribución tiene (puede ser cualquier distribución)
- Conocemos el desvío estándar poblacional \(\sigma \)
- El tamaño de la muestra debe ser grande \(n \ge 30\)
Usamos:
\[\frac{{\bar X – \mu }}{{\frac{\sigma }{{\sqrt n }}}} \approx N\left( {0,1} \right)\]
La distribución en este caso no es exactamente normal, sino APROXIMADAMENTE normal.
¿Por qué? Porque tenemos que usar el teorema central del límite para conocer la distribución de \(\bar X\). Y el teorema dice que \(\bar X\) tiende a la distribución normal en la medida en que \(n\) crece… pero no que tiene “exactamente” la distribución normal.
También se suele usar esta distribución aproximada si no se conoce \(\sigma \):
\[\frac{{\bar X – \mu }}{{\frac{\sigma }{{\sqrt n }}}} \approx N\left( {0,1} \right)\]
Entonces resumiendo:
Ejercicio resuelto de prueba de hipotesis sobre la media #1
La duración de las bombillas de \(100\) watt que fabrica una empresa sigue una distribución normal con una desviación de \(120\) horas. Su vida media está garantizada durante un mínimo de 800 horas.
Se escoge al azar una muestra de \(50\) bombillas de un lote y, después de comprobarlas, se obtiene una vida media de \(750\) horas.
a) Con un nivel de significación de \(0,01\), ¿habría que rechazar el lote por no cumplir la garantía?
b) ¿Cuál es la probabilidad de cometer el error tipo II si el tiempo medio de vida de las bombillas es \(790\) horas?
Resolución del ejercicio 2
Ítem a
Queremos hacer una prueba de hipotesis sobre la media de la duración de las bombillas. ¿Durán en promedio más de 800 horas o menos?
La variable es \(X\): duración (en horas) de una bombilla de \(100\) watts, fabricada por cierta empresa.
Se sabe que:
\[X \sim N\left( {\mu = ?;\sigma = 120} \right)\]
No conocemos el valor de la media. Pero sí conocemos la media muestral de una muestra de tamaño \(50\):
\[n = 50{\rm{\;\;}};{\rm{\;\;}}\bar x = 750\]
A primera vista parecería que las bombillas están durando menos que lo prometido por el fabricante. (El fabricante garantiza que duran en promedio \(800\) horas o más y obtuvimos una media muestral de \(750\) horas.)
Pero no podemos tomar la decisión “a ojo”.
Tenemos que realizar una prueba de hipótesis.
Vamos a hacer la prueba de hipótesis realizando los pasos recomendados.
No es necesario escribir todos estos pasos, pero lo hacemos porque lo hace mucho más fácil de entender.
Paso 1: Definir la variable.
X: duración (en horas) de una bombilla de \(100\) watts, fabricada por cierta empresa.
\[X \sim N\left( {\mu = ?;\sigma = 120} \right)\]
Paso 2: Plantear las hipótesis estadísticas
El fabricante afirma que duran \(800\) horas o más:
\[{H_0}:\mu \ge 800\]
Queremos contrastar esa hipótesis con:
\[{H_1}:\mu < 800\]
Paso 3: Establecer un estadístico de prueba.
En este caso hay dos posibles. Que son equivalentes.
Cómo \(X \sim N\) y \(\sigma \) es conocida, conocemos la distribución de la variable media muestral:
\[\color{red}{\bar X \sim N\left( {\mu ,\frac{\sigma }{{\sqrt n }}} \right)}\]
Este es un estadístico de prueba adecuado.
Pero también se puede estandarizar esta variable, y obtener:
\[\color{green}{\frac{{\bar X – \mu }}{{\frac{\sigma }{{\sqrt n }}}} \sim N\left( {0,1} \right)}\]
Cualquiera de los dos sirve.
(Son básicamente el mismo. En un caso está estandarizada la variable normal y en el otro no está estandarizada).
Vamos a usar los dos para poder explicar cómo se hace con ambos.
Pero no es necesario que usen los dos.
Paso 4: Seleccionar un nivel de significación
El enunciado determina que:
\[\alpha = 0,01\]
Paso 5: Determinar la zona de rechazo y la regla de decisión
Cómo la hipótesis alternativa afirma que \(\mu \) es menor que un cierto valor, entonces decimos que la prueba es unilateral izquierda: la zona de rechazo queda ubicada a la izquierda.
La distribución de ambos estadísticos es normal.
Así que el diagrama con la distribución del estadístico y la zona de rechazo a izquierda es así:
Pero ahora queremos determinar exactamente cuál es la región de rechazo. ¿Cuál es el valor de la abscisa que define la región de rechazo?
Si usamos el estadístico de prueba \(\color{green}{\frac{{\bar X – \mu }}{{\frac{\sigma }{{\sqrt n }}}} \sim N\left( {0,1} \right)}\) el diagrama con la zona de rechazo unilateral izquierda y el nivel de significación sería así:
¿Cuál es el valor de la variable normal estándar que acumula una probabilidad de \(0,01\) a su izquierda?
\[{z_{0,01}} = – 2,33\]
(Eso se busca en la tabla de la normal estándar o usando software)
Entonces la regla de decisión es:
- Rechazo \({H_0}\) si \({e_p} \le – 2,33\).
- No rechazo \({H_0}\) si \({e_p} > – 2,33\).
Si quisiéramos usar el otro estadístico de prueba posible \(\color{red}{\bar X \sim N\left( {800,\frac{{120}}{{\sqrt {50} }} \cong 16,97} \right)}\), la lógica es exactamente la misma:
Pero ¿cómo averiguamos el valor crítico \({\bar X_C}\) que acumula una probabilidad de \(0,01\) a su izquierda?
-Opción 1: usando software cómo Probability Distributions (para Android) o GeoGebra (para Windows).
-Opción 2: usando la tabla de probabilidad normal estándar. En general en un examen no se permite usar software. Así que no nos queda otra que esta opción. Veamos cómo es.
Si \({\bar X_C}\) es aquel valor que acumula una probabilidad de \(0,01\) a su izquierda, entonces al estandarizarlo obtendremos \({z_{0,01}} = – 2,33\):
\[ – 2,33 = \frac{{{{\bar X}_C} – 800}}{{\frac{{120}}{{\sqrt {50} }}}}\]
De acá podemos despejar \({\bar X_C}\):
\[ \Rightarrow {\bar X_C} = – 2,33.\frac{{120}}{{\sqrt {50} }} + 800 \cong 760,46\]
Obtenemos que el valor crítico es \({\bar X_C} = 760,46\). Luego la regla de decisión es:
- Rechazo \({H_0}\) si \(\bar X \le 760,46\).
- No rechazo \({H_0}\) si \(\bar X > 760,46\).
Paso 6: Calcular el valor observado del estadístico de prueba
Usando el estadístico de prueba \(\bar X\):
El valor observado \(\bar X = 750\) pertenece a la zona de rechazo \(\left( { – \infty ;760,46} \right)\).
Si usamos el estadístico estandarizado tenemos que realizar el siguiente cálculo:
\[{e_{p,obs}} = \frac{{750 – 800}}{{\frac{{120}}{{\sqrt {50} }}}} \cong – 2,95\]
También ocurre que el valor observado (\( – 2,95\)) pertenece a la zona de rechazo \(\left( { – \infty ; – 2,33} \right)\).
Paso 7: Obtener la conclusión
Decidimos rechazar la hipótesis nula.
La conclusión podría ser:
“Con un nivel de significación del \(1\% \) hay evidencias suficientes para afirmar que la media de la duración de las bombillas es inferior a \(800\) horas.”
Ítem b
En este ítem tenemos que pensar que en realidad la verdadera media es \(\mu = 790\).
Entonces la distribución de la media muestral es:
\[\bar X \sim N\left( {790;\frac{{120}}{{\sqrt {50} }}} \right)\]
Cómo el error de tipo II es: no rechazar la hipótesis nula cuando esta es falsa, la probabilidad de cometer el error de tipo II es:
\[\beta = P\left( {error\;tipo\;II} \right) = \;P\left( {No\;R\;{H_0}\;|\;{H_0}\;es\;F} \right)\]
Pero “no rechazar la hipótesis nula” sería que el estadístico no caiga en zona de rechazo.
Es decir que \(\bar X > 760,46\).
Entonces la probabilidad es:
\[ \Rightarrow P\left( {\bar X > 760,46|\mu = 790} \right)\]
\[ \Rightarrow P\left( {Z > \frac{{760,46 – 790}}{{\frac{{120}}{{\sqrt {50} }}}}} \right)\]
\[ \Rightarrow P\left( {Z > – 1,74} \right) = 1 – P\left( {Z < – 1,74} \right) = 0,9591\]
En el siguiente diagrama mostramos en color azul la distribución de \(\bar X\) si \(\mu = 800\) y en color rojo la distribución de \(\bar X\) si \(\mu = 790\).
El área de la región azul bajo la curva azul es la probabilidad de error de tipo I.
El área de la región roja bajo la curva roja es la probabilidad de error de tipo II.
La región sobre el eje marcada con color rojo es la zona de rechazo.
Ejercicio resuelto de prueba de hipotesis sobre la media #2
Una empresa eléctrica fabrica baterías de celular que tienen una duración que se distribuye de forma aproximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Una muestra aleatoria de 30 baterías tiene una duración promedio de 785 horas.
a) ¿Muestran los datos suficiente evidencia para decir que la duración media es menor a 800? Utilice un nivel de significación del 5%.
b) ¿Cuál es la probabilidad de decidir que la media es de 800 horas cuando en realidad es 780 horas?
Resolución del ejercicio 2
Ítem a
Se trata de un ejercicio de prueba de hipótesis. Lo planteamos paso a paso.
Paso 1: Definir la variable.
\(X\): duración de las baterías de celular fabricadas por la empresa
\[X \sim N\left( {800;40} \right)\]
Pero parece que “cierto día” o “luego de cierto cambio” se pone en cuestión si realmente es \(800\) la media o si en realidad es inferior a \(800\).
Así que podríamos decir que en realidad es:
\[X \sim N\left( {\mu = ?;\sigma = 40} \right)\]
Paso 2: Plantear las hipótesis estadísticas
\[{H_0}:\mu = 800\]
\[{H_1}:\mu < 800\]
Paso 3: Establecer un estadístico de prueba.
Cómo \(X \sim N\) y \(\sigma \) es conocida, conocemos la distribución de la variable media muestral:
\[\bar X \sim N\left( {\mu ,\frac{\sigma }{{\sqrt n }}} \right)\]
También se puede estandarizar esta variable:
\[\frac{{\bar X – \mu }}{{\frac{\sigma }{{\sqrt n }}}} \sim N\left( {0,1} \right)\]
Cualquiera de los dos es un estadístico de prueba adecuado.
Paso 4: Seleccionar un nivel de significación
El enunciado determina que:
\[\alpha = 0,05\]
Paso 5: Determinar la zona de rechazo y la regla de decisión
Si nos basamos en el estadístico de prueba \(\bar X \sim N\left( {800,\frac{{40}}{{\sqrt {30} }} \cong 7,3} \right)\):
Obtenemos que el valor crítico es \({\bar X_C} = 788\). Luego la regla de decisión es:
- Rechazo \({H_0}\) si \(\bar X \le 788\).
- No rechazo \({H_0}\) si \(\bar X > 788\).
Si nos basamos en el estadístico de prueba \(\frac{{\bar X – 800}}{{\frac{{40}}{{\sqrt {30} }}}} \sim N\left( {0,1} \right)\); la regla de decisión es:
- Rechazo \({H_0}\) si \({e_p} \le – 1,645\).
- No rechazo \({H_0}\) si \({e_p} > – 1,645\).
Paso 6: Calcular el valor observado del estadístico de prueba
Usando el estadístico de prueba \(\bar X\), ya sabemos que \(\bar X = 785\). El valor observado (\(785\)) pertenece a la zona de rechazo \(\left( { – \infty ;788} \right)\).
Si usamos el estadístico estandarizado tenemos que realizar el siguiente cálculo:
\[{e_{p,obs}} = \frac{{785 – 800}}{{\frac{{40}}{{\sqrt {30} }}}} = – 2,054\]
También ocurre que el valor observado (\( – 2,054\)) pertenece a la zona de rechazo \(\left( { – \infty ; – 1,645} \right)\).
Paso 7: Obtener la conclusión
Con un nivel de significación del 5% hay evidencias suficientes para afirmar que la media de la duración de las baterías es inferior a 800 horas.
Ítem b
Queremos calcular la probabilidad cometer el error de tipo 2. Decidir que \(\mu = 800\), cuando en realidad \(\mu = 780\). Esto ocurre si “no rechazamos la hipótesis nula” cuando en realidad la hipótesis nula es falsa y \(\mu = 780\).
\[P\left( {No\;rechazar\;{H_0}\;|\;{H_0}\;es\;F\;\;{\rm{y}}\;\mu = 780} \right)\]
No rechazar \({H_0}\) es equivalente a que \(\bar X > 788\). Entonces podemos reescribir más precisamente la probabilidad que debemos calcular:
\[P\left( {\bar X > \;788|\mu = 780} \right)\]
Para ilustrar la situación a continuación, mostramos dos curvas normales.
La roja representa la distribución de \(\bar X\) suponiendo que \(\mu = 780\). La azul representa la distribución de \(\bar X\) cuando pensábamos que \({H_0}\) era verdadera (\(\mu = 800)\).
Entonces:
\[P\left( {Z > \;\frac{{788 – 780}}{{\frac{{40}}{{\sqrt {30} }}}}} \right)\]
\[ = P\left( {Z > \;\frac{8}{{7,30}}} \right)\]
\[ = P\left( {Z > \;1,1} \right)\]
\[ = 1 – P\left( {Z < 1,1} \right)\]
\[ = 1 – 0,8643\]
\[ = 0,1357\]
Ejercicio resuelto de prueba de hipotesis sobre la media #3
Se sabe que la media del consumo de energía eléctrica en cierta provincia es de 721 kwh.
Una empresa tecnológica de la región cree que sus empleados consumen más que el promedio provincial. Recoge información sobre los consumos de 20 empleados escogidos al azar, y obtiene los siguientes datos:
710 | 774 | 814 | 768 | 823 |
732 | 675 | 755 | 770 | 660 |
654 | 757 | 736 | 677 | 797 |
760 | 718 | 774 | 747 | 796 |
Si la distribución del consumo mensual de energía eléctrica es normal:
- ¿Hay evidencias para afirmar que el promedio del consumo de energía eléctrica hogareño de los empleados de la empresa es superior a la media del consumo a nivel provincial? Usar un nivel de significación del 10%.
- ¿Cuál es el valor \(p\) de la decisión?
Resolución
Ítem a
Queremos hacer una prueba de hipótesis para saber si la media del consumo mensual de los empleados de la empresa tecnológica es superior a la media provincial.
Es decir: una prueba de hipótesis sobre la media poblacional.
Paso 1: Definir la variable.
La variable es:
\(X\): consumo mensual de energía eléctrica hogareña de un empleado de la empresa tecnológica
Sabemos que la distribución es normal. Pero desconocemos la media y el desvío estándar.
\[X \sim N\left( {\mu = ?;\sigma = ?} \right)\]
Paso 2: Plantear las hipótesis estadísticas
La hipótesis nula postula que el promedio del consumo de los empleados es igual al provincial:
\[{H_0}:\mu = 721\]
La hipótesis alternativa es que el promedio del consumo es superior al promedio provincial:
\[{H_1}:\;\mu > 721\]
Paso 3: Establecer un estadístico de prueba.
Este punto es importante.
Sabemos que si la variable \(X\) es normal y se conoce el desvío estándar poblacional \(\sigma \), entonces el estadístico es:
\[\frac{{X – \mu }}{{\frac{\sigma }{{\sqrt n }}}} \sim N\left( {0,1} \right)\]
Pero si la variable \(X\) es normal y no se conoce el desvío estándar poblacional, entonces se lo estima usando el desvío estándar muestral \(S\). Y el estadístico que resulta de sustituir \(\sigma \) por \(S\) tiene distribución \(t\) de Student con \(n – 1\) grados de libertad:
\[\frac{{\bar X – \mu }}{{\frac{S}{{\sqrt n }}}} \sim {t_{n – 1}}\]
Ese es el estadístico que vamos a usar.
Paso 4: Seleccionar un nivel de significación
El nivel es del 10%.
Paso 5: Determinar la zona de rechazo y la regla de decisión
Como la prueba es unilateral derecha, rechazaremos la hipótesis nula si se observan valores “grandes” del estadístico de prueba.
¿Qué significa “grandes”? Como el nivel de significación es del 10%, el valor crítico desde el cual se van a considerar “grandes” a los valores del estadístico de prueba será aquel valor de la variable \(t\) de student que deja un área de 0,1 a su derecha.
\[{t_{19;0,9}} = 1,3277\]
Este valor se busca en tabla, o en GeoGebra (app para Windows o MacOs), o en Probability Distributions (app para smarthphones).
Entonces:
- Rechazamos \({H_0}\) si el estadístico de prueba es mayor o igual a 1,3277
- No rechazamos \({H_0}\) si el estadístico de prueba es menor que 1,3277
Paso 6: Calcular el valor observado del estadístico de prueba
Con los 20 datos podemos calcular la media muestral y el desvío estándar muestral
\[\bar x = 745\]
\[s = 49,63\]
Entonces el valor observado del estadístico de prueba es:
\[\frac{{745 – 721}}{{\frac{{49,63}}{{\sqrt {20} }}}} = 2,16\]
El valor observado \(2,16\) pertenece a la zona de rechazo \(\left( {1,3277;\infty } \right)\).
Paso 7: Obtener la conclusión
Con un nivel de significación del 10% podemos afirmar que hay evidencia susficiente para rechazar la hipótesis nula que afirma que el consumo promedio mensual de energía eléctrica de los empleados es de 721 kwh, a favor de la hipótesis alternativa que afirma que el consumo promedio mensual de energía eléctrica de los empleados es superior a 721 kwh.
Ítem b
El \(p\) valor de la decisión es la probabilidad a la derecha de 2,16:
Usando software o tablas se obtiene:
\[p – valor = P\left( {t \ge 2,16} \right) = 0,0219\]
Es decir que el p valor de la prueba es de \(0,0219\).
Hay una probabilidad de 2% de que el consumo haya dado cómo dio o aún mayor por azar.
Lo cual nos hace pensar que no fue “por azar” sino que fue porque los empleados de la empresa efectivamente consumen más en promedio que el promedio provincial general.
En el ejercicio 2, uso 1-alpha, ¿no debería haber sido 1 – (alpha/2) ?