Esta entrada contiene el enunciado y resolución completa del segundo parcial de probabilidad y estadística de UTN-FRBA tomado el día 26-11-2014. Es un parcial redactado por la profesora Fanny Kaliman.
Como siempre digo… no conviene leer la resolución sin antes intentar resolver el ejercicio. Si se lee la resolución sin intentar hacerlo se pierde el poder del ejercicio. Sí sirve leerlo para verificar o para ayudarse si ya lo pensaron y no sale.
Enunciado del Segundo Parcial de Probabilidad y Estadística [26-11-2014]
Ejercicio 1 – Intervalo de confianza para la media
Se desea estimar la media del tiempo empleado por un nadador en una prueba olímpica, para lo cual se cronometran 10 pruebas, obteniéndose una media de 41,5 minutos. Sabiendo que esta variable tiene distribución normal con desvío 0,3 minutos.
a) Obtener un intervalo de confianza con un 95% de confianza
b) ¿Cuántas pruebas habría que cronometrar para que el error en la estimación de la media sea a lo sumo tres segundos?
Resolución del ejercicio 1
Ítem a
La variable es:
\(X:\) tiempo empleado por un nadador en una prueba olímpica.
Se sabe que la distribución es normal y que el desvío es 0,3 minutos.
Pero no se conoce la media \(\mu \):
\[X \sim N\left( {\mu = ?;\sigma = 0,3} \right)\]
Cómo no se conoce la media poblacional \(\mu \) se hace una estimación con la media muestral (de una muestra de tamaño \(10\)):
\[\bar x = 41,5{\rm{\;\;}};{\rm{\;\;}}n = 10\]
Recordemos que para el caso en que:
- \(X \sim N\)
- \(\sigma \) es conocida
el intervalo de confianza para la media \(\mu \) con nivel de confianza de \(1 – \alpha \) se calcula así:
\[I{C_{\mu ;1 – \alpha }} = \bar x \pm {z_{1 – \frac{\alpha }{2}}}.\frac{\sigma }{{\sqrt n }}\]
Si el nivel de confianza es \(1 – \alpha = 0,95\), debemos hallar \(1 – \frac{\alpha }{2}\):
\[1 – \alpha = 0,95\]
\[ \Rightarrow \alpha = 0,05\]
\[ \Rightarrow \frac{\alpha }{2} = 0,025\]
\[ \Rightarrow 1 – \frac{\alpha }{2} = 0,975\]
Entonces buscamos el valor de la variable normal estándar que acumula un área de \(0,975\) a su izquierda:
\[ \Rightarrow {z_{0,975}} = 1,96\]
Esto se puede buscar con tabla de probabilidades o con software.
Ahora ya podemos reemplazar en la fórmula del intervalo de confianza:
\[I{C_{\mu ;0,95}} = 41,5 \pm 1,96.\frac{{0,3}}{{\sqrt {10} }}\]
\[I{C_{\mu ;0,95}} = 41,5 \pm 0,19\]
\[I{C_{\mu ;0,95}} = \left( {41,31{\rm{\;}};41,69} \right)\]
Ítem b
En la expresión del intervalo de confianza el error es la parte que sumamos y restamos:
\[I{C_{\mu ;1 – \alpha }} = \bar x \pm \color{red}{{z_{1 – \frac{\alpha }{2}}}.\frac{\sigma }{{\sqrt n }}}\]
Queremos que el error sea cómo máximo de 3 segundos.
Pero \(X\) viene expresada en minutos.
Entonces calculemos cuantos minutos son 3 segundos:
\[\frac{{60{\rm{\;}}segundos}}{{1{\rm{\;}}minutos}} = \frac{{3{\rm{\;}}segundos}}{x}\]
\[ \Rightarrow x = \frac{1}{{20}}minutos = 0,05{\rm{\;}}minutos\]
Igualemos entonces el error de estimación a \(0,05\):
\[{z_{1 – \frac{\alpha }{2}}}.\frac{\sigma }{{\sqrt n }} = 0,05\]
Reemplazando \({z_{0,975}} = 1,96\) y \(\sigma = 0,3\):
\[1,96.\frac{{0,3}}{{\sqrt n }} = 0,05\]
Despejamos \(n\):
\[n = {\left( {\frac{{1,96}}{{0,05}}.0,3} \right)^2} = 138,29\]
Entonces se deben tomar \(139\) mediciones o más para que el error se reduzca a menos de \(0,05\).
Ejercicio 2 – Prueba de hipótesis sobre la media
La duración de las bombillas de \(100\) watt que fabrica una empresa sigue una distribución normal con una desviación de \(120\) horas. Su vida media está garantizada durante un mínimo de 800 horas.
Se escoge al azar una muestra de \(50\) bombillas de un lote y, después de comprobarlas, se obtiene una vida media de \(750\) horas.
a) Con un nivel de significación de \(0,01\), ¿habría que rechazar el lote por no cumplir la garantía?
b) ¿Cuál es la probabilidad de cometer el error tipo II si el tiempo medio de vida de las bombillas es \(790\) horas?
Resolución del ejercicio 2
Antes de leer la resolución, por favor intentá hacerlo. Es lo más productivo.
Si no te sale, te doy una ayuda:
- Leé esta introducción a prueba de hipotesis
- Planteá cada uno de los pasos
Ejercicio 3 – Regresión lineal
Un agrónomo quiere estudiar la relación entre la cantidad de agua aplicada (en \({m^3}\)) y el correspondiente rendimiento de cosecha (en toneladas por hectárea), obteniendo:
\[\sum {x_i} = 80\;\sum {y_i} = 19,8\;\;\;\;\sum x_i^2 = 1920\;\sum y_i^2 = 100,28\;\;\]
\[\;\sum \left( {{x_i}{y_i}} \right) = 422,4\;\;\;{s^2} = 0,046\]
a) Encontrar la recta de regresión estimada y estimar el rendimiento medio si la cantidad de agua aplicada es 20 \({m^3}\)
b) ¿Es significativa la regresión con un nivel de significación del 5%?
Resolución del ejercicio 3
Ítem a
Usando la calculadora en modo estadístico para regresión lineal podemos hallar la ecuación de la recta de regresión estimada:
\[\hat y = 0,0825.x + 3,3\]
O también es posible usando las ecuaciones:
\[{b_1} = \frac{{{S_{xy}}}}{{{S_{xx}}}} = \frac{{\sum xy – \frac{1}{n}\sum x\sum y}}{{\sum {x^2} – \frac{1}{n}{{\left( {\sum x} \right)}^2}}} = \frac{{422,4 – \frac{1}{4}.80.19,8}}{{1920 – \frac{1}{4}{{\left( {80} \right)}^2}}} \cong 0,0825\]
\[{b_0} = \bar y – {b_1}.\bar x = \frac{{19,8}}{4} – 0,0825.\frac{{80}}{4} = 3,3\]
Obviamente es mucho más práctico hacerlo con la calculadora 🙂
Para estimar el rendimiento si la cantidad de agua aplicada es de \(20\;{m^3}\)… simplemente reemplazamos en la ecuación de la recta de regresión estimada por \(x = 20\):
\[\hat y = 0,0825.20 + 3,3 = 4,95\]
Entonces cuando la cantidad de agua aplicada es de \(20\;{m^3}\), podemos estimar que el rendimiento será de \(4,95\) toneladas por hectárea.
Esta es una estimación puntual.
También se podría hacer una estimación por intervalo.
Pero el enunciado no pide una estimación por intervalo, sino que sólo pide “una estimación”.
Así que podemos conformarnos con la puntual 🙂
A continuación, graficamos el diagrama de dispersión (no se pide, pero lo incluimos igual):
Ítem b
Para probar si la regresión es significativa, las hipótesis son:
\[{H_0}:\;{\beta _1} = 0\]
\[{H_1}:\;{\beta _1} \ne 0\]
El estadístico de prueba:
\[{e_p} = \frac{{{b_1} – {\beta _1}}}{{\frac{s}{{\sqrt {{S_{xx}}} }}}} \sim {t_{n – 2}}\]
La zona de rechazo es bilateral en una curva \(t\) de student con \(2\) grados de libertad.
Cómo \(\alpha = 0,05\), pero la zona de rechazo es bilateral, entonces queda \(0,025\) de área en cada lado.
\[{t_{2;0,975}} = 4,303\]
Para buscar \({t_{2;0,975}}\) (es decir el valor de la variable \(t\) de Student que deja a su izquierda un área de \(0,975\)) tenemos que ir a la tabla de probabilidades de la \(t\) de Student. (O usar software cómo Probability Distributions o GeoGebra)
Ahora calculemos el valor observado del estadístico de prueba:
\[{e_p} = \frac{{0,0825 – 0}}{{\frac{{\sqrt {0,046} }}{{\sqrt {320} }}}} \cong 6,88\]
Cómo el estadístico de prueba cayó en la zona de rechazo decidimos rechazar la hipótesis nula, en favor de la alternativa.
La regresión lineal es significativa al nivel del \(5\% \).
Ejercicio 4 (teórico) – Estimación
a) Defina el error cuadrático medio de un estimador, ¿para qué sirve?
b) Demuestre que \(ECM\left( {\hat \theta } \right) = Var\left( \theta \right) + {B^2}\) siendo \(B = sesgo\left( {\hat \theta } \right)\)
Resolución del ejercicio 4
Ítem a
Si \(\hat \theta \) es un estimador del parámetro \(\theta \), el error cuadrático medio del estimador se define como:
\[ECM\left( {\hat \theta } \right) = E\left[ {{{\left( {\hat \theta – \theta } \right)}^2}} \right]\]
Notemos que el \(ECM\) mide que tan “próximo” o lejano está un estimador \(\hat \theta \) del parámetro \(\theta \). ¿Cómo sabemos que mide eso? Porque está definido cómo la esperanza de los cuadrados de las distancias de \(\hat \theta \) y \(\theta \). Cuanto mayores sean esas distancias, mayor será el error cuadrático medio.
¿Para qué sirve el error cuadrático medio?
Cómo es posible definir más de un estimador para un parámetro, se suele usar el error cuadrático medio del estimador para elegir al mejor estimador. Cuanto menor sea el error cuadrático medio, mejor es el estimador porque más cercanos son sus valores al verdadero valor del parámetro.
Ítem b
Si \(\hat \theta \) es un estimador del parámetro \(\theta \), el error cuadrático medio del estimador se define como:
\[ECM\left( {\hat \theta } \right) = E\left[ {{{\left( {\hat \theta – \theta } \right)}^2}} \right]\]
Desarrollando el cuadrado del binomio,
\[ECM\left( {\hat \theta } \right) = E\left[ {{{\hat \theta }^2} – 2\theta \hat \theta + {\theta ^2}} \right]\]
Aplicamos propiedad de linealidad de la esperanza:
\[(ECM\left( {\hat \theta } \right) = E\left( {{{\hat \theta }^2}} \right) – 2E\left( \theta \right).E\left( {\hat \theta } \right) + E\left( {{\theta ^2}} \right)\]
\(\theta \) es una constante así que podemos escribir:
\[ECM\left( {\hat \theta } \right) = E\left( {{{\hat \theta }^2}} \right) – 2\theta .E\left( {\hat \theta } \right) + {\theta ^2}\]
Sumamos y restamos \(\color{green}{{E^2}\left( {\hat \theta } \right)}\) (este es el paso más «creativo» de la deducción):
\[ECM\left( {\hat \theta } \right) = E\left( {{{\hat \theta }^2}} \right) – 2\theta .E\left( {\hat \theta } \right) + {\theta ^2} + \color{green}{{E^2}\left( {\hat \theta } \right) – {E^2}\left( {\hat \theta } \right)}\]
Y ahora veamos que si juntamos \(\color{red}{E\left( {{{\hat \theta }^2}} \right)}\) con \(\color{red}{ – {E^2}\left( {\hat \theta } \right)}\) tenemos la varianza de \(\hat \theta \;\):
\[ECM\left( {\hat \theta } \right) = \color{red}{E\left( {{{\hat \theta }^2}} \right)} – 2\theta .E\left( {\hat \theta } \right) + {\theta ^2} + {E^2}\left( {\hat \theta } \right) \color{red}{- {E^2}\left( {\hat \theta } \right)}\]
\[ECM\left( {\hat \theta } \right) =\color{red}{ \;V\left( {\hat \theta } \right)} \color{#A0F}{- 2\theta .E\left( {\hat \theta } \right) + {\theta ^2} + {E^2}\left( {\hat \theta } \right)}\]
Dónde podemos encontrar que hay un trinomio cuadrado perfecto
\[ECM\left( {\hat \theta } \right) = V\left( {\hat \theta } \right) + \color{#A0F}{{\left[ {E\left( {\hat \theta } \right) – \theta } \right]^2}}\]
Veamos que la expresión que aparece al cuadrado es la diferencia de esperanza de \(\hat \theta \) con el valor de \(\theta \). Esa diferencia se llama sesgo: \(B = E\left( {\hat \theta } \right) – \theta \):
\[ECM\left( {\hat \theta } \right) = V\left( {\hat \theta } \right) + {B^2}\]
Es una buena característica que un estimador tenga sesgo cero, porque justamente se reduce el error cuadrático medio.
Ejercicio 5 (teórico) – Prueba de hipótesis
En cada caso indicar la respuesta correcta justificando su respuesta:
a) El nivel de significación de una prueba de hipótesis es: i) la probabilidad de rechazar la hipótesis nula siendo verdadera; ii) la probabilidad de aceptar la hipótesis nula siendo verdadera; iii) la probabilidad de aceptar la hipótesis nula siendo falsa
b) Un estadístico de prueba es: i) una variable aleatoria; ii) un parámetro iii) no varía de una muestra a otra, su valor es constante.
Resolución del ejercicio 5
Ítem a
Para responder a este tipo de preguntas es recomendable pensar primero por fuera de las opciones que se ofrecen. ¿Qué es el nivel de significación de una prueba de hipótesis? Deberíamos saber que es la probabilidad de cometer el error de tipo 1. Es decir, la probabilidad de rechazar \({H_0}\) cuando \({H_0}\) es verdadera.
Así que claramente nos quedamos con la opción i cómo correcta.
Ítem b
Igual que en el ítem a, primero recordemos que es un estadístico de prueba.
Un estadístico de prueba es: una variable aleatoria, de distribución conocida, que contiene al parámetro sobre el que trata la prueba de hipótesis y que contiene a un estimador de ese parámetro.
Así que la respuesta correcta es la i.
Comentario final
Si llegaste leyendo hasta acá… puff !
Felicitaciones por la capacidad de concentración! Y gracias!
Si querés podés dejar un comentario para probarlo 🙂
O también si quedó alguna duda, o encontrás algún error.
Buenas Fede,
Tengo una duda acerca del ej3 ítem b, me podrías decir porque utilizar sxx en vez de n? Y porque hay que utilizar la distribución t con n-2 grados de libertad porque en la guía de fórmulas dice n-1.
Gracias!!
Saludos
Para poner a prueba la regresión se puede en general: usar \(\beta \) (la pendiente de la recta de regresión) o \(\rho \) (el coeficiente de correlación lineal).
Los estadísticos son:
\[\;\frac{{b – \beta }}{{\frac{s}{{{S_{xx}}}}}} \sim {t_{n – 2}}\]
\[\sqrt {n – 2} .\frac{r}{{\sqrt {1 – {r^2}} }} \sim {t_{n – 2}}\]
En este caso usamos el primer estadístico.
No se puede usar el segundo estadístico porque la variable X no es una variable aleatoria. La cantidad de agua aplicada es una cantidad decidida de antemano y no varía aleatoriamente. Entonces no tiene sentido usar \(\rho \).
Los dos estadísticos tienen distribución \(t\) con \(n – 2\) grados de libertad. En la hoja de fórmulas no dice que tengan \(n – 1\) grados de libertad.
Te escribí por mail para hablarlo mejor a ver si me pasás una imagen de lo que estás viendo.
Hola fede, una consulta cual seria la respuesta del ejercicio 2 item b?? se que no se puede realizar porque el valor de c es menor al 790.
Gracias.
Saludos
Ignacio, gracias por comentar! Parece que se me había olvidado subirlo. Ahí lo agregué. Saludos!
Buenas tardes, profe!
Podría resolver el ítem b del ejercicio 2?
Porque estaría teniendo inconvenientes para calcular la probabilidad y quisiera compararlo con una resolución de confianza.
Gracias miles!
Actualicé la página cuando publiqué el comentario y vi que ya está subida la resolución! Disculpas. Gracias y saludos!
Muy buenas explicaciones, me esta sirviendo muchísimo para rendir el segundo parcial de proba!!! Seguí así!!!
Gracias Luciano 🙂
Hola Fede, me surgió una duda con el ejercicio 1,a. Cuando busco el valor de z para 0,975 en la tabla me da 0,834 en vez de 1,96. No se si estoy mirando algo mal o si hay un error.
Saludos y gracias.
Lo que miraste está mal. Porque tenés que buscar UN ÁREA ACUMULADA DE 0,975, para encontrar cuanto vale Z. Pero vos buscaste dado Z=0,975, cual es el área acumulada de 0,975.
La imagen te muestra que lo rojo (EL ÁREA=0,975) está determinado por el valor de z=1,96:
Pero vos buscaste que área está a la izquierda de z=0,975:
¿Se entiende?