Esta entrada contine el enunciado y resolución completa del segundo parcial de probabilidad y estadítica de UTN-FRBA tomado el día 05-07-2016. Es un parcial redactado por la profesora Fanny Kaliman.
Enunciado del Segundo Parcial [05-07-2017]
Ejercicio 1 – Sobre intervalo de confianza para la varianza
Una máquina de llenado es utilizada para llenar botellas con detergente líquido. Una muestra aleatoria de 20 botellas dio como resultado una varianza muestral de \({S^2} = 0,0153\) onzas 2. Suponiendo que el llenado de la máquina está normalmente distribuido, construya un intervalo de confianza del 95% para la varianza.
Resolución del ejercicio 1
Queremos construir un intervalo de confianza para la varianza. La variable es:
\(X\): masa del detergente llenado en una botella (medida en onzas) por la máquina
Conocemos que la distribución de \(X\) es normal, pero no conocemos sus parámetros:
\[X \sim N\left( {\mu = ?,\sigma = ?} \right)\]
Se toma una muestra aleatoria de 20 botellas:
\[{X_1},{X_2}, \ldots ,{X_{20}}\]
\[n = 20\]
Y se observa una varianza muestral \({S^2} = 0,0153\).
Sabemos que si \(X\) es normal, el siguiente estadístico tiene distribución chi cuadrada:
\[\frac{{{S^2}\left( {n – 1} \right)}}{{{\sigma ^2}}} \sim \chi _{n – 1}^2\]
Y que entonces la fórmula del intervalo de confianza para la varianza es:
\[I{C_{{\sigma ^2};1 – \alpha }} = \left( {\frac{{\left( {n – 1} \right).{S^2}}}{{\;\chi _{1 – \frac{\alpha }{2};n – 1}^2}};\;\frac{{\left( {n – 1} \right).{S^2}}}{{\chi _{\frac{\alpha }{2};n – 1}^2}}} \right)\]
Cómo el nivel de confianza es \(0,95\):
\[NC = 1 – \alpha = 0,95\]
\[ \Rightarrow \frac{\alpha }{2} = 0,025\;\; \wedge \;\;1 – \frac{\alpha }{2} = 0,975\]
Luego los valores necesarios de la variable chi cuadrada para la fórmula del intervalo de confianza son:
\[\chi _{19;0,025}^2 = 8,91\]
\[\chi _{19;0,975}^2 = 32,85\]
\[I{C_{{\sigma ^2};0,95}} = \left( {0,0088;0,0326} \right)\]
Ejercicio 2 – Sobre prueba de hipótesis para la media poblacional
Una empresa eléctrica fabrica baterías de celular que tienen una duración que se distribuye de forma aproximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Una muestra aleatoria de 30 baterías tiene una duración promedio de 785 horas.
a) ¿Muestran los datos suficiente evidencia para decir que la duración media es menor a 800? Utilice un nivel de significación del 5%.
b) ¿Cuál es la probabilidad de decidir que la media es de 800 horas cuando en realidad es 780 horas?
Resolución del ejercicio 2
Antes de leer la resolución, por favor intentá hacerlo. Es lo más productivo.
Si no te sale, te doy una ayuda:
- Leé esta introducción a prueba de hipotesis
- Planteá cada uno de los pasos
Ejercicio 3 – Sobre regresión lineal
Para estudiar la relación lineal entre la concentración de cierta sustancia (en %) y la lectura del colorímetro, se evaluaron 8 casos obteniéndose:
a) Resolución del ejercicio 3Encuentre la recta de regresión muestral y estime la lectura media cuando la concentración de la sustancia es 6,5%
b) Encuentre un intervalo del 95% de confianza para la lectura media cuando la concentración de la sustancia es 6,5%
Resolución del ejercicio 3
Ítem a
Usando la calculadora en modo estadístico podemos obtener la ecuación de la recta de regresión lineal estimada:
\[\hat y = 69,5.x – 168,79\]
Reemplazando por \(x = 6,5\) en la ecuación de la recta, estimamos puntualmente la lectura media correspondiente:
\[\hat y\left( {x = 6,5} \right) = 69,5.6,5 – 168,79 = 282,9\]
Ítem b
Recordemos que la fórmula para un intervalo de confianza sobre la media de Y dado X es:
\[I{C_{E\left( Y \right)/{x_0}}} = {\hat y_0} \pm {t_{n – 2;1 – \frac{\alpha }{2}\;}}.S\sqrt {\frac{1}{n} + \frac{{{{\left( {{x_0} – \bar x} \right)}^2}}}{{{S_{xx}}}}} \]
Calculemos cada valor necesario para completar la fórmula, aprovechando los dados que ya nos ofrece el enunciado:
\[{S_{xx}} = \sum {x^2} – \frac{1}{n}.{\left( {\sum x} \right)^2} = 345 – \frac{1}{8}{\left( {51} \right)^2} = 19,875\]
\[\bar x = 6,375\]
\[{x_0} = 6,5\]
\[\hat y\left( {x = 6,5} \right) = 69,5.6,5 – 168,79 = 282,9\]
\[1 – \alpha = 0,95 \Rightarrow 1 – \frac{\alpha }{2} = 0,975\]
\[{t_{6;0,975}} = 2,44691\]
\[{s^2} = 443,16\]
Reemplazando:
\[I{C_{E\left( Y \right)|{x_0} = 6,5;95\% }} = 282,9 \pm 2,44691.\sqrt {443,16} .\sqrt {\frac{1}{8} + \frac{{{{\left( {6,5 – 6,375} \right)}^2}}}{{19,875}}} \]
\[I{C_{E\left( Y \right)|{x_0} = 6,5;95\% }} = 282,9 \pm 18,27\]
\[I{C_{E\left( Y \right)|{x_0} = 6,5;95\% }} = 282,9 \pm 18,27\]
\[I{C_{E\left( Y \right)|{x_0} = 6,5;95\% }} = \left( {264,63;301,17} \right)\]
Teórico 1 – Sobre estimación por intervalo de confianza
A partir del intervalo de confianza para la media poblacional de una población normal con varianza conocida puede encontrarse el error de estimación.
a) Explicite la expresión del error de estimación
b) ¿Cómo se relaciona con el nivel de confianza del intervalo?
c) ¿Cómo se relaciona con el tamaño de l amuestra?
Resolución del teórico 1
Ítem a
\(Error = {z_{1 – \frac{\alpha }{2}}}.\frac{\sigma }{{\sqrt n }}\)
Ítem b
Cuanto mayor es el nivel de confianza del intervalo (con n fijo) mayor es el error de estimación.
Consideremos por ejemplo los siguientes niveles de confianza
\(NC = 1 – \alpha = 0,90 \Rightarrow {z_{0,95}} = 1,645\)
\(NC = 1 – \alpha = 0,95 \Rightarrow {z_{0,975}} = 1,96\)
\(NC = 1 – \alpha = 0,99 \Rightarrow {z_{0,995}} = 2,57\)
Entonces cuando crece el nivel de confianza, crece \({z_{1 – \frac{\alpha }{2}}}\), y entonces crece \({z_{1 – \frac{\alpha }{2}}}.\frac{\sigma }{{\sqrt n }}\).
Ítem c
Cuanto mayor es el tamaño de la muestra (con nivel de confianza fijo) menor es el error de estimación.
Porque cuanto mayor \(n\), mayor \(\sqrt n \) y menor es \({z_{1 – \frac{\alpha }{2}}}.\frac{\sigma }{{\sqrt n }}\).
Teórico 2 – Sobre regresión lineal
a) Definir coeficiente de determinación. ¿Qué valores puede tomar? ¿Cómo se interpretan?
b) Ejemplifique un valor posible del coeficiente de determinación y realice un diagrama de dispersión correspondiente a ese valor.
Resolución del teórico 2
Ítem a
El coeficiente de determinación mide el porcentaje de variabilidad de la variable Y explicado por la relación lineal con la variable \(X\).
Se define cómo:
\({r^2} = \frac{{S{C_{explicada}}}}{{S{C_{toral}}}} = \frac{{S_{xy}^2}}{{{S_{xx}}{S_{yy}}}}\)
Puede tomar valores entre 0 y 1.
Un valor de \({r^2} = 0,9\) indica que un 90% de la variabilidad de Y es explicada por la regresión lineal con \(X\).
Ítem b
El siguiente diagrama de dispersión sería coherente con un \(r^2=0,8\) (aproximadamente):
Hola, en el punto 2 cuando sacas Xc, no se saca (z(1-alfa) * sigma/ raiz n )+ uo?
Porque vos restas u0 y no entiendo porque.
Gracias
Agus, el valor de Xc en este ejercicio es aquel que acumula probabilidad de 0,05 a la izquierda. Es 788. El z correspondiente es -1,645:
\( – 1,645 = \frac{{{{\bar X}_c} – 800}}{{\frac{{40}}{{\sqrt {30} }}}} \Rightarrow {\bar X_c} = – 1,645.\frac{{40}}{{\sqrt {30} }} + 800\)
¿Se entiende?
Hola, no tienen ningun final resuelto no?
Agus, por ahora no publiqué ninguno. Pero voy a publicar pronto.
De todas formas no creas que son ejercicios totalmente diferentes. Por ejmeplo no son más dificiles. Sino sólo que se combinan todos los temas en un único examen.
Mientras tanto podés ver los que hay del parcial 1 y 2.
¡Saludos!
Hola, buenas tardes. Antes que nada, muy valorado todo el esfuerzo para esto.
Un comentario, me parece que en el Teórico 1, del punto B, para el
NC = 1–α = 0,99⇒ z 0,995=2,33 el resultado debiera ser z 0,995 = 2,57. Lo busqué por tabla y con el software GeoGebra. El resto, un espectáculo.
Juan, tenés razón ! Muchas gracias por avisarme y por el comentario positivo.
Ahí lo corregí. Saludos!
Hola, muy bueno todo. Tengo una consulta, en el teórico 2b la pendiente de la dispersión no debería ser positiva si el valor de r^2 es 0,8?. La pagina esta muy buena, un saludo.
Hola Pablo!
El valor del coeficiente de determinación \(r^2\) siempre es positivo e indica el porcentaje de la variabilidad de y que es explicado por la regresión lineal con x. No importa si la pendiente es positiva o negativa… el valor de \(r^2\) siempre será positivo.
Pero sí debe coincidir el signo de la pendiente con el signo del coeficiente de correlación lineal \(r\). Seguramente vos estabas pensando en eso.
¿Quedó claro?
Muchas gracias por el comentario 🙂
Saludos!
hola, que quería saber como se calcula el «valor p-value» y para que sirve? tengo un ejercicio que me piden con que valor de significación podría avalar dicha afirmación, y que utilice este parámetro para responder.
Hola, que tal? no me quedo claro como hacer el grafico de dispersion a partir del r^2.