class: center, middle, inverse, title-slide .title[ # Probabilidad e Inferencia Estadística ] .subtitle[ ## Test de Hipótesis en dos muestras ] .author[ ###
Mauricio Bucca
github.com/mebucca
mebucca@uc.cl
] --- class: inverse, center, middle # Test de Hipótesis en dos muestras --- ## Brechas de ingresos entre hombres y mujeres .pull-left[  ] .pull-right[  ] --- ## Brechas de ingresos entre hombres y mujeres -- - .bold[¿Existe una brecha de ingresos entre hombres y mujeres?] -- - En otras palabras, ¿existe asociación entre ingresos y género? -- <br> -- .pull-left[ ``` r results <- casen2017 %>% group_by(genero) %>% summarise(promedio_ingresos = mean(ingreso, na.rm = T), n = sum(!is.na(ingreso)) ); results ``` ``` ## # A tibble: 2 × 3 ## genero promedio_ingresos n ## <chr> <dbl> <int> ## 1 Hombre 588281. 326 ## 2 Mujer 368070. 248 ``` ] .pull-right[  ] --- ## Brechas de ingresos entre hombres y mujeres .bold[Paso #1: Expresar pregunta en términos de Hipótesis Nula e Hipótesis Alternativa] <br> -- .bold[Hipótesis Nula]: "La media de ingreso de las mujeres es igual a la de los hombres". - `\(H_0: \underbrace{\mathbb{E}(X \mid \text{Hombre})}_{\mu_H} = \underbrace{\mathbb{E}(X \mid \text{Mujer})}_{\mu_M} \implies \mathbb{E}(X \mid \text{Hombre}) - \mathbb{E}(X \mid \text{Mujer}) = 0\)` <br> -- .bold[Hipótesis Alternativa]: "La media de ingreso de las mujeres es distinta de la de los hombres". - `\(H_a: \underbrace{\mathbb{E}(X \mid \text{Hombre})}_{\mu_H} \neq \underbrace{\mathbb{E}(X \mid \text{Mujer})}_{\mu_M} \implies \mathbb{E}(X \mid \text{Hombre}) - \mathbb{E}(X \mid \text{Mujer}) \neq 0\)` <br> -- .bold[Paso #2: Elegir y calcular un estadístico] El estadístico natural es la diferencia entre ambas medias muestrales: -- .pull-left[ - `\(\bar{X}_{H} = \hat{\mu}_{H}=\)` 588281 - `\(\bar{X}_{M} = \hat{\mu}_{M}=\)` 368070 ] -- .pull-right[ - `\((\bar{X}_{H} - \bar{X}_{M}) = (\hat{\mu}_{H} - \hat{\mu}_{M})=\)` 220211 ] --- ## Brechas de ingresos entre hombres y mujeres .bold[Paso #3: Determinar la Distribución Nula] - Por el TLC sabemos que: - `\(\bar{X}_{H} \sim \text{Normal}\big(\mu_H, \frac{\sigma_H}{\sqrt{n_H}}\big)\)` - `\(\bar{X}_{M} \sim \text{Normal}\big(\mu_M, \frac{\sigma_M}{\sqrt{n_M}}\big)\)` <br> -- Por tanto, .pull-left[ `\((\bar{X}_{H} - \bar{X}_{M}) \sim \dots\)` ] -- .pull-right[ <img src="https://media4.giphy.com/media/cg3hGL5fbON3AIVPm7/giphy.gif" alt="sadpug" width="370" height="250"> ] --- ## Brechas de ingresos entre hombres y mujeres .bold[Paso #3: Determinar la Distribución Nula] - Por el TLC sabemos que: - `\(\bar{X}_{H} \sim \text{Normal}\big(\mu_H, \frac{\sigma_H}{\sqrt{n_H}}\big)\)` - `\(\bar{X}_{M} \sim \text{Normal}\big(\mu_M, \frac{\sigma_M}{\sqrt{n_M}}\big)\)` <br> Por tanto, .pull-left[ `\((\bar{X}_{H} - \bar{X}_{M}) \sim \dots\)` ] .pull-right[ <img src="https://media.tenor.com/DWQneUNAlycAAAAd/pug-pugs.gif" alt="cooldpug" width="370" height="240"> ] --- ## Brechas de ingresos entre hombres y mujeres .pull-left[ `\((\bar{X}_{H} - \bar{X}_{M}) \sim \dots\)` ] -- .pull-right[ .content-box-secondary[ Recordar, si `\(W\)` e `\(Y\)` son normales independientes: - `\(W \pm Y \sim \text{Normal}\)` - `\(\mathbb{E}(W \pm Y) = \mathbb{E}(W) \pm \mathbb{E}(Y)\)` - `\(\mathbb{Var}(W \pm Y) = \mathbb{Var}(W) + \mathbb{Var}(Y)\)` ] ] <br> -- Por tanto, `\((\bar{X}_{H} - \bar{X}_{M}) = \text{Normal}\big(\mu_H, \frac{\sigma_H}{\sqrt{n_H}}\big) - \text{Normal}\big(\mu_M, \frac{\sigma_M}{\sqrt{n_M}}\big) \sim \text{Normal}\Bigg(\mu_H - \mu_M, \sqrt{\frac{\sigma^{2}_H}{n_H} + \frac{\sigma^{2}_M}{n_M}} \quad \Bigg)\)` <br> -- Luego, si `\(H_0\)` es verdadera (la media de ingreso de las mujeres es igual a la de los hombres): `$$(\bar{X}_{H} - \bar{X}_{M}) \mid H_0 \sim \text{Normal}\Bigg(0, \sqrt{\frac{\sigma^{2}_H}{n_H} + \frac{\sigma^{2}_M}{n_M}} \quad \Bigg)$$` --- ## Brechas de ingresos entre hombres y mujeres `$$(\bar{X}_{H} - \bar{X}_{M}) \mid H_0 \sim \text{Normal}\Bigg(0, \sqrt{\frac{\sigma^{2}_H}{n_H} + \frac{\sigma^{2}_M}{n_M}} \quad \Bigg)$$` -- Estandarizando, `\(Z_{H-W} \mid H_0 \sim \text{Normal}\big(0,1)\)` -- - `\(\hat{z} \mid H_0 = \frac{(\hat{\mu}_{H} - \hat{\mu}_{M}) - 0 }{\sqrt{\frac{\sigma^{2}_H}{n_H} + \frac{\sigma^{2}_M}{n_M}}}\)` -- No conocemos las varianzas poblacionales, por tanto debemos estimarlas ( `\(s^{2}_H\)` y `\(s^{2}_M\)` ) .pull-left[ ``` r stats <- casen2017 %>% group_by(genero) %>% summarise(mu_hat = mean(ingreso, na.rm = T), s2 = var(ingreso, na.rm = T), n = sum(!is.na(ingreso)) ) ``` ``` ## # A tibble: 2 × 4 ## genero mu_hat s2 n ## <chr> <dbl> <dbl> <int> ## 1 Hombre 588281. 499905824788. 326 ## 2 Mujer 368070. 204687826566. 248 ``` ] -- .pull-right[ ``` r numerador <- stats %>% with(mu_hat[1] - mu_hat[2]) denominador <- stats %>% with( sqrt(s2[1]/n[1] + s2[2]/n[2]) ) z_hat <- numerador/denominador print(z_hat) ``` ``` ## [1] 4.534111 ``` ] --- ## Brechas de ingresos entre hombres y mujeres <br> -- .bold[Paso #4: Elegir un nivel de significación] `\(\alpha\)` - Vamos trabajar a un nivel de significación de 5%, `\(\alpha=0.05\)`. <br> -- .bold[Paso #5: Calcular el valor-p] - `\(\text{valor-p} = \mathbb{P}( \bar{X}_{H} - \bar{X}_{M} > | \hat{\mu}_{H} - \hat{\mu}_{M} | \mid H_{0)}\)` - equivalentemente: `\(\text{valor-p} = \mathbb{P}\Bigg( Z > \Bigg| \frac{(\hat{\mu}_{H} - \hat{\mu}_{M}) - 0}{\sqrt{\frac{\sigma^{2}_H}{n_H} + \frac{\sigma^{2}_M}{n_M}}} \Bigg| \Bigg)\)` -- En nuestro caso: ``` r pvalue = 2*(1 - pnorm(z_hat)) cat("z_hat=",round(z_hat,2), " valor-p=", pvalue, sep="") ``` ``` ## z_hat=4.53 valor-p=0.000005784671 ``` --- ## Brechas de ingresos entre hombres y mujeres -- .bold[Paso #6: Mantener o Rechazar la Hipótesis Nula] -- - Comparamos -- bajo el supuesto de que `\(H_0\)` es verdadera -- la probabilidad de obtener el resultado que obtuvimos o uno más extremo (valor-p) vs. el criterio seleccionado para clasificar resultados como "extremos" ( `\(\alpha\)` ). -- .bold[Decisión:] - Si `\(\text{valor-p} < \alpha\)` entonces rechazamos `\(H_{0}\)` - Si `\(\text{valor-p} > \alpha\)` no podemos rechazar `\(H_{0}\)` <br> -- En este caso: ``` ## 𝛼=0.05; valor-p=0.000005784671 ``` .bold[Conclusión:] Con un nivel de significación del 5% (o 99% de confianza) podemos rechazar la hipótesis nula de que el salario promedio de hombres y mujeres es el mismo. Nuestro resultado sugiere que el salario promedio de los hombres es significativamente mayor que el de las mujeres. --- class: inverse, center, middle ## Superposición de intervalos de confianza --- ### Superposición de intervalos de confianza <br> - Un método alternativo para testear si hay diferencias estadísticamente significativas entre dos medias o dos proporciones es buscar - Continuando con nuestro ejemplo: <br> .pull.left[ ``` r stats <- stats %>% mutate( se = sqrt(s2) / sqrt(n), ci_inf = mu_hat - 1.96 * se, ci_sup = mu_hat + 1.96 * se ) ``` ] <br> .pull.left[ ``` ## # A tibble: 2 × 7 ## genero mu_hat s2 n se ci_inf ci_sup ## <chr> <dbl> <dbl> <int> <dbl> <dbl> <dbl> ## 1 Hombre 588281. 499905824788. 326 39159. 511528. 665033. ## 2 Mujer 368070. 204687826566. 248 28729. 311761. 424379. ``` ] --- ### Superposición de intervalos de confianza Graficamente, .center[ <!-- --> ] --- ### Superposición de intervalos de confianza <br> PERO .... --  -- * No del todo cierto, pero tiene un punto importante --- ### Superposición de intervalos de confianza Queremos saber si `\(\hat{\mu}_{H}\)` es significativamente .bold[mayor] que `\(\hat{\mu}_{M}\)`. .pull-left[ .bold[Intervalos de confianza sobrepuesto] <!-- --> ] .pull-right[ <br> Implicitamente esto evaluando si, `\((\hat{\mu}_{H} - Z_{\alpha/2} \cdot \sigma_{H}/\sqrt{n_H}) - (\hat{\mu}_{M} + Z_{\alpha/2} \cdot \sigma_{2}/\sqrt{n_M}) > 0\)` <br> es decir, si `\((\hat{\mu}_{H} - \hat{\mu}_{M}) - Z_{\alpha/2} \cdot (\sigma_{H}/\sqrt{n_H} + \sigma_{M}/\sqrt{n_M}) > 0\)` ] <br> -- En cambio, si construyeramos un .bold[intervalos de confianza/ test de hipótesis para la diferencia], estariamos evaluando si: `$$(\hat{\mu}_{H} - \hat{\mu}_{M}) \pm Z_{\alpha/2} \cdot \sqrt{(\sigma^{2}_{H}/n_H + \sigma^{2}_{M}/n_M)} > 0$$` --- ### Superposición de intervalos de confianza .pull-left[  ] .pull-right[ Dado que: `$$\frac{\sigma_{H}}{\sqrt{n_H}} + \frac{\sigma_{M}}{\sqrt{n_M}} > \sqrt{\frac{\sigma^{2}_{H}}{n_H} + \frac{\sigma^{2}_{M}}{n_M}}$$` <br> evaluar la superposición de intervalos de confianza no siempre garantiza una decisión correcta: - **Si los intervalos no se superponen**, el intervalo para la diferencia no contiene cero, por lo que **rechazamos** `\(H_0\)` ✅.💪🏾 - **Si los intervalos se superponen**, el intervalo para la diferencia no necesariamente contiene cero, lo que significa que **no podemos estar seguros** de si debemos rechazar o no `\(H_0\)`️ 🤷♀🤔️ . ] --- class: inverse, center, middle ##Hasta la próxima clase. Gracias! <br> Mauricio Bucca <br> https://mebucca.github.io/ <br> github.com/mebucca