Probabilidad e Inferencia Estadística

class: center, middle, inverse, title-slide

.title[
# Probabilidad e Inferencia Estadística
]
.subtitle[
## Test de Hipótesis en dos muestras
]
.author[
### Mauricio Bucca <a href="https://github.com/mebucca">github.com/mebucca</a> <a href="mailto:mebucca@uc.cl" class="email">mebucca@uc.cl</a>
]

---

class: inverse, center, middle

# Test de Hipótesis en dos muestras

---
## Brechas de ingresos entre hombres y mujeres

.pull-left[
![women](https://wbhm.org/wp-content/uploads/2023/10/gettyimages-2666616-930494094c2bc07b528ff36d8b481f35c097fb14-2-800x450.jpg)
]
.pull-right[
![goldin](https://cdn.corrieredellosport.it/img/990/495/2023/10/09/181036087-9d1453e1-65e2-43be-a2be-c42861da4f93.jpg)

]

---
## Brechas de ingresos entre hombres y mujeres

- .bold[¿Existe una brecha de ingresos entre hombres y mujeres?]

- En otras palabras, ¿existe asociación entre ingresos y género?

--

.pull-left[

``` r
results <- casen2017 %>% group_by(genero) %>% 
 summarise(promedio_ingresos = 
 mean(ingreso, na.rm = T),
 n = sum(!is.na(ingreso)) ); results 
```

```
## # A tibble: 2 × 3
## genero promedio_ingresos n
## <chr> <dbl> <int>
## 1 Hombre 588281. 326
## 2 Mujer 368070. 248
```
]

.pull-right[
  ![gwg](https://d26oc3sg82pgk3.cloudfront.net/files/media/edit/image/31933/square_thumb%402x.jpg)
]

---
## Brechas de ingresos entre hombres y mujeres

.bold[Paso #1: Expresar pregunta en términos de Hipótesis Nula e Hipótesis Alternativa]

--

.bold[Hipótesis Nula]: "La media de ingreso de las mujeres es igual a la de los hombres".

- `$H_0: \underbrace{\mathbb{E}(X \mid \text{Hombre})}_{\mu_H} = \underbrace{\mathbb{E}(X \mid \text{Mujer})}_{\mu_M} \implies  \mathbb{E}(X \mid \text{Hombre}) - \mathbb{E}(X \mid \text{Mujer}) = 0$`

--

.bold[Hipótesis Alternativa]: "La media de ingreso de las mujeres es distinta de la de los hombres".

- `$H_a: \underbrace{\mathbb{E}(X \mid \text{Hombre})}_{\mu_H} \neq \underbrace{\mathbb{E}(X \mid \text{Mujer})}_{\mu_M} \implies  \mathbb{E}(X \mid \text{Hombre}) - \mathbb{E}(X \mid \text{Mujer}) \neq 0$`

--

.bold[Paso #2: Elegir y calcular un estadístico]

El estadístico natural es la diferencia entre ambas medias muestrales:

.pull-left[
- `$\bar{X}_{H} = \hat{\mu}_{H}=$` 588281

- `$\bar{X}_{M} = \hat{\mu}_{M}=$` 368070

]

.pull-right[
- `$(\bar{X}_{H} - \bar{X}_{M}) = (\hat{\mu}_{H} - \hat{\mu}_{M})=$` 220211
]

---
## Brechas de ingresos entre hombres y mujeres

.bold[Paso #3: Determinar la Distribución Nula]

- Por el TLC sabemos que: 
    
    - `$\bar{X}_{H}  \sim \text{Normal}\big(\mu_H, \frac{\sigma_H}{\sqrt{n_H}}\big)$`
    
    - `$\bar{X}_{M}  \sim \text{Normal}\big(\mu_M, \frac{\sigma_M}{\sqrt{n_M}}\big)$`

--

Por tanto,

.pull-left[
`$(\bar{X}_{H} - \bar{X}_{M}) \sim \dots$` 
]

.pull-right[
<img src="https://media4.giphy.com/media/cg3hGL5fbON3AIVPm7/giphy.gif" alt="sadpug" width="370" height="250">

]

---
## Brechas de ingresos entre hombres y mujeres

.bold[Paso #3: Determinar la Distribución Nula]

Por tanto,

.pull-left[
`$(\bar{X}_{H} - \bar{X}_{M}) \sim \dots$` 
]

.pull-right[
<img src="https://media.tenor.com/DWQneUNAlycAAAAd/pug-pugs.gif" alt="cooldpug" width="370" height="240">

]

---
## Brechas de ingresos entre hombres y mujeres

.pull-left[
`$(\bar{X}_{H} - \bar{X}_{M}) \sim \dots$` 
]

.pull-right[
.content-box-secondary[

Recordar, si `$W$` e `$Y$` son normales independientes:

- `$W \pm Y \sim \text{Normal}$`

- `$\mathbb{E}(W \pm Y) = \mathbb{E}(W) \pm \mathbb{E}(Y)$`

- `$\mathbb{Var}(W \pm Y) = \mathbb{Var}(W) + \mathbb{Var}(Y)$`

]
]

--

Por tanto, `$(\bar{X}_{H} - \bar{X}_{M}) =  \text{Normal}\big(\mu_H, \frac{\sigma_H}{\sqrt{n_H}}\big) -  \text{Normal}\big(\mu_M, \frac{\sigma_M}{\sqrt{n_M}}\big) \sim  \text{Normal}\Bigg(\mu_H - \mu_M, \sqrt{\frac{\sigma^{2}_H}{n_H} + \frac{\sigma^{2}_M}{n_M}} \quad \Bigg)$`

--

Luego, si `$H_0$` es verdadera (la media de ingreso de las mujeres es igual a la de los hombres):

`$$(\bar{X}_{H} - \bar{X}_{M}) \mid H_0 \sim \text{Normal}\Bigg(0, \sqrt{\frac{\sigma^{2}_H}{n_H} + \frac{\sigma^{2}_M}{n_M}} \quad \Bigg)$$`
---
## Brechas de ingresos entre hombres y mujeres

`$$(\bar{X}_{H} - \bar{X}_{M}) \mid H_0 \sim \text{Normal}\Bigg(0, \sqrt{\frac{\sigma^{2}_H}{n_H} + \frac{\sigma^{2}_M}{n_M}} \quad \Bigg)$$`
--

Estandarizando, `$Z_{H-W} \mid H_0 \sim \text{Normal}\big(0,1)$`

- `$\hat{z} \mid H_0 = \frac{(\hat{\mu}_{H} - \hat{\mu}_{M}) - 0 }{\sqrt{\frac{\sigma^{2}_H}{n_H} + \frac{\sigma^{2}_M}{n_M}}}$`

No conocemos las varianzas poblacionales, por tanto debemos estimarlas ( `$s^{2}_H$` y `$s^{2}_M$` )

.pull-left[

``` r
stats <- casen2017 %>% group_by(genero) %>% 
 summarise(mu_hat = mean(ingreso, na.rm = T),
 s2 = var(ingreso, na.rm = T),
 n = sum(!is.na(ingreso)) ) 
```

```
## # A tibble: 2 × 4
## genero mu_hat s2 n
## <chr> <dbl> <dbl> <int>
## 1 Hombre 588281. 499905824788. 326
## 2 Mujer 368070. 204687826566. 248
```
]

.pull-right[

``` r
numerador <- stats %>%
 with(mu_hat[1] - mu_hat[2])

denominador <- stats %>% 
 with( sqrt(s2[1]/n[1] + s2[2]/n[2]) )

z_hat <- numerador/denominador
print(z_hat)
```

```
## [1] 4.534111
```
]

---
## Brechas de ingresos entre hombres y mujeres

--

.bold[Paso #4: Elegir un nivel de significación] `$\alpha$`

- Vamos trabajar a un nivel de significación de 5%, `$\alpha=0.05$`.

--

.bold[Paso #5: Calcular el valor-p]

- `$\text{valor-p} = \mathbb{P}( \bar{X}_{H} - \bar{X}_{M} > | \hat{\mu}_{H} - \hat{\mu}_{M} | \mid H_{0)}$`

- equivalentemente: `$\text{valor-p} = \mathbb{P}\Bigg( Z >   \Bigg| \frac{(\hat{\mu}_{H} - \hat{\mu}_{M}) - 0}{\sqrt{\frac{\sigma^{2}_H}{n_H} + \frac{\sigma^{2}_M}{n_M}}} \Bigg|  \Bigg)$`

--
En nuestro caso:

``` r
pvalue =  2*(1 - pnorm(z_hat))

cat("z_hat=",round(z_hat,2), " valor-p=", pvalue, sep="")
```

```
## z_hat=4.53 valor-p=0.000005784671
```

---
## Brechas de ingresos entre hombres y mujeres

.bold[Paso #6: Mantener o Rechazar la Hipótesis Nula]

- Comparamos -- bajo el supuesto de que `$H_0$` es verdadera --  la probabilidad de obtener el resultado que obtuvimos o uno más extremo (valor-p) vs. el criterio seleccionado para clasificar resultados como "extremos" ( `$\alpha$` ).

.bold[Decisión:]

- Si `$\text{valor-p} < \alpha$` entonces rechazamos `$H_{0}$`

- Si `$\text{valor-p} > \alpha$` no podemos rechazar `$H_{0}$`

--

En este caso:

```
## 𝛼=0.05; valor-p=0.000005784671
```

.bold[Conclusión:]

Con un nivel de significación del 5% (o 99% de confianza) podemos rechazar la hipótesis nula de que el salario promedio de hombres y mujeres es el mismo. Nuestro resultado sugiere que el salario promedio de los hombres es significativamente mayor que el de las mujeres.

---
class: inverse, center, middle

## Superposición de intervalos de confianza

---
### Superposición de intervalos de confianza

- Un método alternativo para testear si hay diferencias estadísticamente significativas entre dos medias o dos proporciones es buscar

- Continuando con nuestro ejemplo:

.pull.left[

``` r
stats <- stats %>%
 mutate(
 se = sqrt(s2) / sqrt(n), 
 ci_inf = mu_hat - 1.96 * se, 
 ci_sup = mu_hat + 1.96 * se 
 )
```
]

.pull.left[

```
## # A tibble: 2 × 7
## genero mu_hat s2 n se ci_inf ci_sup
## <chr> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 Hombre 588281. 499905824788. 326 39159. 511528. 665033.
## 2 Mujer 368070. 204687826566. 248 28729. 311761. 424379.
```
]

---
### Superposición de intervalos de confianza

Graficamente,

.center[
![](class_19_files/figure-html/unnamed-chunk-11-1.png)
]

---
### Superposición de intervalos de confianza

PERO ....

![overlapping](overlapping.png)
--

* No del todo cierto, pero tiene un punto importante

---
### Superposición de intervalos de confianza

Queremos saber si `$\hat{\mu}_{H}$` es significativamente .bold[mayor] que `$\hat{\mu}_{M}$`.

.pull-left[
.bold[Intervalos de confianza sobrepuesto]

![](class_19_files/figure-html/unnamed-chunk-12-1.png)

]

.pull-right[

Implicitamente esto evaluando si,

`$(\hat{\mu}_{H} - Z_{\alpha/2} \cdot \sigma_{H}/\sqrt{n_H}) - (\hat{\mu}_{M} + Z_{\alpha/2} \cdot \sigma_{2}/\sqrt{n_M}) > 0$`

es decir, si

`$(\hat{\mu}_{H} - \hat{\mu}_{M}) -  Z_{\alpha/2} \cdot (\sigma_{H}/\sqrt{n_H} + \sigma_{M}/\sqrt{n_M}) > 0$`
]

--

En cambio, si construyeramos un .bold[intervalos de confianza/ test de hipótesis para la diferencia], estariamos evaluando si:

`$$(\hat{\mu}_{H} - \hat{\mu}_{M}) \pm  Z_{\alpha/2} \cdot \sqrt{(\sigma^{2}_{H}/n_H + \sigma^{2}_{M}/n_M)} > 0$$`

---
### Superposición de intervalos de confianza

.pull-left[
![pyth](pyth.jpg)
]

.pull-right[
Dado que:

`$$\frac{\sigma_{H}}{\sqrt{n_H}} + \frac{\sigma_{M}}{\sqrt{n_M}} > \sqrt{\frac{\sigma^{2}_{H}}{n_H} + \frac{\sigma^{2}_{M}}{n_M}}$$`

evaluar la superposición de intervalos de confianza no siempre garantiza una decisión correcta:

- **Si los intervalos no se superponen**, el intervalo para la diferencia no contiene cero, por lo que **rechazamos** `$H_0$` ✅.💪🏾

- **Si los intervalos se superponen**, el intervalo para la diferencia no necesariamente contiene cero, lo que significa que **no podemos estar seguros** de si debemos rechazar o no `$H_0$`️ 🤷‍♀🤔️ .

]

---
class: inverse, center, middle

##Hasta la próxima clase. Gracias!

Mauricio Bucca 
https://mebucca.github.io/ 
github.com/mebucca