Probabilidad e Inferencia Estadística

class: center, middle, inverse, title-slide

.title[
# Probabilidad e Inferencia Estadística
]
.subtitle[
## Intervalos de Confianza
]
.author[
### Mauricio Bucca <a href="https://github.com/mebucca">github.com/mebucca</a> <a href="mailto:mebucca@uc.cl" class="email">mebucca@uc.cl</a>
]

---

class: inverse, center, middle

# Intervalos de Confianza para
## medias y proporciones muestrales

---
##Intervalos de confianza

El intervalo de confianza `$\bar{X} \pm Z_{(\alpha/2)} \cdot \sigma_{\bar{X}}$` al `$100 \cdot (1 - \alpha) \%$` de confianza para el estimador `$\bar{X}_{n}$` es el intervalo tal que:

.content-box-primary[
`$$\color{white}{\mathbb{P}\bigg( \bar{X} - Z_{(\alpha/2)} \cdot \sigma_{\bar{X}} < \mu < \bar{X} + Z_{(\alpha/2)} \cdot \sigma_{\bar{X}} \bigg) = 1 - \alpha}$$`
]

--

En palabras, un intervalo de confianza de este tipo indica que:

.content-box-secondary[
`$\color{black}{1-\alpha \quad \text{es la probabilidad de que un intervalo entre } \bar{X} -  Z_{(\alpha/2)} \cdot \sigma_{\bar{X}} \quad \text{y} \quad  \bar{X} + Z_{(\alpha/2)}\cdot \sigma_{\bar{X}} \\ \text{contenga la media poblacional } \mu}$`

]

El intervalo es aleatorio, no `$\mu$`.

---
##Intervalos de confianza

.bold[Intervalos de Confianza comunmente usados:]

|      Nivel de significancia (α)      |   Nivel de confianza   | Valor crítico  `$Z_{\alpha/2}$` |   Expresión en R   |
|:------------------------------------:|:----------------------:|:-------------------------------:|:------------------:|
|                 0.01                 |          99%           |               2.58               | `qnorm(0.995)`     |
|                 0.05                 |          95%           |               1.96               | `qnorm(0.975)`     |
|                 0.10                 |          90%           |               1.64               | `qnorm(0.95)`      |

--

.bold[Trade-off entre precisión y confianza]

`$$IC: \bar{X} \pm Z_{(\alpha/2)} \cdot \sigma/\sqrt{n}$$`

- `$\downarrow  \alpha\implies \uparrow Z_{\alpha/2}$`: Un nivel de confianza más altoo (mayor seguridad de que intervalo contiene el parámetro poblacional) conduce a un intervalo de confianza más amplio (menor precisión).

- `$\downarrow Z_{\alpha/2}  \implies \uparrow \alpha$`: Un intervalo más preciso (menor el rango de valores en qu se encuentraría el parámetro poblacional) conlleva un nivel de confianza más bajo.

-  `$\uparrow n \implies$` intervalo más estrecho. `$\uparrow \sigma \implies$` intervalo más ancho.

---
class: inverse, center, middle

#Intervalos de confianza
##Ejemplo

---
##Las mujeres en el mercado laboral

.pull-left[
![women](https://www.bls.gov/opub/reports/womens-databook/2020/image/main-image.png)
]
.pull-right[
![goldin](https://cdn.corrieredellosport.it/img/990/495/2023/10/09/181036087-9d1453e1-65e2-43be-a2be-c42861da4f93.jpg)

]

---
##Promedio de ingreso mujeres

.center[

```
## # A tibble: 513 × 6
## region sexo edad educ ingreso univ
## <int> <int> <int> <int> <int> <dbl>
## 1 2 2 6 1 NA NA
## 2 13 2 28 6 NA 0
## 3 4 2 56 3 NA 0
## 4 5 2 47 6 180000 0
## 5 13 2 69 1 145000 0
## 6 10 2 0 0 NA NA
## 7 13 2 59 8 500000 0
## 8 4 2 28 8 330000 0
## 9 9 2 30 11 652533 1
## 10 9 2 36 5 95000 0
## 11 15 2 24 7 60000 NA
## 12 5 2 43 5 2083 0
## 13 13 2 17 3 NA NA
## 14 14 2 21 9 NA NA
## 15 14 2 86 11 450000 1
## 16 1 2 36 1 265000 0
## 17 2 2 27 3 NA NA
## 18 7 2 20 9 NA NA
## 19 8 2 72 7 245874 0
## 20 8 2 28 5 350000 0
## # ℹ 493 more rows
```
]

---
##Promedio de ingreso mujeres

``` r
#i. Calcula media muestral

*mu_muestra <- mean(casen2017_mujeres$ingreso, na.rm=T)

cat("Media muestral:", mu_muestra)
```

```
## Media muestral: 368070.1
```

.bold[Instrucción:] Calcula un intervalo al 99% de confianza y otro al 90%.

* Supongamos que la desviación estándard en la población es conocida:  `$\sigma = 583454$`

---
##Promedio de ingreso mujeres, IC al 99%

``` r
#ii. Decidir nivel de confianza
conf <- 0.99; alpha <- 1 - conf

#iii. Calcular valores críticos
z_inf <- qnorm(alpha/2)
z_sup <- qnorm(1 - alpha/2)

#iv. Calcular error estándard del promedio muestal
sigma_poblacion <- 583454 # desviación estándar ingreso de mujeres en la población.
n <- sum(!is.na(casen2017_mujeres$ingreso)) #cuenta observaciones (sin NAs) en ingreso
ee <- sigma_poblacion/sqrt(n)

#v. Calcular limites del intervalo de confianza:
ic_inf = mu_muestra + z_inf*ee 
ic_sup = mu_muestra + z_sup*ee

cat("Intervalo al", 100*conf, "% de confianza: (",ic_inf,",",ic_sup,")")
```

```
## Intervalo al 99 % de confianza: ( 272637.2 , 463502.9 )
```

---
##Promedio de ingreso mujeres, IC al 90%

``` r
#ii. Decidir nivel de confianza
conf <- 0.90; alpha <- 1 - conf

#iii. Calcular valores críticos
z_inf <- qnorm(alpha/2)
z_sup <- qnorm(1 - alpha/2)

#v. Calcular limites del intervalo de confianza:
ic_inf = mu_muestra + z_inf*ee 
ic_sup = mu_muestra + z_sup*ee

cat("Intervalo al", 100*conf, "% de confianza: (",ic_inf,",",ic_sup,")")
```

```
## Intervalo al 90 % de confianza: ( 307129.3 , 429010.8 )
```

---
class: inverse, center, middle

##Intervalos de Confiaza para proporciones

---
##Estimación de una proporción

.bold[Situación:]

- `$X$` es una variable dicotómica (0/1) que sigue una distribución Bernoulli con probabilidad de éxito `$\mathbb{P}(X=1)=p$`.

- Tomamos una muestra aleatoria de tamaño `$n$` a partir de la población.

- Usamos la proporción muestral `$\hat{p} = \frac{\sum_{i=1}^{n}X_{i}}{n}$` como un estimador de la problabilidad de éxito en la población.
--

- `$\hat{p} \equiv \bar{X}$`

- ¿Cual es la distribución muestral de `$\hat{p}$`?. Es decir: Si repetimos el proceso de muestreo y estimación muchas veces, `$\hat{p}$` variará de una muestra a otra. ¿Cual es la distribución de todas estas proporciones muestrales?

---
## *Detour*: valor esperado y varianza de una variable Bernoulli

- Cuando estimados una proporción asumimos que cada observación es la manifestación de una variable aleatoria Bernoulli.

- Para determinar la distribución muestral de una proporción vamos a necesitar conocer el valor esperado y la varianza de una variable Bernoulli.

.pull-left[
.bold[Valor esperado] de una Bernoulli:

`\begin{align}
\mathbb{E}(X) = \sum_{i} x_{i} \times \mathbb{P}(X=x_{i}) &= \sum_{i} x_{i} \times p^{x_{i}}(1-p)^{1 - x_{i}} \\ 
     &= 1 \times p + 0 \times (1-p) \\ 
     &= p
\end{align}`
]

.pull-right[
.bold[Varianza] de una Bernoulli:

`\begin{align}
\mathbb{Var}(X) &= \sum_{i} \bigg( x_{i} - \mathbb{E}(X) \bigg)^{2} \times \mathbb{P}(X=x_{i})  \\ \\
 &= (1 - \mathbb{E}(X))^{2} \times \mathbb{P}(X=1) + (0 - \mathbb{E}(X))^{2} \times \mathbb{P}(X=0) \\ \\
 &= (1 - p)^{2} \times p +  (0 - p)^{2} \times (1-p) \\ \\
 &=p (1-p)
\end{align}`
]

* .bold[Varianza máxima] cuando `$p=0.5 \implies p(1-p)=0.25$`

---
##Distribución muestral de `$\hat{p}$`

- Nos preguntamos por el valor esperado y varianza de la proporción muestral.

- La proporción muestral es: `$\hat{p}_{n}=  \frac{\sum_{i=1}^{n}X_{i}}{n} \equiv \bar{X}$`, donde las `$X$`'s son Bernoulli y .bold[iid].

.pull-left[
`\begin{align}
\mathbb{E}(\hat{p}_{n}) &= \mathbb{E}\bigg(\frac{1}{n} \sum^{n}_{i=1} X_{i} \bigg) = \frac{1}{n}\mathbb{E}\big( X_{1}  + \cdots + X_{n} \big)\\ \\
&=\frac{1}{n}\big( \mathbb{E}(X_{1}) +  \cdots  + \mathbb{E}(X_{n})\big) \\ \\
&=\frac{1}{n}\big( p + \cdots + p \big) = \frac{1}{n}\big( n \cdot p \big) \\ \\
&=p
\end{align}`
]

.pull-rigth[
`\begin{align}
\text{Var}(\hat{p}_{n}) &= \text{Var}\bigg(\frac{1}{n} \sum^{n}_{i=1} X_{i} \bigg) =  \frac{1}{n^2} \text{Var}\bigg( \sum^{n}_{i=1} X_{i} \bigg)  \\ \\
&=\frac{1}{n^2}\big( \text{Var}(X_{1}) +  \cdots + \text{Var}(X_{n})\big) \\ \\
&=\frac{1}{n^2}\big( p(1-p) + \cdots + p(1-p) \big) \\ \\
&=\frac{1}{n^2}\big( n \cdot p(1-p) \big) \\ \\
&=\frac{p(1-p)}{n} \implies \quad \sqrt{\text{Var}(\hat{p}_{n})} = \frac{\sqrt{p(1-p)}}{\sqrt{n}}
\end{align}`
]

---
##Distribución muestral de `$\hat{p}$`

En resumen, `$\hat{p}_{n}$` es un estimados insesgado y consitente de `$p$`.

- `$\mathbb{E}(\hat{p}_{n}) = p$`

- `$\sqrt{\text{Var}(\hat{p}_{n})} = \frac{\sqrt{p(1-p)}}{\sqrt{n}}$`

- ¿Cual es la distribución de `$\hat{p}_{n}$`?. 
--
También en este caso aplica el TLC. Para `$n$` suficientente grande:

--

.pull-left[
.content-box-secondary[
`$$\color{black}{\hat{p} \overset{d}{\to}
 \text{Normal}\Bigg(p, \frac{\sqrt{p(1-p)}}{\sqrt{n}}\Bigg)}$$`
]
]

.pull-right[
.content-box-secondary[
`$$\color{black}{ \frac{\hat{p} - p}{\sqrt{p(1-p)}/\sqrt{n}}  \sim
 \text{Normal}(0, 1)}$$`
]
]

--

- Típicamente se considera "grande" si `$n\cdot p >  5$`  y `$n\cdot (1-p) > 5$`

---
##Intervalos de confianza para una proporción muestral

Un intervalo de confianza al `$100 \cdot (1 - \alpha) \%$` para el estimador `$\hat{p}_{n}$` está dado por:

.content-box-secondary[
`$$\color{black}{\mathbb{P}\bigg( \hat{p} - Z_{(\alpha/2)} \cdot \sigma_{\hat{p}} < p < \hat{p} + Z_{(\alpha/2)} \cdot \sigma_{\hat{p} } \bigg) = 1 - \alpha}$$`
]

donde:

- `$\sigma_{\hat{p}}= \sqrt{p(1-p)}/\sqrt{n}$`

- `$-Z_{\alpha/2} = \Phi^{-1}(\alpha/2)$`

- `$\quad Z_{\alpha/2} = \Phi^{-1}(1 - \alpha/2)$`

---
##Proporción de mujeres con grado universitario
###*(mayores de 27)

``` r
#i. Calcula proporción muestral

*p_muestra <- mean(casen2017_mujeres$univ, na.rm=T)

cat("Proporción muestral:", p_muestra)
```

```
## Proporción muestral: 0.1217949
```

.bold[Instrucción:] Calcula un intervalo al 99% de confianza y otro al 90%.

---
##Proporción de mujeres con grado universitario, IC al 99%

``` r
#ii. Decidir nivel de confianza
conf <- 0.99; alpha <- 1 - conf

#iii. Calcular valores críticos
z_inf <- qnorm(alpha/2)
z_sup <- qnorm(1 - alpha/2)

#iv. calcula error estándard
n <- sum(!is.na(casen2017_mujeres$univ)) #cuenta observaciones (sin NAs) en univ
ee <- sqrt(p_muestra*(1-p_muestra))/sqrt(n)

#v. Calcular limites del intervalo de confianza:
ic_inf = p_muestra + z_inf*ee 
ic_sup = p_muestra + z_sup*ee

cat("Intervalo al", 100*conf, "% de confianza: (",ic_inf,",",ic_sup,")")
```

```
## Intervalo al 99 % de confianza: ( 0.07410213 , 0.1694876 )
```

---
##Proporción de mujeres con grado universitario, IC al 90%

``` r
#ii. Decidir nivel de confianza
conf <- 0.90; alpha <- 1 - conf

#iii. Calcular valores críticos
z_inf <- qnorm(alpha/2)
z_sup <- qnorm(1 - alpha/2)

#iv. calcula error estándard
n <- sum(!is.na(casen2017_mujeres$univ)) #cuenta observaciones (sin NAs) en univ
ee <- sqrt(p_muestra*(1-p_muestra))/sqrt(n)

#v. Calcular limites del intervalo de confianza:
ic_inf = p_muestra + z_inf*ee 
ic_sup = p_muestra + z_sup*ee

cat("Intervalo al", 100*conf, "% de confianza: (",ic_inf,",",ic_sup,")")
```

```
## Intervalo al 90 % de confianza: ( 0.0913396 , 0.1522501 )
```

---
class: inverse, center, middle

##Hasta la próxima clase. Gracias!

Mauricio Bucca 
https://mebucca.github.io/ 
github.com/mebucca