Probabilidad e Inferencia Estadística

class: center, middle, inverse, title-slide

.title[
# Probabilidad e Inferencia Estadística
]
.subtitle[
## Asociación entre variables continuas
]
.author[
### Mauricio Bucca <a href="https://github.com/mebucca">github.com/mebucca</a> <a href="mailto:mebucca@uc.cl" class="email">mebucca@uc.cl</a>
]

---

class: inverse, center, middle

# Asociación entre variables continuas
## Correlación de Pearson

---
## Brechas de ingresos entre hombres y mujeres

.pull-left[
![women](https://wbhm.org/wp-content/uploads/2023/10/gettyimages-2666616-930494094c2bc07b528ff36d8b481f35c097fb14-2-800x450.jpg)
]
.pull-right[
![goldin](https://cdn.corrieredellosport.it/img/990/495/2023/10/09/181036087-9d1453e1-65e2-43be-a2be-c42861da4f93.jpg)

]

---
## Retornos a la educación para hombres y mujeres

.center[

![](class_25_files/figure-html/unnamed-chunk-2-1.png)
]

--

- ¿Existe una asociación entre los años de escolaridad y los ingresos?

- ¿Varía esta asociación por género?

---
## Asociación entre variables continuas

.bold[Independencia (no asociación)]

.center[

![](class_25_files/figure-html/unnamed-chunk-3-1.png)
]

- Dado un valor en una variable, los valores de la otra varían ampliamente.

- Es decir: sabiendo algo sobre una variable no se nada sobre la otra.

---
## Asociación entre variables continuas

.pull-left[
.bold[Asociación positiva]

.center[
![](class_25_files/figure-html/unnamed-chunk-4-1.png)
]
]

.pull-right[

.bold[Aociación perfecta (e=mc^2)]

.center[
![](class_25_files/figure-html/unnamed-chunk-5-1.png)
]
]

- Dado un valor en una variable, los valores de la otra variable varías poco (o nada).

- Es decir: sabiendo algo sobre una variable se algo (o todo) sobre la otra.

---
class: inverse, center, middle

#Covarianza

---
##Covarianza

--

- Hasta ahora hemos trabajado principalmente con variables aleatorias independiente, `$Y \perp X$`.

- Dos variable aleatorias son dependiente entre si `$\mathbb{P}(Y \mid X ) \neq \mathbb{P}(Y)$`, y viceversa.

- Otra forma de persona la dependencia es en términos de co-variabilidad entre dos variables aleatorias.

--

La .bold[covarianza] mide la dependencia (lineal*) entre dos variables aleatorias. Formalmente:

.content-box-secondary[
`$$\color{white}{\mathbb{Cov}(X, Y) = \mathbb{E}[ \ (X - \mathbb{E}[X]) \ (Y - \mathbb{E}[Y]) \ ]}$$`
]

--

En promedio, ¿cuánto y cómo se desvía `$X$` respecto de su media, cuando `$Y$` se desvía de la suya?

---
##Covarianza

.center[

![](class_25_files/figure-html/unnamed-chunk-6-1.png)

]

- .bold[Cov(esc,log-ingreso) | Hombre] = 1.8612011

- .bold[Cov(esc,log-ingreso) | Mujer] = 2.1777403

---
##Interpretación de la covarianza

La covarianza se puede interpretar de la siguiente manera:
 
 
 
 - .bold[Covarianza positiva]: X e Y tienden a aumentar o disminuir juntas.
 
 - .bold[Covarianza negativa]: X aumenta cuando Y disminuye y viceversa.
 
 - .bold[Covarianza cero]: No hay relación lineal.

---
##Propiedades de la covarianza

- .bold[Covarianza de variables independientes]- Si dos variables aleatorias `$X$` e `$Y$` son independientes, entonces

`$$\mathbb{Cov}(X, Y) = 0$$`

- .bold[Covarianza de variable perfectamente dependientes] (consigo misma)

`$$\mathbb{Cov}(X, X) = \text{Var}(X)$$`

- .bold[Covarianza con una Constante]

`$$\mathbb{Cov}(X, a) = 0$$`
   
--

- .bold[Aditividad]

`$$\mathbb{Cov}(X + Y, Z) = \mathbb{Cov}(X, Z) + \mathbb{Cov}(Y, Z)$$`

- .bold[Multiplicación por una constante]

`$$\mathbb{Cov}(aX, Y) = a \cdot \mathbb{Cov}(X, Y)$$`

---
##Estimación de la covarianza

Podemos estimar la covianza a partir de datos muestrales usando la siguiente fórmula

`$$s_{XY} = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{n-1}$$`

--

- `$s_{XY}$` es un estimador insesgado de `$\mathbb{Cov}(X, Y)$`.

---
## Problema de interpretación de la covariana

- Supongamos que la asociación entre escolariadad e ingresos es la misma para hombres y para mujeres

- Supongamos que el ingreso de los hombres es el doble que el de las mujeres: `$Y_h = 2 \times Y_m$`

- Supongamos que la escolaridad de los hombres es un 75% que la de las mujeres:s: `$E_h = 0.75  \times E_m$`

.pull-left[
.bold[Hombres]

.center[
![](class_25_files/figure-html/unnamed-chunk-7-1.png)
]
]

.pull-right[

.bold[Mujeres]

.center[
![](class_25_files/figure-html/unnamed-chunk-8-1.png)
]
]

---
## Problema de interpretación de la covariana

- Si `$Y_h = 2 \times Y_m \quad$` y  `$\quad E_h = 0.75  \times E_m$`

--

`$$\color{blue}{\mathbb{Cov}(E_h, Y_h)} = \mathbb{Cov}( 0.75 \times E_m, 2 \times Y_m) = \color{red}{0.75  \times  2} \times \color{blue}{\mathbb{Cov}(E_m, Y_m)}$$`

--

- .bold[Cov(esc,log-ingreso) | Hombre] = 90.1150216

- .bold[Cov(esc,log-ingreso) | Mujer] = 60.076681

.bold[Problema de interpretabilidad:] La covarianza combina dos cosas:

- La fuerza de la asociación entre las variables

- La escala de dichas variables

- Por tanto, el número obtenido no indica inequivocamente la fuerza de la asociación

---
class: inverse, center, middle

#Correlación de Pearson

---
##Correlación de Pearson

- ¿Cómo podemos medir el grado de asociación entre dos variables, libre de sus escala?

- .bold[Solución:] Estandarizar. En vez de calcular `$\mathbb{Cov}(X, Y)$` calculamos `$\mathbb{Cov}(Z_X, Z_Y)$`. Formalmente,

--

$$
`\begin{align}
\mathbb{Cov}(Z_X, Z_Y) &= \mathbb{E}[ \ (Z_X - \mathbb{E}[Z_X]) \ (Z_Y  - \mathbb{E}[Z_Y]) \ ] \\ \\
&= \mathbb{E}[ \ Z_X \ Z_Y \ ] \\ \\
&= \mathbb{E}\Bigg[ \   \frac{(X - \mathbb{E}[X])}{\sqrt{\mathbb{Var}[X]}}  \ \frac{(Y - \mathbb{E}[Y])}{\sqrt{\mathbb{Var}[Y]}} \  \Bigg] \\ \\
&=  \frac{\mathbb{Cov}(X, Y)}{\sqrt{\mathbb{Var}[X]}\sqrt{\mathbb{Var}[Y]}}
\end{align}`
$$

---
##Correlación de Pearson

$$
`\begin{align}
\mathbb{Cov}(Z_X, Z_Y) =  \frac{\mathbb{Cov}(X, Y)}{\sqrt{\mathbb{Var}[X]}\sqrt{\mathbb{Var}[Y]}}
\end{align}`
$$

--

El .bold[Coeficiente de Correlación de Pearson] se define como:

.content-box-secondary[
`$$\color{white}{\rho_{XY}:  \mathbb{Corr}(X, Y) =  \frac{\mathbb{Cov}(X, Y)}{\sigma_X \sigma_Y}}$$`
]

---
## Interpretación del Coeficiente de Correlación

--

- `$\rho \in [-1,1]$`: varía entre -1 y +1 y mide la fuerza y dirección de una relación lineal entre dos variables.

--

- `$\rho > 0$` indica una relación positiva entre las variables; a medida que una aumenta, la otra tiende a aumentar también. Un valor cercano a +1 implica una fuerte correlación positiva.

--

- `$\rho < 0$` señala una relación negativa; cuando una variable aumenta, la otra tiende a disminuir. Un valor cercano a -1 indica una fuerte correlación negativa.

--

- `$\rho = 0$` indica ugiere que no hay asociación lineal entre las variables. Los valores que se acercan a cero indican una débil o nula correlación lineal.

---
## Estimación del Coeficiente de Correlación

Podemos estimar el coeficiente de correlación a partir de datos muestrales utilizando la siguiente fórmula:

`$$r_{XY} = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n} (X_i - \bar{X})^2 \sum_{i=1}^{n} (Y_i - \bar{Y})^2}}$$`

donde

- `$r_{XY}$` es el coeficiente de correlación muestral entre las variables X e Y.

- `$\bar{X}$` y `$\bar{Y}$` son las medias de las muestras de X e Y, respectivamente.

- `$n$` es el número de observaciones en las muestras.

---
##Correlación de Pearson

.center[

![](class_25_files/figure-html/unnamed-chunk-9-1.png)

]

- .bold[Corr(esc,log-ingreso) | Hombre] = 0.4682563

- .bold[Corr(esc,log-ingreso) | Mujer] = 0.4653663

---
##Correlación Lineal de Pearson

.bold[Importante]: La covarianza y correlación miden el grande de .bold[asociación lineal].

- Una correlación baja o nula no indica necesariamente falta de asociación.

.pull-left[
.bold[Asociación positiva]

.center[
![](class_25_files/figure-html/unnamed-chunk-10-1.png)
]
]

.pull-right[

.bold[Asociación no lineal perfecta ]

.center[
![](class_25_files/figure-html/unnamed-chunk-11-1.png)
]
]

---
## DANGER: CORRELATIONS IS NOT CAUSATION!

.center[
![corr](https://static.incrmntal.com/789_F1_B35_C3_F4195_D_1_43cc20d019.webp)
]

---
class: inverse, center, middle

##The End. Gracias!

Mauricio Bucca 
https://mebucca.github.io/ 
github.com/mebucca