class: center, middle, inverse, title-slide .title[ # Probabilidad e Inferencia Estadística ] .subtitle[ ## Asociación entre variables continuas ] .author[ ###
Mauricio Bucca
github.com/mebucca
mebucca@uc.cl
] --- class: inverse, center, middle # Asociación entre variables continuas ## Covarianza --- ## Brechas de ingresos entre hombres y mujeres .pull-left[  ] .pull-right[  ] --- ## Retornos a la educación para hombres y mujeres .center[ <!-- --> ] <br> -- - ¿Existe una asociación entre los años de escolaridad y los ingresos? - ¿Varía esta asociación por género? --- ## Asociación entre variables continuas .bold[Independencia (no asociación)] .center[ <!-- --> ] -- - Dado un valor en una variable, los valores de la otra varían ampliamente. - Es decir: sabiendo algo sobre una variable no se nada sobre la otra. --- ## Asociación entre variables continuas .pull-left[ .bold[Asociación positiva] .center[ <!-- --> ] ] .pull-right[ .bold[Aociación perfecta (e=mc^2)] .center[ <!-- --> ] ] -- - Dado un valor en una variable, los valores de la otra variable varías poco (o nada). - Es decir: sabiendo algo sobre una variable se algo (o todo) sobre la otra. --- class: inverse, center, middle #Covarianza --- ##Covarianza <br> -- - Hasta ahora hemos trabajado principalmente con variables aleatorias independiente, `\(Y \perp X\)`. -- - Dos variable aleatorias son dependiente entre si `\(\mathbb{P}(Y \mid X ) \neq \mathbb{P}(Y)\)`, y viceversa. -- - Otra forma de persona la dependencia es en términos de co-variabilidad entre dos variables aleatorias. <br> <br> -- La .bold[covarianza] mide la dependencia (lineal*) entre dos variables aleatorias. Formalmente: .content-box-secondary[ `$$\color{white}{\mathbb{Cov}(X, Y) = \mathbb{E}[ \ (X - \mathbb{E}[X]) \ (Y - \mathbb{E}[Y]) \ ]}$$` ] <br> -- En promedio, ¿cuánto y cómo se desvía `\(X\)` respecto de su media, cuando `\(Y\)` se desvía de la suya? --- ##Covarianza <br> .center[ <!-- --> ] - .bold[Cov(esc,log-ingreso) | Hombre] = 1.8612011 - .bold[Cov(esc,log-ingreso) | Mujer] = 2.1777403 --- ##Interpretación de la covarianza <br> La covarianza se puede interpretar de la siguiente manera: <br> - .bold[Covarianza positiva]: X e Y tienden a aumentar o disminuir juntas. - .bold[Covarianza negativa]: X aumenta cuando Y disminuye y viceversa. - .bold[Covarianza cero]: No hay relación lineal. --- ##Propiedades de la covarianza <br> - .bold[Covarianza de variables independientes]- Si dos variables aleatorias `\(X\)` e `\(Y\)` son independientes, entonces `$$\mathbb{Cov}(X, Y) = 0$$` -- - .bold[Covarianza de variable perfectamente dependientes] (consigo misma) `$$\mathbb{Cov}(X, X) = \text{Var}(X)$$` -- - .bold[Covarianza con una Constante] `$$\mathbb{Cov}(X, a) = 0$$` -- - .bold[Aditividad] `$$\mathbb{Cov}(X + Y, Z) = \mathbb{Cov}(X, Z) + \mathbb{Cov}(Y, Z)$$` -- - .bold[Multiplicación por una constante] `$$\mathbb{Cov}(aX, Y) = a \cdot \mathbb{Cov}(X, Y)$$` --- ##Estimación de la covarianza <br> Podemos estimar la covianza a partir de datos muestrales usando la siguiente fórmula <br> `$$s_{XY} = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{n-1}$$` <br> -- - `\(s_{XY}\)` es un estimador insesgado de `\(\mathbb{Cov}(X, Y)\)`. --- ## Problema de interpretación de la covariana - Supongamos que la asociación entre escolariadad e ingresos es la misma para hombres y para mujeres - Supongamos que el ingreso de los hombres es el doble que el de las mujeres: `\(Y_h = 2 \times Y_m\)` - Supongamos que la escolaridad de los hombres es un 75% que la de las mujeres:s: `\(E_h = 0.75 \times E_m\)` -- .pull-left[ .bold[Hombres] .center[ <!-- --> ] ] .pull-right[ .bold[Mujeres] .center[ <!-- --> ] ] --- ## Problema de interpretación de la covariana <br> -- - Si `\(Y_h = 2 \times Y_m \quad\)` y `\(\quad E_h = 0.75 \times E_m\)` <br> -- `$$\color{blue}{\mathbb{Cov}(E_h, Y_h)} = \mathbb{Cov}( 0.75 \times E_m, 2 \times Y_m) = \color{red}{0.75 \times 2} \times \color{blue}{\mathbb{Cov}(E_m, Y_m)}$$` <br> -- - .bold[Cov(esc,log-ingreso) | Hombre] = 90.1150216 - .bold[Cov(esc,log-ingreso) | Mujer] = 60.076681 <br><br> -- .bold[Problema de interpretabilidad:] La covarianza combina dos cosas: - La fuerza de la asociación entre las variables - La escala de dichas variables - Por tanto, el número obtenido no indica inequivocamente la fuerza de la asociación --- class: inverse, center, middle ##Hasta la próxima clase. Gracias! <br> Mauricio Bucca <br> https://mebucca.github.io/ <br> github.com/mebucca