class: center, middle, inverse, title-slide .title[ # Probabilidad e Inferencia Estadística ] .subtitle[ ## Asociación entre variables categóricas ] .author[ ###
Mauricio Bucca
github.com/mebucca
mebucca@uc.cl
] --- class: inverse, center, middle # Tablas de contingencia --- ## Datos Plebiscito 1989 .pull-left[ - Encuesta realizada por FLACSO/Chile en Abril y Mayo de 1988 - Mi intención de voto en el plebiscito de 1989 - Incluye otras variables socio-demográficas. ] .pull-right[  ] -- --- ## Asociación entre ingreso y voto SI/NO <br> -- Si estuviéramos interesados en estudiar la asociación entre la intención de voto y el nivel de ingresos -- donde ambas variables son discretas -- el primer paso probablemente sería construir una tabla de este tipo: -- .pull-left[ ``` r ctable <- datos_chile %>% with(table(income,vote)) print(ctable) ``` ``` ## vote ## income N Y ## 2500 47 55 ## 7500 143 160 ## 15000 245 240 ## 35000 269 228 ## 75000 98 92 ## 125000 38 31 ## 200000 29 35 ``` ] .pull-right[ <br> <br> - Este tipo de tablas se denomina .bold[tablas de contingencia] - Clasificación cruzada de las frecuencias de dos variables ] --- ## Tablas de contingencia Una definición formal: una tabla de contingencia es una matriz que muestra la *distribución multivariada* de frecuencias de un número arbitrario de variables categóricas. <br> Caso simple: - `\(X\)` y `\(Y\)` son dos variables categóricas. - `\(X\)` tiene `\(I\)` categorías `\(\{i, \dots, I \}\)` - `\(Y\)` tiene `\(J\)` categorías `\(\{j, \dots, J \}\)`. <br> -- Una tabla rectangular que clasifica todas las combinaciones posibles de `\(X\)` y `\(Y\)` tendrá `\(I\)` filas para las categorías de `\(X\)`, `\(J\)` columnas para las categorías de `\(Y\)`, y `\(I \times J\)` celdas. --- ## Tablas de contingencia <br> <br> <br> Estructura general de una tabla 2-way, `\(I \times J\)` <br> | | `\(Y=y_{1}\)` | `\(Y=y_{2}\)` | `\(\dots\)` | `\(Y=y_{J}\)` | Total | |:---------: |:---------: |:---------: |:-------: |:---------: |:--------: | | `\(X=x_{1}\)` | `\(n_{11}\)` | `\(n_{12}\)` | `\(\dots\)` | `\(n_{1J}\)` | `\(n_{1+}\)` | | `\(X=x_{2}\)` | `\(n_{21}\)` | `\(n_{22}\)` | `\(\dots\)` | `\(n_{2J}\)` | `\(n_{2+}\)` | | `\(\dots\)` | `\(\dots\)` | `\(\dots\)` | `\(\dots\)` | `\(\dots\)` | `\(\dots\)` | | `\(X=x_{I}\)` | `\(n_{I1}\)` | `\(n_{I2}\)` | `\(\dots\)` | `\(n_{IJ}\)` | `\(n_{I+}\)` | | Total | `\(n_{+1}\)` | `\(n_{+2}\)` | `\(\dots\)` | `\(n_{+J}\)` | `\(n_{++}\)` | --- class: inverse, center, middle # Estructura probabilística --- ## Distribución conjunta Supongamos que elegimos al azar un individuo de nuestra población. ¿Cual es la probabilidad de que pertenezca una celda dada de la tabla de contingencia? <br> -- Para cada frecuencia conjunta `\(n_{ij}\)` en la tabla existe una probabilidad conjunta asociada `\(p_{ij}\)`, tal que `$$p_{ij} = \mathbb{P}(X = i, Y = j)$$` - denota la probabilidad de que una observación muestreada al azar pertenezca a la celda `\((i,j)\)`. - la colección de probabilidades `\(p_{ij}\)` forma la .bold[distribución conjunta] de `\(X\)` y `\(Y\)`, `\(f(x,y)\)`. -- ### Estimación Cuando trabajamos con muestras, esta probabilidad se puede estimar (MLE) a partir de las frecuencias en la tabla: `$$\hat{p}_{ij} = \frac{n_{ij}}{n}$$` --- ## Distribución conjunta En nuestro ejemplo, ``` ## vote ## income N Y ## 2500 0.02748538 0.03216374 ## 7500 0.08362573 0.09356725 ## 15000 0.14327485 0.14035088 ## 35000 0.15730994 0.13333333 ## 75000 0.05730994 0.05380117 ## 125000 0.02222222 0.01812865 ## 200000 0.01695906 0.02046784 ``` <br> -- Como con cualquier distribución de probabilidad, sabemos que los `\(p_{ij}\)` suman a 1. -- Veamos en el caso de nuestro estimador: Si `\(\hat{p}_{ij} = \frac{n_{ij}}{n}\)`, entonces `$$\sum_{i} \sum_{j} \frac{n_{ij}}{n} = \frac{n}{n} = 1$$` --- ## Distribuciones marginales <br> Podemos obtener la distribución marginal de las variables `\(X\)` y `\(Y\)` a partir de su distribución conjunta. <br> -- - La distribución marginal de `\(X\)` (filas) está dada por: `$$p_{i+} = \sum_{j} p_{ij}$$` <br> -- - La distribución marginal de `\(Y\)` (columnas) está dada por: `$$p_{+j} = \sum_{i} p_{ij}$$` --- ## Distribuciones marginales .pull-left[ Podemos obtener distribuciones marginales a partir de la distribución conjunta. ``` r # joint distibution joint_dis <- ctable/sum(ctable) ``` ] .pull-right[ ``` ## vote ## income N Y ## 2500 0.02748538 0.03216374 ## 7500 0.08362573 0.09356725 ## 15000 0.14327485 0.14035088 ## 35000 0.15730994 0.13333333 ## 75000 0.05730994 0.05380117 ## 125000 0.02222222 0.01812865 ## 200000 0.01695906 0.02046784 ``` ] -- ``` r # marginal distribution rows rowSums(joint_dis) ``` ``` ## 2500 7500 15000 35000 75000 125000 200000 ## 0.05964912 0.17719298 0.28362573 0.29064327 0.11111111 0.04035088 0.03742690 ``` ``` r # marginal distribution columns colSums(joint_dis) ``` ``` ## N Y ## 0.5081871 0.4918129 ``` --- ## Distribución conjunta y marginal de probabilidades En resumen, <br> | | `\(Y=y_{1}\)` | `\(Y=y_{2}\)` | `\(\dots\)` | `\(Y=y_{J}\)` | Total | |:---------: |:---------: |:---------: |:-------: |:---------: |:--------: | | `\(X=x_{1}\)` | `\(p_{11}\)` | `\(p_{12}\)` | `\(\dots\)` | `\(p_{1J}\)` | `\(p_{1+}\)` | | `\(X=x_{2}\)` | `\(p_{21}\)` | `\(p_{22}\)` | `\(\dots\)` | `\(p_{2J}\)` | `\(p_{2+}\)` | | `\(\dots\)` | `\(\dots\)` | `\(\dots\)` | `\(\dots\)` | `\(\dots\)` | `\(\dots\)` | | `\(X=x_{I}\)` | `\(p_{I1}\)` | `\(p_{I2}\)` | `\(\dots\)` | `\(p_{IJ}\)` | `\(p_{I+}\)` | | Total | `\(p_{+1}\)` | `\(p_{+2}\)` | `\(\dots\)` | `\(p_{+J}\)` | 1 | <br> Estructura general de probabilidades en una tabla 2-way, `\(I \times J\)` --- class: middle ## Distribucion conjunta y marginales .center[ <!-- --> ] # Show the plot plot --- class: inverse, center, middle # Distribuciones condicionales --- ## Distribuciones condicionales <br> - Recuerden que `\(\mathbb{P}(Y=y \mid X=x)\)` es la .bold[probabilidad condicional] de que la variable `\(Y\)` dado `\(X\)`. -- - La .bold[distribución condicional] `\(f(y \mid x)\)` es una función que expresa la probabilidad que `\(Y\)` tome cada uno de sus posibles valores `\(y\)`'s si X toma cualquiera los valores `\(x\)`'s. <br> -- Por tanto, - En una tabla de contingencia podemos construir las distribuciones condicionales de las variables `\(X\)` (o `\(Y\)`) fijando la otra variable en sus diferentes niveles. -- - Normalmente nos referimos como la "variable independiente" a la variable que usamos para condicionar, mientras que la otra variable actúa como "variable dependiente". --- ## Distribuciones condicionales <br> .pull-left[ En nuestro ejemplo podemos construir la distribución condicional de la variable `vote` dado `income` usando la fórmula general para probabilidades condicionales: ] .pull-right[ ``` ## vote ## income N Y ## 2500 47 55 ## 7500 143 160 ## 15000 245 240 ## 35000 269 228 ## 75000 98 92 ## 125000 38 31 ## 200000 29 35 ``` ] <br> <br> -- `\begin{align} \mathbb{P}( \text{vote}=j | \text{ income}=i ) &= \frac{\mathbb{P}(\text{vote}=j , \text{ income}=i )}{\mathbb{P}(\text{ income}=i)} \end{align}` --- ## Distribuciones condicionales <br> .pull-left[ Sustituyendo las probabilidades de la ecuación por sus respectivos estimadores podemos estimar las distribuciones condicionales en la tabla: ] .pull-right[ ``` ## vote ## income N Y ## 2500 47 55 ## 7500 143 160 ## 15000 245 240 ## 35000 269 228 ## 75000 98 92 ## 125000 38 31 ## 200000 29 35 ``` ] <br> <br> -- `\begin{align} \hat{p}_{j | i} &= \frac{P(\text{vote}=j , \text{ income}=i )}{P(\text{ income}=i)} \\ \\ &= \frac{\frac{n_{ij}}{n}}{\frac{\sum_{j} n_{ij}}{n}} = \frac{n_{ij}}{\sum_{j}n_{ij}} \end{align}` --- ## Distribuciones condicionales .pull-left[ Sustituyendo las probabilidades de la ecuación por sus respectivos estimadores podemos estimar las distribuciones condicionales en la tabla: ] .pull-right[ ``` ## vote ## income N Y ## 2500 47 55 ## 7500 143 160 ## 15000 245 240 ## 35000 269 228 ## 75000 98 92 ## 125000 38 31 ## 200000 29 35 ``` ] <br> Por ejemplo, la probabilidad condicional de haber tenido un "vote" dado que el genero es mujer se estima de la siguiente manera: `\begin{align} \hat{p}_{ \text{vote=Y} | \text{income=2500}} & = \frac{n_{12}}{n_{11} + n_{12}} \\ \\ &= \frac{55}{47 + 55} = 0.54 \end{align}` --- ## Distribuciones condicionales Sustituyendo las probabilidades de la ecuación por sus respectivos estimadores podemos estimar las distribuciones condicionales en la tabla: .pull-left[ .bold[Tabla de contingencia] ``` r print(ctable) ``` ``` ## vote ## income N Y ## 2500 47 55 ## 7500 143 160 ## 15000 245 240 ## 35000 269 228 ## 75000 98 92 ## 125000 38 31 ## 200000 29 35 ``` ] .pull-right[ .bold[P(voto | ingreso)] ``` r prop.table(ctable,margin=1) ``` ``` ## vote ## income N Y ## 2500 0.4607843 0.5392157 ## 7500 0.4719472 0.5280528 ## 15000 0.5051546 0.4948454 ## 35000 0.5412475 0.4587525 ## 75000 0.5157895 0.4842105 ## 125000 0.5507246 0.4492754 ## 200000 0.4531250 0.5468750 ``` ] --- ## Independencia estadística - Recuerden, dos variables `\(X\)` y `\(Y\)` son independientes si al saber algo sobre `\(X\)` no aprendemos nada sobre `\(Y\)`, y viceversa: `\(\mathbb{P}(Y|X) = \mathbb{P}(Y)\)`. - Check: `\(X \bot Y \iff \mathbb{P}(X,Y) = \mathbb{P}(X)\mathbb{P}(Y)\)` -- - Podemos usar esta propiedad para comprobar independencia en una tabla de contingencia. <br> -- - Si `\(X \bot Y\)` las probabilidades conjuntas .bold[esperadas bajo el supuesto de independencia] están dadas por el producto de las distribuciones marginales: `$$\tilde{p}_{ij} = p_{i+} \times p_{+j}$$` <br> -- - Asimismo, las frecuencias esperadas bajo independencia están dadas por: `$$\tilde{n}_{ij} = n \times p_{i+} \times p_{+j}$$` <br> -- .bold[Importante]: noten que sólo necesitamos saber la distribución marginal de las variables para calcular las probabilidades y frecuencias esperadas bajo independencia. --- ## Independencia estadística .pull-left[ .bold[Distribución conjunta observada] ``` ## vote ## income N Y ## 2500 0.02748538 0.03216374 ## 7500 0.08362573 0.09356725 ## 15000 0.14327485 0.14035088 ## 35000 0.15730994 0.13333333 ## 75000 0.05730994 0.05380117 ## 125000 0.02222222 0.01812865 ## 200000 0.01695906 0.02046784 ``` ] .pull-right[ ] <br> -- .bold[Distribuciones marginales] ``` ## 2500 7500 15000 35000 75000 125000 200000 ## 0.05964912 0.17719298 0.28362573 0.29064327 0.11111111 0.04035088 0.03742690 ``` ``` ## N Y ## 0.5081871 0.4918129 ``` --- ## Independencia estadística .pull-left[ .bold[Distribución conjunta observada] ``` ## vote ## income N Y ## 2500 0.02748538 0.03216374 ## 7500 0.08362573 0.09356725 ## 15000 0.14327485 0.14035088 ## 35000 0.15730994 0.13333333 ## 75000 0.05730994 0.05380117 ## 125000 0.02222222 0.01812865 ## 200000 0.01695906 0.02046784 ``` ] .pull-right[ .bold[Distribución conjunta esperada bajo independencia] ``` r # expected joint probs under independence joint_income_vote_indep <- margin_income %*% t(margin_vote) print(joint_income_vote_indep) ``` ``` ## N Y ## [1,] 0.03031292 0.02933621 ## [2,] 0.09004719 0.08714579 ## [3,] 0.14413495 0.13949078 ## [4,] 0.14770117 0.14294210 ## [5,] 0.05646524 0.05464587 ## [6,] 0.02050580 0.01984508 ## [7,] 0.01901987 0.01840703 ``` ] <br><br> -- .bold[¿Se parece la distribución observada a la distribución que observariamos si voto e ingresos no estuvieran asociados?] --- class: inverse, center, middle ##Hasta la próxima clase. Gracias! <br> Mauricio Bucca <br> https://mebucca.github.io/ <br> github.com/mebucca