Probabilidad e Inferencia Estadística

class: center, middle, inverse, title-slide

.title[
# Probabilidad e Inferencia Estadística
]
.subtitle[
## Asociación entre variables categóricas
]
.author[
### Mauricio Bucca <a href="https://github.com/mebucca">github.com/mebucca</a> <a href="mailto:mebucca@uc.cl" class="email">mebucca@uc.cl</a>
]

---

class: inverse, center, middle

# Tablas de contingencia

---
## Datos Plebiscito 1989

.pull-left[

- Encuesta realizada por FLACSO/Chile en Abril y Mayo de 1988

- Mi intención de voto en el plebiscito de 1989

- Incluye otras variables socio-demográficas.

]

.pull-right[
![NO](no.jpg)

]

---
## Asociación entre ingreso y voto SI/NO

--

Si estuviéramos interesados en estudiar la asociación entre la intención de voto y el nivel de ingresos -- donde ambas variables son discretas --  el primer paso probablemente sería construir una tabla de este tipo:

.pull-left[

``` r
ctable <- datos_chile %>% with(table(income,vote))
print(ctable)
```

```
##         vote
## income     N   Y
##   2500    47  55
##   7500   143 160
##   15000  245 240
##   35000  269 228
##   75000   98  92
##   125000  38  31
##   200000  29  35
```
]

.pull-right[

- Este tipo de tablas se denomina .bold[tablas de contingencia]

- Clasificación cruzada de las frecuencias de dos variables
]

---

## Tablas de contingencia

Una definición formal: una tabla de contingencia es una matriz que muestra la *distribución multivariada* de frecuencias de un número arbitrario de variables categóricas.

Caso simple:

- `$X$` y `$Y$` son dos variables categóricas.

- `$X$` tiene `$I$` categorías `$\{i, \dots, I \}$`

- `$Y$` tiene `$J$` categorías `$\{j, \dots, J \}$`.

--

Una tabla rectangular que clasifica todas las combinaciones posibles de `$X$` y `$Y$` tendrá `$I$` filas para las categorías de `$X$`, `$J$` columnas para las categorías de `$Y$`, y `$I \times J$` celdas.

---
## Tablas de contingencia

Estructura general de una tabla 2-way, `$I \times J$`

|           	| `$Y=y_{1}$` 	| `$Y=y_{2}$` 	| `$\dots$` 	| `$Y=y_{J}$` 	|   Total  	|
|:---------:	|:---------:	|:---------:	|:-------:	|:---------:	|:--------:	|
| `$X=x_{1}$` 	|  `$n_{11}$` 	|  `$n_{12}$` 	| `$\dots$` 	|  `$n_{1J}$` 	| `$n_{1+}$` 	|
| `$X=x_{2}$` 	|  `$n_{21}$` 	|  `$n_{22}$` 	| `$\dots$` 	|  `$n_{2J}$` 	| `$n_{2+}$` 	|
|  `$\dots$`  	|  `$\dots$`  	|  `$\dots$`  	| `$\dots$` 	|  `$\dots$`  	|  `$\dots$` 	|
| `$X=x_{I}$` 	|  `$n_{I1}$` 	|  `$n_{I2}$` 	| `$\dots$` 	|  `$n_{IJ}$` 	| `$n_{I+}$` 	|
|   Total   	|  `$n_{+1}$` 	|  `$n_{+2}$` 	| `$\dots$` 	|  `$n_{+J}$` 	| `$n_{++}$` 	|

---
class: inverse, center, middle

# Estructura probabilística

---
## Distribución conjunta

Supongamos que elegimos al azar un individuo de nuestra población. ¿Cual es la probabilidad de que pertenezca una celda dada de la tabla de contingencia?

--

Para cada frecuencia conjunta `$n_{ij}$` en la tabla existe una probabilidad conjunta asociada `$p_{ij}$`, tal que

`$$p_{ij} = \mathbb{P}(X = i, Y = j)$$`

- denota la probabilidad de que una observación muestreada al azar pertenezca a la celda `$(i,j)$`.

- la colección de probabilidades `$p_{ij}$` forma la .bold[distribución conjunta] de `$X$` y `$Y$`, `$f(x,y)$`.

### Estimación

Cuando trabajamos con muestras, esta probabilidad se puede estimar (MLE) a partir de las frecuencias en la tabla:

`$$\hat{p}_{ij} = \frac{n_{ij}}{n}$$`

---
## Distribución conjunta

En nuestro ejemplo,

```
##         vote
## income            N          Y
##   2500   0.02748538 0.03216374
##   7500   0.08362573 0.09356725
##   15000  0.14327485 0.14035088
##   35000  0.15730994 0.13333333
##   75000  0.05730994 0.05380117
##   125000 0.02222222 0.01812865
##   200000 0.01695906 0.02046784
```

--
Como con cualquier distribución de probabilidad, sabemos que los `$p_{ij}$` suman a 1.

Veamos en el caso de nuestro estimador:

Si `$\hat{p}_{ij} = \frac{n_{ij}}{n}$`, entonces

`$$\sum_{i} \sum_{j} \frac{n_{ij}}{n} = \frac{n}{n} = 1$$`

---
## Distribuciones marginales

Podemos obtener la distribución marginal de las variables `$X$` y `$Y$` a partir de su distribución conjunta.

--

- La distribución marginal de `$X$` (filas) está dada por:

`$$p_{i+} = \sum_{j} p_{ij}$$`
 
--

- La distribución marginal de `$Y$` (columnas) está dada por:

`$$p_{+j} = \sum_{i} p_{ij}$$`

---
## Distribuciones marginales

.pull-left[
Podemos obtener distribuciones marginales a partir de la distribución conjunta.

``` r
# joint distibution
joint_dis <- ctable/sum(ctable) 
```

]
.pull-right[

``` r
# marginal distribution rows
rowSums(joint_dis)
```

```
##       2500       7500      15000      35000      75000     125000     200000 
## 0.05964912 0.17719298 0.28362573 0.29064327 0.11111111 0.04035088 0.03742690
```

``` r
# marginal distribution columns
colSums(joint_dis)
```

```
##         N         Y 
## 0.5081871 0.4918129
```

---
## Distribución conjunta y marginal de probabilidades

En resumen,

|           	| `$Y=y_{1}$` 	| `$Y=y_{2}$` 	| `$\dots$` 	| `$Y=y_{J}$` 	|   Total  	|
|:---------:	|:---------:	|:---------:	|:-------:	|:---------:	|:--------:	|
| `$X=x_{1}$` 	|  `$p_{11}$` 	|  `$p_{12}$` 	| `$\dots$` 	|  `$p_{1J}$` 	| `$p_{1+}$` 	|
| `$X=x_{2}$` 	|  `$p_{21}$` 	|  `$p_{22}$` 	| `$\dots$` 	|  `$p_{2J}$` 	| `$p_{2+}$` 	|
|  `$\dots$`  	|  `$\dots$`  	|  `$\dots$`  	| `$\dots$` 	|  `$\dots$`  	|  `$\dots$` 	|
| `$X=x_{I}$` 	|  `$p_{I1}$` 	|  `$p_{I2}$` 	| `$\dots$` 	|  `$p_{IJ}$` 	| `$p_{I+}$` 	|
|   Total   	|  `$p_{+1}$` 	|  `$p_{+2}$` 	| `$\dots$` 	|  `$p_{+J}$` 	| 1	|

Estructura general de probabilidades en una tabla 2-way, `$I \times J$`

---
class: middle

## Distribucion conjunta y marginales

.center[
![](class_22_files/figure-html/unnamed-chunk-8-1.png)
]

# Show the plot
plot

---
class: inverse, center, middle

# Distribuciones condicionales

---
## Distribuciones condicionales

- Recuerden que `$\mathbb{P}(Y=y \mid X=x)$` es la .bold[probabilidad condicional] de que la variable `$Y$` dado `$X$`.

- La .bold[distribución condicional] `$f(y \mid x)$` es una función que expresa la probabilidad que `$Y$` tome cada uno de sus posibles valores `$y$`'s si X toma cualquiera los valores `$x$`'s.

--

Por tanto,

-  En una tabla de contingencia podemos construir las distribuciones condicionales de las variables `$X$` (o `$Y$`) fijando la otra variable en sus diferentes niveles.

- Normalmente nos referimos como la "variable independiente" a la variable que usamos para condicionar, mientras que la otra variable actúa como "variable dependiente".

---
## Distribuciones condicionales

.pull-left[
En nuestro ejemplo podemos construir la distribución condicional  de la variable `vote` dado `income` usando la fórmula general para probabilidades condicionales:
]

.pull-right[

```
##         vote
## income     N   Y
##   2500    47  55
##   7500   143 160
##   15000  245 240
##   35000  269 228
##   75000   98  92
##   125000  38  31
##   200000  29  35
```
]

--
`\begin{align}
\mathbb{P}( \text{vote}=j | \text{ income}=i ) &= \frac{\mathbb{P}(\text{vote}=j , \text{ income}=i )}{\mathbb{P}(\text{ income}=i)} 
\end{align}`

---
## Distribuciones condicionales

.pull-left[
Sustituyendo las probabilidades  de la ecuación por sus respectivos estimadores podemos estimar las distribuciones condicionales en la tabla:
]
.pull-right[

```
##         vote
## income     N   Y
##   2500    47  55
##   7500   143 160
##   15000  245 240
##   35000  269 228
##   75000   98  92
##   125000  38  31
##   200000  29  35
```
]

--

`\begin{align}
 \hat{p}_{j | i} &= \frac{P(\text{vote}=j , \text{ income}=i )}{P(\text{ income}=i)} \\ \\
  &= \frac{\frac{n_{ij}}{n}}{\frac{\sum_{j} n_{ij}}{n}} = \frac{n_{ij}}{\sum_{j}n_{ij}} 
\end{align}`

---

## Distribuciones condicionales

.pull-left[
Sustituyendo las probabilidades  de la ecuación por sus respectivos estimadores podemos estimar las distribuciones condicionales en la tabla:
]
.pull-right[

```
##         vote
## income     N   Y
##   2500    47  55
##   7500   143 160
##   15000  245 240
##   35000  269 228
##   75000   98  92
##   125000  38  31
##   200000  29  35
```
]

Por ejemplo, la probabilidad condicional de haber tenido un "vote" dado que el genero es mujer se estima de la siguiente manera:

`\begin{align}
 \hat{p}_{ \text{vote=Y} | \text{income=2500}} & = \frac{n_{12}}{n_{11} + n_{12}} \\ \\
 &= \frac{55}{47 + 55} = 0.54
\end{align}`

---
## Distribuciones condicionales

Sustituyendo las probabilidades  de la ecuación por sus respectivos estimadores podemos estimar las distribuciones condicionales en la tabla:

.pull-left[

.bold[Tabla de contingencia]

``` r
print(ctable)
```

```
##         vote
## income     N   Y
##   2500    47  55
##   7500   143 160
##   15000  245 240
##   35000  269 228
##   75000   98  92
##   125000  38  31
##   200000  29  35
```
]

.pull-right[
.bold[P(voto | ingreso)]

``` r
prop.table(ctable,margin=1) 
```

```
##         vote
## income           N         Y
##   2500   0.4607843 0.5392157
##   7500   0.4719472 0.5280528
##   15000  0.5051546 0.4948454
##   35000  0.5412475 0.4587525
##   75000  0.5157895 0.4842105
##   125000 0.5507246 0.4492754
##   200000 0.4531250 0.5468750
```
]

---
## Independencia estadística

- Recuerden, dos variables `$X$` y `$Y$` son independientes si al saber algo sobre `$X$` no aprendemos nada sobre `$Y$`, y viceversa: `$\mathbb{P}(Y|X) = \mathbb{P}(Y)$`.

- Check:  `$X \bot Y \iff \mathbb{P}(X,Y) = \mathbb{P}(X)\mathbb{P}(Y)$`

- Podemos usar esta propiedad para comprobar independencia en una tabla de contingencia.

--

- Si `$X \bot Y$` las probabilidades conjuntas .bold[esperadas bajo el supuesto de independencia] están dadas por el producto de las distribuciones marginales:

`$$\tilde{p}_{ij} = p_{i+} \times  p_{+j}$$`

--

- Asimismo, las frecuencias esperadas bajo independencia están dadas por:

`$$\tilde{n}_{ij} = n \times p_{i+} \times  p_{+j}$$`

--

.bold[Importante]: noten que sólo necesitamos saber la distribución marginal de las variables para calcular las probabilidades y frecuencias esperadas bajo independencia.

---
## Independencia estadística

.pull-left[
.bold[Distribución conjunta observada]

]

.pull-right[

]

--

.bold[Distribuciones marginales]

```
##       2500       7500      15000      35000      75000     125000     200000 
## 0.05964912 0.17719298 0.28362573 0.29064327 0.11111111 0.04035088 0.03742690
```

```
##         N         Y 
## 0.5081871 0.4918129
```

---
## Independencia estadística

.pull-left[
.bold[Distribución conjunta observada]

]

.pull-right[
.bold[Distribución conjunta esperada bajo independencia]

``` r
# expected joint probs under independence 
joint_income_vote_indep <- margin_income %*% t(margin_vote)
print(joint_income_vote_indep)
```

```
##               N          Y
## [1,] 0.03031292 0.02933621
## [2,] 0.09004719 0.08714579
## [3,] 0.14413495 0.13949078
## [4,] 0.14770117 0.14294210
## [5,] 0.05646524 0.05464587
## [6,] 0.02050580 0.01984508
## [7,] 0.01901987 0.01840703
```
]

--

.bold[¿Se parece la distribución observada a la distribución que observariamos si voto e ingresos no estuvieran asociados?]

---
class: inverse, center, middle

##Hasta la próxima clase. Gracias!

Mauricio Bucca 
https://mebucca.github.io/ 
github.com/mebucca