SOC3070 Análisis de Datos Categóricos

Author

Tarea corta 4

# Escribir install.packages("tinytex") en la consola para instalar "tinytex"
# Carga "tinytex" para compilar PDF
library("tidyverse")
library("carData") 
library("modelr") 
library("caret") 
data("Chile") 
datos_chile <- Chile

Ponderación: 6% de la nota final del curso.

\[\newcommand{\vect}[1]{\boldsymbol{#1}}\]

Datos:

Cargar datos con el siguiente código

data("Chile") 
datos_chile <- Chile
datos_chile <- datos_chile %>% mutate(vote = case_when(vote=="Y" ~ 1, vote=="N" ~ 0)) 
datos_chile %>% glimpse()

Rows: 2,700
Columns: 8
$ region     <fct> N, N, N, N, N, N, N, N, N, N, N, N, N, N, N, N, N, N, N, N,…
$ population <int> 175000, 175000, 175000, 175000, 175000, 175000, 175000, 175…
$ sex        <fct> M, M, F, F, F, F, M, F, F, M, M, M, F, F, M, M, F, M, M, F,…
$ age        <int> 65, 29, 38, 49, 23, 28, 26, 24, 41, 41, 64, 19, 27, 46, 36,…
$ education  <fct> P, PS, P, P, S, P, PS, S, P, P, P, S, PS, S, PS, S, PS, S, …
$ income     <int> 35000, 7500, 15000, 35000, 35000, 7500, 35000, 15000, 15000…
$ statusquo  <dbl> 1.00820, -1.29617, 1.23072, -1.03163, -1.10496, -1.04685, -…
$ vote       <dbl> 1, 0, 1, 0, 0, 0, 0, 0, NA, 0, 1, NA, 1, 1, NA, NA, 0, NA, …

Problema:

En esta tarea usarás los datos de una encuesta realizada por FLACSO/Chile en Abril y Mayo de 1988 sobre intención de voto en el plebiscito de 1989, junto con otras variables socio-demográficas.

En particular, trabajarás con el siguiente modelo de regresión logística que estima la probabilidad de votar SI en función de los ingresos, género (M=Hombre, F=Mujer) y el apoyo al status-quo (valores más altos indican mayor apoyo al régimen de Pinochet).

modelo_1 <- glm(vote ~ income  + sex*statusquo, family=binomial, data = datos_chile )
summary(modelo_1)


Call:
glm(formula = vote ~ income + sex * statusquo, family = binomial, 
    data = datos_chile)

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)     8.026e-01  1.761e-01   4.556 5.21e-06 ***
income         -6.251e-06  2.416e-06  -2.588  0.00966 ** 
sexM           -6.506e-01  2.067e-01  -3.147  0.00165 ** 
statusquo       3.252e+00  2.153e-01  15.101  < 2e-16 ***
sexM:statusquo -5.507e-02  2.900e-01  -0.190  0.84940    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2368.68  on 1708  degrees of freedom
Residual deviance:  719.63  on 1704  degrees of freedom
  (991 observations deleted due to missingness)
AIC: 729.63

Number of Fisher Scoring iterations: 6

Calcula la probabilidad de votar por el SI para hombres y mujeres cuyos ingresos y apoyo al status-quo se encuentran en el decil 10 (10% superior) de cada variable.
Usa el método de Bootstrap para crear un intervalo de confianza al 98% para la diferencia en la probabilidad de votar por el SI entre hombres y mujeres cuyos ingresos y apoyo al status-quo se encuentran en el decil 10 (10% superior) de cada variable. ¿Existe una diferencia estadísticamente significativa en la probabilidad de votar por el SI de ambos grupos?
Ademas del modelo_1 usado anteriormente, crea un modelo más complejo usando la información disponible en la base de datos. Llama a este modelo, modelo_2.

Usando un umbral de \(0.5\), crea un clasificación de la intención de voto de los individuos de la muestra de acuerdo a ambos modelos y compara la “confusion matrix” de ambos.
Usa 10-fold cross-validation (paquete caret en R) para evaluar qué modelo predice mejor la intención de voto de los individuos encuestados. (caret usa un umbral de \(0.5\) para la clasificación).