# Escribir install.packages("tinytex") en la consola para instalar "tinytex"
# Carga "tinytex" para compilar PDF
library("tidyverse")
library("carData")
library("modelr")
library("caret")
data("Chile")
<- Chile datos_chile
SOC3070 Análisis de Datos Categóricos
Ponderación: 6% de la nota final del curso.
\[\newcommand{\vect}[1]{\boldsymbol{#1}}\]
Datos:
Cargar datos con el siguiente código
data("Chile")
<- Chile
datos_chile <- datos_chile %>% mutate(vote = case_when(vote=="Y" ~ 1, vote=="N" ~ 0))
datos_chile %>% glimpse() datos_chile
Rows: 2,700
Columns: 8
$ region <fct> N, N, N, N, N, N, N, N, N, N, N, N, N, N, N, N, N, N, N, N,…
$ population <int> 175000, 175000, 175000, 175000, 175000, 175000, 175000, 175…
$ sex <fct> M, M, F, F, F, F, M, F, F, M, M, M, F, F, M, M, F, M, M, F,…
$ age <int> 65, 29, 38, 49, 23, 28, 26, 24, 41, 41, 64, 19, 27, 46, 36,…
$ education <fct> P, PS, P, P, S, P, PS, S, P, P, P, S, PS, S, PS, S, PS, S, …
$ income <int> 35000, 7500, 15000, 35000, 35000, 7500, 35000, 15000, 15000…
$ statusquo <dbl> 1.00820, -1.29617, 1.23072, -1.03163, -1.10496, -1.04685, -…
$ vote <dbl> 1, 0, 1, 0, 0, 0, 0, 0, NA, 0, 1, NA, 1, 1, NA, NA, 0, NA, …
Problema:
En esta tarea usarás los datos de una encuesta realizada por FLACSO/Chile en Abril y Mayo de 1988 sobre intención de voto en el plebiscito de 1989, junto con otras variables socio-demográficas.
En particular, trabajarás con el siguiente modelo de regresión logística que estima la probabilidad de votar SI en función de los ingresos, género (M=Hombre, F=Mujer) y el apoyo al status-quo (valores más altos indican mayor apoyo al régimen de Pinochet).
<- glm(vote ~ income + sex*statusquo, family=binomial, data = datos_chile )
modelo_1 summary(modelo_1)
Call:
glm(formula = vote ~ income + sex * statusquo, family = binomial,
data = datos_chile)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 8.026e-01 1.761e-01 4.556 5.21e-06 ***
income -6.251e-06 2.416e-06 -2.588 0.00966 **
sexM -6.506e-01 2.067e-01 -3.147 0.00165 **
statusquo 3.252e+00 2.153e-01 15.101 < 2e-16 ***
sexM:statusquo -5.507e-02 2.900e-01 -0.190 0.84940
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2368.68 on 1708 degrees of freedom
Residual deviance: 719.63 on 1704 degrees of freedom
(991 observations deleted due to missingness)
AIC: 729.63
Number of Fisher Scoring iterations: 6
Calcula la probabilidad de votar por el SI para hombres y mujeres cuyos ingresos y apoyo al status-quo se encuentran en el decil 10 (10% superior) de cada variable.
Usa el método de Bootstrap para crear un intervalo de confianza al 98% para la diferencia en la probabilidad de votar por el SI entre hombres y mujeres cuyos ingresos y apoyo al status-quo se encuentran en el decil 10 (10% superior) de cada variable. ¿Existe una diferencia estadísticamente significativa en la probabilidad de votar por el SI de ambos grupos?
Ademas del
modelo_1
usado anteriormente, crea un modelo más complejo usando la información disponible en la base de datos. Llama a este modelo,modelo_2.
Usando un umbral de \(0.5\), crea un clasificación de la intención de voto de los individuos de la muestra de acuerdo a ambos modelos y compara la “confusion matrix” de ambos.
Usa 10-fold cross-validation (paquete
caret
enR
) para evaluar qué modelo predice mejor la intención de voto de los individuos encuestados. (caret
usa un umbral de \(0.5\) para la clasificación).