class: center, middle, inverse, title-slide .title[ # Probabilidad e Inferencia Estadística ] .subtitle[ ## IC con varianza desconocida & Margen de Error ] .author[ ###
Mauricio Bucca
github.com/mebucca
mebucca@uc.cl
] --- class: inverse, center, middle # Intervalos de confianza ## con varianza desconocida --- ## Intervalos de confianza con varianza desconocida .pull-left[ .bold[Promedio de ingreso mujeres] .center[ ``` ## # A tibble: 513 × 6 ## region sexo edad educ ingreso univ ## <int> <int> <int> <int> <int> <dbl> ## 1 2 2 6 1 NA NA ## 2 13 2 28 6 NA 0 ## 3 4 2 56 3 NA 0 ## 4 5 2 47 6 180000 0 ## 5 13 2 69 1 145000 0 ## 6 10 2 0 0 NA NA ## 7 13 2 59 8 500000 0 ## 8 4 2 28 8 330000 0 ## 9 9 2 30 11 652533 1 ## 10 9 2 36 5 95000 0 ## 11 15 2 24 7 60000 NA ## 12 5 2 43 5 2083 0 ## 13 13 2 17 3 NA NA ## 14 14 2 21 9 NA NA ## 15 14 2 86 11 450000 1 ## # ℹ 498 more rows ``` ] ] .pull-right[ ``` ## Media muestral: 368070.1 ``` .bold[Instrucción:] Calcula un intervalo al 99% de confianza y otro al 90%. * Supongamos que la desviación estándard en la población es conocida: `\(\sigma = 583454\)` ] --- ## Intervalos de confianza con varianza desconocida .pull-left[ .bold[Promedio de ingreso mujeres] .center[ ``` ## # A tibble: 513 × 6 ## region sexo edad educ ingreso univ ## <int> <int> <int> <int> <int> <dbl> ## 1 2 2 6 1 NA NA ## 2 13 2 28 6 NA 0 ## 3 4 2 56 3 NA 0 ## 4 5 2 47 6 180000 0 ## 5 13 2 69 1 145000 0 ## 6 10 2 0 0 NA NA ## 7 13 2 59 8 500000 0 ## 8 4 2 28 8 330000 0 ## 9 9 2 30 11 652533 1 ## 10 9 2 36 5 95000 0 ## 11 15 2 24 7 60000 NA ## 12 5 2 43 5 2083 0 ## 13 13 2 17 3 NA NA ## 14 14 2 21 9 NA NA ## 15 14 2 86 11 450000 1 ## # ℹ 498 more rows ``` ] ] .pull-right[ ``` ## Media muestral: 368070.1 ``` .bold[Instrucción:] Calcula un intervalo al 99% de confianza y otro al 90%. * ~~Supongamos que la desviación estándard en la población es conocida: σ = 583454~~ * .bold[No conocemos la varianza poblacional]. Necesitamos estimarla a partir de los datos.  ] --- ## Estimación de la varianza - `\(X\)` es una variable aleatoria con `\(\mathbb{E}(X) =\mu\)` y `\(\mathbb{Var}(X) =\sigma^2\)` - `\(\{ x_1, x_2, ..., x_n \}\)` es una muestra aleatoria donde todas las `\(x^{'}_{s}\)` son independientes y siguen la misma distribución (iid). -- - `\(\bar{X}\)` es un estimador insesgado de `\(\mu\)`: `\(\mathbb{E}(\bar{X}) =\mu\)` -- - ¿Cómo estimamos `\(\sigma^2\)`? --- ## Estimación de la varianza -- `\(\sigma^2_{\text{naive}} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2\)` <br> -- .bold[Problema]: `\(\sigma^2_{\text{naive}}\)` no es un buen estimador de la `\(\sigma^2\)` -- `\(\mathbb{E}[\sigma^2_{\text{naive}}] = \sigma^2 - \frac{\sigma^2}{n} = \sigma^2 \big(\frac{n-1}{n} \big)\)` - Subestima la varianza poblacional: `\(\sigma^2 > \sigma^2 \big(\frac{n-1}{n} \big)\)` <br> -- .bold[Correción]: `\(\mathbb{E}[\big(\frac{n}{n-1} \big) \sigma^2_{\text{naive}}] = \sigma^2 \big(\frac{n-1}{n} \big)\big(\frac{n}{n-1} \big) = \sigma^2\)` Para corregir este sesgo, necesitamos multiplicar `\(\sigma^2_{\text{naive}}\)` por el factor `\(\frac{n}{n-1}\)`, lo que conduce al estimador insesgado: `$$s^2 = \frac{n}{n-1} \cdot \sigma^2_{\text{naive}} = \bigg(\frac{n}{n-1}\bigg) \cdot\frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$$` <br> - `\(s^2\)` es un estimador insesgado de la la varianza poblacional `\(\sigma^2\)`. --- ##Promedio de ingreso mujeres .center[ ``` ## # A tibble: 513 × 6 ## region sexo edad educ ingreso univ ## <int> <int> <int> <int> <int> <dbl> ## 1 2 2 6 1 NA NA ## 2 13 2 28 6 NA 0 ## 3 4 2 56 3 NA 0 ## 4 5 2 47 6 180000 0 ## 5 13 2 69 1 145000 0 ## 6 10 2 0 0 NA NA ## 7 13 2 59 8 500000 0 ## 8 4 2 28 8 330000 0 ## 9 9 2 30 11 652533 1 ## 10 9 2 36 5 95000 0 ## 11 15 2 24 7 60000 NA ## 12 5 2 43 5 2083 0 ## 13 13 2 17 3 NA NA ## 14 14 2 21 9 NA NA ## 15 14 2 86 11 450000 1 ## 16 1 2 36 1 265000 0 ## 17 2 2 27 3 NA NA ## 18 7 2 20 9 NA NA ## 19 8 2 72 7 245874 0 ## 20 8 2 28 5 350000 0 ## # ℹ 493 more rows ``` ] --- ##Promedio de ingreso mujeres ``` r #i. Calcula media muestral *mu_muestra <- mean(casen2017_mujeres$ingreso, na.rm=T) cat("Media muestral:", mu_muestra) ``` ``` ## Media muestral: 368070.1 ``` -- .bold[Instrucción:] Calcula un intervalo al 95% de confianza. * No conocemos la desviación estándar de los ingresos de las mujeres en la población. Debemos estimarla. --- ##Promedio de ingreso mujeres, IC al 95% ``` r #i. nivel de confianza: 0.95 -> alpha=0.05 #ii. Calcular valores críticos z_inf <- qnorm(0.05/2); z_sup <- qnorm(1 - 0.05/2) #iii. estimación varianza y desviación estandar ingresos mujeres n <- sum(!is.na(casen2017_mujeres$ingreso)) #cuenta observaciones (sin NAs) en ingreso s2 <- sum((casen2017_mujeres$ingreso - mean(casen2017_mujeres$ingreso,na.rm=T))^2,na.rm=T)/(n-1) s <- sqrt(s2) print(c(manual=s,comandoR=sd(casen2017_mujeres$ingreso,na.rm = T))) ``` ``` ## manual comandoR ## 452424.4 452424.4 ``` ``` r #iv. error estándar ee <- s/sqrt(n) #v. Calcular limites del intervalo de confianza: ic= mu_muestra + c(z_inf,z_sup)*ee cat("Intervalo al 95% de confianza: (",ic[1],",",ic[2],")") ``` ``` ## Intervalo al 95% de confianza: ( 311762.3 , 424377.8 ) ``` --- class: inverse, center, middle #Margen de Error --- ##Margen de Error  -- En encuestología es común escuchar el término .bold[margen de error]. --- ##Margen de Error ¿Qué es el margen de error? <br> -- `$$IC: \bar{X} \pm Z_{(\alpha/2)} \cdot \sigma/\sqrt{n}$$` --- ##Margen de Error ¿Qué es el margen de error?: la mitad del ancho del intervalo de confianza <br> `$$IC: \bar{X} \pm \underbrace{ \color{#4B0082}{Z_{(\alpha/2)} \cdot \sigma/\sqrt{n}}}_{\color{#228B22}{\text{MARGEN DE ERROR}}}$$` -- Por ejemplo, si una encuestra reporta que: <br> > "58% de los encuenstados señalan que votarán "A favor" en el plebiscito de salida" ... "La metodología considera máxima varianza, con un 95% de confianza y 2,8% de margen de error" (sic) -- IC: `\(\hat{p} \pm 0.028 =\)` --- ##Margen de Error Podemos usar esta fórmula para determinar el tamaño muestral necesario para alcanzar un nivel deseado de precisión (margen de error, ME). -- Si, `\(\text{ME} = \pm Z_{(\alpha/2)} \cdot \sigma/\sqrt{n} \quad\)` despejado por `\(n\)` obtenemos: <br> -- $$ n = \frac{Z^2_{(\alpha/2)} \cdot \sigma^2}{\text{ME}^2}$$ donde, -- - `\(Z_{(\alpha/2)}\)` es el valor crítico asociado al nivel de confianza elegido. Típicamente se trabaja el 95% de confianza `\(\implies Z_{(\alpha/2)} = 1.96 \approx 2\)` -- - `\(\sigma^2\)` es la varianza poblacional de la variable en cuestión. Usualmente desconocida. - Para variables dicotómicas se asume .bold[varianza máxima]. El máximo de `\(\mathbb{Var}(X) = p(1-p)\)` ocurre cuando `\(p=0.5 \implies p(1-p)=0.25\)` -- - `\(\text{ME}\)` es el nivel de precisión al que queremos trabajar. --- ##Margen de Error Dado que es común trabajar al 95% de confianza ( `\(Z_{(\alpha/2)} \approx 2\)` ) y asumir que la variable de interés es dicotómica con varianza máxima ( `\(\sigma^2=0.25\)` ), la fórmula para calcular el tamaño muestral se transforma en: <br> -- `$$n = \frac{Z^2_{(\alpha/2)} \cdot \sigma^2}{\text{ME}^2} \approx \frac{2^2 \cdot 0.25}{\text{ME}^2} = \frac{1}{\text{ME}^2}$$` <br> -- Por ejemplo, si vamos a estimar una proporciòn y que trabajar con un margen de error de 2 puntos porcentuales (ME = 0.02) al 95% de confianza, entonces necesitamos una muestra de tamaño: `$$n \approx \frac{1}{\text{0.02}^2} = 2500$$` <br> -- .bold[IMPORTANTE:] El margen de error es específico a una variable. NO existe tal cosa como el .bold[margen de error de la encuesta]. --- class: inverse, middle .pull-left[ ##*"El margen de error de la encuesta es de 0.0x puntos porcentuales"* ] -- .pull-right[  ] --- class: inverse, center, middle ##Hasta la próxima clase. Gracias! <br> Mauricio Bucca <br> https://mebucca.github.io/ <br> github.com/mebucca