class: center middle main-title section-title-8 top-logo .small[ # Omisión de variables ] .class-info[ <br> **Sesión N° 13**<br> **EstadÃsitica II** <br> .pull-right.small[ **Profesora** Valentina Andrade de la Horra <br> **Apoyo docente** Nicolás Godoy <br> **Ayudantes** Moira Martinez, Charo Astorga y Alberto Reyes .tiny[Universidad Alberto Hurtado<br> ] ] ] --- class: title title-inv-8 # Contenidos Sesión .box-6.medium.sp-after-half[Omisión de variables relevantes] -- .box-7.medium.sp-after-half[Inclusión de variables irrelevantes] -- .box-8.medium.sp-after-half[Variables de control] --- class: center middle main-title section-title-8 # Omisión de variables relevantes --- class: title title-8 # Omisión de variables relevantes .box-inv-8[Poco frecuente que tengamos todas las variables que determinan a una variable dependiente] -- .box-inv-8[Si `\(Cov(u,X) \neq 0\)` entonces tenemos un **problema de endogeneidad** ] -- .box-8[¿Porqué podrÃa pasar eso?] --- class: title title-8 # Omisión de variables relevantes Imaginemos el modelo real `$$y = \beta_1 x_1 + \beta_2 x_2 + u$$` Pero omitimos a `\(x_2\)` `$$y = \tilde{\beta_1} x_1 + u$$` --- class: center middle main-title section-title-8 ## Recordemos cómo se calcula `\(\beta_1\)` `$$\beta_1 = \frac{Cov(x_1,y)}{var(x_1)} - \beta_2 \frac{Cov(x_1,x_2)}{var(x_1)}$$` ### ¡Pero omitimos a `\(\beta_2\)`! --- class: title title-8 # Omisión de variables relevantes .box-8[Hay dos sesgos producidos por omitir a `\(x_2\)` ] .box-inv-8[ 1.Relación que hay entre `\(x_2\)` e `\(y ~ \longrightarrow \beta_2\)` ] .box-inv-8[ 2. Relación que hay entre `\(x_2\)` y `\(x_1 ~ \longrightarrow cov(x_1,x_2)\)` ] -- .box-8[Si alguna variable omitida cumple con (1) y (2) `\(\tilde \beta_1\)` esta sesgada] --- class: title title-8 # Ejemplo ```r summary(model_simple)$coefficients ``` ``` ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 14.1210164 0.54670616 25.829262 8.275018e-30 ## smoking_rate -0.2017001 0.02020842 -9.980994 2.695573e-13 ``` --- class: title title-8 # Ejemplo ```r summary(model_multiple)$coefficients ``` ``` ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 10.2973863 0.71852790 14.331227 8.957096e-19 ## smoking_rate -0.2092341 0.01494401 -14.001206 2.184148e-18 ## median_age 0.1021735 0.01589520 6.427943 6.040173e-08 ``` --- class: title title-8 # Tamaño del sesgo .box-8[ Sesgo( `\(\tilde \beta_1\)` ) = `\(E(\tilde \beta_1 - \beta_1) = \beta_2 \cdot \frac{Cov(x_1, x_2)}{var(x_1)}\)` ] --- class: title title-8 # Direcciones de sesgo - Podemos conocer la dirección de sesgo obteniendo el `\(\tilde \beta_1\)` y luego `\(\beta_1\)` y comparándolos. -- - A su vez este sesgo (positivo o negativo) dependerá del **signo** que tiene `\(\beta_2\)` --- class: title title-8 # Cuando `\(\beta_2\)` es positivo .box-8[ Si `\(\tilde \beta_1 > \beta_1 \Longrightarrow\)` **sesgo positivo** `\(\Longrightarrow\)` modelo inicial **sobreestimó el efecto de `\(x_2\)`** ] .box-8[ Si `\(\tilde \beta_1 < \beta_1 \Longrightarrow\)` **sesgo negativo** `\(\Longrightarrow\)` modelo inicial **subestimo el efecto de `\(x_2\)`** ] --- class: title title-8 # Cuando `\(\beta_2\)` es negativo .box-8[ Si `\(\tilde \beta_1 < \beta_1 \Longrightarrow\)` **sesgo negativo** `\(\Longrightarrow\)` modelo inicial **subestimó el efecto de `\(x_2\)`** ] .box-8[ Si `\(\tilde \beta_1 > \beta_1 \Longrightarrow\)` **sesgo positivo** `\(\Longrightarrow\)` modelo inicial **sobreestimó el efecto de `\(x_2\)`** ] --- class: center middle main-title section-title-8 # Inclusión de variables irrelevantes --- class: title title-8 # Variables irrelevantes El modelo real es `$$y = \beta_0 + \beta_1 x_1 + u$$` Pero agregamos `\(x_2\)` y pensamos que no es relevante `\(\beta_2 = 0\)` `$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + u$$` --- class: title title-8 # Variables irrelevantes - En ese caso, `\(\beta_2 = 0\)`, por lo que `\(\beta_1\)` no se ve afectado (**Insesgado**). -- - Pero ... si incorporamos muchas variables quizás se produzca un problema de **multicolinealidad** - En ese caso las `\(Var(\beta)\)` se van a ver afectadas. -- - También hay que tener cuidado con el número de variables y datos (**sobre-identificación**) --- class: center middle main-title section-title-8 # Variable de control --- class: title title-8 # Variable de control - Se le llama asà a las variables que no provienen de las **hipótesis fundamentales** de la investigación, pero que **potencialmente podrÃan afectar la relación del predictor y variable de respuesta** -- - Imaginemos que tenemos un estudio sobre el efecto del ingreso sobre ideologÃa politica --- 1. Modelo solo con variable relevante ``` ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 4.960258e+00 7.418042e-01 6.6867489 1.411245e-09 ## income 4.505705e-06 1.487726e-05 0.3028586 7.626396e-01 ``` 2. Modelo con control *educación* ``` ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 6.222557e+00 1.2389323037 5.022516 2.320824e-06 ## income 3.571693e-06 0.0000148492 0.240531 8.104263e-01 ## education -9.987865e-02 0.0786521188 -1.269879 2.071658e-01 ``` --- layout: false class: center middle main-title section-title-8 top-logo .small[ # Omisión de variables ] .class-info[ <br> **Sesión N° 13**<br> **EstadÃsitica II** <br> .pull-right.small[ **Profesora** Valentina Andrade de la Horra <br> **Apoyo docente** Nicolás Godoy <br> **Ayudantes** Moira Martinez, Charo Astorga y Alberto Reyes .tiny[Universidad Alberto Hurtado<br> ] ] ]