class: center middle main-title section-title-8 top-logo .small[ # Regresión lineal simple ] .class-info[ <br> **Sesión N° 5**<br> **Estadísitica II** <br> .pull-right.small[ **Profesora** Valentina Andrade de la Horra <br> **Apoyo docente** Nicolás Godoy <br> **Ayudantes** Moira Martinez y Charo Astorga .tiny[Universidad Alberto Hurtado<br> ] ] ] --- class: title title-inv-8 # Contenidos Sesión -- .box-2.medium.sp-after-half[Regresiones **lineal simple**] -- .box-8.medium.sp-after-half[**MCO** supuestos] -- .box-8.medium.sp-after-half[**MCO**: propiedades] --- class: center middle main-title section-title-2 top-logo name: basics # Regresión **lineal** simple --- class: title title-2 # 1. Pregunta .box-inv-2.medium.sp-after-half[**educación sobre salario**] <img src="data:image/png;base64,#05-slide_files/figure-html/unnamed-chunk-1-1.png" width="100%" style="display: block; margin: auto;" /> --- class: title title-2 # 2. Formalizar el modelo teórico `$$y = \beta_0 + \beta_1 x_1 + u$$` -- - `\(y\)` = datos sobre variable dependiente - `\(x_1\)` = datos sobre variable independiente - `\(\beta_1\)` = pendiente, parámetro que indica la relación de `\(x\)` e `\(y\)` - `\(\beta_o\)` = intercepto - `\(u\)` = error --- class: center middle main-title section-title-8 top-logo # Interpretación `\(\beta_1\)` -- ##Por cada **unidad** que cambie `\(x\)`, `\(y\)` va a cambiar en `\(\beta_1\)`, manteniendo **el resto de los factores constantes**. `$$\triangle y = \beta_1 \triangle x ~~~ si ~~\triangle u = 0$$` --- class: center middle main-title section-title-8 top-logo # Interpretación `\(\beta_0\)` -- ## Valor esperado o medio de `\(y\)` cuando `\(x = 0\)` (o en ausencia de variables explicativas) --- class: center middle main-title section-title-8 top-logo # Error `\(u\)` -- ## Contiene todos los factores **relevantes** que afectan a `\(Y\)` pero no son considerados en la regresión por ser **inobservables** --- class: center middle main-title section-title-8 top-logo # Pero, ¿cómo obtenemos los parámetros `\(\beta\)` -- ## Mínimos Cuadrados Ordinarios --- class: title title-8 # Mínimos Cuadrados Ordinarios (OLS) <img src="data:image/png;base64,#05-slide_files/figure-html/cookies-lm-residual-1.png" width="100%" style="display: block; margin: auto;" /> --- class: title title-8 # Mínimos Cuadrados Ordinarios (OLS) - Método que busca encontrar la mejor ecuación de la recta, dado un set de datos -- - *Mínimos*: minimizan los residuos - *Cuadrados*: residuos al cuadrado - *Ordinarios*: es un método estándar --- class: title title-8 # Valor observado y valor predicho - `\(y_i\)`: valor observado - `\(\hat{y_i}\)`: valor predicho corresponde al valor que predecimos de `\(y_i\)` cuando `\(x_{1i}\)` toma un valor dado -- `$$\hat{y_i} = \beta_o + \beta_1 x_{1i}$$` - Hay un valor predicho para cada observación en la muestra -- - ¿Qué significará la diferencia entre `\(y_i\)` e `\(\hat{y_i}\)`? --- class: center middle main-title section-title-8 top-logo # El residuo `\(\hat{u_i}\)` -- ## En particular nos interesará que sea la **suma de los residuos** al **cuadrado** sea lo más pequeño posible --- class: title title-8 # Distancia a recta regresión <center> <img src="data:image/png;base64,#https://raw.githubusercontent.com/statistics-R/slides/main/img/04/03.png" alt="drawing" style="width:700px;"/> </center> --- class: title title-8 # Suma de residuos al cuadrado - Minimizamos la *suma de residuos al cuadrado* `\(\sum_{i=1}^{n} \hat u_i^2\)` - Encontramos matemáticamente `\(\hat{\beta_0}\)` y `\(\hat{\beta_1}\)` tal que `\(\sum_{i=1}^{n} \hat u_i^2\)` sea lo más pequeño posible. -- - Varios minutos después ⏱️📝 y ... --- class: center middle main-title section-title-8 top-logo ## `$$\hat \beta_1 = \frac{\sum^n_{i=1} (x_i - \bar x)(y_i - \bar y)}{\sum_{i=1}^n (x_i-\bar x)^2}$$` --- class: center middle main-title section-title-8 top-logo ## `$$\hat \beta_1 = \frac{\sum^n_{i=1} (x_i - \bar x)(y_i - \bar y)}{\sum_{i=1}^n (x_i-\bar x)^2} = \frac{Cov(x_1,y)}{Var(x_1)}$$` --- class: center middle main-title section-title-8 top-logo ## `$$\hat \beta_0 = \bar y = \hat{\beta_1} \bar x$$` --- class: center middle main-title section-title-8 top-logo # En resumen --- class: title title-8 # Estimación .box-inv-8[Datos ->Estimación -> Verdad ] | Datos | `\(X, Y\)` | |---|---| | **Calculos** | `\(\bar{X} = \frac{\sum X}{n}\)` | | **Estimador** | `\(\bar{\beta_1}\)`| | **Parametro verdadero** | `\(\beta\)` | --- class: title title-8 # Estimación: ejemplo --- ```r summary(modelo1) ``` ``` ## ## Call: ## lm(formula = wage ~ educ, data = wage1) ## ## Residuals: ## Min 1Q Median 3Q Max ## -5.3396 -2.1501 -0.9674 1.1921 16.6085 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -0.90485 0.68497 -1.321 0.187 ## educ 0.54136 0.05325 10.167 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 3.378 on 524 degrees of freedom ## Multiple R-squared: 0.1648, Adjusted R-squared: 0.1632 ## F-statistic: 103.4 on 1 and 524 DF, p-value: < 2.2e-16 ``` --- class: center middle main-title section-title-8 top-logo # Supuestos Modelo Regresión Lineal --- class: title title-8 # Supuesto 1 .box-8[Linealidad de parámetros] .box-inv-8[Linealidad refiere a que la ecuación puede ser escrita como `$$y = \beta_0 + \beta_1 x + u$$`] --- class: title title-8 # Supuesto 2 .box-8[Independencia de observaciones] .box-inv-8[Se cuenta con una muestra aleatoria de tamaño `\(n\)` que representa la población] --- class: title title-8 # Supuesto 3 .box-8[**Media condicional cero**] .box-inv-8[Para todo valor de variable explicativa, el valor esperado del error u es cero `$$E(u|x) = 0$$`] -- .box-inv-8[ u no está correlacionada con x ] -- .box-inv-8[Es el **supuesto más importante** del MRL] --- ## `$$E(u|x) = 0$$` <img src="data:image/png;base64,#05-slide_files/figure-html/unnamed-chunk-4-1.png" width="100%" style="display: block; margin: auto;" /> --- ## `$$E(u|x) \neq 0$$` <img src="data:image/png;base64,#05-slide_files/figure-html/unnamed-chunk-5-1.png" width="100%" style="display: block; margin: auto;" /> --- ## `$$E(u|x) \neq 0$$` <img src="data:image/png;base64,#05-slide_files/figure-html/unnamed-chunk-6-1.png" width="100%" style="display: block; margin: auto;" /> --- class: title title-8 # Supuesto 5 .box-8[**Homocedasticidad**] .box-inv-8[El error `\(u\)` tiene la misma **varianza** para cualquier valor de la `\(X\)` `$$Var(u|x) = \sigma ^2$$`] -- .box-inv-8[La varianza de y dado x es **constante**] -- .box-8[Supuesto importante para la **inferencia** sobre los estimadores] .box-inv-8[Si le tomas raíz a esta varianza obtienes el **error estándar**] --- class: center middle main-title section-title-8 top-logo # Propiedades de los estimadores --- class: title title-8 # Propiedad 1 .box-8[Insesgamiento de los estimadores de MCO] .box-inv-8[$$E(\hat \beta_1) = \beta_1$$ `$$E(\hat \beta_0) = \beta_0$$`] -- - Por *supuesto 1 a 3* --- class: title title-8 # Propiedad 2 .box-8[Eficiencia] .box-inv-8[La varianza de los estimadores `\(b\)` es la menor de todas] -- .box-inv-8[Esto será muy importante para hacer test de hipótesis (inferencia)] -- - Por *supuesto 5* --- <center> <img src="data:image/png;base64,#https://raw.githubusercontent.com/statistics-R/slides/main/img/05/01.png" alt="drawing" style="width:800px;"/> </center> --- <center> <img src="data:image/png;base64,#https://raw.githubusercontent.com/statistics-R/slides/main/img/05/02.png" alt="drawing" style="width:800px;"/> </center> --- <center> <img src="data:image/png;base64,#https://raw.githubusercontent.com/statistics-R/slides/main/img/05/03.png" alt="drawing" style="width:800px;"/> </center> --- layout: false class: center middle main-title section-title-8 top-logo .small[ # Regresión **lineal** simple ] .class-info[ <br> **Sesión N° 5**<br> **Estadísitica II** <br> .pull-right.small[ **Profesora** Valentina Andrade de la Horra <br> **Apoyo docente** Nicolás Godoy <br> **Ayudantes** Moira Martinez y Charo Astorga .tiny[Universidad Alberto Hurtado<br> ] ] ]