Errores de medida y procesamiento

0. Objetivo

Los objetivos de este práctico son

  1. Comprender las distintas fuentes que pueden producir errores de medición en un modelo de regresión lineal.

  2. Aprender a procesar las variables analizadas para reducir el error de medida.

1. Paquetes y datos a utilizar

Utilizaremos los datos sobre salarios del paquete wooldridge.

pacman::p_load(wooldridge,
               texreg,
               performance,
               tidyverse) # Universo de paquetes
options(scipen=999)
data("wage1")

2. El error de medida

A veces, las variables con las que trabajamos no necesariamente son una medición precisa de los fenómenos que estamos investigando. Cuando esto sucede, los modelos con los cuales buscaremos analizar la relación de diversas variables contendrán un error de medición. Así, podemos estar en presencia de errores de medición tanto en las variables explicativas como en las explicadas.

Trabajaremos con el siguiente modelo a modo de ejemplo:

mod = lm(lwage ~ educ+exper+tenure+female, data = wage1)
screenreg(mod)
## 
## =======================
##              Model 1   
## -----------------------
## (Intercept)    0.50 ***
##               (0.10)   
## educ           0.09 ***
##               (0.01)   
## exper          0.00 ** 
##               (0.00)   
## tenure         0.02 ***
##               (0.00)   
## female        -0.30 ***
##               (0.04)   
## -----------------------
## R^2            0.39    
## Adj. R^2       0.39    
## Num. obs.    526       
## =======================
## *** p < 0.001; ** p < 0.01; * p < 0.05

a) El error de medición en variables explicadas \(y\)

Sea \(y*\) la variable que se desea explicar para la población. En este caso, serán los salarios por hora wage. Como hemos revisado, este modelo tendría la forma

\[ \begin{equation} y* = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_{k}x_{k} + u, \end{equation} \]

suponiendo que satisface los supuestos de Gauss-Markov revisados en clases previas. Sea \(y\) el valor observado para los salarios por hora. Es razonable considerar que los informantes no necesariamente reportarán sus salarios por hora con exactitud, pudiendo sobre o subestimarlo al aproximar el valor de su salario a lo largo de su proceso cognitivo de respuesta. En ese caso, podríamos esperar que \(y \neq y*\), al menos en un conjunto de los informantes.

Así, el error de medición en la población está definido como la diferencia entre el valor observado y el valor real que adopta la variable

\[ \begin{equation} e_{0} = y-y* \end{equation} \]

Lo relevante será analizar cómo el error de medición en la población se asocia con otros factores. La pregunta en este caso sería los años de escolaridad, los años de experiencia laboral, la antiguedad en la empresa o el género están asociados a un sobre o subreporte de los salarios por parte de los informantes. Para un modelo estimable, tenemos que \(y* = y-e_{0}\), por lo cual

\[ \begin{equation} y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_{k}x_{k} + u + e_{0}. \end{equation} \]

En esta ecuación, el error es \(u + e_{0}\). Como \(y,x_1, x_2, ..., x_k\) son observados, podemos estimar el modelo MCO, ignorando el error de medición de \(y*\).

Si el modelo formulado cumple con los supuestos de Gauss-Markov, la media de \(u=0\), y no está corrrelacionada con las \(x_j\). Podemos suponer, entonces, que la media del error de medición \(e_0\) sea igual a 0. De no cumplirse esto, tan sólo estimaríamos un estimador sesgado de \(\beta_0\), lo cual no necesariamente es causa de preocupación. En ese sentido, es más relevante el supuesto sobre la relación entre \(e_0\) e \(x_1, x_2, ..., x_k\). El supuesto es que el error de medición en \(y\) sea estadísticamente independiente de cada una de las variables explicativas incorporadas. De cumplirse esto, entonces los estimadores de MCO son insesgados y consistentes.

En caso de que \(e_0\) y \(u\) no estén correlacionados, entonces \(Var(u+e_0) = \sigma_u^2 + \sigma_0^2 > \sigma_u^2\). Ello implica que el error de medición de la variable explicada significa una mayor varianza del error que cuando no existe error de medición. La consecuencia de lo anterior es una mayor varianza en los estimadores de MCO. Lo único que puede hacerse frente a ello es recolectar datos mejores, es decir, con menor error de medición. No obstante, si el error de medición no está asociado con las variables explicativas, entonces la estimación por MCO tiene propiedades adecuadas.

En caso de que la variable explicada esté en forma logarítmica \(log(y*)\), el error de medición de la ecuación adoptará la forma

\[ \begin{equation} log(y) = log(y*) + e_0, \end{equation} \] lo cual sigue de un error de medición multiplicativo para \(y\): \(y = y*a_0\), donde \(a_0>0\) y \(e_0 = log(a_0)\).

En síntesis, el error de medición en la variable explicada puede causar un sesgo en MCO, en caso de estar correlacionado de manera sistemática con al menos uno de los predictores. Si este es sólo un error aleatorio asociado únicamente al reporte de los datos, entonces MCO es un método de estimación apropiado, pese a \(e_0\).

b) Error de medición en variables explicativas \(x_j\)

En general, un error de medición en \(x_j\) tiende a ser un problema mayor a un error de medición en \(y\).

Para simplificar la explicación, consideremos en modelo simple

\[ \begin{equation} y = \beta_0 + \beta_1x^*_1 + u, \end{equation} \] que satisface al menos los cuatro primeros supuestos de Gauss-Markov, a partir de lo cual podemos suponer que dará estimadores insesgados y consistentes de \(\beta_0\) y \(\beta_1\). No obstante, tenemos que \(x^*_1\) no es observada. En su reemplazo, tenemos la medición \(x_1\). En este caso, \(x^*_1\) será el ingreso por hora real, y \(x_1\) el ingreso por hora reportado por los informantes. El error de medición sería

\[ \begin{equation} e_1 = x_1 - x^*_1, \end{equation} \]

pudiendo adoptar valores positivos y negativos además del cero. Suponemos que, en la población, la media del error de medición es cero: \(E(e_1) = 0\). Asimismo, suponemos que \(u\) no está correlacionado con \(x^*_1\) ni \(x_1\). O sea, \(E(y|x^*_1,x_1) = E(y|x^*_1)\): \(x_1\) no afecta a \(y\) cuando controlamos por \(x^*_1\).

Cuando sustituimos \(x^*_1\) por \(x_1\), y queremos conocer las propiedades de MCO, debemos asumir una serie de supuesto sobre el error de medición. El primero es que \(e_1\) no está correlacionado con \(x_1\):

\[ \begin{equation} Cov(x_1, e_1) = 0. \end{equation} \]

Si esto es verdadero, entonces \(e_1\) debe estar correlacionado con \(x^*_1\). Para determinar las propiedades de MCO en este caso, escribimos \(x^*_1 = x_1 - e_1\), sustituyéndolo en la ecuación inicial

\[ \begin{equation} y = \beta_0 + \beta_1x_1 + (u - \beta_1e_1). \end{equation} \]

Como suponemos que \(u\) y \(e_1\) tienen media cero y no están correlacionado con \(x_1\), entonces \((u - \beta_1e_1)\) tiene media cero y no está correlacionado con \(x_1\). De ello se sigue que nuestra estimación con \(x_1\) en lugar de \(x^*_1\) produce estimadores consistentes e insesgados para \(\beta_1\) y \(\beta_0\).

Dado que \(u\) y \(e_1\) no están correlacionados, la varianza del error será \(Var(u-\beta_1e_1) = \sigma^2_u + \beta^2_1\sigma^2_{e_1}\). De ese modo, salvo cuando \(\beta_1=0\), el error de medición aumentará la varianza del error. Esto no afecta a las propiedades de MCO, salvo que las varianzas de \(\hat\beta_j\) sean mayores que si \(x_1 = x^*_1\).

Por otra parte, el supuesto de errores clásicos en las variables (ECV) es que no existe correlación entre el error de medición y la variable explicativa no observada

\[ \begin{equation} Cov(x^*_1, e_1) = 0, \end{equation} \] lo cual proviene de expresar la medición observada como la suma de su parámetro y el error de medición:

\[ \begin{equation} x_1 = x^*_1 + e_1. \end{equation} \]

Si ello se satisface, entonces \(x_1\) y \(e_1\) deben estar correlacionadas

\[ \begin{equation} Cov(x_1, e_1) = E(x_1e_1) = E(x^*_1e_1) + E(e^2_1) = 0 + \sigma^2_{e_1} = \sigma^2_{e_1}. \end{equation} \]

De este modo, bajo el supuesto ECV, la covarianza entre \(x_1\) y \(e_1\) es igual a la varianza del error de medición. De ese modo, una correlación entre \(x_1\) y \(e_1\) generará problemas. Como \(u\) y \(x_1\) no están correlacionados, la covarianza entre \(x_1\) y el error compuesto \(u - \beta_1e_1\) es

\[ \begin{equation} Cov(x_1, u-\beta_1e_1) = -\beta_1Cov(x_1, e_1) = -\beta_1\sigma^2_{e_1}. \end{equation} \]

Así, en el caso de ECV, la regresión MCO de \(y\) sobre \(x_1\) da un estimador sesgado e inconsistente. Podemos estimar la magnitud de la inconsistencia de la siguiente forma:

\[ \begin{equation} \begin{aligned} plim(\hat\beta_1) = \beta_1 + \frac{Cov(x_1, u-\beta_1e_1)}{Var(x_1)} \\ = \beta_1 - \frac{\beta_1\sigma^2_{e_1}}{\sigma^2_{x^*_1} + \sigma^2_{e_1}} \\ = \beta_1(1-\frac{\sigma^2_{e_1}}{\sigma^2_{x^*_1} + \sigma^2_{e_1}}) \\ =\beta_1(\frac{\sigma^2_{x^*_1}}{\sigma^2_{x^*_1} + \sigma^2_{e_1}}) \end{aligned} \end{equation} \]

De ello podemos desprender dos elementos:

  1. \(\frac{Var(x^*_1)}{Var(x_1)}\) es siempre menor a uno, por lo que plim\((\hat\beta_1)\) se encuentra más cercano a cero que \(\beta_1\). A ello se le denomina sesgo de atenuación en MCO: en promedio, el efecto estimado será atenuado. Por ejemplo, si \(\beta_1>0\), tenderá a subestimarlo.

  2. Si la varianza de \(x^*_1\) es grande en relación con la varianza del error de medición, la inconsistencia de MCO será pequeña, pues \(\frac{Var(x^*_1)}{Var(x_1)}\) tendrá un valor cercano a 1 cuando \(\frac{\sigma^2_{x^*_1}}{\sigma^2_{e_1}}\) es grande.

Todo se complica cuando trabajamos con modelos múltiples. Consideremos el modelo ilustrativo

\[ \begin{equation} y = \beta_0 + \beta_1x^*_1 + \beta_2x_2 + \beta_{3}x_{3} + u, \end{equation} \]

donde la primera variable se ha medido con error. Suponemos que no eixste correlación entre \(e_1\) y \(x_2\) y \(x_3\). Lo relevante es saber si \(e_1\) está correlacionado con \(x_1\). De ser así, la regresión MCO genera estimadores consistentes. Esto es más sencillo escribiendo

\[ \begin{equation} y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_{3}x_{3} + u - \beta_1e_1, \end{equation} \]

donde \(u\) ni \(e_1\) están relacionados con ningún predictor. Siguiendo el supuesto ECV, MCO será sesgado e inconsistente cuando \(e_1\) esté correlacionado con \(x_1\), lo cual tiene como consecuencia que todos los estimadores \(\beta_k\) serán sesgados.

El error de medición puede presentarse en más de una variable explicativa. Lo esperable es que no exista una correlación entre el error de medición \(e_1\) y el valor real \(x^*_1\). Por ejemplo, que no exista una correlación entre el valor real de años de escolaridad y el error de medición asociado.

En síntesis, debemos situarnos en un punto intermedio, de modo que MCO será inconsistente en caso de que \(e_1\) esté correlacionado con \(x^*_1\) o \(x_1\).

3. Solucionando los problemas ocasionados por el error de medida

El problema del error de medición puede ser considerado como un problema de datos. Además, si \(x_1\) está correlacionada con \(u - \beta_1e_1\), se violan los supuestos de Gauss-Markov. Por su parte, la multicolinealidad o correlación entre variables explicativas no viola ningún supuesto. Ahora revisaremos algunos de los problemas clásicos que pueden dificultar el cumplimiento del teorema de Gauss-Markov, y cómo solucionarlos.

a) Datos faltantes

Es posible que, para alguna de nuestras observaciones, no tengamos algún dato en alguna variable de interés. Por ejemplo, podría suceder que las personas no declaren sus ingresos, por la falta de confianza que existe para entregar información sensible. De ser así, no podemos emplear esta observación en un análisis de regresión múltiple. Por ello, en la mayoría de los casos, ignoraremos las observaciones con ausencia en variables de interés.

Sin embargo, existen maneras de recuperar casos perdidos. Por ejemplo, para el caso de los ingresos, dado que tiende a ser información sensible para los informantes, se genera una pregunta “salvavidas” con tramos de ingreso, para que las personas se posicionen en alguno de ellos sin necesidad de indicar el monto exacto de sus ingresos.

Luego, es posible estimar la marca de clase de los intervalos propuestos, a modo de imputar el valor de la marca de clase a quienes no hayan declarado sus ingresos en la variable original. La marca de clase se estima como el promedio de los límites inferior y superior de cada intervalo

\[ \begin{equation} mc = \frac{LI+LS}{2} \end{equation} \]

b) Ausencia de linealidad

En algunos casos, la relación entre nuestras variables explicativa y explicada no es lineal. Ello viola el supuesto de linealidad del teorema Gauss-Markov, revisado en el práctico anterior. En este caso, el test RESET de Ramsey nos indica la necesidad de una re-especificación de los predictores:

lmtest::resettest(mod)
## 
## 	RESET test
## 
## data:  mod
## RESET = 7.5488, df1 = 2, df2 = 519, p-value = 0.0005867

Intentemos generando un modelo con la antiguedad al cuadrado:

wage1$educ2 = (wage1$educ)^2
mod2 = lm(lwage ~ educ+educ2+exper+tenure+female, data = wage1)
screenreg(list(mod, mod2))
## 
## ===================================
##              Model 1     Model 2   
## -----------------------------------
## (Intercept)    0.50 ***    1.03 ***
##               (0.10)      (0.19)   
## educ           0.09 ***   -0.01    
##               (0.01)      (0.03)   
## exper          0.00 **     0.00 ** 
##               (0.00)      (0.00)   
## tenure         0.02 ***    0.02 ***
##               (0.00)      (0.00)   
## female        -0.30 ***   -0.29 ***
##               (0.04)      (0.04)   
## educ2                      0.00 ** 
##                           (0.00)   
## -----------------------------------
## R^2            0.39        0.40    
## Adj. R^2       0.39        0.40    
## Num. obs.    526         526       
## ===================================
## *** p < 0.001; ** p < 0.01; * p < 0.05

Podemos ver que los coeficientes y \(R^2\) se han ajustado un poco en sus valores. Realizando el test RETEST de Ramsey una vez más, nos daremos cuenta de que ahora el modelo está bien especificado, a partir de su p-valor.

lmtest::resettest(mod2)
## 
## 	RESET test
## 
## data:  mod2
## RESET = 0.86008, df1 = 2, df2 = 518, p-value = 0.4237

En algunos casos, logaritmizar la variable dependiente también permite solucionar problemas de linealidad.

c) Dicotomizar variable dependiente

Muchas veces, en ciencias sociales trabajamos con variables que no siguen una distribución normal, como sucede con las ítems tipo escala Likert. Podemos re-especificar nuestra variable dependiente como dicotómica utilizando la mediana o la media como punte de corte, según corresponda. Por ejemplo, para wage:

wage1$med_wage = ifelse(wage1$wage >= median(wage1$wage), 1, 0)
wage1$mean_wage = ifelse(wage1$wage >= mean(wage1$wage), 1, 0)

Luego, en lugar de estimar modelos de regresión lineal, estimaremos modelos de regresión logística binomial, lo cual va más allá de los contenidos de este curso.

d) Heterocedasticidad

En este caso, podemos robustecer los errores estándar estimados, de la siguiente manera:

mod_r <- lmtest::coeftest(mod, vcov=sandwich::vcovHC(mod))
screenreg(list(mod, mod_r))
## 
## ==================================
##              Model 1     Model 2  
## ----------------------------------
## (Intercept)    0.50 ***   0.50 ***
##               (0.10)     (0.12)   
## educ           0.09 ***   0.09 ***
##               (0.01)     (0.01)   
## exper          0.00 **    0.00 ** 
##               (0.00)     (0.00)   
## tenure         0.02 ***   0.02 ***
##               (0.00)     (0.00)   
## female        -0.30 ***  -0.30 ***
##               (0.04)     (0.04)   
## ----------------------------------
## R^2            0.39               
## Adj. R^2       0.39               
## Num. obs.    526                  
## ==================================
## *** p < 0.001; ** p < 0.01; * p < 0.05

e) Multicolinealidad

Cuando nuestros predictores están muy correlacionados, lo más probable es que esas distintas variables realmente estén midiendo el mismo constructo. Podemos construir índices de distintos tipos para solucionar este problema. Por ejemplo:

  1. Índices sumativos: variables formativas donde se suma el valor de las distintas variables correlacionadas. Suele ser útil cuando se trabaja con variables categóricas, como dummies o ítems tipo Likert.

  2. Índices a través de promedios: variables formativas donde promediamos los valores observados para los predictores correlacionados. Esto se puede realizar si a) ambas variables son numéricas; y b) el rango de las variables es el mismo. Por ello, siempre es recomendable estandarizar las variables antes de crear un índice a través de promedios.

f) Casos influyentes

Podemos identificar y filtrar a los casos influyentes de la distribución de la sigueinte manera:

n<- nobs(mod) #n de observaciones
k<- length(coef(mod)) # n de parametros
dcook<- 4/(n-k-1) #Punto de corte
# Datos donde se filtran los valores sobre el punto de corte
wage1_ni <- broom::augment_columns(mod,data = wage1) %>% filter(.cooksd<dcook)
mod_ni = lm(lwage ~ educ+exper+tenure+female, data = wage1_ni)
screenreg(list(mod, mod_ni))
## 
## ===================================
##              Model 1     Model 2   
## -----------------------------------
## (Intercept)    0.50 ***    0.46 ***
##               (0.10)      (0.09)   
## educ           0.09 ***    0.09 ***
##               (0.01)      (0.01)   
## exper          0.00 **     0.00 ** 
##               (0.00)      (0.00)   
## tenure         0.02 ***    0.02 ***
##               (0.00)      (0.00)   
## female        -0.30 ***   -0.30 ***
##               (0.04)      (0.03)   
## -----------------------------------
## R^2            0.39        0.47    
## Adj. R^2       0.39        0.46    
## Num. obs.    526         496       
## ===================================
## *** p < 0.001; ** p < 0.01; * p < 0.05

4. Resumen

En este práctico aprendimos

  1. Las implicancias conceptuales y empíricas del error de medición en \(x\) e \(y\).
  2. Cómo solucionar algunos problemas que singifican el incumplimiento de los supuestos del teorema Gauss-Markov.
Previous
Next