El análisis de regresión se utiliza para comprender, modelar, predecir o explicar fenómenos complejos. Le ayuda a responder preguntas como "¿Por qué hay lugares en Estados Unidos con puntuaciones en los exámenes que están sistemáticamente por encima del promedio nacional?" o "¿Por qué hay áreas de la ciudad con tan altas tasas de robo residencial?" Puede utilizar el análisis de regresión para explicar la obesidad infantil, por ejemplo, mediante un conjunto de variables relacionadas como los ingresos, la educación y la accesibilidad a alimentos sanos.
Por lo general, el análisis de regresión le ayuda a responder a estas preguntas de por qué, para que pueda hacer algo al respecto. Si, por ejemplo, comprueba que la obesidad infantil es menor en las escuelas que sirven frutas y vegetales frescos a la hora de comer, puede utilizar esa información para orientar la política y tomar decisiones sobre los programas de almuerzo escolar. Del mismo modo, conocer las variables que ayudan a explicar las tasas altas de delincuencia puede permitirle hacer predicciones sobre la futura delincuencia de manera que los recursos de prevención puedan asignarse de forma más efectiva.
Estas son las cosas que sí le dicen sobre el análisis de regresión.
Lo que no le dicen sobre el análisis de regresión es que no siempre resulta fácil encontrar un conjunto de variables explicativas que le permitan responder a su pregunta o explicar el fenómeno complejo que intenta modelar. La obesidad infantil, el crimen, los resultados de las pruebas y casi todas las cosas que quizá desee modelar mediante el análisis de regresión son cuestiones complicadas que rara vez tienen respuestas sencillas. Es posible que, si alguna vez ha intentado construir su propio modelo de regresión, esto no es nada nuevo para usted.
Afortunadamente, cuando ejecuta la herramienta de regresión Mínimos cuadrados ordinarios (OLS), se le presenta un conjunto de diagnósticos que pueden ayudar a averiguar si tiene un modelo especificado correctamente; un modelo especificado adecuadamente es uno en el que puede confiar. Este documento analiza los seis controles que deseará pasar para tener confianza en el modelo. Estos seis controles y las técnicas que puede utilizar para resolver algunos de los problemas de análisis de regresión más comunes, son recursos que definitivamente pueden hacer su trabajo más fácil.
Introducción
Elegir la variable que desee entender, predecir o modelar es su primera tarea. Esta variable se conoce como la variable dependiente. La obesidad infantil, el crimen y las puntuaciones de los exámenes serían variables dependientes que se están modelando en los ejemplos descritos anteriormente.
A continuación, tiene que decidir qué factores pueden ayudar a explicar su variable dependiente. Estas variables se conocen como las variables explicativas. En el ejemplo de obesidad infantil, las variables explicativas podrían ser cosas como los ingresos, la educación y la accesibilidad a alimentos sanos. Deberá hacer su investigación aquí para identificar todas las variables explicativas que podrían ser importantes; consulte la teoría y literatura existente, hable con los expertos y confíe siempre en su sentido común. La investigación preliminar que hace por adelantado aumentará enormemente sus posibilidades de encontrar un buen modelo.
Con la variable dependiente y las variables explicativas de candidato seleccionadas, está listo para ejecutar el análisis. Inicie siempre el análisis de regresión con Mínimos cuadrados ordinarios o Regresión exploratoria porque estas herramientas realizan importantes pruebas de diagnóstico que le permiten saber si ha encontrado un modelo útil o si todavía tiene mucho trabajo por hacer.
La herramienta OLS genera varias salidas incluyendo un mapa de los residuales de regresión y un informe de resumen. El mapa de residuales de regresión muestra las predicciones escasas y excesivas de su modelo, y analizar este mapa es un paso importante en la búsqueda de un buen modelo. El informe de resumen es en gran medida numérico e incluye todos los diagnósticos que utilizará al revisar los seis controles a continuación.
Los seis controles
Comprobación 1: ¿Estas variables explicativas están ayudando a mi modelo?
Después de consultar la teoría y la investigación existentes, habrá identificado un conjunto de variables explicativas de candidatos. Tendrá buenas razones para incluir cada uno en su modelo. Sin embargo, después de ejecutar el modelo, encontrará que algunas de sus variables explicativas son estadísticamente significativas y otras no.
¿Cómo sabrá qué variables explicativas son importantes? La herramienta OLS calcula un coeficiente para cada variable explicativa en el modelo y realiza una prueba estadística para determinar si la variable está ayudando a su modelo o no. La prueba estadística calcula la probabilidad de que el coeficiente sea realmente de cero. Si el coeficiente es cero (o muy cerca de cero), la variable explicativa asociada no ayuda al modelo. Cuando la prueba estadística devuelve una pequeña probabilidad (valor p) para una variable explicativa en particular, por otra parte, indica que es poco probable (hay una pequeña probabilidad) que el coeficiente sea cero. Cuando la probabilidad es menor que 0,05, un asterisco junto a la probabilidad en el informe de resumen de OLS indica que la variable explicativa asociada es importante para el modelo (es decir, su coeficiente es estadísticamente significativo en el 95 por ciento del nivel de confianza). Así que está buscando las variables explicativas asociadas con las probabilidades estadísticamente significativas (busque las que tienen asteriscos).
La herramienta OLS calcula tanto la probabilidad, como la probabilidad sólida de cada variable explicativa. Con datos espaciales, no es raro que las relaciones que está modelando varíen en toda el área de estudio. Estas relaciones se caracterizan como no estacionarias. Cuando las relaciones no son estacionarias, solo puede confiar en las probabilidades sólidas para decirle si una variable explicativa es estadísticamente significativa.
Cómo sabrá si las relaciones del modelo no son estacionarias? Otra prueba estadística incluida en el informe de resumen de OLS es la estadística de Koenker (Breusch-Pagan estudentizada de Koenker) para la no estacionariedad. Un asterisco junto al valor p de Koenker indica que las relaciones que está modelando exhiben una no estacionariedad estadísticamente significativa, por lo tanto, asegúrese de consultar las probabilidades sólidas.
Normalmente quitará las variables explicativas del modelo si no son estadísticamente significativos. Sin embargo, si la teoría indica que una variable es muy importante, o si una variable específica es el enfoque de su análisis, puede conservarla incluso si no es estadísticamente significativa.
Comprobación 2: ¿Las relaciones son lo que esperaba?
No solo es importante determinar si una variable explicativa está realmente ayudando a su modelo, sino que también querrá verificar el signo (+/-) asociado con cada coeficiente para asegurarse de que la relación es lo que esperaba. El signo del coeficiente de la variable explicativa indica si la relación es positiva o negativa. Supongamos que modela la delincuencia, por ejemplo, y una de las variables explicativas es el ingreso promedio de la vecindad. Si el coeficiente de los ingresos variable es un número negativo, significa que los crímenes tienden a disminuir a medida que aumentan los ingresos de la vecindad (una relación negativa). Si modela la obesidad infantil y la accesibilidad a la comida rápida variable tuviera un coeficiente positivo, indicaría que la obesidad infantil tiende a aumentar a medida que aumenta el acceso a la comida rápida (una relación positiva).
Cuando crea la lista de variables explicativas de candidatos, debe incluir para cada variable la relación (positivo o negativo) que espera. Le sería difícil confiar en relaciones que informan sobre el modelo que no coinciden con la teoría o el sentido común. Supongamos que está construyendo un modelo para predecir las frecuencias de incendios forestales y el modelo de regresión devolvió un coeficiente positivo para la variable de precipitación. Probablemente no esperaría que los incendios forestales aumentaran en ubicaciones con mucha lluvia.
Las señales de coeficientes inesperados con frecuencia indican que hay otros problemas con el modelo que saldrán a la superficie en medida que usted continúe trabajando a través de los seis controles. Solo puede confiar en la señal y la fuerza de los coeficientes de variable explicativa si el modelo pasa todos estos. Si encuentra un modelo que pasa todos los controles a pesar del inesperado signo del coeficiente, puede haber descubierto una oportunidad para aprender algo nuevo. Quizás existe una relación positiva entre la frecuencia de incendios forestales y las precipitaciones porque la principal fuente de incendios forestales en su área de estudio es un rayo. Puede ser que valga la pena intentar obtener datos sobre rayos para su área de estudio para ver si mejora el rendimiento del modelo.
Comprobación 3: ¿Algunas de las variables explicativas son redundantes?
Cuando elija variables explicativas para incluirlas en el análisis, busque variables que obtengan diferentes aspectos de lo que intenta modelar; evite las variables que cuentan la misma historia. Por ejemplo, si está tratando de modelar los valores de viviendas, probablemente no incluiría variables explicativas tanto para la superficie en pies cuadrados de la vivienda y el número de dormitorio. Ambas variables se refieren al tamaño de la casa, e incluir ambos podría hacer que su modelo fuera inestable. Por último, no puede confiar en un modelo que incluye variables redundantes.
¿Cómo sabrá si dos o más variables son redundantes? Afortunadamente, cada vez que hay más de dos variables explicativas, la herramienta OLS calcula un Factor de inflación de la varianza (VIF) para cada variable. El valor VIF es una medida de redundancia de la variable y puede ayudarle a decidir qué variables se pueden quitar de su modelo sin poner en peligro el poder explicativo. Como regla general, un valor VIF por encima de 7,5 es problemático. Si tiene dos o más variables con valores VIF arriba de 7,5, debe quitarlos uno a la vez y volver a ejecutar OLS hasta que la redundancia desaparezca. Tenga en cuenta que no desea quitar todas las variables con valores VIF altos. En el ejemplo de modelar los valores de las viviendas, la superficie en pies cuadrados y el número de dormitorios probablemente tendrá los valores VIF inflados. Sin embargo, tan pronto elimina una de esas dos variables, se elimina la redundancia. Es importante incluir una variable que refleje el tamaño de la casa; simplemente no desea modelar este aspecto de los valores de las viviendas de manera redundante.
Comprobación 4: ¿Mi modelo está sesgado?
Esto puede parecer una pregunta capciosa, pero la respuesta es muy sencilla. Cuando se tiene un modelo OLS especificado adecuadamente, los residuales del modelo (las predicciones escasas y excesivas) se distribuyen normalmente con un valor medio de cero (piense en la curva de campana). Sin embargo, cuando el modelo está sesgado, la distribución de los residuales está desequilibrada, como se muestra a continuación. No se puede confiar totalmente en los resultados anticipados cuando el modelo está sesgado. Afortunadamente, hay varias estrategias para ayudarle a corregir este problema.
Un diagnóstico Jarque-Bera estadísticamente significativo (busque el asterisco) indica que el modelo está sesgado. A veces el modelo está haciendo un buen trabajo para los valores bajos pero no está anticipando bien para los valores altos (o viceversa). Con el ejemplo de obesidad infantil, esto significaría que, en las ubicaciones con baja obesidad infantil, el modelo está haciendo un gran trabajo, pero en áreas con alta obesidad infantil, las predicciones no están bien. El sesgo del modelo también puede ser el resultado de los valores atípicos que están influyendo en la estimación del modelo.
Para ayudarle a resolver el sesgo del modelo, cree una matriz de gráfico de dispersión para todas las variables del modelo. Una relación no lineal entre la variable dependiente y una de las variables explicativas es una causa común del sesgo del modelo. Estos podría parecer una línea curva en la matriz de dispersión. Las relaciones lineales parecen líneas diagonales.
Si observa que la variable dependiente mantiene una relación no lineal con una de las variables explicativas, tendrá que hacer algunos ajustes. OLS es un método de regresión lineal que parte de la base de que las relaciones que está modelando son lineales. Cuando no lo son, puede intentar transformar sus variables para ver si esto crea relaciones que son más lineales. Las transformaciones comunes incluyen el registro y el exponencial. Marque la opción Mostrar histogramas (con lo que se activa) en el asistente Crear matriz de gráfico de dispersión para incluir un histograma para cada variable de la matriz de gráfico de dispersión. Si algunas de sus variables explicativas son muy sesgadas, es posible que pueda quitar del sesgo del modelo al transformarlos también.
La matriz de gráfico de dispersión también mostrará valores atípicos de los datos. Para ver si un valor atípico afecta al modelo, pruebe a ejecutar OLS con y sin un valor atípico y compruebe cuánto cambia el rendimiento del modelo y si al eliminarlo se corrige el sesgo del modelo. En algunos casos (especialmente si piensa que los valores atípicos representan datos erróneos), es posible que pueda sacar los valores atípicos de su análisis.
Comprobación 5: ¿He encontrado todas las variables explicativas clave?
Con frecuencia, entra en un análisis con hipótesis sobre qué variables serán indicadores importantes. Quizá usted considera que 5 variables particulares producirán un buen modelo, o quizás tiene una lista de firmas de 10 variables que cree pueden estar relacionadas. Si bien es importante enfocar el análisis de regresión con una hipótesis, es también importante permitir que su creatividad y perspicacia le ayuden a profundizar. Resista la tentación de limitarse a su primera lista de variables, e intente considerar todas las posibles variables que puedan afectar lo que está modelando. Cree mapas temáticos de cada una de las variables explicativas del candidato y compárelas a un mapa de la variable dependiente. Vuelva a consultar los libros y explore la bibliografía pertinente. Utilice su intuición para buscar relaciones en sus datos representados cartográficamente. Definitivamente, intente presentar tantos candidatos como variables espaciales pueda, como, por ejemplo, la distancia desde el centro urbano, la proximidad a las principales carreteras o el acceso a grandes masas de agua. Estos tipos de variables serán especialmente importantes para los análisis cuando considere que los procesos geográficos afectan las relaciones en los datos. Hasta que encuentre variables explicativas que capturen efectivamente la estructura espacial en su variable dependiente, de hecho, a su modelo le faltarán variables explicativas clave y no podrá pasar todas las verificaciones de diagnóstico que aquí se describen.
La evidencia de que le falta una o más variables explicativas clave es la autocorrelación espacial estadísticamente significativa de los residuales del modelo. En el análisis de regresión, los problemas con los residuales autocorrelacionados espacialmente suelen adoptar la forma de clustering: el cluster de predicciones excesivas por un lado y el cluster de predicciones escasas por otro. ¿Cómo sabrá si tiene una autocorrelación espacial estadísticamente significativa en los residuales del modelo? Al ejecutar la herramienta Autocorrelación espacial en los residuales de regresión, podrá saber si hay algún problema con la autocorrelación espacial. Una puntuación z estadísticamente significativa indica que le faltan variables explicativas clave al modelo.
Encontrar esas variables explicativas faltantes a menudo es tanto un arte como una ciencia. Intente estas estrategias para ver si proporcionan cualquier pista:
Examine el mapa residual OLS
La salida estándar de OLS es un mapa de los residuales del modelo. Las áreas en rojo indican que los valores reales (la variable dependiente) son más grandes de lo que el modelo predijo. Las áreas azules muestran donde los valores reales son más bajos de lo previsto. A veces solo ver el mapa residual le dará una pista sobre lo que puede faltar. Si observa que está haciendo predicciones excesivas de forma consistente en áreas urbanizadas, por ejemplo, es posible que quiera considerar agregar una variable que refleje la distancia a los centros urbanos. Si parece ser que las predicciones excesivas están asociadas con los picos de montaña o fondos de los valles, quizás necesite una elevación variable. ¿Ve clusters regionales, o puede reconocer las tendencias en los datos? Si es así, crear una variable de simulación para capturar estas diferencias regionales puede ser eficaz. El ejemplo clásico de una variable de simulación es aquel que distingue las entidades urbanas y rurales. Al asignar a todas las entidades rurales un valor de 1 y a todas las demás entidades un valor de 0, es posible que pueda capturar las relaciones espaciales en el paisaje que podría ser importante para el modelo. A veces la creación de un mapa de punto caliente de los residuales de modelo le ayudará a visualizar patrones regionales amplios.
Descubrir las variables espaciales faltantes no solo tiene el potencial de mejorar el modelo, sino que este proceso también puede ayudarle a comprender mejor el fenómeno que está modelando en nuevas e innovadoras maneras.
Examinar la no estacionariedad
También puede intentar ejecutar Regresión ponderada geográficamente y crear superficies de coeficiente para cada una de las variables explicativas o mapas de los valores R2 locales. Seleccione el modelo OLS que está funcionando bien (uno con un valor R2 alto ajustado que pasa todos o la mayoría de las demás verificaciones de diagnóstico). Ya que GWR crea una ecuación de regresión para cada entidad en su área de estudio, las superficies del coeficiente ilustran la forma en que las relaciones entre la variable dependiente y cada variable explicativa fluctúan geográficamente; el mapa de los valores R2 locales muestra las variaciones en el poder explicativo del modelo. A veces, al ver estas variaciones geográficas se pueden detectar qué variables podrían faltar: una caída del poder explicativo cerca de las principales autopistas, un declive con la distancia desde la costa, un cambio en el signo de los coeficientes cercanos a una región industrial o una fuerte tendencia o límite de este a oeste; todas ella serían pistas sobre las variables espaciales que pueden mejorar el modelo.
Al examinar las superficies del coeficiente, esté pendiente de las variables explicativas con coeficientes que cambien de signo positivo a negativo. Esto es importante porque es probable que OLS pase por alto el potencial predictivo de estas variables altamente no estacionarias. Considere, por ejemplo, la relación entre la obesidad infantil y el acceso a opciones de alimentos saludables. Es posible que en áreas de bajos ingresos con poco acceso a vehículos, que están lejos de un supermercado, sea una barrera real para hacer elecciones de alimentos saludables. En áreas con altos ingresos con mejor acceso a los vehículos, sin embargo, tener un supermercado en sus inmediaciones podría ser realmente indeseable; la distancia al supermercado podría no funcionar como una barrera para la compra de alimentos saludables. A pesar de que GWR es capaz de modelar estos tipos de relaciones complejas, OLS no lo es. OLS es un modelo global y espera que las relaciones variables sean consistentes (estacionarias) en toda el área de estudio. Cuando los coeficientes cambian de signo, se anulan entre sí. Piénselo como (+1) + (-1) = 0. Cuando encuentre variables en las que los coeficientes están cambiando radicalmente, sobre todo si cambian de signo, debería mantenerlas en el modelo incluso si no son estadísticamente significativas. Estos tipos de variables serán efectivos cuando se traslada a GWR.
Trate de ajustar OLS a áreas de estudio de un subconjunto más pequeño
GWR es enormemente útil a la hora de tratar con la no estacionariedad, y puede ser tentador avanzar directamente a GWR sin encontrar primero un modelo OLS especificado adecuadamente. Por desgracia, GWR no tiene todos los grandes diagnósticos para ayudarle a determinar si las variables explicativas son estadísticamente significativas, si los residuales están distribuidos normalmente, o en última instancia, si tiene un buen modelo. GWR no arreglará un modelo especificado de manera indebida a menos que usted pueda estar seguro que la única razón por la que el modelo OLS está fallando en los seis controles es el resultado directo de la no estacionariedad. La evidencia de la no estacionariedad sería buscar variables explicativas que tengan una fuerte relación positiva en algunas partes del área de estudio y una fuerte relación negativa en otras partes. A veces, el problema no es con las variables explicativas individuales sino con el conjunto de variables explicativas que se utiliza en el modelo. Puede ser posible que un conjunto de variables proporcione un buen modelo para una parte del área de estudio, pero otro conjunto de variables diferentes funcione mejor en todas partes. Para ver si este es el caso, puede seleccionar varias áreas de estudio de subconjuntos más pequeños e intentar ajustar los modelos de OLS para cada uno de estos. Seleccione las áreas del subconjunto basado en los procesos que considere que pueden estar relacionados con el modelo (áreas de altos ingresos versus áreas de bajos ingresos, viviendas nuevas versus viejas). Como alternativa, seleccione las áreas basado en el mapa de GWR de los valores R2 locales; las ubicaciones con mal rendimiento de modelo se pueden modelar mejor mediante un conjunto de variables explicativas diferente.
Si encuentra modelos de OLS especificado adecuadamente en varias áreas de estudio pequeñas, puede llegar a la conclusión de que la no estacionariedad es la responsable y pasar a GWR utilizando el conjunto completo de variables explicativas que encontró de todos los modelos de área del subconjunto. Si no encuentra modelos especificado adecuadamente en las áreas de subconjunto más pequeñas, es posible que usted intenta modelar algo que es demasiado complejo para ser reducido a serie sencilla de mediciones numéricas y relaciones lineales. En ese caso, probablemente deba analizar métodos analíticos alternativos.
Todo esto puede ser un poco de trabajo, pero también es un excelente ejercicio de análisis de datos exploratorios y le ayudará a entender mejor los datos, encontrar nuevas variables para utilizar, y puede incluso provocar un gran modelo.
Comprobación 6: ¿Cómo de bien estoy explicando mi variable dependiente?
Ahora es finalmente el momento de evaluar el rendimiento del modelo. El valor R2 ajustado es una medición importante de qué tan están modelando las variables explicativas la variable dependiente. El valor R2 también es uno de los primeros datos que indican sobre el análisis de regresión. Por lo tanto, ¿por qué estamos dejando este importante control hasta el final? Lo que no indican es que no puede confiar en el valor R2 a menos que haya superado todas las demás comprobaciones mencionadas anteriormente. Si el modelo está sesgado, es posible que esté desempeñándose bien en algunas áreas o con un determinado rango de los valores de la variable dependiente, pero que de otro modo no se desempeñan bien en absoluto. El valor R2 no refleja eso. Del mismo modo, si tiene una autocorrelación espacial de los residuales, no puede confiar en las relaciones del coeficiente desde el modelo. Con variables explicativas redundantes puede obtener valores R2 extremadamente altos, pero su modelo será inestable; no reflejará las verdaderas relaciones que intenta modelar y puede producir resultados completamente diferentes con la adición de una única observación.
Sin embargo, una vez que haya pasado por las otras comprobaciones y tenga confianza en que ha cumplido todos los criterios necesarios, es el momento de averiguar cómo de bien explica su modelo los valores de la variable dependiente al evaluar el valor R2 ajustado. Los valores R2 oscilan entre 0 y 1 y representan un porcentaje. Supongamos que modela las tasas de delincuencia y encuentra un modelo que pasa los cinco de los controles anteriores con un valor R2 ajustado de 0.65. Esto le permite saber que las variables explicativas en el modelo indican el 65 por ciento del historial de la tasa de criminalidad (más técnicamente, el modelo explica el 65 por ciento de la variación en la variable dependiente de la tasa de criminalidad). Los valores R2 ajustados se deben juzgar con bastante subjetividad. En algunas áreas de la ciencia, explicar 23 por ciento de un fenómeno complejo será muy interesante. En otros campos, es posible que un valor R2 deba estar más cerca de un 80 o 90 por ciento antes de llamar la atención de alguien. De cualquier manera, el valor R2 ajustado valor le ayudará a juzgar cómo de bien funciona el modelo.
Otro diagnóstico importante para ayudarlo a evaluar el rendimiento del modelo es el criterio de información de Akaike corregido (AICc). El valor del AICc es una medida útil para comparar varios modelos. Por ejemplo, es posible que quiera probar modelar las puntuaciones de exámenes de los estudiantes usando diversos conjuntos de variables explicativas. En un modelo podría solo usar variables demográficas, mientras que en otro modelo puede seleccionar variables relativas a la escuela y al salón de clase, como el gasto por estudiante y las relaciones profesor-estudiante. Mientras la variable dependiente para todos los modelos que se están comparando es la misma (en este caso, las puntuaciones del examen del estudiante), puede utilizar los valores de AICc de cada modelo para determinar qué funciona mejor. El modelo con el valor del AICc más pequeño proporciona un mejor ajuste a los datos observados.
Y no olvide. . .
Tenga en cuenta que está atravesando estos pasos de la construcción de un modelo de regresión especificado correctamente que el objetivo de su análisis es, en última instancia, entender los datos y utilizar ese entendimiento para solucionar los problemas y responder a las preguntas. La verdad es que podría probar varios modelos (con y sin variables transformadas), analizar varias áreas de estudio pequeñas, analizar las superficies del coeficiente... y aún no encontrar un modelo OLS especificado adecuadamente. Pero, y esto es importante, aún estará contribuyendo al cuerpo de conocimientos sobre el fenómeno que se está modelando. Si el modelo del cual anticipó que sería excelente para predecir resulta no ser significativa en absoluto, descubrir eso es información increíblemente útil. Si una de las variables que creía que sería sólida tiene una relación positiva en algunas áreas y una relación negativa en otras, saber sobre esto, sin duda, aumenta su comprensión del problema. El trabajo que hace aquí, intentando encontrar un buen modelo utilizando OLS y luego aplicando GWR para explorar la variación regional entre las variables en el modelo, siempre será valioso.
Para obtener más información sobre el análisis de regresión, revise la página Recursos de estadística espacial.