El análisis de regresión se utiliza para comprender, modelar, predecir o explicar fenómenos complejos. Le ayuda a responder preguntas como "¿Por qué hay lugares en Estados Unidos con puntuaciones en los exámenes que están sistemáticamente por encima del promedio nacional?" o "¿Por qué hay áreas de la ciudad con tan altas tasas de robo residencial?" Puede utilizar el análisis de regresión para explicar la obesidad infantil, por ejemplo, mediante un conjunto de variables relacionadas como los ingresos, la educación y la accesibilidad a alimentos sanos.
Por lo general, el análisis de regresión le ayuda a responder a estas preguntas de por qué, para que pueda hacer algo al respecto. Si, por ejemplo, comprueba que la obesidad infantil es menor en las escuelas que sirven frutas y vegetales frescos a la hora de comer, puede utilizar esa información para orientar la política y tomar decisiones sobre los programas de almuerzo escolar. Del mismo modo, conocer las variables que ayudan a explicar las tasas altas de delincuencia puede permitirle hacer predicciones sobre la futura delincuencia de manera que los recursos de prevención puedan asignarse de forma más efectiva.
Estas son las cosas que sí le dicen sobre el análisis de regresión.
Lo que no le dicen sobre el análisis de regresión es que no siempre resulta fácil encontrar un conjunto de variables explicativas que le permitan responder a su pregunta o explicar el fenómeno complejo que intenta modelar. La obesidad infantil, el crimen, los resultados de las pruebas y casi todas las cosas que quizá desee modelar mediante el análisis de regresión son cuestiones complicadas que rara vez tienen respuestas sencillas. Es posible que, si alguna vez ha intentado construir su propio modelo de regresión, esto no es nada nuevo para usted.
Afortunadamente, al ejecutar la herramienta Regresión de mínimos cuadrados ordinarios (OLS), se le ofrece un conjunto de diagnósticos que le pueden ayudar para determinar si tiene un modelo especificado adecuadamente, es decir, uno en el que pueda confiar. Este documento analiza los seis controles que deseará pasar para tener confianza en el modelo. Estos seis controles y las técnicas que puede utilizar para resolver algunos de los problemas de análisis de regresión más comunes, son recursos que definitivamente pueden hacer su trabajo más fácil.
Introducción
Elegir la variable que desee entender, predecir o modelar es su primera tarea. Esta variable se conoce como la variable dependiente. La obesidad infantil, el crimen y las puntuaciones de los exámenes serían variables dependientes que se están modelando en los ejemplos descritos anteriormente.
A continuación, tiene que decidir qué factores pueden ayudar a explicar su variable dependiente. Estas variables se conocen como las variables explicativas. En el ejemplo de obesidad infantil, las variables explicativas podrían ser cosas como los ingresos, la educación y la accesibilidad a alimentos sanos. Deberá hacer su investigación aquí para identificar todas las variables explicativas que podrían ser importantes; consulte la teoría y literatura existente, hable con los expertos y confíe siempre en su sentido común. La investigación preliminar que hace por adelantado aumentará enormemente sus posibilidades de encontrar un buen modelo.
Con la variable dependiente y las variables explicativas de candidato seleccionadas, está listo para ejecutar el análisis. Comience siempre su análisis de regresión con Mínimos cuadrados ordinarios o Regresión exploratoria ya que estas herramientas realizan pruebas de diagnóstico importantes que le permiten saber si ha dado con un modelo útil o si todavía tiene trabajo por delante.
La herramienta OLS genera varias salidas, incluido un mapa de los residuales de regresión y un informe de resumen. El mapa de residuales de regresión muestra las predicciones escasas y excesivas de su modelo, y analizar este mapa es un paso importante en la búsqueda de un buen modelo. El informe de resumen es en gran medida numérico e incluye todos los diagnósticos que utilizará al revisar los seis controles a continuación.
Los seis controles
Comprobación 1: ¿Estas variables explicativas están ayudando a mi modelo?
Después de consultar la teoría y la investigación existentes, habrá identificado un conjunto de variables explicativas de candidatos. Tendrá buenas razones para incluir cada uno en su modelo. Sin embargo, después de ejecutar el modelo, encontrará que algunas de sus variables explicativas son estadísticamente significativas y otras no.
¿Cómo sabrá qué variables explicativas son importantes? La herramienta OLS calcula un coeficiente para cada variable explicativa en el modelo y realiza una prueba estadística para determinar si la variable está ayudando a su modelo o no. La prueba estadística calcula la probabilidad de que el coeficiente sea realmente de cero. Si el coeficiente es cero (o muy cerca de cero), la variable explicativa asociada no ayuda al modelo. Cuando la prueba estadística devuelve una pequeña probabilidad (valor p) para una variable explicativa en particular, por otra parte, indica que es poco probable (hay una pequeña probabilidad) que el coeficiente sea cero. Cuando la probabilidad es menor que 0,05, un asterisco junto a la probabilidad en el informe de resumen de OLS indica que la variable explicativa asociada es importante para el modelo (es decir, su coeficiente es estadísticamente significativo en el 95 por ciento del nivel de confianza). Así que está buscando las variables explicativas asociadas con las probabilidades estadísticamente significativas (busque las que tienen asteriscos).
La herramienta OLS calcula tanto la probabilidad, como la probabilidad sólida de cada variable explicativa. Con datos espaciales, no es raro que las relaciones que está modelando varíen en toda el área de estudio. Estas relaciones se caracterizan como no estacionarias. Cuando las relaciones no son estacionarias, solo puede confiar en las probabilidades sólidas para decirle si una variable explicativa es estadísticamente significativa.
¿Cómo sabrá si las relaciones de su modelo son no estacionarias? Otra prueba estadística incluida en el informe de resumen de OLS es la estadística de Koenker (Breusch-Pagan estudentizada de Koenker) para la no estacionariedad. Un asterisco junto al valor p de Koenker indica que las relaciones que está modelando exhiben una no estacionariedad estadísticamente significativa, por lo tanto, asegúrese de consultar las probabilidades sólidas.
Normalmente quitará las variables explicativas del modelo si no son estadísticamente significativos. Sin embargo, si la teoría indica que una variable es muy importante, o si una variable específica es el enfoque de su análisis, puede conservarla incluso si no es estadísticamente significativa.
Comprobación 2: ¿Las relaciones son lo que esperaba?
No solo es importante determinar si una variable explicativa está realmente ayudando a su modelo, sino que también querrá verificar el signo (+/-) asociado con cada coeficiente para asegurarse de que la relación es lo que esperaba. El signo del coeficiente de la variable explicativa indica si la relación es positiva o negativa. Supongamos que modela la delincuencia, por ejemplo, y una de las variables explicativas es el ingreso promedio de la vecindad. Si el coeficiente de los ingresos variable es un número negativo, significa que los crímenes tienden a disminuir a medida que aumentan los ingresos de la vecindad (una relación negativa). Si modela la obesidad infantil y la accesibilidad a la comida rápida variable tuviera un coeficiente positivo, indicaría que la obesidad infantil tiende a aumentar a medida que aumenta el acceso a la comida rápida (una relación positiva).
Cuando crea la lista de variables explicativas de candidatos, debe incluir para cada variable la relación (positivo o negativo) que espera. Le sería difícil confiar en relaciones que informan sobre el modelo que no coinciden con la teoría o el sentido común. Supongamos que está construyendo un modelo para predecir las frecuencias de incendios forestales y el modelo de regresión devolvió un coeficiente positivo para la variable de precipitación. Probablemente no esperaría que los incendios forestales aumentaran en ubicaciones con mucha lluvia.
Las señales de coeficientes inesperados con frecuencia indican que hay otros problemas con el modelo que saldrán a la superficie en medida que usted continúe trabajando a través de los seis controles. Solo puede confiar en la señal y la fuerza de los coeficientes de variable explicativa si el modelo pasa todos estos. Si encuentra un modelo que pasa todos los controles a pesar del inesperado signo del coeficiente, puede haber descubierto una oportunidad para aprender algo nuevo. Quizás existe una relación positiva entre la frecuencia de incendios forestales y las precipitaciones porque la principal fuente de incendios forestales en su área de estudio es un rayo. Puede ser que valga la pena intentar obtener datos sobre rayos para su área de estudio para ver si mejora el rendimiento del modelo.
Comprobación 3: ¿Algunas de las variables explicativas son redundantes?
Cuando elija variables explicativas para incluirlas en el análisis, busque variables que obtengan diferentes aspectos de lo que intenta modelar; evite las variables que cuentan la misma historia. Por ejemplo, si está tratando de modelar los valores de viviendas, probablemente no incluiría variables explicativas tanto para la superficie en pies cuadrados de la vivienda y el número de dormitorio. Ambas variables se refieren al tamaño de la casa, e incluir ambos podría hacer que su modelo fuera inestable. Por último, no puede confiar en un modelo que incluye variables redundantes.
¿Cómo sabrá si dos o más variables son redundantes? Afortunadamente, cada vez que hay más de dos variables explicativas, la herramienta OLS calcula un Factor de inflación de la varianza (VIF) para cada variable. El valor VIF es una medida de redundancia de la variable y puede ayudarle a decidir qué variables se pueden quitar de su modelo sin poner en peligro el poder explicativo. Como regla general, un valor VIF por encima de 7,5 es problemático. Si tiene dos o más variables con valores VIF arriba de 7,5, debe quitarlos uno a la vez y volver a ejecutar OLS hasta que la redundancia desaparezca. Tenga en cuenta que no desea quitar todas las variables con valores VIF altos. En el ejemplo de modelar los valores de las viviendas, la superficie en pies cuadrados y el número de dormitorios probablemente tendrá los valores VIF inflados. Sin embargo, tan pronto elimina una de esas dos variables, se elimina la redundancia. Es importante incluir una variable que refleje el tamaño de la casa; simplemente no desea modelar este aspecto de los valores de las viviendas de manera redundante.
Comprobación 4: ¿Mi modelo está sesgado?
Esto puede parecer una pregunta capciosa, pero la respuesta es muy sencilla. Cuando se tiene un modelo OLS especificado adecuadamente, los residuales del modelo (las predicciones escasas y excesivas) se distribuyen normalmente con un valor medio de cero (piense en la curva de campana). Sin embargo, cuando el modelo está sesgado, la distribución de los residuales está desequilibrada, como se muestra a continuación. No se puede confiar totalmente en los resultados anticipados cuando el modelo está sesgado. Afortunadamente, hay varias estrategias para ayudarle a corregir este problema.
Un diagnóstico de Jarque-Bera importante estadísticamente (busque el asterisco) indica que sus modelos están sesgados. A veces el modelo está haciendo un buen trabajo para los valores bajos pero no está anticipando bien para los valores altos (o viceversa). Con el ejemplo de obesidad infantil, esto significaría que, en las ubicaciones con baja obesidad infantil, el modelo está haciendo un gran trabajo, pero en áreas con alta obesidad infantil, las predicciones no están bien. El sesgo del modelo también puede ser el resultado de los valores atípicos que están influyendo en la estimación del modelo.
Para ayudar a solucionar el sesgo del modelo, cree una matriz de gráficos de dispersión para todas las variables de su modelo. Una relación no lineal entre la variable dependiente y una de las variables explicativas es una causa común de la influencia del modelo. Estos podría parecer una línea curva en la matriz de dispersión. Las relaciones lineales parecen líneas diagonales.
Si observa que la variable dependiente mantiene una relación no lineal con una de las variables explicativas, tendrá que hacer algunos ajustes. OLS es un método de regresión lineal que parte de la base de que las relaciones que está modelando son lineales. Cuando no lo son, puede intentar transformar sus variables para ver si esto crea relaciones que son más lineales. Las transformaciones comunes incluyen el registro y el exponencial. Marque la opción Mostrar histogramas (que la activa) en el asistente Crear matriz de gráficos de dispersión para incluir un histograma para cada variable en la matriz de gráficos de dispersión. Si algunas de sus variables explicativas son muy sesgadas, es posible que pueda quitar de la influencia del modelo al transformarlos también.
La matriz de gráficos de dispersión también revelará valores atípicos de los datos. Para ver si un valor atípico influye en su modelo, intente ejecutar OLS con y sin un valor atípico y compruebe cuánto cambia el rendimiento del modelo y si al quitarlo se corrige el sesgo del modelo. En algunos casos (especialmente si piensa que los valores atípicos representan datos erróneos), es posible que pueda sacar los valores atípicos de su análisis.
Comprobación 5: ¿He encontrado todas las variables explicativas clave?
Con frecuencia, entra en un análisis con hipótesis sobre qué variables serán indicadores importantes. Quizá usted considera que 5 variables particulares producirán un buen modelo, o quizás tiene una lista de firmas de 10 variables que cree pueden estar relacionadas. Si bien es importante enfocar el análisis de regresión con una hipótesis, es también importante permitir que su creatividad y perspicacia le ayuden a profundizar. Resista la tentación de limitarse a su primera lista de variables, e intente considerar todas las posibles variables que puedan afectar lo que está modelando. Cree mapas temáticos de cada una de las variables explicativas del candidato y compárelas a un mapa de la variable dependiente. Vuelva a consultar los libros y explore la bibliografía pertinente. Utilice su intuición para buscar relaciones en sus datos representados cartográficamente. Definitivamente, intente presentar tantos candidatos como variables espaciales pueda, como, por ejemplo, la distancia desde el centro urbano, la proximidad a las principales carreteras o el acceso a grandes masas de agua. Estos tipos de variables serán especialmente importantes para los análisis cuando considere que los procesos geográficos afectan las relaciones en los datos. Hasta que encuentre variables explicativas que capturen efectivamente la estructura espacial en su variable dependiente, de hecho, a su modelo le faltarán variables explicativas clave y no podrá pasar todas las verificaciones de diagnóstico que aquí se describen.
La evidencia de que le falta una o más variables explicativas clave es la autocorrelación espacial estadísticamente significativa de los residuales del modelo. En el análisis de regresión, los problemas con los residuales autocorrelacionados espacialmente suelen adoptar la forma de clustering: el cluster de predicciones excesivas por un lado y el cluster de predicciones escasas por otro. ¿Cómo sabrá si tiene autocorrelación espacial espacialmente significativa en los residuales de su modelo? Al ejecutar la herramienta Autocorrelación espacial en los residuales de regresión, sabrá si tiene un problema de autocorrelación espacial. Una puntuación z estadísticamente significativa indica que le faltan variables explicativas clave al modelo.
Encontrar esas variables explicativas faltantes a menudo es tanto un arte como una ciencia. Intente estas estrategias para ver si proporcionan cualquier pista:
Examine el mapa residual OLS
La salida estándar de OLS es un mapa de los residuales del modelo. Las áreas en rojo indican que los valores reales (la variable dependiente) son más grandes de lo que el modelo predijo. Las áreas azules muestran donde los valores reales son más bajos de lo previsto. A veces solo ver el mapa residual le dará una pista sobre lo que puede faltar. Si observa que está haciendo predicciones excesivas de forma consistente en áreas urbanizadas, por ejemplo, es posible que quiera considerar agregar una variable que refleje la distancia a los centros urbanos. Si parece ser que las predicciones excesivas están asociadas con los picos de montaña o fondos de los valles, quizás necesite una elevación variable. ¿Ve clusters regionales, o puede reconocer las tendencias en los datos? Si es así, crear una variable de simulación para capturar estas diferencias regionales puede ser eficaz. El ejemplo clásico de una variable de simulación es aquel que distingue las entidades urbanas y rurales. Al asignar un valor de 1 a todas las entidades rurales y un valor de 0 al resto de entidades, puede capturar relaciones espaciales del paisaje que podrían ser importantes para su modelo. A veces la creación de un mapa de punto caliente de los residuales de modelo le ayudará a visualizar patrones regionales amplios.
Descubrir las variables espaciales faltantes no solo tiene el potencial de mejorar el modelo, sino que este proceso también puede ayudarle a comprender mejor el fenómeno que está modelando en nuevas e innovadoras maneras.
Examinar la no estacionariedad
También puede probar a ejecutar la Regresión ponderada geográficamente y crear superficies de coeficiente para cada variable explicativa o mapa de los valores R2 locales. Seleccione el modelo OLS que funciona bien (uno con un valor R2 ajustado elevado que supere todas o casi todas las comprobaciones de diagnóstico). Dado que GWR crea una ecuación de regresión para cada entidad de su área de estudio, las superficies de coeficiente ilustran cómo fluctúan geográficamente las relaciones entre la variable dependiente y cada variable explicativa; el mapa de valores R2 locales muestra variaciones en la potencia explicativa del modelo. A veces, al ver estas variaciones geográficas se pueden detectar qué variables podrían faltar: una caída del poder explicativo cerca de las principales autopistas, un declive con la distancia desde la costa, un cambio en el signo de los coeficientes cercanos a una región industrial o una fuerte tendencia o límite de este a oeste; todas ella serían pistas sobre las variables espaciales que pueden mejorar el modelo.
Al examinar las superficies del coeficiente, esté pendiente de las variables explicativas con coeficientes que cambien de signo positivo a negativo. Esto es importante porque es probable que OLS pase por alto el potencial predictivo de estas variables altamente no estacionarias. Considere, por ejemplo, la relación entre la obesidad infantil y el acceso a opciones de alimentos saludables. Es posible que en áreas de bajos ingresos con poco acceso a vehículos, que están lejos de un supermercado, sea una barrera real para hacer elecciones de alimentos saludables. En áreas con altos ingresos con mejor acceso a los vehículos, sin embargo, tener un supermercado en sus inmediaciones podría ser realmente indeseable; la distancia al supermercado podría no funcionar como una barrera para la compra de alimentos saludables. A pesar de que GWR es capaz de modelar estos tipos de relaciones complejas, OLS no lo es. OLS es un modelo global y espera que las relaciones variables sean consistentes (estacionarias) en toda el área de estudio. Cuando los coeficientes cambian de signo, se anulan entre sí. Piense en ello como (+1) + (-1) = 0. Si encuentra variables en las que los coeficientes cambian dramáticamente, en especial si cambian de signo, debería mantenerlas en su modelo, incluso si no son importantes estadísticamente. Estos tipos de variables serán efectivos cuando se traslada a GWR.
Trate de ajustar OLS a áreas de estudio de un subconjunto más pequeño
GWR es enormemente útil a la hora de tratar con la no estacionariedad, y puede ser tentador avanzar directamente a GWR sin encontrar primero un modelo OLS especificado adecuadamente. Por desgracia, GWR no tiene todos los grandes diagnósticos para ayudarle a determinar si las variables explicativas son estadísticamente significativas, si los residuales están distribuidos normalmente, o en última instancia, si tiene un buen modelo. GWR no arreglará un modelo especificado de manera indebida a menos que usted pueda estar seguro que la única razón por la que el modelo OLS está fallando en los seis controles es el resultado directo de la no estacionariedad. La evidencia de la no estacionariedad sería buscar variables explicativas que tengan una fuerte relación positiva en algunas partes del área de estudio y una fuerte relación negativa en otras partes. A veces, el problema no es con las variables explicativas individuales sino con el conjunto de variables explicativas que se utiliza en el modelo. Puede ser posible que un conjunto de variables proporcione un buen modelo para una parte del área de estudio, pero otro conjunto de variables diferentes funcione mejor en todas partes. Para ver si este es el caso, puede seleccionar varias áreas de estudio de subconjuntos más pequeños e intentar ajustar los modelos de OLS para cada uno de estos. Seleccione las áreas del subconjunto basado en los procesos que considere que pueden estar relacionados con el modelo (áreas de altos ingresos versus áreas de bajos ingresos, viviendas nuevas versus viejas). Como alternativa, seleccione las áreas en función del mapa GWR de valores R2 locales; las ubicaciones con un bajo rendimiento del modelo se pueden modelar mejor con otro conjunto diferente de variables explicativas.
Si encuentra modelos de OLS especificado adecuadamente en varias áreas de estudio pequeñas, puede llegar a la conclusión de que la no estacionariedad es la responsable y pasar a GWR utilizando el conjunto completo de variables explicativas que encontró de todos los modelos de área del subconjunto. Si no encuentra modelos especificado adecuadamente en las áreas de subconjunto más pequeñas, es posible que usted intenta modelar algo que es demasiado complejo para ser reducido a serie sencilla de mediciones numéricas y relaciones lineales. En ese caso, probablemente deba analizar métodos analíticos alternativos.
Todo esto puede ser un poco de trabajo, pero también es un excelente ejercicio de análisis de datos exploratorios y le ayudará a entender mejor los datos, encontrar nuevas variables para utilizar, y puede incluso provocar un gran modelo.
Comprobación 6: ¿Cómo de bien estoy explicando mi variable dependiente?
Ahora es finalmente el momento de evaluar el rendimiento del modelo. El valor R2 ajustado es una medida importante de hasta qué punto sus variables explicativas están modelando su variable dependiente. El valor R2 también es una de las primeras cosas que se enseñan sobre el análisis de regresión. Por lo tanto, ¿por qué estamos dejando este importante control hasta el final? Lo que no le cuentan es que no puede fiarse de su valor R2, a no ser que haya superado todas las comprobaciones indicadas a continuación. Si el modelo está sesgado, es posible que esté desempeñándose bien en algunas áreas o con un determinado rango de los valores de la variable dependiente, pero que de otro modo no se desempeñan bien en absoluto. El valor R2 no lo refleja. Del mismo modo, si tiene una autocorrelación espacial de los residuales, no puede confiar en las relaciones del coeficiente desde el modelo. Con variables explicativas redundantes, se obtienen valores R2 extremadamente elevados, pero el modelo será inestable; no reflejará las relaciones reales que intenta modelar y puede que produzca resultados completamente diferentes incluso con la inclusión de una sola observación.
Sin embargo, una vez haya revisado el resto de comprobaciones y sienta que satisface todos los criterios necesarios, es el momento de determinar si su modelo explica correctamente los valores para la variable dependiente evaluando el valor R2 ajustado. Los valores de R2 van del 0 al 1 y representan un porcentaje. Suponga que está modelando los índices de criminalidad y encuentra un modelo que supera las cinco comprobaciones anteriores con un valor R2 ajustado de 0,65. Esto le permite saber que las variables explicativas en el modelo indican el 65 por ciento del historial de la tasa de criminalidad (más técnicamente, el modelo explica el 65 por ciento de la variación en la variable dependiente de la tasa de criminalidad). Los valores R2 ajustados se deben evaluar de manera bastante subjetiva. En algunas áreas de la ciencia, explicar 23 por ciento de un fenómeno complejo será muy interesante. En otros campos, podría ser necesario que el valor R2 se acerque al 80 o 90 por ciento para merecer mayor atención. Sea como fuere, el valor R2 ajustado le ayudará a juzgar el rendimiento de su modelo.
Otro diagnóstico importante para ayudarlo a evaluar el rendimiento del modelo es el criterio de información de Akaike corregido (AICc). El valor del AICc es una medida útil para comparar varios modelos. Por ejemplo, es posible que quiera probar modelar las puntuaciones de exámenes de los estudiantes usando diversos conjuntos de variables explicativas. En un modelo podría solo usar variables demográficas, mientras que en otro modelo puede seleccionar variables relativas a la escuela y al salón de clase, como el gasto por estudiante y las relaciones profesor-estudiante. Mientras la variable dependiente para todos los modelos que se están comparando es la misma (en este caso, las puntuaciones del examen del estudiante), puede utilizar los valores de AICc de cada modelo para determinar qué funciona mejor. El modelo con el valor del AICc más pequeño proporciona un mejor ajuste a los datos observados.
Y no lo olvide...
Tenga en cuenta que está atravesando estos pasos de la construcción de un modelo de regresión especificado correctamente que el objetivo de su análisis es, en última instancia, entender los datos y utilizar ese entendimiento para solucionar los problemas y responder a las preguntas. La verdad es que podría probar varios modelos (con y sin variables transformadas), analizar varias áreas de estudio pequeñas, analizar las superficies del coeficiente... y aún no encontrar un modelo OLS especificado adecuadamente. Pero, y esto es importante, aún estará contribuyendo al cuerpo de conocimientos sobre el fenómeno que se está modelando. Si el modelo del cual anticipó que sería excelente para predecir resulta no ser significativa en absoluto, descubrir eso es información increíblemente útil. Si una de las variables que creía que sería sólida tiene una relación positiva en algunas áreas y una relación negativa en otras, saber sobre esto, sin duda, aumenta su comprensión del problema. El trabajo que hace aquí, intentando encontrar un buen modelo utilizando OLS y luego aplicando GWR para explorar la variación regional entre las variables en el modelo, siempre será valioso.
Para obtener más información acerca del análisis de regresión, consulte https://www.esriurl.com/spatialstats.