Encontrar un modelo OLS especificado correctamente puede ser difícil, especialmente cuando hay muchas posibles variables explicativas que usted considera podrían ser importantes factores que contribuyen al la variable que intenta modelar (su variable dependiente). La herramientaRegresión exploratoria puede ayudar. Se trata de una herramienta de extracción de datos que intentará todas las combinaciones posibles de variables explicativas para ver qué modelos aprueba todos los diagnósticos de OLS necesarios. Al evaluar todas las combinaciones posibles de las posibles variables explicativas, usted aumentar considerablemente sus posibilidades de encontrar el mejor modelo para resolver su problema o responder a su pregunta. Aunque la Regresión exploratoria es similar a la Regresión por pasos (que se encuentra en muchos paquetes de software de estadística), en lugar de solo buscar modelos con valores altos de R2 ajustada, la Regresión exploratoria busca modelos que cumplan con todos los requisitos y suposiciones del método de OLS.
Utilizar la herramienta Regresión exploratoria
Cuando ejecute la herramienta Regresión exploratoria, especifique un número mínimo y máximo de variables explicativas que cada modelo debe contener, junto con criterios de umbral para R2ajustada, valores p de coeficiente , valores del Factor de inflación de la varianza (VIF), valores p Jarque Bera y los valores p de autocorrelación espacial. La Regresión exploratoria ejecuta OLS en cada combinación posible de las Posibles variables explicativas para los modelos con al menos el Número mínimo de variables exploratorias y no más de la Cantidad máxima de variables explicativas. Cada modelo que prueba se evalúa contra su Criterio de búsqueda. Cuando encuentra un modelo:
- Que excede el umbral R2 ajustado especificado
- Con los valores p de coeficiente para todas las variables explicativas, menos de las que especificó
- Con valores VIF de coeficiente, para todas las variables explicativas, menos de su umbral especificado
- Devolver un valor p Jarque-Bera mayor del que especificó
Luego ejecuta la herramienta Autocorrelación espacial (I de Moran global) en los residuales de ese modelo. Si el valor p de autocorrelación espacial también es mayor que el valor que especificó en los criterios de búsqueda de la herramientavalor p de Autocorrelación espacial mínimo aceptable), el modelo se enumera como un modelo de aprobación. La herramienta Regresión exploratoria también prueba los residuales de regresión mediante la herramienta Autocorrelación espacial para los modelos con los tres mayores resultados de R2 ajustada.
Los modelos que se enumeran en Modelos aprobados cumplen con los criterios de búsqueda especificados. Si tomamos los valores predeterminados para el Valor límite máximo valor p de coeficiente, elValor límite máximo de valor VIF, el valor p mínimo aceptable Jarque Bera y el valor p de Autocorrelación espacial mínima aceptable, sus modelos de aprobación también serán modelos OLS especificados adecuadamente. Un modelo OLS especificado adecuadamente tiene:
- Variables explicativas donde todos los coeficientes son estadísticamente significativos
- Los coeficientes reflejan la relación esperada, o al menos una justificable, entre cada variable explicativa y la variable dependiente
- Las variables explicativas que se obtienen en diferentes aspectos de lo que usted intenta modelar (ninguna es redundante; las valores VIF menores que 7,5)
- Los valores residuales distribuidos normalmente, indican que el modelo está libre de sesgo (el valor p Jarque-Bera no es estadísticamente significativo)
- Distribuido aleatoriamente a lo largo de y bajo predicciones que indica los residuales de modelo se distribuyen normalmente (el valor p de la autocorrelación espacial no es estadísticamente significativo)
Cuando se especifica una Tabla de resultados de salida, los modelos que cumplan su Valor límite máximo del valor VIF y para el cual todas las variables explicativas cumplen con el Valor límite máximo del valor p de coeficiente se escriben en una tabla. Esta tabla es útil cuando desea examinar más de que solamente esos modelos incluidos en el archivo de informe de texto.
Algunas precauciones
Esté al tanto de que, similar a utilizar métodos de Regresión por pasos, utilizar la herramienta Regresión exploratoria es controversial. Mientras que es una exageración, existen básicamente dos escuelas de pensadores sobre esto: el punto de vista del método científico y el punto de vista del minero de datos.
Punto de vista del método científico
Un gran defensor del método científico podría objetar los métodos de regresión exploratoria. Desde su perspectiva, debe formalizar su hipótesis antes de explorar sus datos para evitar la creación de modelos que se ajusten solo a sus datos, pero no reflejen los procesos más amplios. La construcción de modelos que se ajustan en exceso a un dataset específico podría no ser relevante a otros datasets, algunas veces, de hecho, incluso agregar nuevas observaciones causará que un modelo ajustado en exceso se vuelva inestable (el rendimiento podría disminuir y la importancia del coeficiente de variable explicativa podría disminuir). Cuando el modelo no es sólido, incluso a nuevas observaciones, ciertamente no llega a los procesos clave que se está intentando modelar.
Además, tenga en cuenta de que las estadísticas de regresión se basan en la teoría de la probabilidad, y cuando ejecuta miles de modelos, firmemente aumenta sus posibilidades de rechazar indebidamente la hipótesis nula (un error estadístico tipo 1). Cuando selecciona un nivel de confianza de 95 por ciento por ejemplo, acepta un riesgo especifico; si puede remuestrear los datos 100 veces, la probabilidad indica que hasta 5 de esas 100 muestras producirían falsos positivos. Los valores p se calculan para cada coeficiente; la hipótesis nula es que el coeficiente es realmente de cero y, en consecuencia, la variable explicativa asociada con ese coeficiente no ayuda a su modelo. La teoría de la probabilidad indica que en tanto como 5 de 100 muestras, el valor p podría ser estadísticamente significativo solo porque acaba de seleccionar observaciones que apoyan falsamente esa conclusión. Cuando ejecuta solamente un modelo, un niel de confianza de 95 por ciento parece conservador. A medida que aumenta el número de modelos que prueba, disminuye su capacidad para sacar conclusiones de los resultados. La herramienta Regresión exploratoria puede probar miles de modelos en solo unos minutos. El número de modelos probado se reporta en la sección Resumen global del Archivo de informe de salida.
Punto de vista del minero de datos
Los investigadores de la escuela de extracción de datos, por otra parte, probablemente considerarán que es imposible saber con anterioridad todos los factores que contribuyen a un resultado real determinado. A menudo las cuestiones que estamos tratando de responder son complejas, y la teoría sobre nuestro tema particular podría no existir, o podría ser anticuada. Los mineros de datos son grandes partidarios del análisis inductivo como el proporcionado por la regresión exploratoria. Ellos fomentan el pensamiento no convencional y utilizan los métodos de regresión exploratoria para el desarrollo de hipótesis.
Recomendaciones
Consideramos que la Regresión exploratoria, cuando se utiliza con discreción, es una valiosa herramienta de extracción de datos que puede ayudarle a encontrar un modelo OLS especificado adecuadamente. Nuestra recomendación es que siempre seleccione posibles variables de regresión explicativa compatibles con la teoría, la orientación de los expertos y el sentido común. Calibrar sus modelos de regresión mediante una parte de sus datos y validarlos con el resto, o validar el modelo en datasets adicionales. Si usted planea extraer deducciones de sus resultados, como mínimo, deseará realizar un análisis de sensibilidad como bootstrapping.
Utilizando la herramienta Regresión exploratoria tiene ventajas sobre otros métodos exploratorios que solo evalúan el rendimiento del modelo en términos de los valores R2 ajustados. La herramienta Regresión exploratoria está buscando modelos que aprueben todos los diagnósticos de OLS descritos anteriormente.