Al ejecutar la herramienta Regresión exploratoria, la salida principal es un informe. El informe se escribe como mensajes durante la ejecución de la herramienta y se puede acceder a él desde el historial de geoprocesamiento del proyecto.De manera opcional, también se creará una tabla que puede ayudarle a investigar aún más los modelos que han sido probados. Uno de los propósitos del informe es ayudarlo a averiguar si las variables explicativas del candidato que está considerando producen algún modelo OLS debidamente especificado o no. Sin embargo, en caso de que no existan modelos aprobados (modelos que cumplen todos los criterios que especificó cuando inició la herramienta Regresión exploratoria), la salida mostrará las variables con indicadores más coherentes y le ayudará a determinar qué diagnósticos causan problemas. Encontrará estrategias para abordar problemas asociados a cada diagnóstico en el documento Conceptos básicos del análisis de regresión (consulte Problemas, consecuencias y soluciones comunes de regresión) y en Lo que no le dicen sobre el análisis de regresión. Para obtener más información sobre cómo determinar si tiene un modelo OLS especificado correctamente, consulte Conceptos básicos del análisis de regresión e Interpretar los resultados de OLS.
El informe
El informe Regresión exploratoria presenta cinco secciones distintas. Cada sección se describe a continuación.
1 Mejores modelos por número de variables explicativas
El primer conjunto de resúmenes en el informe de salida se agrupa por el número de variables explicativas en los modelos probados. Si define un 1 para el parámetro Número mínimo de variables explicativas y un 5 para el para el parámetro Número máximo de variables explicativas, tendrá 5 secciones de resumen. Cada sección enumera los tres modelos con los valores de R2 ajustado más elevados y todos los modelos aprobados. Cada sección de resumen también incluye los valores de diagnóstico para cada modelo enumerado: criterio de información Akaike corregido - AICc, valor p Jarque-Bera - JB, valor p Breusch-Pagan estudentizado de Koenker - K(BP), el mayor Factor de inflación de la varianza - VIF y una medida de Autocorrelación espacial residual (el valor p de I de Global Moran) - SA. Estos resúmenes le dan una idea de hasta qué punto sus modelos están realizando predicciones correctas (R2 ajustado) y si los modelos satisfacen todos los criterios de diagnóstico que especificó. Si aceptó todos los Criterios de búsqueda predeterminados (parámetros R cuadrado ajustado mínimo aceptado, Valor límite máximo de valor p de coeficiente, Valor límite de valor VIF máximo, Valor P de Jarque Bera mínimo aceptado y Valor P de autocorrelación espacial mínimo aceptado), todos los modelos incluidos en la lista de Modelos aprobados serán modelos OLS especificados correctamente.
Si no hay ningún modelo que pase, el resto del informe de salida aún proporciona mucha buena información sobre las relaciones de variables, y puede ayudarle a tomar decisiones sobre la forma de avanzar.
2 Resumen global de regresión exploratoria
La sección Resumen general de regresión exploratoria es un punto importante por el que comenzar, especialmente si no ha encontrado ningún modelo aprobado, ya que le muestra por qué no se aprueba ninguno de los modelos. En esta sección se muestran las cinco pruebas de diagnóstico y el porcentaje de modelos que aprobó cada una de esas pruebas. Si no tiene ningún modelo que haya pasado, este resumen le ayudará a comprender que prueba de diagnóstico le está dando problemas.
A menudo el diagnóstico que le está dando problemas será la prueba I de Global Moran para la Autocorrelación espacial (SA). Cuando todos los modelos que se han probado tienen residuales de regresión autocorrelacionados, a menudo indica que faltan variables explicativas clave. Una de las mejores formas de encontrar las variables explicativas que faltan es examinar la salida del mapa de los residuales desde la herramienta Regresión de mínimos cuadrados ordinarios (OLS). Elija uno de los modelos de regresión exploratorios que tuvieron un buen resultado para todos los demás criterios (utilice las listas de los valores R cuadrado, ajustados y más altos, o seleccione un modelo de aquellos en la tabla de salida opcional) y, luego ejecute OLS utilizando ese modelo. La salida de la herramienta Regresión de mínimos cuadrados ordinarios (OLS) es un mapa de los residuales del modelo. Usted debe analizar los residuales para ver si proporcionan pistas sobre lo que puede estar faltando. Trate de pensar en todas las variables espaciales candidato como pueda (distancia a las principales carreteras, hospitales u otras entidades geográficas clave, por ejemplo). Considere probar las variables del régimen espacial: si todas las predicciones escasas están en las áreas rurales, por ejemplo, cree una variable simulada para ver si mejoran los resultados de la regresión exploratoria.
El otro diagnóstico que comúnmente es problemático es la prueba Jarque-Bera de residuales normalmente distribuidos. Cuando ninguno de los modelos pase la prueba Jarque-Bera (JB), tiene un problema con la influencia del modelo. Los orígenes comunes de la influencia del modelo incluyen:
- Relaciones no lineales
- Valores atípicos de datos
La visualización de una matriz de gráficos de dispersión de las variables explicativas del candidato en relación con su variable dependiente le mostrará si tiene cualquiera de estos problemas. En Conceptos básicos del análisis de regresión se describen otras estrategias. Si los modelos no pasan la prueba de Autocorrelación espacial (SA), arregle esos problemas primero. La influencia puede ser el resultado de la ausencia de las variables explicativas.
3 Resumen de significancia de la variable
La sección Resumen de significancia de la variable proporciona información sobre relaciones de variables y la coherencia de dichas relaciones. Cada variable explicativa del candidato se enumera con la proporción de veces en la que fue estadísticamente significativa. Las primeras variables de la lista tienen los valores más elevados de la columna % significativo. También puede ver la estabilidad de las relaciones de las variables examinando las columnas % negativo y % positivo. Los indicadores más potentes serán coherentemente significativos (% significativo) y la relación será estable (principalmente negativo o principalmente positivo).
Esta parte del informe también está ahí para ayudarle a ser más eficiente. Esto es especialmente importante cuando trabaja con muchas variables explicativas de candidatos (más de 50) y quiere probar modelos con cinco o más indicadores. Cuando tiene un gran número de variables explicativas y está probando muchas combinaciones, los cálculos pueden tomar mucho tiempo. De hecho, en algunos casos, la herramienta no terminará en absoluto debido a errores de memoria. Un buen planteamiento consiste en aumentar gradualmente el número de modelos probados: empiece configurando Número mínimo de variables explicativas y Número máximo de variables explicativas en 2, 3, 4, etc. Con cada ejecución, elimine las variables que rara vez son estadísticamente significativas en los modelos probados. La sección Resumen de significancia de la variable le ayudará a encontrar las variables que son indicadores sistemáticamente potentes. Incluso eliminar una sola variable explicativa candidata de su lista puede reducir en gran medida la cantidad de tiempo que tarda la herramienta Regresión exploratoria en completarse.
4. Resumen de multicolinealidad
La sección Resumen de multicolinealidad del informe se puede utilizar junto con la sección Resumen de significancia de la variable para comprender qué variables explicativas candidatas se pueden eliminar del análisis para mejorar el rendimiento. La sección Resumen de multicolinealidad indica cuántas veces se incluyó cada variable explicativa en modelos con alta multicolinealidad, y el resto de variables explicativas que también se incluyeron en dichos modelos. Cuando dos (o más) variables explicativas se encuentran juntas con frecuencia en los modelos con alta multicolinealidad, indica que esas variables pueden estar contando la misma historia. Puesto que solo desea incluir las variables que explican un único aspecto de la variable dependiente, es posible que desee elegir solo una de las variables redundantes para incluirla en un análisis más profundo. Un método es utilizar la variable de redundancia más potente en base al Resumen de significancia de la variable.
5. Resúmenes de diagnóstico adicionales
Los resúmenes finales de diagnóstico muestran los valores P de Jarque-Bera más elevados (Resumen de normalidad residual) y los valores P de I de Moran global más elevados (Resumen de autocorrelación residual). Para pasar estas pruebas de diagnóstico, usted busca valores p grandes.
Estos resúmenes no son especialmente útiles cuando los modelos pasan la prueba Jarque-Bera y de Autocorrelación espacial (I de Global Moran), porque si su criterio para la significancia estadística es de 0,1, todos los modelos con valores más grandes que 0,1 son igualmente modelos que sí pasan. Estos resúmenes son útiles, sin embargo, cuando no se tiene ningún modelo que pase la prueba y desea ver lo lejos que está de haber distribuido normalmente los residuales o residuales que estén libres de la autocorrelación espacial estadísticamente significativa. Por ejemplo, si todos los valores p del resumen Jarque-Bera son 0,000000, es claro que está lejos de tener residuales distribuidos normalmente. Como alternativa, si los valores p son 0,092, entonces sabemos que está cerca de tener residuales que se distribuyen normalmente (de hecho, dependiendo del nivel de significado que eligió, un valor p de 0,092 podría aprobar). Estos resúmenes están ahí para demostrar la gravedad del problema y, cuando ninguno de los modelos pasa, qué variables están asociadas con los modelos que al menos se acercan a pasar la prueba.
La tabla
Si proporcionó un valor para la Tabla de resultados de salida, se creará automáticamente una tabla que contendrá todos los modelos que cumplen sus criterios de Valor límite máximo de valor P de coeficiente y Valor límite de valor VIF máximo. Incluso si no tiene ningún modelo que pase, existe una buena posibilidad de que tendrá algunos modelos en la tabla de salida. Cada fila de la tabla representa un modelo que reúne sus criterios para los valores del coeficiente y valores VIF. Las columnas en la tabla proporcionan el diagnóstico del modelo y las variables explicativas. Los diagnósticos que se enumeran son R cuadrado ajustada (R2), Criterio de información de Akaike corregido (AICc), valor p de Jarque-Bera (JB), valor p de Breusch-Pagan estudentizado de Koenker (BP), Factor de inflación de la varianza (VIF) y valor p I de Global Moran (SA). Es posible que quiera ordenar los modelos por sus valores AICc. Mientras más bajo sea el valor de AICc, mejor es el modelo a realizar. Puede ordenar los valores de AICc en ArcMap al hacer doble clic en la columna del AICc. Si está seleccionando un modelo para usarlo en un análisis de OLS (para examinar los residuales), recuerde elegir un modelo con un valor AICc bajo y aprobar valores para tantos de los demás diagnósticos como sea posible. Por ejemplo, si ha analizado su informe de salida y sabe que Jarque-Bera fue el diagnóstico que le dio problema, debe buscar el modelo con el valor de AICc más bajo que cumpla con todos los criterios excepto el de Jarque-Bera.
Recursos adicionales
Si está empezando con el análisis de regresión de ArcGIS, le recomendamos encarecidamente que vea el Seminario de formación gratuito sobre la regresión en el campus virtual de Esri, y luego, repase el tutorial Análisis de regresión antes de utilizar la Regresión exploratoria.
También es posible que desee ver:
- Más información sobre cómo funciona la Regresión exploratoria
- Lo que no le dicen sobre el análisis de regresión
- Conceptos básicos del análisis de regresión
Burnham, K.P. and D.R. Anderson. 2002. Model Selection and Multimodel Inference: a practical information-theoretic approach, 2nd Edition. New York: Springer. Sección 1.5.