Regresión exploratoria (Estadística espacial)

Resumen

La herramienta Regresión exploratoria evalúa todos posibles combinaciones de posibles variables explicativas de entrada, buscando modelos de OLS que expliquen mejor la variable dependiente en el contexto del criterio especificado por el usuario.

Más información sobre cómo funciona la Regresión exploratoria

Ilustración

Gráfico de regresión exploratoria
Dado un conjunto de variables explicativas del candidato, encuentra los modelos OLS especificados debidamente.

Uso

  • La salida principal de esta herramienta es un archivo de informe que se escribe como mensajes en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o ampliando la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una ejecución previa de Regresión exploratoria a través del Historial de geoprocesamiento.

  • Esta herramienta creará opcionalmente un informe en archivo de texto que resume los resultados. Este archivo de informe se agregará a la tabla de contenido (TOC) y se puede visualizar en ArcMap al hacer clic con el botón derecho del mouse sobre él y seleccionar Abrir.

  • Esta herramienta también produce una tabla opcional de todos los modelos que cumplen con su máximo valor límite de valor p de coeficiente y criterio de valor Factor de inflación de la varianza (VIF). Una explicación completa de los elementos de informe y de tabla se proporcionan en Interpretar los resultados de Regresión exploratoria.

  • Esta herramienta utiliza Mínimos cuadrados ordinarios (OLS) y Autocorrelación espacial (I de Moran global). El archivo de matriz de ponderaciones espaciales opcional se utiliza con la herramienta Autocorrelación espacial (I de Moran global) para evaluar los residuales de modelo; no es utilizada por la herramienta OLS para nada.

  • Esta herramienta intenta cada combinación de Variables explicativas candidatas introducidas, buscando un modelo OLS especificado adecuadamente. Solo cuando se busca un modelo que cumple con criterios de umbral para R cuadrado ajustado mínimo aceptado, Valor límite máximo valor p de coeficiente, Valor límite de valor VIF máximo y valor p Jarque-Bera mínimo aceptable se ejecute la herramienta Autocorrelación espacial (I de Moran global) en los residuales del modelo para ver si las predicciones excesivas/escasas están agrupadas o no. Para proporcionar al menos alguna información sobre el clustering residual en el caso donde ninguno de los modelos aprueban todos estos criterios, la prueba Autocorrelación espacial (I de Moran global) también se aplica a los residuales para los tres modelos que tienen los mayores valores de R2 ajustada y los tres modelos que tienen los mayores valores p Jarque-Bera .

  • Especialmente cuando hay una fuerte estructura espacial en su variable dependiente, deseará intentar presentar tantas posibles variables explicativas espaciales como pueda. Algunos ejemplos de variables espaciales serían la distancia a las carreteras principales, la accesibilidad para las oportunidades de trabajo, número de oportunidades comerciales locales, medidas de conectividad o densidades. Hasta encontrar las variables explicativas que captura la estructura espacial en su variable dependiente, los residuales de modelo probablemente no pasarán la prueba de autocorrelación espacial. Clustering significativo en los residuales de regresión, según lo determina la herramienta Autocorrelación espacial (I de Moran global), indica la especificación incorrecta del modelo. Las estrategias para hacer frente a la mala especificación se describen en ¿Qué es lo que no le dicen sobre el análisis de regresión?

  • Debido a que la Autocorrelación espacial (I de Moran global) no se ejecuta para todos los modelos probados (consulte la sugerencia de uso anterior), en la Tabla de resultados de salida opcional faltarán datos para el campo SA (Correlación espacial). Debido a que los archivos DBF (.dbf) no almacenan valores nulos, estos aparecen como números muy, muy pequeños (negativos) (algo como -1,797693e+308). Para las tablas de geodatabase, estos valores faltantes aparecen como valores nulos. Un valor faltante que indica que los valores residuales para el modelo asociado no han sido probados para la autocorrelación espacial porque el modelo no pasó todos los demás criterios de búsqueda de modelo.

  • El archivo de matriz de ponderaciones espaciales predeterminado se utiliza para ejecutar la herramienta Autocorrelación espacial (I de Moran global) se basa en una conceptualización de relaciones espaciales de 8 vecindades más cercanas. Este valor predeterminado se seleccionó principalmente porque se ejecuta con bastante rapidez. Para definir las relaciones de vecindad de forma diferente, sin embargo, simplemente puede crear su propio archivo de matriz de ponderaciones espaciales utilizando la herramienta Generar matriz de ponderaciones espacialesy, a continuación, especificar el nombre de archivo de entrada para el parámetro Archivo de matriz de ponderaciones espaciales de entrada. Distancia inversa, Contigüidad de polígono o de Vecinos más próximos K, son todas las Conceptualizaciones de relaciones espaciales para las pruebas de los residuales de regresión.

    Nota:

    El archivo de matriz de ponderaciones espaciales solo se utiliza para probar los residuales de modelo para la estructura espacial. Cuando un modelo se especifica correctamente, los residuales son espacialmente aleatorios (los residuales grandes se entremezclan con residuales pequeños; los grandes residuales no se agrupan juntos espacialmente).

    Nota:

    Cuando hay 8 o menos entidades en las Entidades de entrada, el archivo de matriz de ponderaciones espaciales predeterminado utilizado para ejecutar la herramienta Autocorrelación espacial (I de Moran global) se basa en los vecinos K más cercanos, donde K es el número de entidades menos 2. Cuando utilice esta herramienta, se aconseja disponer de 30 entidades como mínimo.

Sintaxis

ExploratoryRegression(Input_Features, Dependent_Variable, Candidate_Explanatory_Variables, {Weights_Matrix_File}, {Output_Report_File}, {Output_Results_Table}, {Maximum_Number_of_Explanatory_Variables}, {Minimum_Number_of_Explanatory_Variables}, {Minimum_Acceptable_Adj_R_Squared}, {Maximum_Coefficient_p_value_Cutoff}, {Maximum_VIF_Value_Cutoff}, {Minimum_Acceptable_Jarque_Bera_p_value}, {Minimum_Acceptable_Spatial_Autocorrelation_p_value})
ParámetroExplicaciónTipo de datos
Input_Features

La clase de entidad o capa de entidad que contiene las posibles variables dependientes y explicativas a analizar.

Feature Layer
Dependent_Variable

El campo numérico que contiene los valores observados desea modelar utilizando OLS.

Field
Candidate_Explanatory_Variables
[Candidate_Explanatory_Variables,...]

Una lista de campos para tratar como las variables explicativas del modelo OLS.

Field
Weights_Matrix_File
(Opcional)

Un archivo que contiene las ponderaciones espaciales que definen las relaciones espaciales entre las entidades de entrada. Este archivo se utiliza para evaluar la autocorrelación espacial de los residuales de regresión. Puede utilizar la herramienta Generar matriz de ponderaciones espaciales para crear esto. Cuando no se proporciona ningún archivo de matriz de ponderaciones espaciales, los residuales son evaluados por la autocorrelación espacial con base a cada entidad de 8 vecindades más próximas.

Nota: El archivo matriz de ponderaciones espaciales solo se utiliza para analizar la estructura espacial de los residuales de modelo; no se utiliza para construir o para calibrar ninguno de los modelos de OLS.

File
Output_Report_File
(Opcional)

El archivo de informe contiene los resultados de la herramienta, incluidos los detalles sobre todos los modelos encontrados que aprobaron todos los criterios de búsqueda que introdujo. Este archivo de salida también contiene herramientas de diagnóstico para ayudarle a arreglar los problemas de regresión comunes en el caso de que no encuentre ningún modelo que apruebe.

File
Output_Results_Table
(Opcional)

La tabla de salida opcional creada que contiene las variables explicativas y los diagnósticos para todos los modelos en el valor límite del valor VIF y el coeficiente de valor p.

Table
Maximum_Number_of_Explanatory_Variables
(Opcional)

Se evaluarán todos los modelos con variables explicativas hasta el valor introducido aquí. Si, por ejemplo, el Minimum_Number_of_Explanatory_Variables es 2 y el Maximum_Number_of_Explanatory_Variables es 3, la herramienta Regresión exploratoria probará todos los modelos con cada combinación de dos variables explicativas, y todos los modelos con cada combinación de tres variables explicativas.

Long
Minimum_Number_of_Explanatory_Variables
(Opcional)

Este valor representa el número mínimo de variables explicativas para modelos evaluados. Si, por ejemplo, el Minimum_Number_of_Explanatory_Variables es 2 y el Maximum_Number_of_Explanatory_Variables es 3, la herramienta Regresión exploratoria probará todos los modelos con cada combinación de dos variables explicativas, y todos los modelos con cada combinación de tres variables explicativas.

Long
Minimum_Acceptable_Adj_R_Squared
(Opcional)

Este es el valor R cuadrado ajustado más bajo que se considera un modelo de aprobación. Si un modelo aprueba todos los demás criterios de búsqueda, pero tiene un valor R cuadrado ajustado menor que el valor introducido aquí, no aparecerá como un modelo aprobado en el Output_Report_File. Los valores válidos para este parámetro oscilan entre 0,0 a 1,0. El valor predeterminado es 0,5, lo que indica que los modelos aprobados explicarán al menos el cincuenta por ciento de la variación de la variable dependiente.

Double
Maximum_Coefficient_p_value_Cutoff
(Opcional)

Para cada modelo evaluado, OLS calcula los valores p de los coeficientes de la variable explicativa. El valor p del valor límite que ingresó aquí representa el nivel de confianza que necesita para todos los coeficientes en el modelo para estudiar el modelo de aprobación. Los valores p pequeños reflejan un mayor nivel de confianza. Los valores válidos para este parámetro van desde 1,0 a 0,0, pero lo más probable es que sean 0,1, 0,05, 0,01, 0,001, y así sucesivamente. El valor predeterminado es 0,05, lo que indica que los modelos aprobados solo contienen variables explicativas cuyos coeficientes están estadísticamente en el nivel de confianza del 95 por ciento (valores p, menores que 0,05). Para relajar este valor predeterminado debe introducir un valor límite del valor p mayor, como 0,1. Si está recibiendo muchos modelos aprobados, es probable que desee hacer este criterio de búsqueda más estricto al disminuir el valor límite del valor p predeterminado de 0,05 a 0,01 o menos.

Double
Maximum_VIF_Value_Cutoff
(Opcional)

Este valor refleja cuánta redundancia (multicolinealidad) entre las variables explicativas del modelo se va a tolerar. Cuando el VIF (Factor de inflación de la varianza) es mayor que la multicolinealidad sobre 7,5, puede hacer un modelo inestable; por consiguiente, 7,5 es el valor predeterminado. Si desea que sus modelos aprobados tengan menos redundancia, debe introducir un valor menor, como 5,0, para este parámetro.

Double
Minimum_Acceptable_Jarque_Bera_p_value
(Opcional)

El valor p devuelto por la prueba de diagnóstico Jarque-Bera indica si los residuales del modelo se distribuyen normalmente. Si el valor p es estadísticamente significativo (pequeño), los residuales del modelo no son normales y el modelo es influenciado. Los modelos aprobados deben tener valores p Jarque-Bera grandes. El valor p aceptable mínimo predeterminado es 0,1. Solo los modelos que devuelven valores p mayores que este mínimo se considerarán aprobados. Si tiene problemas para encontrar modelos aprobados no influenciados, y decide relajar este criterio, puede introducir un valor p mínimo más pequeño, como 0,05.

Double
Minimum_Acceptable_Spatial_Autocorrelation_p_value
(Opcional)

Para los modelos que aprueban todos los demás criterios de búsqueda, la herramienta Regresión exploratoria, verificará los residuales de modelo para el clustering espacial utilizando I de Moran global. Cuando el valor p para esta prueba de diagnóstico es estadísticamente significativo (pequeño), esto indica que al modelo probablemente le faltan variables explicativas clave (no dice toda la historia). Por desgracia, si tiene la autocorrelación espacial de los residuales de regresión, el modelo está mal especificado, de modo que no se puede confiar en los resultados. Los modelos aprobados deben tener valores p grandes para esta prueba de diagnóstico. El valor p predeterminado mínimo es 0,1. Solo los modelos que devuelven valores p mayores que este mínimo se considerarán aprobados. Si tiene problemas al buscar modelos especificados correctamente debido a esta prueba de diagnóstico, y decide relajar los criterios de búsqueda, puede introducir un mínimo más pequeño como 0,05.

Double

Muestra de código

Ejemplo 1 ExploratoryRegression (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta ExploratoryRegression.

import arcpy
arcpy.env.workspace = r"C:\ER"
arcpy.ExploratoryRegression_stats("911CallsER.shp", 
                                  "Calls", 
                                  "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \
                                  ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \
                                  PopFY;JobsFY;LowEducFY",
                                  "BG_911Calls.swm", "BG_911Calls.txt", "",
                                  "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")
Ejemplo 2 de ExploratoryRegression (script independiente)

El siguiente script de Phython independiente muestra cómo utilizar la herramienta ExploratoryRegression.

# Exploratory Regression of 911 calls in a metropolitan area
# using the Exploratory Regression Tool
# Import system modules
import arcpy
# Set property to overwrite existing output, by default
arcpy.env.overwriteOutput = True
try:
    # Set the current workspace (to avoid having to specify the full path to
    # the feature classes each time)
    arcpy.env.workspace = r"C:\ER"
    # Join the 911 Call Point feature class to the Block Group Polygon feature class
    # Process: Spatial Join
    fieldMappings = arcpy.FieldMappings()
    fieldMappings.addTable("BlockGroups.shp")
    fieldMappings.addTable("911Calls.shp")
    sj = arcpy.SpatialJoin_analysis("BlockGroups.shp", "911Calls.shp", "BG_911Calls.shp",
                               "JOIN_ONE_TO_ONE",
                               "KEEP_ALL",
                               fieldMappings,
                               "COMPLETELY_CONTAINS", "", "")
    # Delete extra fieldsto clean up the data
    # Process: Delete Field 
    arcpy.DeleteField_management("BG_911Calls.shp", "OBJECTID;INC_NO;DATE_;MONTH_;STIME; \
                                 SD_T;DISP_REC;NFPA_TYP;CALL_TYPE;RESP_COD;NFPA_SF; \
                                 SIT_FND;FMZ_Q;FMZ;RD;JURIS;COMPANY;COMP_COD;RESP_YN; \
                                 DISP_DT;DAY_;D1_N2;RESP_DT;ARR_DT;TURNOUT;TRAVEL; \
                                 RESP_INT;ADDRESS_ID;CITY;CO;AV_STATUS;AV_SCORE; \
                                 AV_SIDE;Season;DayNight")
    # Create Spatial Weights Matrix for Calculations
    # Process: Generate Spatial Weights Matrix
    swm = arcpy.GenerateSpatialWeightsMatrix_stats("BG_911Calls.shp", "TARGET_FID", "BG_911Calls.swm",
                                             "CONTIGUITY_EDGES_CORNERS",
                                             "EUCLIDEAN", "1", "", "", "ROW_STANDARDIZATION", "", "", "", "")
    # Exploratory Regression Analysis for 911 Calls
    # Process: Exploratory Regression
    er = arcpy.ExploratoryRegression_stats("BG_911Calls.shp",
                                      "Calls",
                                      "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \
                                ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \
                                PopFY;JobsFY;LowEducFY",
                                      "BG_911Calls.swm", "BG_911Calls.txt", "",
                                      "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")
 
except:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Información de licenciamiento

  • Basic: Sí
  • Standard: Sí
  • Advanced: Sí

Temas relacionados