Régression exploratoire (Statistiques spatiales)

Résumé

Analyse toutes les combinaisons possibles des variables explicatives candidates en entrée pour trouver les modèles des moindres carrés ordinaires qui décrivent le mieux la variable dépendante, selon les critères définis par l’utilisateur.

En savoir plus sur la régression exploratoire

Illustration

Graphique d'une régression exploratoire
Recherche de modèles des moindres carrés ordinaires correctement spécifiés à partir d'un ensemble de variables explicatives candidates

Utilisation

  • La sortie principale de cet outil est un fichier de rapport qui est écrit sous forme de messages au bas de la fenêtre Géotraitement au cours de l'exécution de l'outil. Vous pouvez accéder aux messages en pointant sur la barre de progression, en cliquant sur le bouton contextuel ou en développant la section des messages dans la fenêtre Géotraitement. Vous pouvez également accéder aux messages d'une précédente exécution de l'outil Régression exploratoire via l'historique du géotraitement.

  • Cet outil peut également créer un fichier texte récapitulant les résultats. Ce fichier de rapport est ajouté à la table des matières. Pour l'afficher dans ArcMap, cliquez dessus avec le bouton droit de la souris et sélectionnez Ouvrir.

  • Cet outil génère également une table facultative de tous les modèles répondant aux critères que vous avez spécifiés, à savoir la limite des valeurs p des coefficients maximaux et la valeur Facteur d'inflation de la variance (VIF) maximum. Vous trouverez une explication complète de la table et des éléments du rapport à la rubrique Interprétation des résultats de la régression exploratoire.

  • Cet outil utilise les outils Moindres carrés ordinaires (OLS) et l'Auto-corrélation spatiale (Global Morans I). Le fichier de matrice de pondérations spatiales facultatif est utilisé avec l'outil Spatial Autocorrelation (Global Moran's I) pour évaluer les valeurs résiduelles du modèle, mais jamais avec l'outil Moindres carrés ordinateurs (OLS).

  • Cet outil explore toutes les combinaisons des variables explicatives candidates entrées pour trouver un modèle des moindres carrés ordinaires correctement spécifié. Ce n'est qu'après avoir trouvé un modèle répondant aux critères de seuil spécifiés (Coefficient de détermination corrigé minimal acceptable, Limite des valeurs p des coefficients maximaux, Limite des valeurs VIF maximales et Valeur p minimale acceptable du test Jarque Bera) qu'il exécute l'outil Spatial Autocorrelation (Global Moran's I) sur les valeurs résiduelles du modèle pour savoir si les sous-estimations/surestimations sont agrégées ou non. Pour fournir au moins quelques informations sur l'agrégation des valeurs résiduelles lorsque aucun des modèles ne répond à l'ensemble des critères spécifiés, le test Spatial Autocorrelation (Global Moran's I) est également appliqué aux valeurs résiduelles des trois modèles qui présentent les valeurs R2 ajustées les plus élevées et des trois modèles qui présentent les valeurs p Jarque-Bera les plus élevées.

  • Essayez de trouver autant de variables explicatives spatiales candidates que possible, surtout si la variable dépendante présente une forte structure spatiale. L'éloignement des grands axes routiers, l'accessibilité aux bassins d'emploi, le nombre de commerces de proximité, les mesures de connectivité ou les densités sont des exemples de variables spatiales. Tant que vous n'aurez pas trouvé de variables explicatives capturant la structure spatiale de votre variable dépendante, les valeurs résiduelles du modèle échoueront probablement au test d'autocorrélation spatiale. Une forte agrégation des valeurs résiduelles de régression, telle qu'elle est déterminée par l'outil Spatial Autocorrelation (Global Moran's I), indique une erreur de spécification du modèle. Reportez-vous à la rubrique Ce que l'on ne vous dit pas sur l'analyse de régression pour savoir comment traiter les erreurs de spécification.

  • Comme l’outil Auto-corrélation spatiale (Global Morans I) n’est pas exécuté pour tous les modèles testés (voir le précédent conseil d’utilisation), des données seront absentes de Output Results Table (Table des résultats en sortie) pour le champ SA (Spatial Autocorrelation). Les valeurs Null n'étant pas stockées dans les fichiers DBF (.dbf), elles apparaissent sous forme de nombres (négatifs) extrêmement petits (-1,797693e+308, par exemple). Pour les tables de la géodatabase, ces valeurs manquantes apparaissent comme des valeurs Null. Une valeur manquante indique que l'autocorrélation spatiale des valeurs résiduelles du modèle associé n'a pas été testée, car le modèle n'a pas satisfait l'ensemble des autres critères de recherche.

  • Le fichier de matrice de pondérations spatiales par défaut utilisé pour exécuter l'outil Spatial Autocorrelation (Global Moran's I) repose sur une conceptualisation des relations spatiales des 8 plus proches voisins. Ce fichier par défaut a été sélectionné principalement pour son exécution rapide. Toutefois, pour définir les relations voisines d'une autre manière, vous pouvez simplement créer votre propre fichier de matrice de pondérations spatiales à l'aide de l'outil Générer un fichier de matrice de pondérations spatiales puis spécifier le nom de ce fichier pour le paramètre Fichier de matrice de pondérations spatiales en entrée. Les conceptualisations de relations spatiales de type Inverse de la distance, Contiguïté polygonale ou K voisins les plus proches permettent toutes de tester correctement les valeurs résiduelles de régression.

    Remarque :

    Le fichier de matrice des pondérations spatiales sert uniquement à tester la structure spatiale des valeurs résiduelles du modèle. Lorsqu'un modèle est correctement spécifié, les valeurs résiduelles sont spatialement aléatoires (petites et grandes valeurs résiduelles sont mélangées ; les valeurs résiduelles élevées ne s'agrègent pas spatialement).

    Remarque :

    Lorsque les entités en entrée englobent 8 entités ou moins, le fichier de matrice de pondérations spatiales par défaut utilisé pour exécuter l'outil Auto-corrélation spatiale (Global Morans I) repose sur K voisins les plus proches, où K est le nombre d'entités moins 2. En règle générale, vous disposez d'un minimum de 30 entités à l'exécution de cet outil. En règle générale, il est recommandé d'utiliser cet outil avec un minimum de 30 entités.

Paramètres

ÉtiquetteExplicationType de données
Entités en entrée

Classe ou couche d'entités contenant les variables dépendantes et explicatives candidates à analyser.

Feature Layer
Variable dépendante

Champ numérique contenant les valeurs observées que vous souhaitez modéliser à l'aide de la méthode des moindres carrés ordinaires (OLS).

Field
Variables explicatives candidates

Liste des champs à tester comme variables explicatives du modèle OLS.

Field
Fichier de matrice de pondérations
(Facultatif)

Fichier contenant les pondérations spatiales qui définissent les relations spatiales entre les entités en entrée. Ce fichier permet d'évaluer l'autocorrélation spatiale des valeurs résiduelles de régression. Vous pouvez faire appel à l'outil Générer un fichier de matrice de pondérations spatiales pour le créer. Si vous ne spécifiez aucun fichier de matrice de pondérations spatiales, l'autocorrélation spatiale des valeurs résiduelles est évaluée en fonction des 8 plus proches voisins de chaque entité.

Remarque : le fichier de matrice de pondérations spatiales permet uniquement d'analyser la structure spatiale des valeurs résiduelles du modèle ; il ne sert pas à créer ni à calibrer les modèles OLS.

File
Fichier de rapport en sortie
(Facultatif)

Le fichier de rapport contient les résultats de l'outil, y compris des informations détaillées sur les modèles répondant à tous les critères de recherche spécifiés. Ce fichier en sortie inclut également des diagnostics utiles pour résoudre les problèmes de régression courants si aucun modèle concluant n'est trouvé.

File
Table des résultats en sortie
(Facultatif)

Table en sortie facultative créée qui contient les variables explicatives et les diagnostics pour tous les modèles répondant aux critères de limite des valeurs VIF et des valeurs p des coefficients.

Table
Nombre maximal de variables explicatives
(Facultatif)

Tous les modèles dont le nombre de variables explicatives ne dépasse pas la valeur spécifiée ici sont évalués. Si, par exemple, Nombre minimal de variables explicatives est égal à 2 et que Nombre maximal de variables explicatives est égal à 3, l'outil Régression exploratoire teste tous les modèles avec une combinaison de deux variables explicatives, puis tous les modèles avec une combinaison de trois variables explicatives.

Long
Nombre minimal de variables explicatives
(Facultatif)

Cette valeur représente le nombre minimal de variables explicatives pour les modèles évalués. Si, par exemple, Nombre minimal de variables explicatives est égal à 2 et que Nombre maximal de variables explicatives est égal à 3, l'outil Régression exploratoire teste tous les modèles avec une combinaison de deux variables explicatives, puis tous les modèles avec une combinaison de trois variables explicatives.

Long
Coefficient de détermination corrigé minimal acceptable
(Facultatif)

Il s'agit de la plus petite valeur R carrée ajustée acceptable (modèle concluant). Si un modèle répond à tous les autres critères de recherche, mais que la valeur R carrée ajustée est inférieure à la valeur spécifiée ici, il ne sera pas considéré comme un modèle concluant dans le fichier de rapport en sortie. Les valeurs valides de ce paramètre sont comprises entre 0,0 et 1,0. La valeur 0,05 par défaut indique que les modèles concluants représentent au moins 50 % de la variation dans la variable dépendante.

Double
Limite des valeurs p des coefficients maximaux
(Facultatif)

Pour chaque modèle évalué, la méthode des moindres carrés ordinaires calcule les valeurs p de coefficient des variables explicatives. La limite de valeur p que vous entrez ici représente le niveau de confiance requis pour tous les coefficients du modèle pour qu'il soit considéré comme concluant. Les petites valeurs p reflètent un niveau de confiance plus élevé. Les valeurs valides de ce paramètre sont comprises entre 1,0 et 0,0, mais elles seront plus vraisemblablement égales à 0,1, 0,05, 0,01, 0,001, etc. La valeur 0,05 par défaut indique que les modèles concluants contiennent uniquement des variables explicatives dont les coefficients ont un niveau de confiance de 95 pour cent, statistiquement (valeurs de p inférieures à 0,05). Pour assouplir ce paramètre par défaut, vous pouvez entrer une limite de valeur de p plus élevée, telle que 0,1. Si vous obtenez un nombre élevé de modèles concluants, vous pouvez durcir ce critère de recherche en diminuant la limite de valeur de p par défaut (de 0,05 à 0,01 ou moins).

Double
Limite des valeurs VIF maximales
(Facultatif)

Cette valeur reflète la redondance (multicolinéarité) tolérée dans les variables explicatives du modèle. Lorsque la valeur VIF (Variance Inflation Factor ou Facteur d'inflation de la variance) est supérieure à 7,5 environ, la multicolinéarité risque de rendre le modèle instable ; 7,5 est donc choisi ici comme valeur par défaut. Si vous souhaitez que la redondance des modèles concluants soit moins importante, entrez une valeur plus petite pour ce paramètre (5,0 par exemple).

Double
Valeur p minimale acceptable du test Jarque Bera
(Facultatif)

La valeur p renvoyée par le test de diagnostic Jarque-Bera indique si les valeurs résiduelles du modèle sont distribuées normalement. Si la valeur p est statistiquement significative (faible), les valeurs résiduelles du modèle ne sont pas normales et le modèle est biaisé. Pour être concluants, les modèles doivent avoir des valeurs p Jarque-Bera élevées. Par défaut, la valeur p minimale acceptable est 0,1. Seuls les modèles renvoyant des valeurs p supérieures à cette valeur minimale sont considérés comme concluants. S'il s'avère difficile de trouver des modèles concluants non biaisés, vous pouvez assouplir ce critère. Dans ce cas, entrez une valeur de p minimale inférieure, comme 0,05.

Double
Valeur p minimale acceptable pour l'autocorrélation spatiale
(Facultatif)

Pour les modèles qui répondent à tous les autres critères de recherche, l'outil Régression exploratoire recherchera une agrégation spatiale dans les résiduels du modèle à l'aide de l'indice de Moran global. Lorsque la valeur p de ce test de diagnostic est statistiquement significative (faible), il manque très probablement des variables explicatives clés dans le modèle (celui-ci ne donne pas toutes les informations nécessaires). Malheureusement, si vous observez une autocorrélation spatiale dans vos valeurs résiduelles, la spécification de votre modèle est erronée. Vous ne pouvez donc pas vous fier aux résultats obtenus. Pour être concluants, les modèles doivent avoir des valeurs p élevées suite à ce test de diagnostic. Par défaut, la valeur de p minimale est 0,1. Seuls les modèles renvoyant des valeurs p supérieures à cette valeur minimale sont considérés comme concluants. Si ce test de diagnostic vous empêche de trouver des modèles correctement spécifiés, vous pouvez assouplir ce critère de recherche en entrant, par exemple, une valeur minimale inférieure, comme 0,05.

Double

arcpy.stats.ExploratoryRegression(Input_Features, Dependent_Variable, Candidate_Explanatory_Variables, {Weights_Matrix_File}, {Output_Report_File}, {Output_Results_Table}, {Maximum_Number_of_Explanatory_Variables}, {Minimum_Number_of_Explanatory_Variables}, {Minimum_Acceptable_Adj_R_Squared}, {Maximum_Coefficient_p_value_Cutoff}, {Maximum_VIF_Value_Cutoff}, {Minimum_Acceptable_Jarque_Bera_p_value}, {Minimum_Acceptable_Spatial_Autocorrelation_p_value})
NomExplicationType de données
Input_Features

Classe ou couche d'entités contenant les variables dépendantes et explicatives candidates à analyser.

Feature Layer
Dependent_Variable

Champ numérique contenant les valeurs observées que vous souhaitez modéliser à l'aide de la méthode des moindres carrés ordinaires (OLS).

Field
Candidate_Explanatory_Variables
[Candidate_Explanatory_Variables,...]

Liste des champs à tester comme variables explicatives du modèle OLS.

Field
Weights_Matrix_File
(Facultatif)

Fichier contenant les pondérations spatiales qui définissent les relations spatiales entre les entités en entrée. Ce fichier permet d'évaluer l'autocorrélation spatiale des valeurs résiduelles de régression. Vous pouvez faire appel à l'outil Générer un fichier de matrice de pondérations spatiales pour le créer. Si vous ne spécifiez aucun fichier de matrice de pondérations spatiales, l'autocorrélation spatiale des valeurs résiduelles est évaluée en fonction des 8 plus proches voisins de chaque entité.

Remarque : le fichier de matrice de pondérations spatiales permet uniquement d'analyser la structure spatiale des valeurs résiduelles du modèle ; il ne sert pas à créer ni à calibrer les modèles OLS.

File
Output_Report_File
(Facultatif)

Le fichier de rapport contient les résultats de l'outil, y compris des informations détaillées sur les modèles répondant à tous les critères de recherche spécifiés. Ce fichier en sortie inclut également des diagnostics utiles pour résoudre les problèmes de régression courants si aucun modèle concluant n'est trouvé.

File
Output_Results_Table
(Facultatif)

Table en sortie facultative créée qui contient les variables explicatives et les diagnostics pour tous les modèles répondant aux critères de limite des valeurs VIF et des valeurs p des coefficients.

Table
Maximum_Number_of_Explanatory_Variables
(Facultatif)

Tous les modèles dont le nombre de variables explicatives ne dépasse pas la valeur spécifiée ici sont évalués. Si, par exemple, Minimum_Number_of_Explanatory_Variables est égal à 2 et que Maximum_Number_of_Explanatory_Variables est égal à 3, l'outil Régression exploratoire teste tous les modèles avec une combinaison de deux variables explicatives, puis tous les modèles avec une combinaison de trois variables explicatives.

Long
Minimum_Number_of_Explanatory_Variables
(Facultatif)

Cette valeur représente le nombre minimal de variables explicatives pour les modèles évalués. Si, par exemple, Minimum_Number_of_Explanatory_Variables est égal à 2 et que Maximum_Number_of_Explanatory_Variables est égal à 3, l'outil Régression exploratoire teste tous les modèles avec une combinaison de deux variables explicatives, puis tous les modèles avec une combinaison de trois variables explicatives.

Long
Minimum_Acceptable_Adj_R_Squared
(Facultatif)

Il s'agit de la plus petite valeur R carrée ajustée acceptable (modèle concluant). Si un modèle répond à tous les autres critères de recherche, mais que la valeur R carrée ajustée est inférieure à la valeur spécifiée ici, il ne sera pas considéré comme un modèle concluant dans Output_Report_File. Les valeurs valides de ce paramètre sont comprises entre 0,0 et 1,0. La valeur 0,5 par défaut indique que les modèles concluants représentent au moins cinquante pour cent de la variation dans la variable dépendante.

Double
Maximum_Coefficient_p_value_Cutoff
(Facultatif)

Pour chaque modèle évalué, la méthode des moindres carrés ordinaires calcule les valeurs p de coefficient des variables explicatives. La limite de valeur p que vous entrez ici représente le niveau de confiance requis pour tous les coefficients du modèle pour qu'il soit considéré comme concluant. Les petites valeurs p reflètent un niveau de confiance plus élevé. Les valeurs valides de ce paramètre sont comprises entre 1,0 et 0,0, mais elles seront plus vraisemblablement égales à 0,1, 0,05, 0,01, 0,001, etc. La valeur 0,05 par défaut indique que les modèles concluants contiennent uniquement des variables explicatives dont les coefficients ont un niveau de confiance de 95 pour cent, statistiquement (valeurs de p inférieures à 0,05). Pour assouplir ce paramètre par défaut, vous pouvez entrer une limite de valeur de p plus élevée, telle que 0,1. Si vous obtenez un nombre élevé de modèles concluants, vous pouvez durcir ce critère de recherche en diminuant la limite de valeur de p par défaut (de 0,05 à 0,01 ou moins).

Double
Maximum_VIF_Value_Cutoff
(Facultatif)

Cette valeur reflète la redondance (multicolinéarité) tolérée dans les variables explicatives du modèle. Lorsque la valeur VIF (Variance Inflation Factor ou Facteur d'inflation de la variance) est supérieure à 7,5 environ, la multicolinéarité risque de rendre le modèle instable ; 7,5 est donc choisi ici comme valeur par défaut. Si vous souhaitez que la redondance des modèles concluants soit moins importante, entrez une valeur plus petite pour ce paramètre (5,0 par exemple).

Double
Minimum_Acceptable_Jarque_Bera_p_value
(Facultatif)

La valeur p renvoyée par le test de diagnostic Jarque-Bera indique si les valeurs résiduelles du modèle sont distribuées normalement. Si la valeur p est statistiquement significative (faible), les valeurs résiduelles du modèle ne sont pas normales et le modèle est biaisé. Pour être concluants, les modèles doivent avoir des valeurs p Jarque-Bera élevées. Par défaut, la valeur p minimale acceptable est 0,1. Seuls les modèles renvoyant des valeurs p supérieures à cette valeur minimale sont considérés comme concluants. S'il s'avère difficile de trouver des modèles concluants non biaisés, vous pouvez assouplir ce critère. Dans ce cas, entrez une valeur de p minimale inférieure, comme 0,05.

Double
Minimum_Acceptable_Spatial_Autocorrelation_p_value
(Facultatif)

Pour les modèles qui répondent à tous les autres critères de recherche, l'outil Régression exploratoire recherchera une agrégation spatiale dans les résiduels du modèle à l'aide de l'indice de Moran global. Lorsque la valeur p de ce test de diagnostic est statistiquement significative (faible), il manque très probablement des variables explicatives clés dans le modèle (celui-ci ne donne pas toutes les informations nécessaires). Malheureusement, si vous observez une autocorrélation spatiale dans vos valeurs résiduelles, la spécification de votre modèle est erronée. Vous ne pouvez donc pas vous fier aux résultats obtenus. Pour être concluants, les modèles doivent avoir des valeurs p élevées suite à ce test de diagnostic. Par défaut, la valeur de p minimale est 0,1. Seuls les modèles renvoyant des valeurs p supérieures à cette valeur minimale sont considérés comme concluants. Si ce test de diagnostic vous empêche de trouver des modèles correctement spécifiés, vous pouvez assouplir ce critère de recherche en entrant, par exemple, une valeur minimale inférieure, comme 0,05.

Double

Exemple de code

Exemple 1 d'utilisation de l'outil ExploratoryRegression (fenêtre Python)

Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil ExploratoryRegression.

import arcpy
arcpy.env.workspace = r"C:\ER"
arcpy.ExploratoryRegression_stats("911CallsER.shp", 
                                  "Calls", 
                                  "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \
                                  ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \
                                  PopFY;JobsFY;LowEducFY",
                                  "BG_911Calls.swm", "BG_911Calls.txt", "",
                                  "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")
Exemple 2 de l’outil ExploratoryRegression (script autonome)

Le script Python autonome ci-dessous illustre l'utilisation de l'outil ExploratoryRegression.

# Exploratory Regression of 911 calls in a metropolitan area
# using the Exploratory Regression Tool
# Import system modules
import arcpy
# Set property to overwrite existing output, by default
arcpy.env.overwriteOutput = True
try:
    # Set the current workspace (to avoid having to specify the full path to
    # the feature classes each time)
    arcpy.env.workspace = r"C:\ER"
    # Join the 911 Call Point feature class to the Block Group Polygon feature class
    # Process: Spatial Join
    fieldMappings = arcpy.FieldMappings()
    fieldMappings.addTable("BlockGroups.shp")
    fieldMappings.addTable("911Calls.shp")
    sj = arcpy.SpatialJoin_analysis("BlockGroups.shp", "911Calls.shp", "BG_911Calls.shp",
                               "JOIN_ONE_TO_ONE",
                               "KEEP_ALL",
                               fieldMappings,
                               "COMPLETELY_CONTAINS", "", "")
    # Delete extra fieldsto clean up the data
    # Process: Delete Field 
    arcpy.DeleteField_management("BG_911Calls.shp", "OBJECTID;INC_NO;DATE_;MONTH_;STIME; \
                                 SD_T;DISP_REC;NFPA_TYP;CALL_TYPE;RESP_COD;NFPA_SF; \
                                 SIT_FND;FMZ_Q;FMZ;RD;JURIS;COMPANY;COMP_COD;RESP_YN; \
                                 DISP_DT;DAY_;D1_N2;RESP_DT;ARR_DT;TURNOUT;TRAVEL; \
                                 RESP_INT;ADDRESS_ID;CITY;CO;AV_STATUS;AV_SCORE; \
                                 AV_SIDE;Season;DayNight")
    # Create Spatial Weights Matrix for Calculations
    # Process: Generate Spatial Weights Matrix
    swm = arcpy.GenerateSpatialWeightsMatrix_stats("BG_911Calls.shp", "TARGET_FID", "BG_911Calls.swm",
                                             "CONTIGUITY_EDGES_CORNERS",
                                             "EUCLIDEAN", "1", "", "", "ROW_STANDARDIZATION", "", "", "", "")
    # Exploratory Regression Analysis for 911 Calls
    # Process: Exploratory Regression
    er = arcpy.ExploratoryRegression_stats("BG_911Calls.shp",
                                      "Calls",
                                      "Pop;Jobs;LowEduc;Dst2UrbCen;Renters;Unemployed;Businesses;NotInLF; \
                                ForgnBorn;AlcoholX;PopDensity;MedIncome;CollGrads;PerCollGrd; \
                                PopFY;JobsFY;LowEducFY",
                                      "BG_911Calls.swm", "BG_911Calls.txt", "",
                                      "MAX_NUMBER_ONLY", "5", "1", "0.5", "0.05", "7.5", "0.1", "0.1")
 
except:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Rubriques connexes