Interprétation des résultats de la régression exploratoire—ArcGIS Pro

Lorsque vous exécutez l’outil Régression exploratoire, la sortie principale est un rapport. Le rapport se présente sous la forme de messages lors de l’exécution de l’outil. Il est également accessible à partir de l’historique de géotraitement du projet. De plus, vous pouvez générer une table en sortie pour examiner de plus près les modèles qui ont été testés. Le rapport a notamment pour objet de vous aider à déterminer si les variables explicatives candidates produisent des modèles des moindres carrés ordinaires correctement spécifiés. Si aucun modèle ne remplit tous les critères que vous avez spécifiés quand vous avez lancé l’outil Régression exploratoire, la sortie indique tout de même quelles variables sont des prédicteurs constants et vous aide à identifier les diagnostics qui posent problème. Les stratégies de résolution des problèmes associés à chacun des diagnostics sont indiquées à la rubrique Ce que l’on ne vous dit pas sur l’analyse de régression et à la rubrique Principes de base de l’analyse de régression (voir le tableau Problèmes de régression courants, conséquences et solutions). Pour savoir comment vérifier si votre modèle des moindres carrés ordinaires est correctement spécifié, reportez-vous aux rubriques Principes de base de l’analyse de régression et Interprétation des résultats des moindres carrés ordinaires.

Détails du rapport

Le rapport produit par l’outil Régression exploratoire se divise en cinq sections. Chaque section est décrite ci-dessous.

Meilleurs modèles classés par nombre de variables explicatives

Section 1 du rapport de régression exploratoire

Dans le rapport en sortie, le premier ensemble de récapitulatifs est constitué en fonction du nombre de variables explicatives contenues dans les modèles testés. Si vous spécifiez 1 comme valeur du paramètre Nombre minimal de variables explicatives et 5 comme valeur du paramètre Nombre maximal de variables explicatives, le rapport comporte cinq sections récapitulatives. Chaque section répertorie les trois modèles avec les valeurs R² ajusté les plus élevées, ainsi que tous les modèles concluants. Chaque section récapitulative inclut également les valeurs de diagnostic de chaque modèle répertorié : le critère d’information Akaike corrigé - AICc, la valeur p Jarque-Bera - JB, la valeur p Breusch-Pagan avec transformation de Student de Koenker - K(BP), le facteur d’inflation de la variance le plus élevé - VIF, et une mesure de l’autocorrélation spatiale du résidu (valeur p de l’indice de Moran global) - SA. Ces récapitulatifs donnent une indication de l’exactitude des prévisions de vos modèles (R² ajusté) et précisent si des modèles remplissent tous les critères de diagnostic que vous avez spécifiés. Si vous avez accepté tous les critères de recherche par défaut (les paramètres Coefficient de détermination corrigé minimal acceptable, Limite des valeurs p des coefficients maximaux, Limite des valeurs VIF maximales, Valeur p minimale acceptable du test Jarque Bera et Valeur p minimale acceptable pour l’autocorrélation spatiale), tous les modèles inclus dans la liste Modèles concluants sont des modèles des moindres carrés ordinaires correctement spécifiés.

Même s’il n’y a pas de modèles concluants, le reste du rapport en sortie donne des informations utiles sur les relations entre les variables et peut vous aider à choisir comment poursuivre votre travail.

Récapitulatif global de la régression exploratoire

Section 2 du rapport de régression exploratoire

La section Exploratory Regression Global Summary (Récapitulatif global de la régression exploratoire) est importante, particulièrement si vous n’avez pas trouvé de modèles concluants, parce qu’elle indique pourquoi aucun des modèles n’est concluant. Cette section contient la liste des cinq tests de diagnostic et le pourcentage de modèles ayant réussi tous ces tests. Si aucun de vos modèles n’est concluant, ce récapitulatif peut vous aider à trouver le test de diagnostic qui pose problème.

Le diagnostic problématique est souvent le test d’indice de Moran global pour l’autocorrélation spatiale (SA). Si tous les modèles testés comportent des résidus de régression spatialement autocorrélés, il vous manque probablement des variables explicatives clés. Une des meilleures façons de rechercher des variables explicatives manquantes est d’examiner la carte des résidus résultant de l’exécution de l’outil de régression Moindres carrés ordinaires. Choisissez un des modèles de régression exploratoire qui fonctionnent bien pour tous les autres critères (utilisez les listes des valeurs les plus élevées de R-carré ajusté ou sélectionnez un modèle dans la table en sortie facultative), puis utilisez ce modèle pour effectuer une régression par les moindres carrés ordinaires. La sortie de l’outil de régression Moindres carrés ordinaires est une carte des résidus du modèle. Examinez les résidus pour trouver des indices sur ce qui pourrait manquer. Essayez de penser à autant de variables spatiales candidates que vous le pouvez (par exemple, distance d’axes routiers majeurs, hôpitaux ou autres entités géographiques clés). Envisagez d’essayer des variables de régime spatial : si toutes les sous-estimations se trouvent dans les zones rurales, par exemple, créez une variable d’emplacement réservé pour vérifier si elle améliore les résultats de la régression exploratoire.

L’autre diagnostic souvent problématique est le test de Jarque-Bera pour les valeurs résiduelles normalement distribuées. Si aucun de vos modèles ne réussit le test de Jarque-Bera (JB), le modèle est biaisé. Les causes les plus courantes du biais d’un modèle sont les suivantes :

Relations non linéaires
Points aberrants de données

En visualisant une matrice de nuage de points des relations entre les variables explicatives candidates et votre variable dépendante, vous pourrez déterminer si vous avez un de ces problèmes. Des stratégies supplémentaires sont décrites dans la rubrique Principes de base de l’analyse de régression. Si vos modèles échouent aux tests d’autocorrélation spatiale, commencez par résoudre ces problèmes. Il se peut que des variables explicatives clé manquantes soient à l'origine du biais du modèle.

Récapitulatif de la signification des variables

Section 3 du rapport de régression exploratoire

La section Summary of Variable Significance (Récapitulatif de la signification des variables) fournit des informations sur les relations entre les variables et la cohérence de ces relations. Pour chaque variable explicative candidate figurant dans la liste, un pourcentage indique le niveau de signification statistique de cette variable. Les premières variables de la liste ont les valeurs les plus élevées de la colonne % Significant (% d’importance). Vous pouvez également vérifier la stabilité des relations entre variables en étudiant les colonnes % Negative (% Négatif) et % Positive (% Positif). Les prédicteurs forts sont constamment significatifs (% Significant (% d’importance)) et la relation est stable (principalement négative ou principalement positive).

Cette partie du rapport peut aussi vous permettre d’être plus efficace. Cela est particulièrement important si vous utilisez de nombreuses variables explicatives candidates (plus de 50), et que vous voulez essayer des modèles avec au moins cinq prédicteurs. Si vous avez un grand nombre de variables explicatives et testez de nombreuses combinaisons, les calculs peuvent prendre beaucoup de temps. Dans certains cas, l’exécution de l’outil est interrompue par des erreurs de mémoire. Il est recommandé d’augmenter progressivement le nombre de modèles testés : commencez par définir une valeur de 2 puis de 3, de 4, etc., pour les paramètres Nombre minimal de variables explicatives et Nombre maximal de variables explicatives. Après chaque exécution, supprimez les variables qui sont rarement statistiquement significatives dans les modèles testés. La section Summary of Variable Significance (Récapitulatif de la signification des variables) vous permet de trouver les variables qui sont constamment de forts prédicteurs. La suppression d’une variable explicative candidate de votre liste peut réduire considérablement la durée d’exécution de l’outil Régression exploratoire.

Récapitulatif de la colinéarité

Section 4 du rapport de régression exploratoire

Vous pouvez utiliser la section Récapitulatif de la colinéarité du rapport conjointement avec la section Récapitulatif de la signification des variables pour comprendre quelles variables explicatives candidates peuvent être supprimées de votre analyse dans un souci d’amélioration des performances. La section Summary of Multicollinearity (Récapitulatif de la colinéarité) indique le nombre d’inclusions de chaque variable explicative à un modèle avec une multicolinéarité élevée, ainsi que les autres variables également incluses dans ces modèles. Lorsque l’on retrouve fréquemment deux variables explicatives (ou plus) ensemble dans des modèles avec une multicolinéarité élevée, il est probable que ces variables soient redondantes. Puisque vous voulez inclure seulement les variables qui expliquent un aspect unique de la variable dépendante, choisissez plutôt de n’inclure qu’une des variables redondantes dans la suite de l’analyse. Une manière de procéder consiste à utiliser la plus forte des variables redondantes sur la base des résultats de la section Récapitulatif de la signification des variables.

Récapitulatifs de diagnostic supplémentaires

Section 5 du rapport de régression exploratoire

Les derniers récapitulatifs de diagnostic indiquent les valeurs p Jarque-Bera les plus élevées (Summary of Residual Normality (Récapitulatif de la normalité des valeurs résiduelles)) et les valeurs p de l’indice de Moran global les plus élevées (Summary of Residual Autocorrelation (Récapitulatif de l’autocorrélation spatiale des valeurs résiduelles)). Pour réussir ces tests de diagnostic, vous devez obtenir des valeurs p élevées.

Ces récapitulatifs ne sont pas particulièrement utiles quand vos modèles réussissent les tests de Jarque-Bera et d’autocorrélation spatiale (indice de Moran global) ; en effet, si votre critère de signification statistique est 0,1, tous les modèles avec des valeurs supérieures à 0,1 sont également des modèles concluants. Ces récapitulatifs sont toutefois utiles lorsque vous n’avez pas de modèles concluants et que vous voulez connaître le pourcentage de valeur manquant pour obtenir des valeurs résiduelles normalement distribuées ou des valeurs résiduelles sans autocorrélation spatiale statistiquement significative. Par exemple, si toutes les valeurs p du récapitulatif Jarque-Bera sont égales à 0,000000, il est évident que vos variables résiduelles sont loin d’être normalement distribuées. Mais si les valeurs p sont égales à 0,092, les résidus sont presque normalement distribués (en fait, selon le niveau de signification choisi, une valeur p de 0,092 peut être concluante). Ces récapitulatifs démontrent à quel point un problème est grave. De plus, si aucun des modèles n’est concluant, ils indiquent quelles variables sont associées aux modèles qui sont presque concluants.

Détails de la table

Si vous avez spécifié une valeur pour le paramètre Table des résultats en sortie, une table contenant la liste de tous les modèles qui satisfont à vos critères Limite des valeurs p des coefficients maximaux et Limite des valeurs VIF maximales est créée. Même si vous n’avez pas de modèles concluants, il est problable que la table en sortie contiendra des modèles. Chaque ligne de la table représente un modèle correspondant à vos critères de valeurs de coefficients et de valeurs VIF. Les colonnes de la table répertorient les variables explicatives et les diagnostics du modèle. Les diagnostics répertoriés sont le R-carré ajusté (R2), les critères d’information Akaike corrigés (AICc), la valeur p Jarque-Bera (JB), la valeur p Breusch-Pagan avec transformation de Student de Koenker (BP), le facteur d’inflation de la variance (VIF) et la valeur p de l’indice de Moran global (SA). Il est possible de trier les modèles en fonction de leurs valeurs AICc. Plus la valeur AICc est faible, mieux le modèle a fonctionné. Vous pouvez trier les valeurs AICc dans ArcMap en cliquant deux fois sur la colonne AICc. Si vous sélectionnez un modèle pour l’utiliser dans une analyse des moindres carrés ordinaires (afin d’examiner les résidus), veillez à choisir un modèle avec une valeur AICc faible et des valeurs concluantes pour autant de diagnostics que possible. Par exemple, si vous avez consulté le rapport en sortie et savez que le diagnostic Jarque-Bera était problématique, recherchez le modèle avec la valeur AICc la plus faible ayant satisfait à tous les critères hormis celui de Jarque-Bera.

Ressources supplémentaires

Si vous découvrez l’analyse de régression dans ArcGIS, il est recommandé de visionner la présentation Introduction to Regression Analysis Using ArcGIS Pro et de suivre le didacticiel Regression Analysis avant d’utiliser l’outil Régression exploratoire.

Vous pouvez également consulter les ressources suivantes :

En savoir plus sur la régression exploratoire
Ce que l'on ne vous dit pas sur l'analyse de régression
Principes de base de l'analyse de régression
Burnham, K.P., and D.R. Anderson. 2002. Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, 2nd Edition. New York : Springer. Section 1.5

Vous avez un commentaire à formuler concernant cette rubrique ?