Fonctionnement de l’outil Régression pondérée géographiquement multi-échelle (MGWR)

L’outil Régression pondérée géographiquement multi-échelle (MGWR) utilise une technique de régression spatiale avancée qui est utilisée en géographie, en urbanisme et dans plusieurs autres disciplines. Il constitue une évolution par rapport aux modèles Régression pondérée géographiquement qui utilisent des variables explicatives et dépendantes dans le voisinage d’une entité cible pour construire un modèle de régression linéaire local à des fins d’interprétation ou de prévision. Dans les modèles GWR, on suppose que l’échelle voisine de chaque variable explicative est identique. Ce n’est pas le cas dans MGWR. MGWR accepte une variation de l’échelle d’analyse entre les variables explicatives. MGWR est idéal avec des jeux de données volumineux contenant plusieurs centaines d’entités et de jeux d’entités dans lesquels la variable dépendante présente une hétérogénéité spatiale. Pour modéliser des relations spatialement différentes dans de petits jeux de données, d’autres outils peuvent mieux convenir. L’outil Régression pondérée géographiquement multi-échelle (MGWR) actuel accepte uniquement les variables dépendantes continues. N’exécutez pas le modèle avec des données de type Total ou Binaire. Un modèle biaisé et des résultats peu pertinents pourraient en découler.

La majeure partie de cette rubrique s’attache à expliquer l’outil MGWR en le comparant à d’autres méthodes de régression. Avant de poursuivre, il est utile d’avoir des notions de base sur la régression des moindres carrés ordinaires et de connaître les voisinages, les structures de pondération et les diagnostics de GWR.

En savoir plus sur la régression des moindres carrés ordinaires

En savoir plus sur GWR

Sélection du modèle de régression

La régression des moindres carrés ordinaires (OLS), la régression pondérée géographiquement (GWR) et la régression pondérée géographiquement multi-échelle (MGWR) sont toutes des modèles de régression linéaire, mais elles fonctionnent à différentes échelles spatiales et formulent des hypothèses différentes sur l’hétérogénéité spatiale (la cohérence des relations dans la zone d’étude) d’un jeu de données. La régression des moindres carrés ordinaires est un modèle global. On suppose que le processus de génération des données est stationnaire dans l’espace. Par conséquent, un seul coefficient peut représenter la relation entre chaque variable explicative et la variable dépendante partout. La régression pondérée géographiquement est un modèle local qui modère l’hypothèse de stationnarité spatiale en permettant aux coefficients de varier dans l’espace. Cependant, on suppose dans la régression pondérée géographiquement que toutes les relations locales fonctionnent à la même échelle spatiale en exigeant que toutes les variables explicatives utilisent le même voisinage. Si une variable explicative utilise 20 voisins pour ses calculs, toutes les variables explicatives doivent également utiliser 20 voisins.

La régression pondérée géographiquement multi-échelle, toutefois, permet non seulement aux coefficients de varier dans l’espace, mais elle permet également à l’échelle de varier dans différentes variables explicatives. Pour ce faire, la régression pondérée géographiquement multi-échelle utilise des voisinages distincts pour chaque variable explicative afin de représenter les différentes échelles spatiales des relations entre chaque variable explicative et la variable dépendante. Cela permet de combiner des variables explicatives qui fonctionnent à des échelles spatiales relativement importantes (par exemple la température ou la pression atmosphérique) avec des variables qui fonctionnent à des échelles spatiales plus réduites (par exemple la densité de population ou le revenu moyen).

Par rapport à la régression pondérée géographiquement, la régression pondérée géographiquement multi-échelle estime des coefficients locaux plus précis et rencontre moins de problèmes avec la multicolinéarité. Cependant, le temps de traitement est beaucoup plus long pour la régression pondérée géographiquement multi-échelle que pour la régression pondérée géographiquement, et il augmente à mesure que la taille des données s’accroît, en particulier pour les jeux de données supérieurs à 10 000 points.

Au moment de choisir le modèle à appliquer aux données, posez-vous ces questions :

  • Le modèle doit-il s’exécuter au niveau local ou global ?
    • Si vous voulez un modèle local, appliquez la régression pondérée géographiquement (GWR) ou la régression pondérée géographiquement multi-échelle (MGWR). Sinon, utilisez la régression par les moindres carrés ordinaires ou un autre modèle tel que l’outil Régression et classification basées sur une forêt.
  • Les variables explicatives du modèle s’exécutent-elles à différentes échelles spatiales ?
    • Si vous pensez que les variables explicatives risquent de s’exécuter à différentes échelles et si vous voulez les identifier et les modéliser à différentes échelles, appliquez la régression pondérée géographiquement multi-échelle (MGWR).
  • Quelle est la taille du jeu de données ? Quel est le temps dont je dispose pour attendre les résultats ?
    • Si votre jeu de données est très volumineux et que vous exécutez l’outil MGWR, vous devez vous attendre à un temps d’exécution plus long. Avec un matériel courant du début des années 2020 (16 processeurs logiques et une mémoire de 32 Go) et des paramètres standard, pour des jeux de données supérieurs à environ 10 000 points, le temps d’exécution sera probablement de plusieurs heures. Pour 50 000, le temps d’exécution sera probablement de plusieurs jours. Pour 100 000 ou plus, des problèmes de mémoire risquent de survenir.

Si vous ne savez toujours pas quel modèle local (GWR ou MGWR) appliquer à vos données, commencez par MGWR. Lorsque la régression pondérée géographiquement multi-échelle s’exécute, elle réalise également une régression pondérée géographiquement sous certains paramètres. Dans les messages de géotraitement, vous trouverez les diagnostics de la régression pondérée géographiquement et pourrez les comparer aux diagnostics de la régression pondérée géographiquement multi-échelle. Vous pouvez aussi exécuter plusieurs outils (OLS, GWR et MGWR) et utiliser le critère d’information d’Akaike corrigé (AICc) indiqué dans les messages de géotraitement pour comparer les modèles et choisir le mieux adapté. Si vous optez pour l’exécution de plusieurs outils, mettez à l’échelle tous les modèles ou laissez tous les modèles sans échelle afin que les sorties soient comparables.

Applications possibles

La régression pondérée géographiquement multi-échelle (MGWR) peut s’appliquer à plusieurs analyses et questions multivariées, par exemple :

  • Dans quelle mesure différentes caractéristiques (nombre de pièces, année de construction, superficie du lot, etc) influencent-elles le prix d’une maison ? Les relations sont-elles très différentes dans différentes communautés ?
  • Quel est le lien entre la répartition des particules fines PM2.5 et les variables économiques (revenu régional des ménages, nombre de voitures par ménage ou pourcentage de produit intérieur brut associé à l’agriculture) ?
  • Dans l’agriculture de précision, est-ce que l’état des sols affecte le rendement agricole à la même échelle spatiale que des variables atmosphériques telles que la température, l’humidité et les précipitations ?

Considérations sur les performances et les références

Plusieurs facteurs affectent l’exécution de la régression pondérée géographiquement multi-échelle (MGWR). Le facteur le plus important pour l’exécution est le nombre d’entités. L’exécution connaît un développement cubique par rapport au nombre d’entités. La taille du voisinage et le nombre de variables explicatives affectent également l’exécution de la régression pondérée géographiquement multi-échelle en exigeant davantage de calculs pour chaque modèle local. Pour calculer les résultats aussi rapidement que possible, la régression pondérée géographiquement multi-échelle recourt au traitement parallèle et utilise la moitié des cœurs (processeurs logiques) disponibles sur votre machine par défaut. Pour optimiser les performances, vous pouvez augmenter le nombre de cœurs de l’environnement Facteur de traitement parallèle.

Entrées d’outils

Plusieurs méthodes permettent de fournir l’échelle spatiale des variables explicatives.

Sélection du voisinage (bande passante)

Une amélioration clé de la régression pondérée géographiquement multi-échelle (MGWR) est la possibilité de faire varier la bande passante (voisin) de chaque variable explicative dans l’équation de régression linéaire. Le voisinage d’une variable explicative à une localisation cible comprend toutes les localisations destinées à contribuer à l’estimation du coefficient de la variable explicative dans le modèle de régression linéaire local. Chaque voisinage est défini par une forme et une étendue.

Trois options du paramètre Méthode de sélection de voisinage sont disponibles pour estimer l’échelle spatiale optimale séparément de chacune des variables explicatives.

  • Recherche absolue : détermine le nombre de voisins ou la bande de distance pour chaque variable explicative à l’aide de l’algorithme Recherche absolue. Cette méthode teste plusieurs combinaisons de valeurs pour chaque variable explicative entre une valeur minimale et une valeur maximale spécifiées. La procédure est itérative et utilise les résultats des valeurs précédentes pour sélectionner chaque nouvelle combinaison à tester. Les valeurs finales auront les plus petites valeurs AICc. Pour l’option du nombre de voisins, le minimum et le maximum sont indiqués à l’aide des paramètres Nombre minimal de voisins et Nombre maximal de voisins. Pour l’option de bande de distance, le minimum et le maximum sont indiqués à l’aide des paramètres Distance de recherche minimale et Distance de recherche maximale. Les valeurs minimale et maximale sont partagées pour toutes les variables explicatives, mais le nombre de voisins ou la bande de distance estimé sera différent pour chaque variable explicative (sauf si deux ou plus ont la même échelle spatiale). Cette option est celle dont le calcul prend le plus de temps, en particulier pour les jeux de données volumineux ou fortement dimensionnels.
  • Intervalles manuels : détermine le nombre de voisins ou la bande de distance pour chaque variable explicative en incrémentant le nombre de voisins ou la bande de distance depuis une valeur minimale. Pour l’option du nombre de voisins, la méthode débute avec la valeur du paramètre Nombre minimal de voisins. Le nombre de voisins est ensuite augmenté de la valeur du paramètre Incrément de nombre de voisins. Cet incrément est répété un certain nombre de fois, spécifié à l’aide du paramètre Nombre d’incréments. Pour l’option de bande de distance, la méthode utilise les paramètres Distance de recherche minimale, Incrément de distance de recherche et Distance de recherche maximale. Le nombre de voisins ou la bande de distance utilisé par chaque variable explicative sera l’une des valeurs testées, mais les valeurs peuvent être différentes pour chaque variable explicative. Cette option est plus rapide que la recherche absolue et estime fréquemment des voisinages comparables.
  • Défini par l’utilisateur : nombre de voisins ou bande de distance utilisé par toutes les variables explicatives. La valeur est spécifiée à l’aide du paramètre Nombre de voisins ou Bande de distance. Cette option offre le plus fort contrôle si vous connaissez les valeurs optimales.

Par défaut, les paramètres dépendants de chaque méthode de sélection de voisinage s’appliquent à toutes les variables explicatives. Vous pouvez toutefois fournir des paramètres de sélection de voisinage personnalisés uniquement pour certaines variables explicatives à l’aide du paramètre de remplacement correspondant pour le type de voisinage et la méthode de sélection : Nombre de voisins pour la recherche absolue, Nombre de voisins pour les intervalles manuels, Nombre de voisins défini par l’utilisateur, Distance de recherche pour la recherche absolue, Distance de recherche pour les intervalles manuels ou Distance de recherche définie par l’utilisateur. Pour utiliser des voisinages personnalisés pour certaines variables explicatives, fournissez les variables explicatives dans la première colonne du paramètre de remplacement correspondant, puis indiquez les options personnalisées du voisinage dans les autres colonnes. Les colonnes portent le même nom que les paramètres qu’elles remplacent. Par exemple, si vous utilisez des intervalles manuels avec une bande de distance, la colonne Incrément de distance de recherche indique les valeurs personnalisées du paramètre Incrément de distance de recherche. Dans la boîte de dialogue de l’outil, les paramètres de voisinage personnalisés se trouvent dans le menu déroulant de catégorie du paramètre Options de voisinage personnalisées.

Structure de pondération locale

La régression pondérée géographiquement multi-échelle (MGWR) applique une fonction de pondération géographique (noyau) aux voisins de chaque modèle local de sorte que les voisins les plus proches de l’entité cible ont un plus fort impact sur les résultats du modèle local. L’outil Régression pondérée géographiquement multi-échelle propose deux options de noyau dans le paramètre Structure de pondération locale : Gaussien et Bicarré. Pour en savoir plus sur la pondération géographique à l’aide de noyaux, reportez-vous à la rubrique Fonctionnement de la régression pondérée géographiquement. Dans la régression pondérée géographiquement multi-échelle, la bande passante de pondération varie selon les variables explicatives.

Options Noyau gaussien et Noyau bicarré

Données et coefficients mis à l’échelle

Par défaut, toutes les variables explicatives et la variable dépendante sont mises à l’échelle pour que la moyenne soit égale à zéro et l’écart type à un (procédé également nommé standardisation de score z). Les coefficients estimés des valeurs de données mises à l’échelle sont interprétés en écarts types. Par exemple, un coefficient de 1,2 signifie qu’une augmentation de l’écart type 1 dans la variable explicative est corrélé à une augmentation de l’écart type 1,2 de la variable dépendante. Comme tous les coefficients utilisent une unité partagée, les valeurs peuvent être comparées directement pour voir quelles variables explicatives ont le plus grand impact sur le modèle. Il est généralement recommandé de mettre à l’échelle les variables, mais la mise à l’échelle est particulièrement importante lorsque la plage de valeurs des variables varie de manière significative. Vous pouvez choisir de ne pas mettre à l’échelle les données en décochant le paramètre Échelle des données.

Dans la plupart des modèles de régression linéaire comme OLS et GWR, les coefficients ne sont pas sensible à la mise à l’échelle linéaire. En d’autres termes, si vous mettez à l’échelle les données en entrée, ajustez le modèle de régression et annulez la mise à l’échelle du résultat pour revenir aux unités d’origine, le résultat sera le même que si vous n’aviez pas du tout mis à l’échelle les données. Dans MGWR toutefois, la mise à l’échelle et son annulation ne permettront pas d’obtenir le même modèle que si vous aviez utilisé les données d’origine. En effet, ce réajustement est une procédure itérative dans laquelle les résultats de chaque étape dépendent des résultats des étapes précédentes. L’utilisation de différentes échelles de démarrage affecte le chemin des valeurs testées et génère des modèles MGWR différents. Les résultats mis à l’échelle sont habituellement plus précis car la mise à l’échelle égalise les variances des variables, et la procédure itérative converge généralement plus rapidement vers des valeurs plus précises lorsque chaque variable contribue dans la même mesure à la variance totale des données. Si les variables explicatives ont des variances différentes, les variables dont les variances sont plus importantes ont plus d’influence sur chaque étape de l’estimation itérative. Dans la plupart des cas, cette influence affecte négativement les bandes passantes et coefficients finaux du modèle.

Pour faciliter l’interprétation des résultats mis à l’échelle, tous les coefficients des sorties de l’outil contiendront une valeur mise à l’échelle et une valeur non mise à l’échelle utilisant les unités des données d’origine. Ces sorties incluent des champs supplémentaires dans les entités en sortie (également ajoutés sous forme de couches dans le groupe de couches en sortie) et des rasters supplémentaires dans le répertoire du paramètre Espace de travail raster du coefficient en sortie. En cas de prévision sur de nouvelles localisations avec les paramètres Localisations des prévisions et Entités prévues en sortie, toutes les valeurs prévues retrouvent les unités de données d’origine, sans mise à l’échelle. Reportez-vous à la rubrique Sorties de l’outil pour plus d’informations sur les sorties.

Sorties de l'outil

L’outil génère différentes sorties, notamment un groupe de couches pour différents champs des entités, messages et diagrammes en sortie. Les sorties facultatives sont notamment une classe d’entités qui prévoit des valeurs à de nouvelles localisations, une table de voisinage et des surfaces raster de chaque coefficient.

Groupe de couches de symbologie

La couche de symbologie en sortie par défaut visualise les résidus standardisés des modèles locaux de régression linéaire avec une combinaison de couleurs déterminée. Examinez les résidus pour déterminer si le modèle est correctement spécifié. Les résidus des modèles de régression correctement spécifiés sont normalement distribués et spatialement aléatoires sans agrégation des valeurs. Vous pouvez exécuter l’outil Autocorrélation spatiale (Global Moran's I) sur les résidus de régression pour vérifier qu’ils sont spatialement aléatoires. Une agrégation élevée et faible statistiquement significative de résidus indique que le modèle MGWR n’est pas optimal.

Les résultats de tous les coefficients de chaque variable explicative sont visualisés dans les couches distinctes d’un groupe de couches. Chaque couche d’entités présente une combinaison de couleurs divergente centrée sur zéro. Cela vous permet d’utiliser la couleur pour identifier les variables qui ont des relations positives et négatives avec la variable dépendante. L’importance des coefficients de chaque variable explicative est également visualisée dans une couche d’entités. Pour les points, des halos verts indiquent des relations statistiquement significatives avec une confiance de 95 pour cent et des halos gris indiquent des relations non significatives. Pour les polygones, les relations significatives sont indiquées par des maillages texturés dans les polygones. Examinez les couches de coefficient et les couches de signification pour mieux comprendre la variation spatiale dans les variables explicatives. Vous pouvez utiliser les informations de cette variation spatiale pour compiler une stratégie. Les stratégies globales peuvent fonctionner parfaitement lorsque les variables sont globalement statistiquement significatives et présentent peu de variation régionale, mais les stratégies régionales peuvent s’avérer mieux adaptées lorsque les variables ne sont pas globalement significatives mais présentent plutôt une relation positive dans certaines localisations et une relation négative dans d’autres.

Messages et diagnostics

Les messages fournissent des informations sur le modèle MGWR et ses performances. Les messages comportent différentes sections.

Résumés statistiques des estimations des coefficients

La section Résumés statistiques des estimations des coefficients récapitule la moyenne, l’écart type, la valeur minimale, la médiane et la valeur maximale des estimations de coefficient dans la zone d’étude. La valeur moyenne de chaque coefficient reflète l’association entre cette variable explicative et la variable dépendante. L’écart type indique la variation spatiale de chaque variable explicative. Un petit écart type implique un bon ajustement par les moindres carrés ordinaires. Si le paramètre Échelle des données est activé, vous pouvez comparer les valeurs parmi les variables explicatives. Si le paramètre Échelle des données n’est pas activé, la valeur des coefficients entre les variables explicatives ne peut pas être comparée directement car les unités peuvent varier.

Diagnostics de modèle

La section Diagnostics de modèle inclut une table qui affiche plusieurs diagnostics de modèle pour GWR et MGWR, notamment R2, R2 ajusté, AICc, la variance résiduelle et le nombre de degrés de liberté effectifs. Pour plus de détails sur ces diagnostics de modèle, reportez-vous à la section Fonctionnement de la régression pondérée géographiquement.

Remarque :

Dans certains cas, il est possible que le modèle GWR à comparer rencontre un problème de calcul. Dans ce cas, seuls les diagnostics du modèle MGWR sont affichés.

Vous pouvez utiliser les diagnostics R2 et R2 ajusté pour évaluer la qualité d’ajustement du modèle aux données. Plus les valeurs R2 et R2 ajusté sont élevées, meilleur est l’ajustement du modèle aux données. Évaluez la complexité du modèle par le nombre de variables explicatives et le diagnostic Degrés de liberté effectifs. Les modèles les plus simples ont un degré de liberté effectif plus élevé et moins de paramètres. Si un modèle comporte trop de paramètres, il présente un risque de sur-ajustement des données. Le diagnostic AICc tient compte à la fois de la qualité d’ajustement et de la complexité du modèle. L’outil Régression pondérée géographiquement multi-échelle sélectionne le modèle avec la valeur AICc la plus faible.

Résumé des variables explicatives et des voisinages

La section Résumé des variables explicatives et des voisinages affiche les niveaux estimés de voisinage et de signification de chaque variable explicative. Pour les voisinages basés sur le nombre de voisins, le nombre optimal de voisins s’affiche sous forme de total et de pourcentage du nombre total d’entités en entrée. Pour les voisinages de type Bande de distance, les bandes de distance optimales s’affichent avec la distance sous forme de pourcentage de l’étendue diagonale des entités en entrée. Les pourcentages d’entités ou d’étendue sont utiles pour caractériser l’échelle spatiale des variables explicatives. Par exemple, si une variable explicative utilise 75 pour cent des entités en tant que voisins, les modèles de régression locaux sont plus proches des modèles globaux que des modèles locaux. Si une autre variable explicative utilise seulement 5 pour cent des entités en entrée comme voisins, il s’agit d’un modèle plus local. Pour tous les types de voisinage, le total et le pourcentage des modèles locaux qui étaient statistiquement significatifs à un niveau de confiance de 95 pour cent s’affichent pour chaque variable explicative.

Historique de recherche des bandes passantes optimales

La section Historique de recherche des bandes passantes optimales affiche l’historique de recherche des bandes passantes optimales potentielles, ainsi que la valeur AICc de chaque ensemble de valeurs testées. L’outil commence par rechercher la bande passante optimale de chaque variable explicative en attribuant à chacune la même valeur : la bande passante optimale de la régression pondérée géographiquement. L’outil ajuste ensuite la bande passante de chaque variable à chaque itération et estime une nouvelle valeur AICc. À mesure que les itérations se poursuivent, la valeur AICc diminue jusqu’à ce qu’elle se stabilise ou augmente, ce qui met fin aux itérations. L’option Défini par l’utilisateur requiert généralement le moins grand nombre d’itérations, tandis que l’option Recherche absolue en exige le plus.

Résumés statistiques de la bande passante

La section Résumés statistiques de la bande passante synthétise les valeurs utilisées pour tester si chaque variable explicative est statistiquement significative dans chaque modèle local. Ces statistiques incluent le voisinage optimal (nombre de voisins ou bande de distance) de la régression pondérée géographiquement multi-échelle (MGWR), le nombre effectif de paramètres, le niveau de signification ajusté (alpha) et la valeur critique ajustée des statistiques pseudo-T. Ces valeurs permettent de créer les champs associés à la signification statistique pour chaque variable explicative dans les entités en sortie. La valeur ajustée alpha est calculée en divisant le niveau de signification (0,05) par le nombre effectif de paramètres. Cet ajustement contrôle le taux d’erreur par famille (FWER) de la signification des variables explicatives. La valeur alpha ajustée est utilisée comme niveau de signification dans un test-T bilatéral avec le nombre effectif de degrés de liberté.

Entités en sortie

L’outil Régression pondérée géographiquement multi-échelle génère une classe d’entités qui comprend des diagnostics locaux pour chaque entité. Ces diagnostics incluent les résidus de régression, les résidus standardisés, les valeurs prévues de la variable dépendante, l’interception, les coefficients des variables explicatives, les erreurs standard des coefficients, les statistiques pseudo-T des coefficients, la signification des coefficients, l’influence, Cook's D, R2 local et l’indice de conditionnement. Pour plus de détails sur ces diagnostics, reportez-vous à la section Fonctionnement de la régression pondérée géographiquement.

Diagrammes

Les diagrammes suivants sont ajoutés à la fenêtre Contenu :

  • Relation existant entre les variables : matrice de nuages de points avec un maximum de 19 variables présentant les nuages de points et les corrélations entre chacune des variables explicatives. Les fortes corrélations entre des paires indiquent une multicolinéarité.
  • Distribution des résidus standardisés : histogramme des résidus standardisés. Les résidus standardisés doivent être distribués normalement avec une moyenne de zéro et un écart type égal à un.
  • Résidus standardisés et prévus : nuage de points entre les résidus standardisés et leurs valeurs prévues correspondantes. Le tracé doit être aléatoire et n’indiquer aucune tendance.

Sorties facultatives

Les sorties facultatives suivantes peuvent être spécifiées dans les menus déroulants Options des prévisions et Options supplémentaires.

  • La valeur du paramètre Entités prévues en sortie est une classe d’entités avec des prévisions pour la variable dépendante aux localisations spécifiées par le paramètre Localisations des prévisions.
  • La valeur du paramètre Table de voisinage en sortie enregistre une table contenant les valeurs des sections Résumés statistiques des estimations des coefficients et Résumé des variables explicatives et des voisinages des messages.
  • Le paramètre Espace de travail raster du coefficient indique un espace de travail (répertoire ou géodatabase) où les rasters des coefficients sont enregistrés. Ces surfaces raster de coefficient permettent d’expliquer la variation spatiale des coefficients.

Multicolinéarité

La multicolinéarité se produit lorsque deux variables explicatives ou plus sont fortement corrélées dans un modèle de régression. Cela peut se produire dans les modèles OLS, GLR, GWR et MGWR. La multicolinéarité peut avoir un impact négatif sur l’estimation des coefficients et des voisinages optimaux car si les variables explicatives sont corrélées, elles partagent des informations mutuelles, et le modèle de régression ne parvient pas à faire la différence entre les effets des différentes variables. Dans les cas modérés, les estimations des coefficients peuvent être biaisées ou incertaines. Dans les cas extrêmes, il est possible que le modèle rencontre un problème de calcul. L’exemple suivant illustre une matrice de nuages de points de trois variables qui sont toutes fortement corrélées les unes avec les autres. Un modèle de régression qui les utilise comme variables explicatives aura de fortes chances de rencontrer des problèmes de multicolinéarité.

Variables redondantes
Chaque paire de variables est fortement corrélée.

Identification et prévention de la multicolinéarité dans la régression pondérée géographiquement multi-échelle (MDWR)

Dans un modèle MGWR, la multicolinéarité peut se produire dans plusieurs situations :

  • L’une des variables explicatives est agrégée spatialement.

    Pour éviter ce cas de figure, appariez chaque variable explicative et identifiez les variables qui ont très peu de valeurs potentielles ou pour lesquelles des variables identiques sont agrégées spatialement. Si vous observez ces types de variables, envisagez de les supprimer du modèle ou de les représenter d’une façon qui augmente la plage de valeurs. Un nombre variable de chambres, par exemple, peut être mieux représenté sous la forme d’un nombre de chambres par mètre carré.

  • Deux variables explicatives ou plus sont fortement corrélées globalement.

    Exécutez un modèle global à l’aide de l’outil Régression linéaire généralisée et examinez le facteur d’inflation de la variance (VIF) de chaque variable explicative. Si les valeurs VIF sont élevées (égales ou supérieures à 7,5, par exemple), la multicolinéarité globale peut empêcher l’exécution de l’outil MGWR. Dans ce cas, les variables sont redondantes. Envisagez la suppression de l’une de ces variables du modèle ou leur combinaison avec d’autres variables explicatives afin d’augmenter la variation des valeurs.

  • Le voisinage défini est trop petit.

    Même si les deux scénarios précédents ne se produisent pas à l’échelle globale, ils peuvent se produire dans un modèle local. Pour le tester, vérifiez l’indice de conditionnement local dans la classe d’entités en sortie. Un indice de conditionnement local élevé indique que les résultats sont instables en raison d’une multicolinéarité locale. Si tel est le cas, relancez le modèle avec un nombre de voisins plus important ou une bande de distance. En règle générale, soyez critique à l’égard des résultats dans lesquels les entités sont nulles ou ont un indice de conditionnement supérieur à 30. Pour les shapefiles, les valeurs nulles sont représentées avec la valeur -1.7976931348623158e+308. L’indice de conditionnement est ajusté au niveau de l’échelle pour rectifier le nombre de variables explicatives dans le modèle. Cela permet de comparer directement l’indice de conditionnement entre les modèles qui utilisent un nombre différent de variables explicatives.

La vérification de toutes ces conditions peut alléger les problèmes de multicolinéarité, mais ne permet pas toujours de les résoudre.

Estimation du coefficient et de la bande passante

Les coefficients et les bandes passantes des variables explicatives sont estimés via un processus nommé réajustement (Breiman et al. 1985). Développée à l’origine pour estimer les paramètres des modèles additifs généralisés, la procédure évolue à travers chacune des variables explicatives et utilise une fonction de lissage pour calibrer le coefficient tout en assurant la constance de toutes les autres variables explicatives. Ce processus se répète sur les variables explicatives jusqu’à ce que les valeurs des coefficients soient stabilisées et ne changent pas après une itération successive.

Appliquée à MGWR (Fotheringham et al. 2017), la fonction de lissage est un modèle GWR univarié qui régresse la prévision d’ajustement des résidus précédente par rapport à la variable explication unique (en traitant toutes les autres variables explicatives comme des constantes). Ce modèle GWR utilise la même méthode de sélection du voisinage (Recherche absolue, intervalles manuels ou Défini par l’utilisateur) pour estimer l’échelle spatiale de la variable explicative. Reportez-vous à la section Ressources supplémentaires pour une description complète du processus.

L’algorithme de réajustement doit débuter avec les valeurs initialisées des coefficients. Ces valeurs initiales sont estimées par un modèle GWR de toutes les variables explicatives. Si ce modèle échoue en raison de la multicolinéarité, le modèle OLS est utilisé à la place. Si ce processus ne converge pas après 25 itérations, les valeurs de coefficients de l’itération finale sont utilisées.

Ressources supplémentaires

Pour plus d'informations, consultez les ressources suivantes :

  • Breiman, L., and J. H. Friedman. 1985. « Estimating optimal transformations for multiple regression and correlations (with discussion). » Journal of the American Statistical Association 80, (391): 580–619. https://doi.org/10.2307/2288473. JSTOR 2288473.
  • Brunsdon C.A., S. Fotheringham, and M. E. Charlton. 1996. « Geographically weighted regression: A method for exploring spatial nonstationarity. » Geographical Analysis 28: 281–298.
  • Fotheringham, A. S., W. Yang, and W. Kang. 2017. « Multiscale geographically weighted regression (MGWR). » Annals of the American Association of Geographers 107: 1247–265. https://doi.org/10.1080/24694452.2017.1352480
  • Oshan, T. M., Z. Li, W. Kang, L. J. Wolf, and A. S. Fotheringham. 2019. « mgwr: A Python implementation of multiscale geographically weighted regression for investigating process spatial heterogeneity and scale. » ISPRS International Journal of Geo-Information 8: 269.
  • Yu, H., A. S. Fotheringham, Z. Li, T. Oshan, W. Kang, and L. J. Wolf. 2020. « Inference in multiscale geographically weighted regression. » Geographical Analysis 52: 87–106.

Rubriques connexes