L’outil Régression pondérée géographiquement multi-échelle (MGWR) met en œuvre une technique de régression spatiale avancée qui est utilisée en géographie, en urbanisme et dans plusieurs autres disciplines. Il constitue une évolution par rapport au modèle Régression pondérée géographiquement qui utilise des variables explicatives et dépendantes dans le voisinage d’une entité cible pour construire un modèle de régression linéaire local à des fins d’interprétation ou de prévision.
Le choix de la régression pondérée géographiquement est motivé le plus souvent par le fait qu’il peut être trop réducteur d’associer un seul modèle de régression à une grande région géographique. Au contraire, la régression pondérée géographiquement prévoit un modèle de régression différent à chaque localisation spatiale, avec une variation régulière des coefficients de régression sur la région. Autrement dit, à différents emplacements de la zone d’étude, les variables explicatives se répercutent différemment sur la variable dépendante. Cela implique de créer un modèle de régression pondérée pour chaque entité spatiale en utilisant les variables explicatives et dépendantes de l’entité et de ses voisins spatiaux. Les voisins qui sont plus proches de l’entité se voient attribuer des pondérations supérieures et pèsent plus fortement sur le modèle de régression local.
La régression pondérée géographiquement multi-échelle est une extension de la régression pondérée géographiquement qui permet une variation du voisinage de chaque entité spatiale, d’une variable explicative à une autre. Cela signifie que le voisinage peut être plus ou moins grand pour certaines variables explicatives que pour d’autres variables. Il est important d’autoriser différents voisinages pour différentes variables explicatives du fait que les relations entre les variables explicatives et les variables dépendantes peuvent agir à plusieurs échelles spatiales. En effet, il est possible que les coefficients de certaines variables changent progressivement dans la zone d’étude et que les coefficients d’autres variables changent rapidement. C’est l’appariement du voisinage de chaque variable explicative avec l’échelle spatiale de la variable explicative qui permet à la régression pondérée géographiquement multi-échelle d’estimer plus exactement les coefficients du modèle de régression local.
La régression pondérée géographiquement multi-échelle se prête particulièrement bien aux jeux de données volumineux contenant plusieurs centaines d’entités et de jeux d’entités dans lesquels la variable dépendante présente une hétérogénéité spatiale. Pour modéliser des relations spatialement différentes dans de petits jeux de données, d’autres outils peuvent mieux convenir. L’outil Régression pondérée géographiquement multi-échelle (MGWR) actuel accepte uniquement les variables dépendantes continues. N’exécutez pas le modèle avec des données de type Total ou Binaire. Un modèle biaisé et des résultats peu pertinents pourraient en découler.
La majeure partie de cette rubrique s’attache à expliquer l’outil MGWR en le comparant à d’autres méthodes de régression. Avant de poursuivre, il est utile d’avoir des notions de base sur la régression des moindres carrés ordinaires et de connaître les voisinages, les structures de pondération et les diagnostics de GWR.
En savoir plus sur la régression des moindres carrés ordinaires
Sélection du modèle de régression
La régression des moindres carrés ordinaires (OLS), la régression pondérée géographiquement (GWR) et la régression pondérée géographiquement multi-échelle (MGWR) sont toutes des modèles de régression linéaire, mais elles fonctionnent à différentes échelles spatiales et formulent des hypothèses différentes sur l’hétérogénéité spatiale (la cohérence des relations dans la zone d’étude) d’un jeu de données. La régression des moindres carrés ordinaires est un modèle global. On suppose que le processus de génération des données est stationnaire dans l’espace. Par conséquent, un seul coefficient peut représenter la relation entre chaque variable explicative et la variable dépendante partout. La régression pondérée géographiquement est un modèle local qui modère l’hypothèse de stationnarité spatiale en permettant aux coefficients de varier dans l’espace. Cependant, on suppose dans la régression pondérée géographiquement que toutes les relations locales fonctionnent à la même échelle spatiale en exigeant que toutes les variables explicatives utilisent le même voisinage. Par exemple, si une variable explicative utilise 20 voisins, toutes les variables explicatives doivent également utiliser 20 voisins.
La régression pondérée géographiquement multi-échelle, toutefois, permet non seulement aux coefficients de varier dans l’espace, mais elle permet également à l’échelle de varier dans différentes variables explicatives. Pour ce faire, la régression pondérée géographiquement multi-échelle utilise des voisinages distincts pour chaque variable explicative afin de représenter les différentes échelles spatiales des relations entre chaque variable explicative et la variable dépendante. Cela permet de combiner des variables explicatives qui fonctionnent à des échelles spatiales relativement importantes (par exemple la température ou la pression atmosphérique) avec des variables qui fonctionnent à des échelles spatiales plus réduites (par exemple la densité de population ou le revenu moyen).
Par rapport à la régression pondérée géographiquement, la régression pondérée géographiquement multi-échelle estime des coefficients locaux plus précis et rencontre moins de problèmes avec la multicolinéarité. Toutefois, le temps de traitement de la régression pondérée géographiquement multi-échelle est beaucoup plus long que celui de la régression pondérée géographiquement, en particulier pour les options Recherche absolue, Intervalles manuels et Défini par l’utilisateur du paramètre Méthode de sélection des voisins. Ces trois méthodes de sélection du voisinage s’appuient sur l’algorithme de réajustement, qui est gourmand en puissance de calcul et en mémoire. Le temps d’exécution et l’utilisation de la mémoire augmentent nettement à mesure que le volume des données augmente.
Au moment de choisir le modèle à appliquer aux données, posez-vous ces questions :
- Le modèle doit-il s’exécuter au niveau local ou global ?
- Si vous voulez un modèle local, appliquez la régression pondérée géographiquement (GWR) ou la régression pondérée géographiquement multi-échelle (MGWR). Sinon, utilisez la régression par les moindres carrés ordinaires ou un autre modèle tel que l’outil Régression et classification basées sur une forêt.
- Les variables explicatives du modèle s’exécutent-elles à différentes échelles spatiales ?
- Si vous pensez que les variables explicatives risquent de s’exécuter à différentes échelles et si vous voulez les identifier et les modéliser à différentes échelles, appliquez la régression pondérée géographiquement multi-échelle (MGWR).
- Quelle est la taille du jeu de données ? Quel est le temps dont je dispose pour attendre les résultats ?
- Si votre jeu de données est très volumineux et que vous exécutez l’outil MGWR, vous devez vous attendre à un temps d’exécution plus long. Avec un matériel traditionnel datant du début des années 2020 (16 processeurs logiques et une mémoire de 32 Go) et des paramètres standard, pour des jeux de données supérieurs à environ 10 000 points, le temps d’exécution sera probablement de plusieurs heures. Pour 50 000, le temps d’exécution sera probablement de plusieurs jours. Pour 100 000 ou plus, des problèmes de mémoire risquent de survenir.
Si vous ne savez toujours pas quel modèle local (GWR ou MGWR) appliquer à vos données, commencez par MGWR. Lorsque la régression pondérée géographiquement multi-échelle s’exécute, elle réalise également une régression pondérée géographiquement sous certains paramètres. Dans les messages de géotraitement, vous trouverez les diagnostics de la régression pondérée géographiquement et pourrez les comparer aux diagnostics de la régression pondérée géographiquement multi-échelle. Vous pouvez aussi exécuter plusieurs outils (OLS, GWR et MGWR) et utiliser le critère d’information d’Akaike corrigé (AICc) indiqué dans les messages de géotraitement pour comparer les modèles et choisir le mieux adapté. Si vous optez pour l’exécution de plusieurs outils, mettez à l’échelle tous les modèles ou laissez tous les modèles sans échelle afin que les sorties soient comparables.
Applications possibles
La régression pondérée géographiquement multi-échelle (MGWR) peut s’appliquer à plusieurs analyses et questions multivariées, par exemple :
- Dans quelle mesure différentes caractéristiques (nombre de pièces, année de construction, superficie du lot, etc) influencent-elles le prix d’une maison ? Les relations sont-elles très différentes dans différentes communautés ?
- Quel est le lien entre la répartition des particules fines PM2.5 et les variables économiques (revenu régional des ménages, nombre de voitures par ménage ou pourcentage de produit intérieur brut associé à l’agriculture) ?
- Dans l’agriculture de précision, est-ce que l’état des sols affecte le rendement agricole à la même échelle spatiale que des variables atmosphériques telles que la température, l’humidité et les précipitations ?
Considérations sur les performances et les références
Le temps d’exécution de la régression pondérée géographiquement multi-échelle dépend de plusieurs facteurs. Le facteur le plus important pour le temps d’exécution est le nombre d’entités. Le temps d’exécution connaît un développement cubique par rapport au nombre d’entités. La taille du voisinage et le nombre de variables explicatives affectent également le temps d’exécution de la régression pondérée géographiquement multi-échelle, puisque des calculs supplémentaires sont nécessaires pour chaque modèle local. Pour calculer les résultats aussi rapidement que possible, la régression pondérée géographiquement multi-échelle recourt au traitement parallèle sur votre machine. Certains calculs sollicitent tous les cœurs disponibles, tandis que d’autres peuvent être contrôlés par l’environnement Facteur de traitement parallèle.
Entrées d’outils
Plusieurs méthodes permettent de fournir l’échelle spatiale des variables explicatives.
Sélection du voisinage (bande passante)
Une amélioration clé de la régression pondérée géographiquement multi-échelle (MGWR) est la possibilité de faire varier la bande passante (voisin) de chaque variable explicative dans l’équation de régression linéaire. Le voisinage d’une variable explicative à une localisation cible comprend toutes les localisations destinées à contribuer à l’estimation du coefficient de la variable explicative dans le modèle de régression linéaire local. Chaque voisinage est défini par un nombre de voisins autour de l’entité cible ou par tous les voisins se trouvant à une distance fixe. Le nombre de voisins ou la distance peut différer pour chaque variable explicative.
Quatre options sont disponibles pour le paramètre Neighborhood Selection Method (Méthode de sélection de voisinage) pour estimer l’échelle spatiale optimale pour chacune des variables explicatives.
Golden Search (Recherche absolue) : détermine soit le nombre de voisins, soit la bande de distance pour chaque variable explicative à l’aide de l’algorithme de recherche absolue. Cette méthode teste plusieurs combinaisons de valeurs pour chaque variable explicative entre une valeur minimale et une valeur maximale spécifiées. La procédure est itérative et utilise les résultats des valeurs précédentes pour sélectionner chaque nouvelle combinaison à tester. Les valeurs finales sélectionnées auront l’AICc le plus faible. Pour l’option du nombre de voisins, le minimum et le maximum sont indiqués à l’aide des paramètres Minimum Number of Neighbors (Nombre minimum de voisins) et Maximum Number of Neighbors (Nombre maximum de voisins). Pour l’option de bande de distance le minimum et le maximum sont indiqués à l’aide des paramètres Minimum Search Distance (Distance de recherche minimale) et Maximum Search Distance (Distance de recherche maximale). Les valeurs minimale et maximale sont partagées pour toutes les variables explicatives, mais le nombre de voisins ou la bande de distance estimé sera différent pour chaque variable explicative (sauf si deux ou plus ont par hasard la même échelle spatiale). Cette option est celle dont le calcul prend le plus de temps, en particulier pour les jeux de données volumineux ou fortement dimensionnels.
Gradient Search (Recherche par gradient) : détermine le nombre de voisins ou la bande de distance pour chaque variable explicative à l’aide d’un algorithme d’optimisation fonctionnant selon un gradient. Pour trouver la bande passante optimale pour chaque variable explicative, la recherche par gradient prend la dérivée de l’AICc par rapport aux bandes passantes et met à jour les bandes passantes jusqu’à trouver l’AICc le plus faible. Pour l’option du nombre de voisins, le minimum et le maximum sont indiqués à l’aide des paramètres Minimum Number of Neighbors (Nombre minimum de voisins) et Maximum Number of Neighbors (Nombre maximum de voisins). Pour l’option Distance Band (Bande de distance), le minimum et le maximum sont indiqués à l’aide des paramètres Minimum Search Distance (Distance de recherche minimale) et Maximum Search Distance (Distance de recherche maximale). Comme pour la Recherche absolue, les valeurs minimale et maximale sont partagées pour toutes les variables explicatives, mais le nombre de voisins ou la bande de distance estimé sera différent pour chaque variable explicative (sauf si deux ou plus ont par hasard la même échelle spatiale). Cette option estime les voisinages comparables à la recherche absolue, mais offre une meilleure performance d’exécution et requiert beaucoup moins de mémoire.
Manual Intervals (Intervalles manuels) : détermine le nombre de voisins ou la bande de distance pour chaque variable explicative en incrémentant le nombre de voisins ou la bande de distance à partir d’une valeur minimale. Pour l’option du nombre de voisins, la méthode débute avec la valeur du paramètre Minimum Number of Neighbors (Nombre minimum de voisins). Le nombre de voisins est ensuite augmenté de la valeur du paramètre Number of Neighbors Increment (Incrément de nombre de voisins). Cet incrément est répété un certain nombre de fois, spécifié à l’aide du paramètre Number of Increments (Nombre d’incréments). Pour l’option de bande de distance, la méthode utilise les paramètres Minimum Search Distance (Distance de recherche minimale), Search Distance Increment (Incrément de distance de recherche) et Number of Increments (Nombre d’incréments). Le nombre de voisins ou la bande de distance utilisé par chaque variable explicative sera l’une des valeurs testées, mais les valeurs peuvent être différentes pour chaque variable explicative. Cette option est plus rapide que la recherche absolue et estime fréquemment des voisinages comparables.
User Defined (Défini par l’utilisateur) : le nombre de voisins ou la bande de distance qui est utilisé par les variables explicatives. La valeur est spécifiée à l’aide du paramètre Number of Neighbors (Nombre de voisins) ou du paramètre Distance Band (Bande de distance). Cette option est celle qui offre le plus de contrôle si vous connaissez les valeurs optimales.
Par défaut, les paramètres de voisinage dépendants de chaque méthode de sélection de voisinage s’appliquent à toutes les variables explicatives. Vous pouvez toutefois fournir des paramètres de sélection de voisinage personnalisés uniquement pour certaines variables explicatives à l’aide du paramètre de remplacement correspondant pour le type de voisinage et la méthode de sélection : Number of Neighbors for Golden Search (Nombre de voisins pour la recherche absolue), Number of Neighbors for Gradient Search (Nombre de voisins pour la recherche par gradient), Number of Neighbors for Manual Intervals (Nombre de voisins pour les intervalles manuels), User Defined Number of Neighbors (Nombre de voisins défini par l’utilisateur), Search Distance for Golden Search (Distance de recherche pour la recherche absolue), Search Distance for Gradient Search (Distance de recherche pour la recherche par gradient), Search Distance for Manual Intervals (Distance de recherche pour les intervalles manuels) ou User Defined Search Distance (Distance de recherche définie par l’utilisateur). Pour utiliser des voisinages personnalisés pour certaines variables explicatives, fournissez les variables explicatives dans la première colonne du paramètre de remplacement correspondant, puis indiquez les options personnalisées du voisinage dans les autres colonnes. Les colonnes portent le même nom que les paramètres qu’elles remplacent. Par exemple, si vous utilisez des intervalles manuels avec une bande de distance, la colonne Search Distance Increment (Incrément de recherche de distance) spécifie les valeurs personnalisées du paramètre Search Distance Increment (Incrément de distance de recherche). Dans la fenêtre Geoprocessing (Géotraitement), les paramètres de voisinage personnalisés se trouvent dans la catégorie de paramètres Customized Neighborhood Options (Options de voisinage personnalisées).
Supposons par exemple que vous utilisiez trois variables explicatives avec le type de voisinage Recherche absolue avec 30 voisins au minimum et 40 voisins au maximum. Si l’outil est exécuté avec ces paramètres, chacune des trois variables explicatives utilisera entre 30 et 40 voisins. Mais si vous voulez utiliser entre 45 et 55 voisins uniquement pour la deuxième variable explicative, vous pouvez fournir la deuxième variable explicative, la valeur minimale personnalisée et la valeur maximale personnalisée dans les colonnes du paramètre Number of Neighbors for Golden Search (Nombre de voisins pour la recherche absolue). Avec ces paramètres, les première et troisième variables explicatives utiliseront entre 30 et 40 voisins, et la deuxième variable explicative utilisera entre 45 et 55 voisins.
Structure de pondération locale
La fonction de régression pondérée géographiquement multi-échelle procède à l’estimation d’un modèle de régression local pour chaque entité cible par l’application d’une fonction (noyau) de pondération géographique à l’entité et à ses entités voisines. Les voisins qui sont plus proches de l’entité cible ont une plus grande incidence sur les résultats du modèle local. Les options de noyau sont proposées avec le paramètre Structure de pondération locale : Gaussien et Bicarré. Pour en savoir plus sur la pondération géographique à l’aide de noyaux, reportez-vous à la rubrique Fonctionnement de la régression pondérée géographiquement. Dans MGWR, la bande passante de pondération varie selon les variables explicatives.
Remarque :
Le type de voisinage par recherche du gradient accepte uniquement le noyau bicarré. La prise en charge du noyau gaussien est à l’étude pour les versions futures.
Données et coefficients mis à l’échelle
Par défaut, toutes les variables explicatives et la variable dépendante sont mises à l’échelle pour que la moyenne soit égale à zéro et l’écart type soit égal à un (procédé également appelé standardisation de score z). Les coefficients estimés des valeurs de données mises à l’échelle sont interprétés en écarts types. Par exemple, un coefficient de 1,2 signifie qu’une augmentation de l’écart type 1 dans la variable explicative est corrélé à une augmentation de l’écart type 1,2 de la variable dépendante. Comme tous les coefficients utilisent une unité partagée, les valeurs peuvent être comparées directement pour voir quelles variables explicatives ont le plus grand impact sur le modèle. Il est généralement recommandé de mettre à l’échelle les variables, sachant que la mise à l’échelle est particulièrement importante lorsque la plage de valeurs des variables varie de manière significative. Vous pouvez cependant choisir de ne pas mettre à l’échelle les données, et donc de décocher la case du paramètre Échelle des données.
Dans la plupart des modèles de régression linéaire comme OLS et GWR, les coefficients ne sont pas sensible à la mise à l’échelle linéaire. En d’autres termes, si vous mettez à l’échelle les données en entrée, ajustez le modèle de régression et annulez la mise à l’échelle du résultat pour revenir aux unités d’origine, le résultat sera le même que si vous n’aviez pas du tout mis à l’échelle les données. Dans la régression pondérée géographiquement multi-échelle, toutefois, la mise à l’échelle et son annulation ne permettront pas d’obtenir le même modèle que si vous aviez utilisé les données d’origine. En effet, ce réajustement est une procédure itérative dans laquelle les résultats de chaque étape dépendent des résultats des étapes précédentes. L’utilisation de différentes échelles de démarrage affecte le chemin des valeurs testées et génère des modèles MGWR différents. Les résultats mis à l’échelle sont habituellement plus exacts, car la mise à l’échelle égalise les variances des variables, et la procédure itérative converge généralement plus rapidement vers des valeurs plus exactes lorsque chaque variable contribue dans la même mesure à la variance totale des données. Si les variables explicatives ont des variances différentes (notamment parce qu’elles ont des unités différentes), les variables dont les variances sont plus importantes ont plus d’influence sur chaque étape de l’estimation itérative. Dans la plupart des cas, cette influence affecte négativement les bandes passantes et coefficients finaux du modèle.
Pour faciliter l’interprétation des résultats mis à l’échelle, tous les coefficients des sorties de l’outil contiendront une valeur mise à l’échelle et une valeur non mise à l’échelle utilisant les unités des données d’origine. Ces sorties incluent des champs supplémentaires dans les entités en sortie (également ajoutés sous forme de couches dans le groupe de couches en sortie) et des rasters supplémentaires dans le répertoire du paramètre Espace de travail raster du coefficient en sortie. En cas de prévision sur de nouvelles localisations avec les paramètres Localisations des prévisions et Entités prévues en sortie, toutes les valeurs prévues retrouvent les unités de données d’origine, sans mise à l’échelle. Reportez-vous à la rubrique Sorties de l’outil pour plus d’informations sur les sorties.
Sorties de l’outil
L’outil génère différentes sorties, notamment un groupe de couches pour différents champs des entités, messages et diagrammes en sortie. Les sorties facultatives sont notamment une classe d’entités qui prévoit des valeurs à de nouvelles localisations, une table de voisinage et des surfaces raster de chaque coefficient.
Groupe de couches de symbologie
La couche de symbologie en sortie par défaut visualise les résidus standardisés des modèles locaux de régression linéaire avec une combinaison de couleurs déterminée. Examinez les résidus pour déterminer si le modèle est correctement spécifié. Les résidus des modèles de régression correctement spécifiés sont normalement distribués et spatialement aléatoires sans agrégation des valeurs. Vous pouvez exécuter l’outil Autocorrélation spatiale (Global Moran's I) sur les résidus de régression pour vérifier qu’ils sont spatialement aléatoires. Une agrégation élevée et faible statistiquement significative de résidus indique que le modèle MGWR n’est pas optimal.
Les couches du coefficient et de la signification statistique de chaque variable explicative sont ajoutées à la carte sous la forme d’un groupe de couches, avec des sous-groupes de couches pour chaque variable explicative. Chaque couche des coefficients présente une combinaison de couleurs divergente centrée sur zéro. Cela vous permet d’utiliser la couleur pour identifier les variables qui ont des relations positives et négatives avec la variable dépendante. Pour les points, les entités statistiquement significatives (confiance de 95 pour cent) sont indiquées par des halos verts autour des points, et les relations non significatives sont indiquées par des halos gris. Pour les polygones, les relations significatives sont indiquées par des maillages texturés dans les polygones. Examinez les couches de coefficient et les couches de signification pour mieux comprendre la variation spatiale dans les variables explicatives. Vous pouvez utiliser les informations de cette variation spatiale pour compiler une stratégie. Les stratégies globales peuvent convenir lorsque les variables sont globalement statistiquement significatives et présentent peu de variation régionale, mais les stratégies régionales peuvent se révéler plus adaptées en présence d’une variation spatiale notable des coefficients de régression. Dans ce cas, il peut être judicieux de mettre en œuvre des stratégies dans les zones où l’effet local est positif et marqué. Néanmoins, les mêmes stratégies peuvent ne pas être adaptées à d’autres zones où l’effet est négatif et réduit.
Messages et diagnostics
Les messages fournissent des informations sur le modèle MGWR et ses performances. Les messages comportent différentes sections.
Résumés statistiques des estimations des coefficients
La section Résumés statistiques des estimations des coefficients récapitule la moyenne, l’écart type, la valeur minimale, la médiane et la valeur maximale des estimations de coefficient dans la zone d’étude. La valeur moyenne de chaque coefficient reflète l’association entre cette variable explicative et la variable dépendante. L’écart type indique la variation spatiale de chaque variable explicative. Un faible écart type laisse supposer qu’une méthode plus simple, comme la régression des moindres carrés ordinaires, puisse modeler correctement les données. Si le paramètre Échelle des données est activé, vous pouvez comparer les valeurs parmi les variables explicatives. Si le paramètre Échelle des données n’est pas activé, la valeur des coefficients entre les variables explicatives ne peut pas être comparée directement car les unités peuvent varier.
Diagnostics de modèle
La section Diagnostics de modèle inclut une table qui affiche plusieurs diagnostics de modèle pour GWR et MGWR, notamment R2, R2 ajusté, AICc, la variance résiduelle et le nombre de degrés de liberté effectifs. Pour plus de détails sur ces diagnostics de modèle, reportez-vous à la section Fonctionnement de la régression pondérée géographiquement.
Remarque :
Dans certains cas, il est possible que le modèle GWR à comparer rencontre un problème de calcul. Dans ce cas, seuls les diagnostics du modèle MGWR sont affichés.
Vous pouvez utiliser les diagnostics R2 et R2 ajusté pour évaluer la qualité d’ajustement du modèle aux données. Plus les valeurs R2 et R2 ajusté sont élevées, meilleur est l’ajustement du modèle aux données. Évaluez la complexité du modèle par le nombre de variables explicatives et le diagnostic Degrés de liberté effectifs. Les modèles les plus simples ont un degré de liberté effectif plus élevé et moins de paramètres. Si un modèle comporte trop de paramètres, il présente un risque de sur-ajustement des données. Le diagnostic AICc tient compte à la fois de la qualité d’ajustement et de la complexité du modèle. L’outil Régression pondérée géographiquement multi-échelle sélectionne le modèle avec la valeur AICc la plus faible.
Résumé des variables explicatives et des voisinages
La section Résumé des variables explicatives et des voisinages affiche les niveaux estimés de voisinage et de signification de chaque variable explicative. Pour les voisinages basés sur le nombre de voisins, le nombre optimal de voisins s’affiche sous forme de total et de pourcentage du nombre total d’entités en entrée. Pour les voisinages de type Bande de distance, les bandes de distance optimales s’affichent avec la distance sous forme de pourcentage de l’étendue diagonale des entités en entrée. Les pourcentages d’entités ou d’étendue sont utiles pour caractériser l’échelle spatiale des variables explicatives. Par exemple, si une variable explicative utilise 75 pour cent des entités en tant que voisins, les modèles de régression locaux sont plus proches des modèles globaux que des modèles locaux (auquel cas un modèle plus simple, comme la régression des moindres carrés ordinaires, pourrait convenir). Si une autre variable explicative utilise seulement 5 pour cent des entités en entrée comme voisins, il s’agit d’un modèle plus local. Pour tous les types de voisinage, le total et le pourcentage des modèles locaux qui étaient statistiquement significatifs à un niveau de confiance de 95 pour cent s’affichent pour chaque variable explicative.
Historique de recherche des bandes passantes optimales
La section Historique de recherche des bandes passantes optimales affiche l’historique de recherche des bandes passantes optimales potentielles, ainsi que la valeur AICc de chaque ensemble de valeurs testées. L’outil commence par rechercher la bande passante optimale de chaque variable explicative en attribuant à chacune la même valeur : la bande passante optimale de la régression pondérée géographiquement. L’outil ajuste ensuite la bande passante et le coefficient de chaque variable, à chaque itération, et estime une nouvelle valeur AICc. À mesure que les itérations se poursuivent, la valeur AICc diminue jusqu’à ce qu’elle se stabilise ou augmente, ce qui met fin aux itérations. L’option Défini par l’utilisateur requiert généralement le moins grand nombre d’itérations, tandis que l’option Recherche absolue en exige le plus. Bien qu’elle utilise de nombreuses itérations, l’option Recherche du gradient propose généralement le temps d’exécution le plus court puisque chaque itération est rapide à calculer.
Remarque :
Pour une recherche du gradient avec le nombre de voisins, la valeur AICc finale affichée dans la section de l’historique de recherche des bandes passantes optimales diffère souvent quelque peu de la valeur AICc affichée dans la section des diagnostics de modèle. Cela s’explique par le fait que la recherche du gradient utilise une représentation continue du nombre de voisins pendant l’optimisation de la bande passante, ce qui introduit quelques rares imprécisions dans la valeur AICc calculée de chaque itération. Lorsque vous indiquez la valeur AICc du modèle final, utilisez la valeur affichée dans la section des diagnostics de modèle.
Résumés statistiques de la bande passante
La section Résumés statistiques de la bande passante synthétise les valeurs utilisées pour tester si chaque variable explicative est statistiquement significative dans chaque modèle local. Ces statistiques incluent le voisinage optimal (nombre de voisins ou bande de distance) de la régression pondérée géographiquement multi-échelle (MGWR), le nombre effectif de paramètres, le niveau de signification ajusté (alpha) et la valeur critique ajustée des statistiques pseudo-T. Ces valeurs permettent de créer les champs associés à la signification statistique pour chaque variable explicative dans les entités en sortie. La valeur ajustée alpha est calculée en divisant le niveau de signification (0,05) par le nombre effectif de paramètres. Cet ajustement contrôle le taux d’erreur par famille (FWER) de la signification des variables explicatives. La valeur alpha ajustée est utilisée comme niveau de signification dans un test-T bilatéral avec le nombre effectif de degrés de liberté.
Entités en sortie
L’outil génère une classe d’entités qui comprend des diagnostics locaux pour chaque entité. Ces diagnostics incluent les résidus de régression, les résidus standardisés, les valeurs prévues de la variable dépendante, l’interception, les coefficients des variables explicatives, les erreurs standard des coefficients, les statistiques pseudo-T des coefficients, la signification des coefficients, l’influence, Cook's D, R2 local et l’indice de conditionnement. Sur une carte, les entités en sortie sont ajoutées sous forme de couche et symbolisées par les valeurs résiduelles normalisées. Une valeur résiduelle normalisée positive signifie que la variable dépendante est supérieure à la valeur prédite (sous-estimation) et une valeur résiduelle normalisée négative signifie que la variable dépendante est inférieure à la valeur prédite (surestimation) Pour plus de détails sur ces champs et ces diagnostics, reportez-vous à la section Fonctionnement de la régression pondérée géographiquement.
Diagrammes
Les diagrammes suivants sont ajoutés à la fenêtre Contenu :
- Relation entre les variables – Matrice de nuages de points, avec une variable dépendante et un maximum de neuf variables explicatives, qui montre la corrélation entre la variable dépendante et chaque variable explicative, ainsi que la corrélation entre chaque paire de variables explicatives. Les fortes corrélations entre des paires indiquent une multicolinéarité.
- Distribution des résidus standardisés : histogramme des résidus standardisés. Les résidus standardisés doivent être distribués normalement avec une moyenne de zéro et un écart type égal à un.
- Résidus standardisés et prévus : nuage de points entre les résidus standardisés et leurs valeurs prévues correspondantes. Le tracé doit être aléatoire et n’indiquer aucune tendance.
Sorties facultatives
Les sorties facultatives suivantes peuvent être spécifiées dans les menus déroulants Options des prévisions et Options supplémentaires :
- Entités prévues en sortie – Classe d’entités comportant des prévisions pour la variable dépendante aux localisations spécifiées par le paramètre Localisations des prévisions.
- Table de voisinage en sortie – Table contenant les valeurs des sections Résumés statistiques des estimations des coefficients et Résumé des variables explicatives et des voisinages des messages.
- Espace de travail raster du coefficient – Espace de travail (répertoire ou géodatabase) dans lequel les rasters des coefficients sont enregistrés. Ces surfaces raster de coefficient permettent d’expliquer la variation spatiale des coefficients.
Multicolinéarité
La multicolinéarité se produit lorsque deux variables explicatives ou plus sont fortement corrélées dans un modèle de régression. Cela peut se produire dans les modèles OLS, GLR, GWR et MGWR. La multicolinéarité peut avoir un impact négatif sur l’estimation des coefficients et des voisinages optimaux car si les variables explicatives sont corrélées, elles partagent des informations mutuelles, et le modèle de régression ne parvient pas à faire la différence entre les effets des différentes variables. Dans les cas modérés, les estimations des coefficients peuvent être biaisées ou incertaines. Dans les cas extrêmes, il est possible que le modèle rencontre un problème de calcul. L’exemple suivant illustre une matrice de nuages de points de trois variables qui sont toutes fortement corrélées les unes avec les autres. Un modèle de régression qui les utilise comme variables explicatives aura de fortes chances de rencontrer des problèmes de multicolinéarité.
Identification et prévention de la multicolinéarité dans la régression pondérée géographiquement multi-échelle (MDWR)
Dans un modèle MGWR, la multicolinéarité peut se produire dans plusieurs situations et notamment les suivantes :
L’une des variables explicatives est fortement agrégée spatialement. Comme la régression pondérée géographiquement multi-échelle convient aux modèles de régression locaux, quand une entité et tous ses voisins ont à peu près la même valeur pour une variable explicative, il est probable de constater une multicolinéarité.
Pour éviter ce cas de figure, appariez chaque variable explicative et identifiez les variables qui ont très peu de valeurs potentielles ou pour lesquelles des variables identiques sont agrégées spatialement. Si vous observez ces types de variables, envisagez de les supprimer du modèle ou de les représenter d’une façon qui augmente la plage de valeurs. Un nombre variable de chambres, par exemple, peut être mieux représenté sous la forme d’un nombre de chambres par mètre carré.
Deux variables explicatives ou plus sont fortement corrélées globalement.
Exécutez un modèle global à l’aide de l’outil Régression linéaire généralisée et examinez le facteur d’inflation de la variance (VIF) de chaque variable explicative. Si les valeurs VIF sont élevées (égales ou supérieures à 7,5, par exemple), la multicolinéarité globale peut empêcher l’exécution de l’outil MGWR. Dans ce cas, les variables sont redondantes. Envisagez la suppression de l’une de ces variables du modèle ou leur combinaison avec d’autres variables explicatives afin d’augmenter la variation des valeurs.
Le voisinage défini est trop petit.
La multicolinéarité peut également concerner plusieurs variables explicatives en même temps, ce qui se produit lorsque les combinations linéaires de certaines variables explicatives sont fortement corrélées avec les combinations linéaires d’autres variables explicatives. C’est fréquemment le cas avec les voisinages qui comptent un petit nombre de voisins. Pour le tester, vérifiez l’indice de conditionnement local dans la classe d’entités en sortie. Un indice de conditionnement local élevé indique que les résultats sont instables en raison d’une multicolinéarité locale. Si tel est le cas, relancez le modèle avec un nombre de voisins plus important ou une bande de distance. En règle générale, soyez critique à l’égard des résultats dans lesquels les entités sont nulles ou ont un indice de conditionnement supérieur à 30. Pour les shapefiles, les valeurs nulles sont représentées avec la valeur -1.7976931348623158e+308. L’indice de conditionnement est ajusté au niveau de l’échelle pour rectifier le nombre de variables explicatives dans le modèle. Cela permet de comparer directement l’indice de conditionnement entre les modèles qui utilisent un nombre différent de variables explicatives.
La vérification de toutes ces conditions peut alléger les problèmes de multicolinéarité, mais ne permet pas toujours de les résoudre.
Estimation du coefficient et de la bande passante
Pour toutes les méthodes de sélection du voisinage, à l’exception de la recherche du gradient, les coefficients et les bandes passantes des variables explicatives sont estimés via un processus nommé réajustement (Breiman et al. 1985). Développée à l’origine pour estimer les paramètres des modèles additifs généralisés, la procédure évolue à travers chacune des variables explicatives et utilise une fonction de lissage pour calibrer le coefficient tout en assurant la constance de toutes les autres variables explicatives. Ce processus se répète sur les variables explicatives jusqu’à ce que les valeurs des coefficients soient stabilisées et ne changent pas après une itération successive.
Appliquée à MGWR (Fotheringham et al. 2017), la fonction de lissage est un modèle GWR univarié qui régresse la prévision d’ajustement des résidus précédente par rapport à la variable explication unique (en traitant toutes les autres variables explicatives comme des constantes). Ce modèle GWR utilise la même méthode de sélection du voisinage (Recherche absolue, intervalles manuels ou Défini par l’utilisateur) pour estimer l’échelle spatiale de la variable explicative. Reportez-vous à la section Ressources supplémentaires pour une description complète du processus.
L’algorithme de réajustement doit débuter avec les valeurs initialisées des coefficients. Ces valeurs initiales sont estimées par un modèle GWR de toutes les variables explicatives. Si ce modèle échoue en raison de la multicolinéarité, le modèle OLS est utilisé à la place. Si ce processus ne converge pas après 25 itérations, les valeurs de coefficients de l’itération finale sont utilisées.
Recherche par gradient
L’option Recherche du gradient de la méthode de sélection du voisinage représente une manière plus récente de concevoir l’estimation des bandes passantes optimales avec la régression pondérée géographiquement multi-échelle qui ne recourt pas au réajustement. L’amélioration des temps d’exécution et l’utilisation efficace de la mémoire sont les principaux avantages de la recherche du gradient. Cette méthode est un algorithme d’optimisation de second ordre qui utilise le gradient et la matrice hessienne pour minimiser la valeur AICc par rapport à l’échelle spatiale des variables explicatives. La mise à jour du paramètre d’une seule variable explicative à chaque étape itérative laisse place à la mise à jour simultanée des paramètres de toutes les variables explicatives par descente dans la direction de pente la plus forte du gradient, avec correction de la courbure de la valeur AICc.
La recherche absolue et la recherche du gradient produisent habituellement des résultats très proches. L’image suivante montre la surface de coefficient réelle ainsi que la surface de coefficient estimée résultant de la recherche absolue et de la recherche du gradient. Vous remarquerez que toutes les surfaces sont semblables et donnent avec exactitude une estimation de la surface réelle.
L’image ci-après compare les temps d’exécution de la recherche absolue et de la recherche du gradient pour des nombres différents de variables explicatives et des tailles différentes de jeu de données. Le temps d’exécution de la recherche du gradient représente invariablement à peu près la moitié du temps d’exécution de la recherche absolue pour le même nombre de variables explicatives.
L’image ci-après compare l’utilisation de la mémoire lors de la recherche absolue et de la recherche du gradient. L’utilisation de la mémoire lors de la recherche absolue augmente rapidement (croissance quadratique) et proportionnellement à la taille de l’échantillon, tandis que l’utilisation de la mémoire lors de la recherche du gradient reste la même indépendamment de la taille de l’échantillon.
L’image ci-après compare les valeurs AICc de la recherche absolue et de la recherche du gradient. Même si l’exactitude des méthodes est très proche, la recherche absolue donne des valeurs AICc légèrement inférieures (indiquant une estimation légèrement plus exacte) par rapport à la recherche du gradient.
Ressources supplémentaires
Pour plus d'informations, consultez les rubriques suivantes :
- Breiman, L., and J. H. Friedman. 1985. « Estimating optimal transformations for multiple regression and correlations (with discussion). » Journal of the American Statistical Association 80, (391): 580–619. https://doi.org/10.2307/2288473. JSTOR 2288473.
- Brunsdon C., A. S. Fotheringham, and M. E. Charlton. 1996. « Geographically weighted regression: A method for exploring spatial nonstationarity. » Geographical Analysis 28: 281–298.
- Conn, A.R., N.I.M. Gould, and P.L. Toint. 2000. "Trust Region Methods." Society for Industrial and Applied Mathematics. https://doi.org/10.1137/1.9780898719857.
- da Silva, A. R., and A. S. Fotheringham. 2016. "The multiple testing issue in geographically weighted regression." Geographical Analysis 48(3), 233–247. https://doi.org/10.1111/gean.12084.
- Fotheringham, A. S., W. Yang, and W. Kang. 2017. « Multiscale geographically weighted regression (MGWR). » Annals of the American Association of Geographers 107: 1247–265. https://doi.org/10.1080/24694452.2017.1352480
- Oshan, T. M., Z. Li, W. Kang, L. J. Wolf, and A. S. Fotheringham. 2019. « mgwr: A Python implementation of multiscale geographically weighted regression for investigating process spatial heterogeneity and scale. » ISPRS International Journal of Geo-Information 8: 269.
- Yu, H., A. S. Fotheringham, Z. Li, T. Oshan, W. Kang, and L. J. Wolf. 2020. « Inference in multiscale geographically weighted regression. » Geographical Analysis 52: 87–106.
- Zhou, X., R. Assunção, H. Shao, M. Janikas, C. Huang, and H. Asefaw. 2023. "Gradient-based optimization for Multi-scale Geographically Weighted Regression." (under review)
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?