Fonctionnement de la régression linéaire généralisée

L’analyse de régression est peut-être la statistique la plus couramment utilisée en sciences sociales. La régression permet d’évaluer les relations entre deux attributs d’entités ou plus. L’identification et la mesure des relations permettent de mieux comprendre ce qui se passe dans un endroit, de prévoir où un autre événement est susceptible de survenir ou d’examiner les origines de tel ou tel événement. La régression linéaire généralisée crée un modèle de la variable ou du processus que vous essayez de comprendre ou de prévoir pouvant être utilisé pour examiner et quantifier les relations entre entités.

Remarque :

Ce nouvel outil ArcGIS Pro 2.3 inclut la fonction Moindres carrés ordinaires. Cet outil comprend les modèles supplémentaires Total (Poisson) et Binaire (Logistique) qui augmentent le champ de ses applications possibles.

Applications possibles

La régression linéaire généralisée peut avoir diverses applications parmi lesquelles :

  • Quelles caractéristiques démographiques contribuent aux taux élevés de fréquentation des transports en commun ?
  • Existe-t-il une relation positive entre vandalisme et cambriolage ?
  • Quelles variables prévoient efficacement le volume des appels au services d’urgence ? Sur la base des projections à venir, quelle est la demande attendue en termes de ressources pour les services d'urgence ?
  • Quelles variables sont associées à un taux de natalité faible ?

Entrée(s)

Pour exécuter l’outil Régression linéaire généralisée, spécifiez des Input Features (Entités en entrée) avec un champ représentant la Dependent Variable (Variable dépendante) et un ou plusieurs champs représentant la ou les Explanatory Variable(s) [Variable(s) explicative(s)] ou, éventuellement, les Distance Features (Entités de distance). Ces champs doivent être numériques et comporter une plage de valeurs. Les entités qui comportent des valeurs manquantes dans les variables dépendantes ou explicatives seront exclues de l’analyse. Vous pouvez toutefois utiliser l’outil Renseigner les valeurs manquantes pour renseigner le jeu de données avant d’exécuter l’outil Régression linéaire généralisée. Choisissez ensuite un Model Type (Type de modèle) en fonction des données que vous analysez. Il est important d’utiliser un modèle adapté à vos données. Les types de modèles et comment déterminer le modèle adapté à vos données sont présentés ci-dessous.

Model type

La régression linéaire généralisée propose trois types de modèles de régression : continu, binaire et total. En matière statistique, ces types de régression sont appelés Gaussien, Logistique et Poisson respectivement. Le Model Type (Type de modèle) de votre analyse doit être choisi en fonction de la façon dont votre Dependent Variable (Variable dépendante) a été mesurée ou synthétisée ainsi que de la plage de valeurs qu’il contient.

Continu (gaussien)

Utilisez le Model Type (Type de modèle) Continuous (Gaussian) [Continu (gaussien)] si votre Dependent Variable (Variable dépendante peut adopter une plage de valeurs étendue comme la température ou un volume total de ventes. Il est recommandé que votre variable dépendante soit répartie normalement. Vous pouvez créer un histogramme de votre variable dépendante pour vérifier qu’elle est distribuée normalement. Si l’histogramme présente une courbe en cloche symétrique, utilisez un type de modèle gaussien. La plupart des valeurs sont généralement concentrées près de la moyenne, peu de valeurs s’en écartant radicalement. Il devrait y avoir autant de valeurs du côté gauche de la moyenne que du côté droit (valeurs moyennes et médianes de la distribution sont les mêmes). Si votre Dependent Variable (Variable dépendante) ne semble pas être distribuée normalement, envisagez de la reclasser en variable binaire. Par exemple, si votre variable dépendante est le revenu moyen des ménages, vous pouvez la recoder en variable binaire, où 1 indique un revenu supérieur à la moyenne nationale et 0 un revenu inférieur à la moyenne nationale. Un champ continu peut être reclassé en champ binaire à l’aide de la fonction d’aide Reclassify (Reclassification) dans l’outil Calculer un champ.

Binaire (logistique)

Utilisez le Model Type (Type de modèle) Binary (Logistic) [Binaire (logistique)] si votre Dependent Variable (Variable dépendante) peut prendre l’une des deux valeurs possibles telles que réussite ou échec ou présence et absence. Le champ contenant votre Dependent Variable (Variable dépendante) doit être un champ numérique et ne contenir que des uns et zéros. Les résultats seront plus faciles à interpréter si vous codez l’événement présentant un intérêt, comme la réussite ou la présence d’un animal, avec la valeur 1, puisque la régression modélisera la probabilité de 1. Vos données doivent présenter une variation des valeurs un et zéro. Si vous créez un histogramme de votre Dependent Variable (Variable dépendante), celui-ci ne devrait contenir que des uns et des zéros.

Total (Poisson)

Envisagez d’utiliser le Model Type (Type de modèle) Count (Poisson) [Total (Poisson)] si votre Dependent Variable (Variable dépendante) est discrète et représente le nombre d'occurrences d’un événement, tel que le nombre de délits . Les modèles de type Total peuvent également être utilisés si votre Dependent Variable (Variable dépendante) représente un taux et que le dénominateur du taux est une valeur fixe telle que les ventes par mois ou le nombre de personnes atteintes de cancer parmi un échantillon de 10 000 personnes. Un modèle Count (Poisson) [Total (Poisson)] suppose que la moyenne et la variance de la Dependent Variable (Variable dépendante) sont identiques, et que les valeurs de votre Dependent Variable (Variable dépendante) ne peuvent pas être négatives, ni contenir de décimale.

Distance Features (Entités de distance)

Bien que la régression linéaire généralisée ne soit pas une méthode spatiale par nature, vous pouvez exploiter l’espace dans votre analyse à l’aide des entités de distance. Par exemple, si vous modélisez les performances d’une série de points de vente, une variable représentant la distance par rapport aux bretelles d’autoroute ou la distance par rapport au concurrent le plus proche peut jouer un rôle essentiel dans l’exactitude des prévisions. De même, si vous modélisez la qualité de l’air, une variable explicative représentant la distance par rapport aux principales sources de pollution ou la distance par rapport aux autoroutes principales est cruciale. Les entités de distance permettent de créer automatiquement des variables explicatives en calculant une distance à partir des entités fournies vers les Input Features (Entités en entrée). Les distances sont calculées entre chacune des entités du champ Explanatory Distance Features (Entités de distance explicatives) en entrée et les entités du champ Input Features (Entités en entrée) les plus proches. Si les entités du champ Explanatory Distance Features (Entités de distance explicatives) en entrée sont des polygones ou des lignes, les attributs de distance sont calculés comme la distance entre les segments les plus proches de la paire d’entités. La méthode de calcul des distances est différente toutefois pour les polygones et pour les lignes. Pour plus d’informations, reportez-vous à la rubrique Calcul de la distance avec les outils de proximité.

Prévision

Vous pouvez utiliser le modèle de régression créé pour effectuer des prévisions pour d’autres entités (ponctuelles ou surfaciques). Pour effectuer ces prévisions chaque Prediction Locations (Emplacement de prévision) doit posséder des valeurs pour chaque Explanatory Variable(s) (Variable explicative) fournie ainsi que pour toute Explanatory Distance Features (Entité de distance explicative) de la zone d’intérêt. Si les noms des champs des paramètres Input Features (Entités en entrée) et Prediction Locations (Emplacements des prévisions) ne concordent pas, un paramètre d’appariement des variables est fourni. Lorsque vous appariez les variables explicatives, les champs des paramètres Input Features (Entités en entrée) et Prediction Locations (Emplacements des prévisions) doivent être du même type (les champs doubles doivent être appariés à des champs doubles, par exemple). Toute entité Explanatory Distance Features (Entités de distance explicatives) doit également être appariée.

Sorties

L’outil Régression linéaire généralisée génère différents résultats en sortie. Un résumé du modèle de régression linéaire généralisée ainsi que des résumés statistiques sont disponibles sous forme de message au bas de la fenêtre Geoprocessing (Géotraitement) au cours de l’exécution de l’outil. Pour accéder aux messages, passez le curseur de la souris sur la barre de progression, cliquez sur le bouton de menu contextuel ou développez la section de messages dans la fenêtre Geoprocessing (Géotraitement). Vous pouvez également accéder aux messages d’une précédente exécution de l’outil Régression linéaire généralisée via l’historique du géotraitement. L’outil génère également des Output Features (Entités en sortie), des diagrammes et de manière optionnelle des Output Predicted Features (Entités prévues en sortie). Les Output Features (Entités en sortie) et les diagrammes associés sont automatiquement ajoutés à la fenêtre Contents (Contenu) et un schéma de rendu chaud/froid (hot/cold) est appliqué aux valeurs résiduelles du modèle. Les diagnostics et diagrammes générés dépendent du Model Type (Type de modèle) des Input Features (Entités en entrée) et sont présentés ci-dessous.

Continu (gaussien)

Interprétation des messages et diagnostics

  • AICc : mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AICc inférieure fournit un meilleur ajustement aux données observées. La valeur AICc n'est pas une mesure absolue de la qualité d'ajustement mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AICc de deux modèles diffèrent de plus de 3, le modèle avec la valeur AICc inférieure est considéré meilleur. Comparer la valeur AICc de régression pondérée géographiquement à la valeur AICc de régression linéaire généralisée est une manière d’évaluer les avantages qu’il y a à passer d’un modèle global (régression linéaire généralisé) à un modèle de régression local (régression pondérée géographiquement).
  • R2 : R-Squared (R-carré) est une mesure de la qualité d’ajustement. Sa valeur varie de 0,0 à 1,0, les valeurs supérieures étant préférables. Elle peut être interprétée en tant que proportion de variance de la variable dépendante correspondant au modèle de régression. Le dénominateur pour le calcul de R2 est la somme des valeurs de variables dépendantes au carré. L'ajout d'une variable explicative supplémentaire au modèle ne modifie pas le dénominateur mais le numérateur ; ce qui donne une impression d'amélioration dans l'ajustement du modèle qui peut ne pas être réelle. Reportez-vous au R2 ajusté ci-dessous.
  • Adjusted R2 (R2 ajusté) : en raison du problème décrit ci-dessus pour la valeur R2, les calculs pour la valeur R-carré ajusté normalisent le numérateur et le dénominateur par leurs degrés de liberté. Cela a pour effet de compenser le nombre de variables d'un modèle ; par conséquent, la valeur R2 ajustée est presque toujours inférieure à la valeur R2. Toutefois, pour effectuer cet ajustement, vous perdez l'interprétation de la valeur en tant que proportion de la variance expliquée. Dans la régression pondérée géographiquement, le nombre effectif de degrés de liberté est une fonction du voisinage utilisé, l'ajustement peut donc être très marqué par rapport à un modèle global comme la régression linéaire généralisée. Pour cette raison, il est préférable d’utiliser la valeur AICc pour comparer des modèles.
  • Joint F-Statistic (Statistique F de jointure) et Joint Wald Statistic (Statistique Wald de jointure) : les statistiques F de jointure et Wald de jointure sont des mesures de la signification statistique globale du modèle. La Statistique F de jointure est digne de confiance uniquement lorsque la statistique Koenker (BP, voir ci-dessous) n'est pas statistiquement significative. Si la statistique Koenker (BP) est significative, examinez la statistique Wald de jointure pour déterminer la signification globale du modèle. L’hypothèse nulle pour ces deux tests est que les variables explicatives dans le modèle ne sont pas efficaces. Pour un niveau de confiance de 95 pour cent, une valeur p (probabilité) inférieure à 0,05 indique un modèle statistiquement significatif.
  • Koenker (BP) Statistic (Statistique Koenker (BP)) (Statistique Breusch-Pagan avec transformation de Student de Koenker) : test permettant de déterminer si les variables explicatives dans le modèle ont une relation cohérente avec la variable dépendante à la fois dans l’espace géographique et dans l’espace de données. Lorsque le modèle est cohérent dans l'espace géographique, les processus spatiaux représentés par les variables explicatives se comportent de la même manière partout dans la zone d'étude (les processus sont stationnaires). Lorsque le modèle est cohérent dans l'espace de données, la variation dans la relation entre les valeurs de prévision et chaque variable explicative ne change pas avec les variations dans les grandeurs variables explicatives (absence de hétéroscédasticité dans le modèle). Supposons que vous souhaitez prédire les infractions et que l'une de vos variables explicatives est le revenu. Le modèle aurait une hétéroscédasticité problématique si les prévisions étaient plus précises pour les emplacements avec des revenus médians réduits que pour les emplacements avec des revenus médians élevés. L'hypothèse nulle pour ce test est que le modèle est stationnaire. Pour un niveau de confiance de 95 pour cent, une valeur p (probabilité) inférieure à 0,05 indique une hétéroscédasticité ou absence de stationnarité statistiquement significative. Lorsque les résultats de ce test sont statistiquement significatifs, consultez les erreurs standard et les probabilités des coefficients robustes pour évaluer l'efficacité de chaque variable explicative. Les modèles de régression avec absence de stationnarité statistiquement significative sont souvent de bons candidats pour l’analyse de régression pondérée géographiquement.
  • Jarque-Bera : indique si les valeurs résiduelles (les valeurs des variables dépendantes connues ou observées moins les valeurs prévues ou estimées) sont distribuées normalement. L'hypothèse nulle pour ce test est que les valeurs résiduelles sont distribuées normalement, donc si vous devez construire un histogramme à partir de ces valeurs résiduelles, il ressemblerait à une courbe en cloche classique, ou distribution gaussienne. Si la valeur p (probabilité) pour ce test est faible (inférieure à 0,05 pour un niveau de confiance de 95 pour cent, par exemple), les valeurs résiduelles ne sont pas distribuées normalement, ce qui indique que votre modèle est biaisé. Si l'autocorrélation spatiale des valeurs résiduelles de régression est statistiquement significative (voir ci-dessous), le biais peut provenir d'une spécification incorrecte du modèle (il lui manque une variable clé). Les résultats d'un modèle de moindres carrés ordinaires mal spécifié ne sont pas dignes de confiance. Un test de Jarque-Bera statistiquement significatif peut également se produire si vous modélisez des relations non linéaires, si vos données incluent des points aberrants influents, ou s’il existe une forte hétéroscédasticité.

Diagrammes en sortie

Les diagrammes créés avec cet outil pour le Model Type (Type de modèle) Continuous (Continu) incluent une matrice de nuages de points des variables utilisées dans le modèle, un histogramme des valeurs résiduelles du modèle, et un tracé des valeurs résiduelles et des prévisions.

Binaire (logistique)

Interprétation des messages et diagnostics

  • AICc : mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AICc inférieure fournit un meilleur ajustement aux données observées. La valeur AICc n'est pas une mesure absolue de la qualité d'ajustement mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AICc de deux modèles diffèrent de plus de 3, le modèle avec la valeur AICc inférieure est considéré meilleur. Comparer la valeur AICc de régression pondérée géographiquement à la valeur AICc de régression linéaire généralisée est une manière d'évaluer les avantages qu’il y a à passer d'un modèle global (régression linéaire généralisé) à un modèle de régression local (régression pondérée géographiquement).
  • % deviance explained (% d’écart expliqué) : proportion de la variance de la variable dépendante prise en compte par les variables explicatives.
  • Joint Wald Statistic (Statistique Wald de jointure) : mesure de la signification statistique globale du modèle. L’hypothèse nulle pour ce test est que les variables explicatives dans le modèle ne sont pas efficaces. Pour un niveau de confiance de 95 pour cent, une valeur p (probabilité) inférieure à 0,05 indique un modèle statistiquement significatif.

Diagrammes en sortie

Les diagrammes créés avec cet outil pour le Model Type (Type de modèle) Binary (Binaire) incluent une matrice de nuages de points des variables utilisées dans le modèle, une boîte à moustaches montrant la distribution des variables explicatives, un histogramme des valeurs résiduelles du modèle et une de table des performances prévisionnelle.

Total (Poisson)

Interprétation des messages et diagnostics

  • AICc : mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AICc inférieure fournit un meilleur ajustement aux données observées. La valeur AICc n'est pas une mesure absolue de la qualité d'ajustement mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AICc de deux modèles diffèrent de plus de 3, le modèle avec la valeur AICc inférieure est considéré meilleur. Comparer la valeur AICc de régression pondérée géographiquement à la valeur AICc de régression linéaire généralisée est une manière d’évaluer les avantages qu’il y a à passer d’un modèle global (régression linéaire généralisé) à un modèle de régression local (régression pondérée géographiquement).
  • % deviance explained (% d’écart expliqué) : proportion de la variance de la variable dépendante prise en compte par les variables explicatives.
  • Joint Wald Statistic (Statistique Wald de jointure) : mesure de la signification statistique globale du modèle. L’hypothèse nulle pour ce test est que les variables explicatives dans le modèle ne sont pas efficaces. Pour un niveau de confiance de 95 pour cent, une valeur p (probabilité) inférieure à 0,05 indique un modèle statistiquement significatif.

Diagrammes en sortie

Les diagrammes créés avec cet outil pour le Model Type (Type de modèle) Count (Total) incluent une matrice de nuages de points des variables utilisées dans le modèle, un histogramme des valeurs résiduelles du modèle, et un tracé des valeurs résiduelles et des prévisions.

Ressources supplémentaires

Plusieurs ressources utiles sont à votre disposition pour vous aider à approfondir vos connaissances sur la régression linéaire généralisée et la régression pondérée géographiquement. Commencez par lire la documentation Principes de base de l'analyse de régression ou suivez le didacticiel concernant l’analyse de régression.

Les ressources suivantes sont également utiles :

Fox, J. (1991). Regression Diagnostics. Sage, Newbury Park, CA.

Menard, S. (2002). Applied logistic regression analysis (Vol. 106). Sage.

Nelder, J. A. et Wedderburn, R. W. M. (1972) Generalized linear models. J. R. Statist. Soc. A, 135, 370 - 384.