Generalized Linear Regression (Régression linéaire généralisée) (Statistiques spatiales)

Résumé

Effectue une régression linéaire généralisée (GLR) en vue de générer des prévisions ou de modéliser une variable dépendante en fonction de sa relation à un ensemble de variables explicatives. Cet outil permet d’adapter des modèles continus (moindres carrés ordinaires), binaires (logistique) et totaux (Poisson).

Pour en savoir plus sur le fonctionnement de l’outil Régression linéaire généralisée

Illustration

Generalized Linear Regression (Régression linéaire généralisée)

Utilisation

  • La sortie principale de cet outil est un fichier de rapport qui est disponible sous forme de messages au bas de la fenêtre Géoprocessing (Géotraitement) au cours de l’exécution de l’outil. Pour accéder aux messages, passez le curseur de la souris sur la barre d’avancement, cliquez sur le bouton de menu contextuel ou développez la section de messages dans la fenêtre Geoprocessing (Géotraitement). Vous pouvez également accéder aux messages d’une précédente exécution de l’outil via l’historique du géotraitement.

  • Utilisez le paramètre Input Features (Entités en entrée) avec un champ représentant les phénomènes que vous modélisez (Dependent Variable (Variable dépendante)) et un ou plusieurs champs représentant Explanatory Variable(s) (Variables explicatives). Ces champs doivent être numériques et comporter une plage de valeurs. Les entités qui comportent des valeurs manquantes dans la variable dépendante ou explicative seront exclues de l’analyse. Vous pouvez toutefois utiliser l’outil Fill Missing Values (Renseigner les valeurs manquantes) pour renseigner le jeu de données avant d’exécuter l’outil.

  • L'outil Generalized Linear Regression (Régression linéaire généralisée) génère également des entités en sortie avec des informations de coefficient et des diagnostics. La classe d’entités en sortie est ajoutée automatiquement à la table des matières et un schéma de rendu est appliqué aux résiduels du modèle. Une explication complète de chaque sortie est fournie dans Fonctionnement de l’outil Régression linéaire généralisée.

  • L’option que vous choisissez pour le paramètre Model Type (Type de modèle) dépend des données que vous modélisez. Il est important d’utiliser le modèle approprié à votre analyse pour obtenir des résultats exacts de votre analyse de régression.

    Type de données des modèles Continuous (Continu), Count (Total) et Binary (Binaire)

  • Les résultats de synthèse du modèle et les diagnostics sont rédigés dans la fenêtre des messages et des diagrammes sont créés sous la classe d’entités en sortie. Les diagnostics et diagrammes signalés dépendent du paramètre Model Type (Type de modèle) et sont expliqués en détail dans la rubrique Fonctionnement de l’outil Generalized Linear Regression (Régression linéaire généralisée).

  • Les résultats de la régression linéaire généralisée ne sont fiables que si vos données et le modèle de régression répondent à toutes les suppositions requises de manière inhérente par cette méthode. Examinez les diagnostics obtenus et consultez la table Problèmes de régression courants, conséquences et solutions dans Principes de base de l’analyse de régression pour vérifier que le modèle est spécifié correctement.

  • Les paramètres Dependent Variable (Variable dépendante) et Explanatory Variable(s) (Variables explicatives) doivent être des champs numériques contenant différentes valeurs. Cet outil ne peut pas fonctionner si les variables ont les mêmes valeurs (lorsque toutes les valeurs d’un champ sont définies sur 9,0 par exemple).

  • Les variables explicatives peuvent provenir de champs ou être calculées à partir d’entités de distance à l’aide du paramètre Explanatory Distance Features (Entités de distance explicatives). Vous pouvez utiliser une combinaison de ces types de variable explicative, mais au moins un type est obligatoire. Le paramètre Explanatory Distance Features (Entités de distance explicatives) permet de créer automatiquement des variables explicatives représentant une distance entre les entités fournies et les entités du champ Input Features (Entités en entrée). Les distances sont calculées entre chacune des entités du champ Explanatory Distance Features (Entités de distance explicatives) en entrée et les entités du champ Input Features (Entités en entrée) les plus proches. Si les entités du champ Explanatory Distance Features (Entités de distance explicatives) en entrée sont des polygones ou des lignes, les attributs de distance sont calculés comme la distance entre les segments les plus proches de la paire d’entités. La méthode de calcul des distances est différente toutefois pour les polygones et pour les lignes. Pour plus d’informations, reportez-vous à la rubrique Calcul de la distance avec les outils de proximité.

  • Il est conseillé d’utiliser des données projetées lorsque les entités du champ Explanatory Distance Features (Entités de distance explicatives) sont un composant de l’analyse. Il est fortement recommandé de projeter que vos données à l’aide d’un système de coordonnées projetées (et non un système de coordonnées géographiques) pour mesurer les distances avec exactitude.

  • Lorsque l’autocorrélation spatiale des résiduels de régression est statistiquement significative, le modèle de régression linéaire généralisée est considéré comme incorrectement spécifié et, par conséquent, les résultats de la régression linéaire généralisée ne sont pas fiables. Exécutez l'outil Autocorrélation spatiale sur vos valeurs résiduelles de régression pour évaluer ce problème potentiel. L’autocorrélation spatiale statistiquement significative de résiduels de régression peut indiquer qu’une ou plusieurs variables explicatives clés manquent dans le modèle.

  • Étudiez les surestimations et sous-estimations évidentes dans les valeurs résiduelles de régression afin de trouver des indices permettant de déterminer s’il manque des variables dans votre modèle de régression. Il peut être bon d’exécuter l’outil Analyse de points chauds sur les résiduels pour mieux visualiser l’agrégation spatiale des surestimations et des sous-estimations.

  • Lorsqu’une spécification incorrecte est le résultat d’une tentative de modélisation de variables non stationnaires à l’aide d’un modèle global (la régression linéaire généralisée est un modèle global), l’outil Régression pondérée géographiquement peut être utilisé pour améliorer les prévisions et pour mieux comprendre la non stationnarité (variation régionale) inhérente à vos variables explicatives.

  • Si le résultat d’un calcul est l’infini ou s’il est indéfini, la sortie pour les fichiers autres que des shapefiles sera nulle. Pour les shapefiles, le résultat sera -DBL_MAX (-1,7976931348623158e+308, par exemple).

  • Attention :

    Lorsque vous utilisez des shapefiles, n'oubliez pas qu'ils ne peuvent pas stocker de valeurs Null. Il se peut que des outils ou autres procédures qui créent des fichiers de formes à partir d'entrées autres que des fichiers de formes stockent ou interprètent des valeurs Null comme étant égales à zéro. Dans certains cas, les valeurs Null sont stockées sous forme de valeurs négatives très élevées dans les fichiers de formes. Cela peut aboutir à des résultats inattendus. Reportez-vous à la rubrique Remarques concernant le géotraitement pour la sortie de fichiers de formes pour plus d'informations.

Paramètres

ÉtiquetteExplicationType de données
Entités en entrée

Classe d'entités qui contient les variables dépendantes et indépendantes.

Feature Layer
Variable dépendante

Champ numérique contenant les valeurs observées à modéliser.

Field
Type de modèle

Précise le type de données à modéliser.

  • Continu (gaussien) — Le type dependent_variable est continu. Le modèle utilisé est le modèle gaussien ; l’outil procède à une régression des moindres carrés ordinaires.
  • Binaire (logistique) — Le type dependent_variable représente la présence ou l’absence. Il peut s’agir de 1s et 0s conventionnels, ou de données continues qui ont été recodées en fonction d'une valeur de seuil. Le modèle utilisé est la régression de type logistique.
  • Total (Poisson) —Le type dependent_variable est discret et représente des événements, par exemple le nombre de délits, des maladies ou des accidents de la circulation. Le modèle utilisé est la régression Poisson.
  • Continu (gaussien) — Le type Dependent Variable (Variable dépendante) est continu. Le modèle utilisé est le modèle gaussien ; l’outil procède à une régression des moindres carrés ordinaires.
  • Binaire (logistique) — Le type Dependent Variable (Variable dépendante) représente la présence ou l’absence. Il peut s’agir de 1s et 0s conventionnels, ou de données continues qui ont été recodées en fonction d'une valeur de seuil. Le modèle utilisé est la régression de type logistique.
  • Total (Poisson) —Le type Dependent Variable (Variable dépendante) est discret et représente des événements, par exemple le nombre de délits, des maladies ou des accidents de la circulation. Le modèle utilisé est la régression Poisson.
String
Entités en sortie

Nouvelle classe d’entités qui contiendra des estimations de variable dépendante et des résiduels.

Feature Class
Variables explicatives

Liste des champs qui représentent des variables explicatives indépendantes dans le modèle de régression.

Field
Entités de distance explicatives
(Facultatif)

Ce paramètre crée automatiquement des variables explicatives en calculant la distance entre les entités fournies et les entités en entrée (Input Features). Les distances sont calculées entre chacune des entités du champ Explanatory Distance Features (Entités de distance explicatives) en entrée et les entités du champ Input Features (Entités en entrée) les plus proches. Si les entités du champ Explanatory Distance Features (Entités de distance explicatives) en entrée sont des polygones ou des lignes, les attributs de distance sont calculés comme la distance entre les segments les plus proches de la paire d’entités.

Feature Layer
Emplacements des prévisions
(Facultatif)

Une classe d’entités contenant des entités qui représentent des localisations pour lesquelles des estimations vont être calculées. Chaque entité de ce jeu de données doit contenir des valeurs pour toutes les variables explicatives spécifiées. La variable dépendante pour ces entités sera estimée à l’aide du modèle calibré pour les données de la classe d’entités en entrée.

Feature Layer
Apparier les variables explicatives
(Facultatif)

Apparie les variables explicatives dans Prediction Locations (Emplacements des prévisions) aux variables explicatives correspondantes de Input Feature Class (Classe d’entités en entrée).

Value Table
Apparier les entités de distance
(Facultatif)

Apparie les entités de distance spécifiées pour le champ Prediction Locations (Emplacements des prévisions) sur la gauche aux entités de distance correspondantes pour le champ Input Features (Entités en entrée) sur la droite.

Value Table
Entités prévues en sortie
(Facultatif)

Classe d'entités en sortie destinée à recevoir des estimations de variable dépendante pour chaque entité du champ Prediction Locations (Emplacements des prévisions).

Feature Class

arcpy.stats.GeneralizedLinearRegression(in_features, dependent_variable, model_type, output_features, explanatory_variables, {distance_features}, {prediction_locations}, {explanatory_variables_to_match}, {explanatory_distance_matching}, {output_predicted_features})
NomExplicationType de données
in_features

Classe d'entités qui contient les variables dépendantes et indépendantes.

Feature Layer
dependent_variable

Champ numérique contenant les valeurs observées à modéliser.

Field
model_type

Précise le type de données à modéliser.

  • CONTINUOUS Le type dependent_variable est continu. Le modèle utilisé est le modèle gaussien ; l’outil procède à une régression des moindres carrés ordinaires.
  • BINARY Le type dependent_variable représente la présence ou l’absence. Il peut s’agir de 1s et 0s conventionnels, ou de données continues qui ont été recodées en fonction d'une valeur de seuil. Le modèle utilisé est la régression de type logistique.
  • COUNTLe type dependent_variable est discret et représente des événements, par exemple le nombre de délits, des maladies ou des accidents de la circulation. Le modèle utilisé est la régression Poisson.
String
output_features

Nouvelle classe d’entités qui contiendra des estimations de variable dépendante et des résiduels.

Feature Class
explanatory_variables
[explanatory_variables,...]

Liste des champs qui représentent des variables explicatives indépendantes dans le modèle de régression.

Field
distance_features
[distance_features,...]
(Facultatif)

Ce paramètre crée automatiquement des variables explicatives en calculant la distance entre les entités fournies et les entités d'entraînement en entrée (in_features). Les distances entre chacune des entités de distance (distance_features) en entrée et les entités en entrée (in_features) les plus proches sont calculées. Si les entités de distance (distance_features) en entrée sont des polygones ou des lignes, les attributs de distance sont calculés comme étant la distance entre les segments les plus proches de la paire d’entités.

Feature Layer
prediction_locations
(Facultatif)

Une classe d’entités contenant des entités qui représentent des localisations pour lesquelles des estimations vont être calculées. Chaque entité de ce jeu de données doit contenir des valeurs pour toutes les variables explicatives spécifiées. La variable dépendante pour ces entités sera estimée à l’aide du modèle calibré pour les données de la classe d’entités en entrée.

Feature Layer
explanatory_variables_to_match
[[Field from Prediction Locations, Field from Input Features],...]
(Facultatif)

Apparie les variables explicatives dans prediction_locations aux variables explicatives correspondantes de in_features, par exemple, [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]]

Value Table
explanatory_distance_matching
[[Prediction Distance Features, Input Explanatory Distance Features],...]
(Facultatif)

Apparie les entités de distance spécifiées pour features_to_predict sur la gauche aux entités de distance correspondantes pour in_features sur la droite, par exemple, [["stores2010", "stores2000"], ["freeways2010", "freeways2000"]].

Value Table
output_predicted_features
(Facultatif)

Classe d’entités en sortie destinée à recevoir des estimations de variable dépendante pour chaque prediction_location.

Classe d'entités en sortie destinée à recevoir des estimations de variable dépendante pour chaque entité du champ Prediction Locations (Emplacements des prévisions).

Feature Class

Exemple de code

Exemple 1 d’utilisation de l’outil GeneralizedLinearRegression (fenêtre Python)

Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil GeneralizedLinearRegression.

import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("landslides", "occurred",
                                 "BINARY", "out_features", 
                                 "eastness;northness;elevation;slope", 
                                 "rivers")
Exemple 2 d’utilisation de l’outil GeneralizedLinearRegression (script autonome)

Le script Python autonome ci-dessous illustre l'utilisation de l'outil GeneralizedLinearRegression.

# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, average household income and the
# distance to the central business district (CBD)
import arcpy
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("crime_counts", 
     "total_crimes", "COUNT", "out_features", "YRBLT;TOTPOP;AVGHINC", 
     "CBD", "prediction_locations", "YRBLT YRBLT;TOTPOP TOTPOP;AVGHINC AVGHINC", 
     "CBD CBD", "predicted_features")

Rubriques connexes