Étiquette | Explication | Type de données |
Entités en entrée | Classe d'entités qui contient les variables dépendantes et indépendantes. | Feature Layer |
Variable dépendante | Champ numérique contenant les valeurs observées à modéliser. | Field |
Type de modèle | Précise le type de données à modéliser.
| String |
Entités en sortie | Nouvelle classe d’entités qui contiendra des estimations de variable dépendante et des résiduels. | Feature Class |
Variables explicatives | Liste des champs qui représentent des variables explicatives indépendantes dans le modèle de régression. | Field |
Entités de distance explicatives (Facultatif) | Crée automatiquement des variables explicatives en calculant la distance entre les entités fournies et les valeurs Entités en entrée. Les distances sont calculées entre chacune des valeurs Entités de distance explicatives en entrée et la valeur Entités en entrée la plus proche. Si les valeurs Entités de distance explicatives en entrée correspondent à des polygones ou des lignes, les attributs de distance sont calculés comme la distance entre les segments les plus proches de la paire d’entités. | Feature Layer |
Emplacements des prévisions (Facultatif) | Une classe d’entités contenant des entités qui représentent des localisations pour lesquelles des estimations vont être calculées. Chaque entité dans ce jeu de données doit contenir des valeurs pour toutes les variables explicatives spécifiées. La variable dépendante pour ces entités sera estimée à l’aide du modèle calibré pour les données de la classe d’entités en entrée. | Feature Layer |
Apparier les variables explicatives (Facultatif) | Apparie les variables explicatives du paramètre Emplacements des prévisions et les variables explicatives correspondantes du paramètre Classe d’entités en entrée. | Value Table |
Apparier les entités de distance (Facultatif) | Apparie les entités de distance spécifiées pour le paramètre Emplacements des prévisions sur la gauche et les entités de distance correspondantes pour le paramètre Entités en entrée sur la droite. | Value Table |
Entités prévues en sortie (Facultatif) | Classe d'entités en sortie qui recevra des estimations de variable dépendante pour chaque valeur Emplacements des prévisions. | Feature Class |
Synthèse
Effectue une régression linéaire généralisée pour générer des prévisions ou modéliser une variable dépendante en termes de relations pour définir un ensemble de variables explicatives. Cet outil permet d’adapter des modèles continus (moindres carrés ordinaires), binaires (logistique) et totaux (Poisson).
Pour en savoir plus sur le fonctionnement de l’outil Régression linéaire généralisée
Illustration
Utilisation
-
La sortie principale de cet outil est un fichier de rapport qui est disponible sous forme de messages au bas de la fenêtre Géoprocessing (Géotraitement) au cours de l’exécution de l’outil. Pour accéder aux messages, passez le curseur de la souris sur la barre d’avancement et cliquez sur le bouton de menu contextuel ou développez la section des messages dans la fenêtre Géotraitement. Vous pouvez également accéder aux messages d’une précédente exécution de l’outil via l’historique du géotraitement.
Utilisez le paramètre Entités en entrée avec un champ représentant les phénomènes que vous modélisez (valeur Variable dépendante) et un ou plusieurs champs représentant la valeur Variables explicatives. Ces champs doivent être numériques et comporter une plage de valeurs. Les entités qui comportent des valeurs manquantes dans la variable dépendante ou explicative sont exclues de l’analyse. Vous pouvez toutefois utiliser l’outil Renseigner les valeurs manquantes pour renseigner le jeu de données avant d’exécuter l’outil.
-
L'outil Régression linéaire généralisée génère également des valeurs Entités en sortie avec des informations de coefficient et des diagnostics. La classe d’entités en sortie est ajoutée automatiquement à la table des matières et un schéma de rendu est appliqué aux résiduels du modèle. Une explication complète de chaque sortie est fournie dans Fonctionnement de l’outil Régression linéaire généralisée.
L’option que vous choisissez pour le paramètre Model Type (Type de modèle) dépend des données que vous modélisez. Il est important d’utiliser le modèle approprié pour votre analyse pour obtenir des résultats exacts de votre analyse de régression.
-
Les résultats récapitulatifs et diagnostics du modèle sont écrits dans la fenêtre de messages et des diagrammes sont créés sous la classe d’entités en sortie. Les diagnostics et diagrammes signalés dépendent de la valeur de paramètre Type de modèle et sont expliqués en détail dans la rubrique Fonctionnement de l’outil Régression linéaire généralisée.
-
Les résultats de la régression linéaire généralisée ne sont fiables que si les données et le modèle de régression satisfont toutes les hypothèses requises de manière inhérente par cette méthode. Vérifiez tous les diagnostics résultants et consultez la table Problèmes de régression courants, conséquences et solutions dans la rubrique Principes de base de l'analyse de régression pour vous assurer que le modèle est correctement spécifié.
Les paramètres Dependent Variable (Variable dépendante) et Explanatory Variable(s) (Variables explicatives) doivent être des champs numériques contenant différentes valeurs. Cet outil ne peut pas fonctionner si les variables ont les mêmes valeurs (lorsque toutes les valeurs d’un champ sont définies sur 9,0 par exemple).
Les variables explicatives peuvent provenir de champs ou être calculées à partir d’entités de distance à l’aide du paramètre Explanatory Distance Features (Entités de distance explicatives). Vous pouvez utiliser une combinaison de ces types de variable explicative, mais au moins un type est obligatoire. Les valeurs de paramètre Entités de distance explicatives permettent de créer automatiquement des variables explicatives représentant une distance entre les entités fournies et les valeurs de paramètre Entités en entrée. Les distances sont calculées entre chacune des valeurs Entités de distance explicatives en entrée et les valeurs Entités en entrée les plus proches. Si les valeurs Entités de distance explicatives en entrée correspondent à des polygones ou des lignes, les attributs de distance sont calculés comme la distance entre les segments les plus proches de la paire d’entités. La méthode de calcul des distances est différente toutefois pour les polygones et pour les lignes. Pour plus d’informations, reportez-vous à la rubrique Calcul de la distance avec les outils de proximité.
Il est conseillé d’utiliser des données projetées si les valeurs Entités de distance explicatives représentent un composant de l’analyse. Il est également recommandé de projeter les données à l’aide d’un système de coordonnées projetées (et non d'un système de coordonnées géographiques) pour mesurer les distances avec exactitude.
-
Lorsque l’autocorrélation spatiale des résiduels de régression est statistiquement significative, le modèle de régression linéaire généralisée est considéré comme incorrectement spécifié et, par conséquent, les résultats de la régression linéaire généralisée ne sont pas fiables. Exécutez l'outil Autocorrélation spatiale sur les valeurs résiduelles de régression pour évaluer ce problème potentiel. L’autocorrélation spatiale statistiquement significative de résiduels de régression peut indiquer qu’une ou plusieurs variables explicatives clés manquent dans le modèle.
-
Étudiez les surestimations et sous-estimations évidentes dans les valeurs résiduelles de régression afin de trouver des indices permettant de déterminer s'il manque des variables dans le modèle de régression. Il peut être bon d’exécuter l’outil Analyse de points chauds sur les valeurs résiduelles pour mieux visualiser l’agrégation spatiale des surestimations et sous-estimations.
-
Si une spécification incorrecte est le résultat d’une tentative de modélisation de variables non stationnaires à l’aide d’un modèle global (la régression linéaire généralisée est un modèle global), vous pouvez utiliser l’outil Régression pondérée géographiquement pour améliorer les prévisions et mieux comprendre la non stationnarité (variation régionale) inhérente aux variables explicatives.
-
Si le résultat d’un calcul est l’infini ou s’il est indéfini, la sortie pour les fichiers autres que des shapefiles sera nulle. Pour les shapefiles, le résultat sera -DBL_MAX (-1,7976931348623158e+308, par exemple).
Attention :
Lorsque vous utilisez des shapefiles, n'oubliez pas qu'ils ne peuvent pas stocker de valeurs Null. Il se peut que des outils ou autres procédures qui créent des fichiers de formes à partir d'entrées autres que des fichiers de formes stockent ou interprètent des valeurs Null comme étant égales à zéro. Dans certains cas, les valeurs Null sont stockées sous forme de valeurs négatives très élevées dans les fichiers de formes. Cela peut aboutir à des résultats inattendus. Reportez-vous à la rubrique Remarques concernant le géotraitement pour la sortie de fichiers de formes pour plus d'informations.
Paramètres
arcpy.stats.GeneralizedLinearRegression(in_features, dependent_variable, model_type, output_features, explanatory_variables, {distance_features}, {prediction_locations}, {explanatory_variables_to_match}, {explanatory_distance_matching}, {output_predicted_features})
Nom | Explication | Type de données |
in_features | Classe d'entités qui contient les variables dépendantes et indépendantes. | Feature Layer |
dependent_variable | Champ numérique contenant les valeurs observées à modéliser. | Field |
model_type | Précise le type de données à modéliser.
| String |
output_features | Nouvelle classe d’entités qui contiendra des estimations de variable dépendante et des résiduels. | Feature Class |
explanatory_variables [explanatory_variables,...] | Liste des champs qui représentent des variables explicatives indépendantes dans le modèle de régression. | Field |
distance_features [distance_features,...] (Facultatif) | Crée automatiquement des variables explicatives en calculant la distance entre les entités fournies et les valeurs in_features. Les distances entre chacune des valeurs distance_features en entrée et la valeur in_features la plus proche sont calculées. Si les valeurs distance_features correspondent à des polygones ou des lignes, les attributs de distance sont calculés comme la distance entre les segments les plus proches de la paire d’entités. | Feature Layer |
prediction_locations (Facultatif) | Une classe d’entités contenant des entités qui représentent des localisations pour lesquelles des estimations vont être calculées. Chaque entité dans ce jeu de données doit contenir des valeurs pour toutes les variables explicatives spécifiées. La variable dépendante pour ces entités sera estimée à l’aide du modèle calibré pour les données de la classe d’entités en entrée. | Feature Layer |
explanatory_variables_to_match [[Field from Prediction Locations, Field from Input Features],...] (Facultatif) | Apparie les variables explicatives du paramètre prediction_locations et les variables explicatives correspondantes du paramètre in_features (par exemple, [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]]). | Value Table |
explanatory_distance_matching [[Prediction Distance Features, Input Explanatory Distance Features],...] (Facultatif) | Apparie les entités de distance spécifiées pour le paramètre features_to_predict sur la gauche et les entités de distance correspondantes pour le paramètre in_features sur la droite (par exemple, [["stores2010", "stores2000"], ["freeways2010", "freeways2000"]]). | Value Table |
output_predicted_features (Facultatif) | Classe d’entités en sortie qui recevra des estimations de variable dépendante pour chaque valeur prediction_location. Classe d'entités en sortie qui recevra des estimations de variable dépendante pour chaque valeur Emplacements des prévisions. | Feature Class |
Exemple de code
Le script ci-dessous pour la fenêtre Python illustre l’utilisation de la fonction GeneralizedLinearRegression.
import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("landslides", "occurred",
"BINARY", "out_features",
"eastness;northness;elevation;slope",
"rivers")
Le script Python autonome ci-dessous illustre l'utilisation de la fonction GeneralizedLinearRegression.
# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, average household income and the
# distance to the central business district (CBD)
import arcpy
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("crime_counts",
"total_crimes", "COUNT", "out_features", "YRBLT;TOTPOP;AVGHINC",
"CBD", "prediction_locations", "YRBLT YRBLT;TOTPOP TOTPOP;AVGHINC AVGHINC",
"CBD CBD", "predicted_features")
Environnements
Informations de licence
- Basic: Oui
- Standard: Oui
- Advanced: Oui
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?