Régression linéaire généralisée (GeoAnalytics)

Résumé

Effectue une régression linéaire généralisée en vue de générer des prévisions ou de modéliser une variable dépendante en fonction de ses relations à un ensemble de variables explicatives. Cet outil permet d’adapter des modèles continus (moindres carrés ordinaires), binaires (logistique) et totaux (Poisson).

Utilisation

  • Cet outil peut être utilisé en deux modes opératoires. Vous pouvez évaluer les performances de différents modèles et examiner une diversité de variables explicatives et de paramètres de l’outil. Lorsque vous avez trouvé un modèle adéquat, vous pouvez appliquer le modèle à un nouveau jeu de données.

  • Utilisez le paramètre Input Features (Entités en entrée) avec un champ représentant les phénomènes que vous modélisez (paramètre Dependent Variable (Variable dépendante)) et un ou plusieurs champs représentant les variables explicatives.

  • L’outil Régression linéaire généralisée produit également des entités en sortie et des diagnostics. Les couches d’entités en sortie sont automatiquement ajoutées à la carte avec un schéma de rendu appliqué aux valeurs résiduelles du modèle. Une explication complète de chaque sortie est fournie ci-dessous.

  • Il est important d’appliquer le modèle approprié (Continuous [Continu], Binary [Binaire] ou Count [Total]) à votre analyse pour obtenir des résultats exacts pour votre analyse de régression.

  • Les résultats récapitulatifs et diagnostics du modèle sont écrits dans la fenêtre de messages et des diagrammes sont créés sous la classe d’entités en sortie. Les diagnostics signalés dépendent de la valeur du paramètre Model Type (Type de modèle). Les trois options de type de modèle sont les suivants :

    • Utilisez le type de modèle Continuous (Continu) (gaussien) si la variable dépendante accepte une plage de valeurs étendue telle que la température ou un volume total de ventes. Il est recommandé que la variable dépendante soit distribuée normalement.
    • Utilisez le type de modèle Binary (Binaire) (logistique) si la variable dépendante peut prendre l’une de deux valeurs possibles, telles que réussite et échec ou présence et absence. Le champ qui contient la variable dépendante doit être un champ numérique ou de texte. Si le champ est numérique, il ne doit contenir que des uns et des zéros. Un champ de texte ne doit comporter que deux valeurs distinctes. Si vous utilisez un champ de texte, vous devez utiliser le paramètre Map Dependent Variables (Apparier les variables dépendantes) pour mettre en correspondance les valeurs de texte distinctes avec des uns et des zéros. Vos données doivent présenter une variation des uns et des zéros des valeurs de texte distinctes.

    • Utilisez le type de modèle Count (Total) (Poisson) si la variable dépendante est discrète et représente le nombre d’occurrences d’un événement, tel que le nombre de délits. Les modèles de type Total peuvent également être utilisés si la variable dépendante représente un taux et que le dénominateur du taux est une valeur fixe telle que les ventes mensuelles ou le nombre de cas de cancer sur 10 000 personnes parmi la population totale. Le modèle Count (Total) suppose que la moyenne et la variance de la variable dépendante sont identiques et que les valeurs de la variable dépendante ne peuvent pas être négatives, ni contenir de décimale.

    Les valeurs des paramètres Dependent Variable (Variable dépendante) et Explanatory Variable (Variable explicative) doivent être des champs numériques contenant une plage de valeurs. Cet outil ne peut pas fonctionner si les variables ont toutes la même valeur (lorsque toutes les valeurs d’un champ sont définies sur 9,0 par exemple).

  • Les entités qui comportent une ou plusieurs valeurs nulles ou encore des valeurs de chaîne vide dans les champs de prévision ou explicatifs seront exclues de la sortie. Vous pouvez modifier les valeurs à l’aide de l’outil Calculer un champ, si nécessaire.

  • Passez en revue les surestimations et sous-estimations évidentes dans les valeurs résiduelles de régression pour identifier des informations permettant de déterminer s’il manque des variables dans votre modèle de régression.

  • Vous pouvez utiliser le modèle de régression qui a été créé pour faire des prévisions pour les autres entités. Pour effectuer ces prévisions, chaque entité de prévision doit posséder des valeurs pour chaque variable explicative fournie. Si les noms des champs des paramètres Input Features (Entités en entrée) et Prediction Locations (Emplacements des prévisions) ne concordent pas, une variable correspondant au paramètre est fournie. En appariant les variables explicatives, les champs des paramètres Input Features (Entités en entrée) et Input Prediction Features (Entités de prévision en entrée) doivent être du même type (les champs doubles doivent être appariés à des champs doubles, par exemple).

  • L’implémentation GeoAnalytics de la régression linéaire généralisée possède les limites suivantes :

    • Il s’agit d'un modèle de régression global qui ne tient pas compte de la distribution spatiale des données.
    • L'analyse ne s'applique pas au test de l’outil d'auto-corrélation spatiale (Moran I) sur les résidus.
    • Les jeux de classes d’entités (points, lignes, polygones et tables) sont pris en charge en entrée ; les rasters ne sont pas pris en charge.
    • Vous ne pouvez pas classer les valeurs en plusieurs classes.

  • Cet outil de géotraitement est mis en œuvre par ArcGIS GeoAnalytics Server. L’analyse est réalisée sur le GeoAnalytics Server et les résultats sont stockés dans votre contenu dans ArcGIS Enterprise.

  • Lors de l’exécution des outils GeoAnalytics Server, l’analyse est réalisée sur GeoAnalytics Server. Pour des performances optimales, GeoAnalytics Server doit pouvoir accéder aux données via les couches d’entités hébergées sur votre portail ArcGIS Enterprise ou les partages de fichiers Big Data. Les données qui ne sont pas locales pour GeoAnalytics Server sont transférées sur GeoAnalytics Server avant le début de l’analyse. Autrement dit, l’exécution d’un outil prend plus de temps et, dans certains cas, le transfert des données entre ArcGIS Pro et GeoAnalytics Server peut échouer. Le seuil d’échec dépend aussi bien des débits du réseau que de la taille et de la complexité des données. Il est par conséquent recommandé de toujours partager les données ou créer un partage de fichiers Big Data.

    Pour en savoir plus sur le partage des données dans votre portail.

    Pour en savoir pus sur la création d'un partage de fichiers Big Data via ArcGIS Server Manager

Paramètres

ÉtiquetteExplicationType de données
Entités en entrée

Couche qui contient les variables dépendantes et indépendantes.

Record Set
Variable dépendante

Champ numérique contenant les valeurs observées à modéliser.

Field
Type de modèle

Précise le type de données à modéliser.

  • Continu (gaussien) — Le type dependent_variable est continu. Le modèle gaussien sera utilisé et l’outil effectuera une régression des moindres carrés ordinaires. Il s’agit de l’option par défaut.
  • Binaire (logistique) — Le type dependent_variable représente la présence ou l’absence. Il peut s’agir de 1 et de 0 conventionnels, ou de valeurs de chaîne appariées à 0 ou 1 dans le paramètre Match Explanatory Variables (Apparier les variables explicatives). Le modèle de régression logistique sera utilisé.
  • Total (Poisson) —Le type dependent_variable est discret et représente des événements, par exemple le nombre de délits, des maladies ou des accidents de la circulation. Le modèle de régression Poisson sera utilisé.
  • Continu (gaussien) — Le type Dependent Variable (Variable dépendante) est continu. Le modèle gaussien sera utilisé et l’outil effectuera une régression des moindres carrés ordinaires. Il s’agit de l’option par défaut.
  • Binaire (logistique) — Le type Dependent Variable (Variable dépendante) représente la présence ou l’absence. Il peut s’agir de 1 et de 0 conventionnels, ou de valeurs de chaîne appariées à 0 ou 1 dans le paramètre explanatory_variables_to_match. Le modèle de régression logistique sera utilisé.
  • Total (Poisson) —Le type Dependent Variable (Variable dépendante) est discret et représente des événements, par exemple le nombre de délits, des maladies ou des accidents de la circulation. Le modèle de régression Poisson sera utilisé.
String
Variables explicatives

Liste des champs qui représentent des variables explicatives indépendantes dans le modèle de régression.

Field
Nom des entités en sortie

Nom de la classe d’entités qui sera créée contenant des estimations de variable dépendante et les valeurs résiduelles.

String
Générer la table de coefficients
(Facultatif)

Spécifie si une table en sortie comportant des coefficients (valeurs booléennes) est générée.

  • Activé : une table de coefficients est générée.
  • Désactivé : une table de coefficients n’est pas générée. Il s’agit de l’option par défaut.
Boolean
Entités de prévision en entrée
(Facultatif)

Couche contenant des entités qui représentent des localisations pour lesquelles des estimations seront calculées. Chaque entité dans ce jeu de données doit contenir des valeurs pour toutes les variables explicatives spécifiées. La variable dépendante pour ces entités sera estimée à l’aide du modèle calibré pour les données de la couche en entrée.

Record Set
Apparier les variables explicatives
(Facultatif)

Apparie les variables explicatives du paramètre Input Prediction Features (Entités de prévision en entrée) aux variables explicatives correspondantes du paramètre Input Features (Entités en entrée).

Value Table
Apparier les variables dépendantes
(Facultatif)

Deux chaînes représentant les valeurs à apparier à 0 (absence) et à 1 (présence) pour la représentation binaire. Par défaut, 0 et 1 sont utilisés. Par exemple, pour prévoir une arrestation avec les valeurs de champ Arrestation et Pas d’arrestation, vous devez saisir Pas d’arrestation pour False Value (0) et Arrestation pour True Value (1).

Value Table
Stockage des données
(Facultatif)

Indique le ArcGIS Data Store dans laquelle la sortie est enregistrée. La valeur par défaut est Stockage de Big Data spatio-temporelles. Tous les résultats stockés dans un répertoire de données Big Data spatio-temporelles seront stockés en WGS84. Les résultats stockés dans un répertoire de données relationnelles conservent leur système de coordonnées.

  • Spatiotemporal Big Data Store —La sortie sera stockée dans un stockage de Big Data spatio-temporelles. Il s’agit de l’option par défaut.
  • Stockage des données relationnelles —La sortie sera stockée dans un data store relationnel.
String

Sortie dérivée

ÉtiquetteExplicationType de données
Sortie

Service d’entités en sortie destiné à recevoir des estimations de variable dépendante pour chaque entité en entrée.

Jeu d'enregistrements
Entités prévues en sortie

Couche en sortie contenant les variables en entrée et les valeurs explicatives prévisionnelles.

Jeu d’enregistrements
Table de coefficients

Table en sortie avec valeurs de coefficients.

Jeu d'enregistrements

arcpy.geoanalytics.GeneralizedLinearRegression(input_features, dependent_variable, model_type, explanatory_variables, output_features_name, {generate_coefficient_table}, {input_features_to_predict}, {explanatory_variables_to_match}, {dependent_variable_mapping}, {data_store})
NomExplicationType de données
input_features

Couche qui contient les variables dépendantes et indépendantes.

Record Set
dependent_variable

Champ numérique contenant les valeurs observées à modéliser.

Field
model_type

Précise le type de données à modéliser.

  • CONTINUOUS Le type dependent_variable est continu. Le modèle gaussien sera utilisé et l’outil effectuera une régression des moindres carrés ordinaires. Il s’agit de l’option par défaut.
  • BINARY Le type dependent_variable représente la présence ou l’absence. Il peut s’agir de 1 et de 0 conventionnels, ou de valeurs de chaîne appariées à 0 ou 1 dans le paramètre Match Explanatory Variables (Apparier les variables explicatives). Le modèle de régression logistique sera utilisé.
  • COUNTLe type dependent_variable est discret et représente des événements, par exemple le nombre de délits, des maladies ou des accidents de la circulation. Le modèle de régression Poisson sera utilisé.
String
explanatory_variables
[explanatory_variables,...]

Liste des champs qui représentent des variables explicatives indépendantes dans le modèle de régression.

Field
output_features_name

Nom de la classe d’entités qui sera créée contenant des estimations de variable dépendante et les valeurs résiduelles.

String
generate_coefficient_table
(Facultatif)

Spécifie si une table en sortie comportant des coefficients (valeurs booléennes) est générée.

  • CREATE_TABLEUne table de coefficients est générée.
  • NO_TABLEUne table de coefficients n’est pas générée. Il s’agit de l’option par défaut.
Boolean
input_features_to_predict
(Facultatif)

Couche contenant des entités qui représentent des localisations pour lesquelles des estimations seront calculées. Chaque entité dans ce jeu de données doit contenir des valeurs pour toutes les variables explicatives spécifiées. La variable dépendante pour ces entités sera estimée à l’aide du modèle calibré pour les données de la couche en entrée.

Record Set
explanatory_variables_to_match
[[Field from Prediction Locations, Field from Input Features],...]
(Facultatif)

Apparie les variables explicatives du paramètre input_features_to_predict et les variables explicatives correspondantes du paramètre input_features, par exemple, [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]].

Value Table
dependent_variable_mapping
[dependent_variable_mapping,...]
(Facultatif)

Deux chaînes représentant les valeurs à apparier à 0 (absence) et à 1 (présence) pour la représentation binaire. Par défaut, 0 et 1 sont utilisés. Par exemple, pour prévoir une arrestation avec les valeurs de champ Arrestation et Pas d’arrestation, vous devez saisir Pas d’arrestation pour False Value (0) (Valeur fausse [0]) et Arrestation pour True Value (1) (Valeur vraie [1]).

Value Table
data_store
(Facultatif)

Indique le ArcGIS Data Store dans laquelle la sortie est enregistrée. La valeur par défaut est SPATIOTEMPORAL_DATA_STORE. Tous les résultats stockés dans un répertoire de données Big Data spatio-temporelles seront stockés en WGS84. Les résultats stockés dans un répertoire de données relationnelles conservent leur système de coordonnées.

  • SPATIOTEMPORAL_DATA_STORELa sortie sera stockée dans un stockage de Big Data spatio-temporelles. Il s’agit de l’option par défaut.
  • RELATIONAL_DATA_STORELa sortie sera stockée dans un data store relationnel.
String

Sortie dérivée

NomExplicationType de données
output

Service d’entités en sortie destiné à recevoir des estimations de variable dépendante pour chaque entité en entrée.

Jeu d'enregistrements
output_predicted_features

Couche en sortie contenant les variables en entrée et les valeurs explicatives prévisionnelles.

Jeu d’enregistrements
coefficient_table

Table en sortie avec valeurs de coefficients.

Jeu d'enregistrements

Exemple de code

Exemple d’utilisation de l’outil GeneralizedLinearRegression (script autonome)

Le script autonome suivant illustre l’utilisation de l’outil GeneralizedLinearRegression.

Dans ce script, vous créez un modèle et prévoyez si une arrestation a été effectuée pour des crimes donnés.

# Name: GeneralizedLinearRegression.py
# Description: Run GLR on crime data and predict if an arrest was made for a crime reporting.
#
# Requirements: ArcGIS GeoAnalytics Server
# Import system modules
import arcpy
# Set local variables
trainingDataset = "https://analysis.org.com/server/rest/services/Hosted/old_crimes/FeatureServer/0"
predictionDataset = "https://analysis.org.com/server/rest/services/Hosted/new_crimes/FeatureServer/0"
outputTrainingName = "training"
# Execute GLR
arcpy.geoanalytics.GeneralizedLinearRegression(
    trainingDataset, "ArrestMade", "BINARY", "CRIME_TYPE; WARD; DAY_OF_MONTH", outputTrainingName, 
    "NO_TABLE", predictionDataset, "CRIME_TYPE CRIME_TYPE;WARD WARD;DAY_OF_MONTH DAY_OF_MON", 
    "Arrest NoArrest", "SPATIOTEMPORAL_DATA_STORE")

Environnements

Système de coordonnées en sortie

Système de coordonnées qui sera utilisé pour l'analyse. L’analyse sera réalisée dans le système de coordonnées en entrée, à moins que ce paramètre en spécifie un autre. Pour les GeoAnalytics Tools, les résultats finaux seront stockés dans le stockage des données spatio-temporelles dans WGS84.

Informations de licence

  • Basic: Nécessite ArcGIS GeoAnalytics Server
  • Standard: Nécessite ArcGIS GeoAnalytics Server
  • Advanced: Nécessite ArcGIS GeoAnalytics Server

Rubriques connexes