Étiquette | Explication | Type de données |
Rasters en entrée | Jeux de données raster monobandes, multidimensionnels ou multibandes, ou jeux de données mosaïque contenant des variables explicatives. | Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String |
Raster ou points cibles | Raster ou classe d’entités ponctuelles contenant les données de la variable cible (variable dépendante). | Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service |
Fichier de définition de régression en sortie | Fichier au format JSON avec une extension .ecd qui contient des informations attributaires, des statistiques ou d’autres informations pour le classificateur. | File |
Champ de valeur cible (Facultatif) | Nom de champ des informations à modéliser dans la classe d’entités ponctuelles cible ou le jeu de données raster. | Field |
Champ de dimension cible (Facultatif) | Champ de date ou numérique dans la classe d’entités ponctuelles en entrée qui définit les valeurs de dimension. | Field |
Dimension du raster (Facultatif) | Nom de la dimension du raster multidimensionnel en entrée (variables explicatives) qui fait référence à la dimension dans les données cibles. | String |
Table d’importance en sortie (Facultatif) | Table contenant des informations décrivant l’importance de chaque variable explicative utilisée dans le modèle. Un nombre plus élevé indique que la variable correspondante est davantage corrélée à la variable prédite et aura une plus grande part dans la prédiction. Les valeurs sont comprises entre 0 et 1 et la somme de toutes les valeurs est égale à 1. | Table |
Nombre maximum d'arbres (Facultatif) | Nombre maximal d'arbres dans la forêt. L’augmentation du nombre d’arbres entraîne des taux de précision accrus, même si cette amélioration se stabilise. Le nombre d'arbres augmente de manière linéaire le temps de traitement. La valeur par défaut est 50. | Long |
Profondeur d'arbre maximum (Facultatif) | Profondeur maximale de chaque arbre dans la forêt. La profondeur détermine le nombre de règles que chaque arbre peut créer pour parvenir à une décision. Les arbres ne peuvent pas dépasser la profondeur définie par ce paramètre. La valeur par défaut est 30. | Long |
Nombre maximum d’échantillons (Facultatif) | Nombre maximal d’échantillons à utiliser pour l’analyse de régression. Lorsque la valeur est inférieure ou égale à 0, le système utilise tous les échantillons du raster cible en entrée ou de la classe d’entités ponctuelles pour entraîner le modèle de régression. La valeur par défaut est de 10 000. | Long |
Nombre moyen de points par cellule (Facultatif) | Spécifie si la moyenne est calculée lorsque plusieurs points d’entraînement entrent dans une cellule. Ce paramètre est applicable uniquement lorsque la cible en entrée est une classe d’entités ponctuelles.
| Boolean |
Pourcentage d’échantillons à tester (Facultatif) | Pourcentage des points de test à utiliser pour rechercher des erreurs. L’outil recherche trois types d’erreurs : les erreurs sur les points d’entraînement, les erreurs sur les points de test et les erreurs sur les points de localisation test. La valeur par défaut est 10. | Double |
Nuages de points en sortie (PDF ou HTML) (Facultatif) | Nuages de points en sortie au format PDF ou HTML. La sortie inclut des nuages de points des données d’entraînement, des données de test et des données test de localisation. | File |
Entités d’échantillon en sortie (Facultatif) | Classe d’entités en sortie qui contient les valeurs cibles et les valeurs prédites pour les points d’entraînement, les points de test et les points de test de localisation. | Feature Class |
Disponible avec une licence Image Analyst.
Synthèse
Modélise la relation entre des variables explicatives (variables indépendantes) et un jeu de données cible (variable dépendante).
Utilisation
L’outil peut servir à l’entraînement avec différents types de données. Les rasters en entrée (variables explicatives) peuvent être un seul raster ou une liste de rasters, une seule bande ou une multibande dans laquelle chaque bande est une variable explicative, un raster multidimensionnel dans lequel les valeurs du raster sont les variables explicatives ou une combinaison de plusieurs types de données.
Un jeu de données mosaïque en entrée est traité comme un jeu de données raster (non comme une collection de rasters). Pour utiliser une collection de rasters en entrée, générez des informations multidimensionnelles pour le jeu de données mosaïque et utilisez le résultat en entrée.
La cible en entrée peut être une classe d’entités ou un raster. Lorsque la cible est une entité, la valeur Champ de valeur cible doit être définie sur un champ numérique.
Si l’entité cible en entrée comporte un champ de date ou un champ qui définit la dimension, spécifiez une valeur à la fois pour le paramètre Champ de valeur cible et pour le paramètre Champ de dimension cible.
La cible raster en entrée peut également être un raster multidimensionnel.
Si la cible en entrée est multidimensionnelle, les variables explicatives en entrée correspondantes doivent comporter au moins un raster multidimensionnel. Celles qui intersectent les dimensions cibles sont utilisées pour l’entraînement. Les autres rasters sans dimension dans la liste sont appliqués à toutes les dimensions. Si aucune variable explicative n’intersecte ou si elles sont toutes sans dimension, aucun entraînement n’a lieu.
Si la cible en entrée est sans dimension et que les variables explicatives ont une dimension, la première tranche est utilisée.
Si la sortie est un raster multidimensionnel, utilisez le format CRF. Si la sortie est un raster sans dimension, il peut être stocké dans n’importe quel format raster en sortie.
Les tailles de cellule des variables explicatives en entrée ont un impact sur le résultat d’entraînement et le délai de traitement. Par défaut, l’outil utilise la taille de cellule du premier raster explicatif. Vous pouvez changer ce comportement à l’aide du paramètre d’environnement Taille de cellule. En règle générale, l’entraînement avec une taille de cellule inférieure à celle de vos données n’est pas recommandé.
La valeur du paramètre Table d’importance en sortie permet d’analyser l’importance de chaque variable explicative contribuant à prédire la variable cible.
Sélectionnez le paramètre Pourcentage d’échantillons à tester pour calculer trois types d’erreurs : les erreurs sur les points d’entraînement, les erreurs sur les points de test et les erreurs sur les points de localisation test. Par exemple, si la valeur de pourcentage est définie sur 10, 10 pour cent des points d’échantillon d’entraînement sont utilisés comme référence en fonction de la localisation. Ces points de référence permettent de mesurer l’erreur d’interpolation dans l’espace : les points de localisation test. Les points d’échantillon d’entraînement restants sont divisés en deux groupes : un groupe contenant 90 pour cent des points d’échantillon d’entraînement et l’autre groupe contenant 10 pour cent des points d’échantillon d’entraînement. Le groupe contenant 90 pour cent des points permet d’entraîner le modèle de régression et le groupe contenant 10 pour cent des points est utilisé dans des tests de déduction de la précision.
La sélection du paramètre Pourcentage d’échantillons à tester génère un nuage de points des valeurs d’échantillon d’entraînement de référence et prédites. Le coefficient de détermination (R-Carré) est également calculé comme une estimation de la qualité de l’ajustement.
Pour créer un nuage de points de valeurs prédites et de valeurs d’entraînement, vous pouvez utiliser l’outil Échantillon pour extraire les valeurs prédites des rasters prédits. Réalisez ensuite une jointure tabulaire avec le champ LocationID dans la sortie de l’outil Échantillon et le champ ObjectID dans la classe du champ cible. Si l’entrée cible est un raster, vous pouvez générer des points aléatoires et extraire des valeurs à la fois du raster cible en entrée et du raster de prédiction.
Paramètres
TrainRandomTreesRegressionModel(in_rasters, in_target_data, out_regression_definition, {target_value_field}, {target_dimension_field}, {raster_dimension}, {out_importance_table}, {max_num_trees}, {max_tree_depth}, {max_samples}, {average_points_per_cell}, {percent_testing}, {out_scatterplots}, {out_sample_features})
Nom | Explication | Type de données |
in_rasters [in_rasters,...] | Jeux de données raster monobandes, multidimensionnels ou multibandes, ou jeux de données mosaïque contenant des variables explicatives. | Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String |
in_target_data | Raster ou classe d’entités ponctuelles contenant les données de la variable cible (variable dépendante). | Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service |
out_regression_definition | Fichier au format JSON avec une extension .ecd qui contient des informations attributaires, des statistiques ou d’autres informations pour le classificateur. | File |
target_value_field (Facultatif) | Nom de champ des informations à modéliser dans la classe d’entités ponctuelles cible ou le jeu de données raster. | Field |
target_dimension_field (Facultatif) | Champ de date ou numérique dans la classe d’entités ponctuelles en entrée qui définit les valeurs de dimension. | Field |
raster_dimension (Facultatif) | Nom de la dimension du raster multidimensionnel en entrée (variables explicatives) qui fait référence à la dimension dans les données cibles. | String |
out_importance_table (Facultatif) | Table contenant des informations décrivant l’importance de chaque variable explicative utilisée dans le modèle. Un nombre plus élevé indique que la variable correspondante est davantage corrélée à la variable prédite et aura une plus grande part dans la prédiction. Les valeurs sont comprises entre 0 et 1 et la somme de toutes les valeurs est égale à 1. | Table |
max_num_trees (Facultatif) | Nombre maximal d'arbres dans la forêt. L’augmentation du nombre d’arbres entraîne des taux de précision accrus, même si cette amélioration se stabilise. Le nombre d'arbres augmente de manière linéaire le temps de traitement. La valeur par défaut est 50. | Long |
max_tree_depth (Facultatif) | Profondeur maximale de chaque arbre dans la forêt. La profondeur détermine le nombre de règles que chaque arbre peut créer pour parvenir à une décision. Les arbres ne peuvent pas dépasser la profondeur définie par ce paramètre. La valeur par défaut est 30. | Long |
max_samples (Facultatif) | Nombre maximal d’échantillons à utiliser pour l’analyse de régression. Lorsque la valeur est inférieure ou égale à 0, le système utilise tous les échantillons du raster cible en entrée ou de la classe d’entités ponctuelles pour entraîner le modèle de régression. La valeur par défaut est de 10 000. | Long |
average_points_per_cell (Facultatif) | Spécifie si la moyenne est calculée lorsque plusieurs points d’entraînement entrent dans une cellule. Ce paramètre est applicable uniquement lorsque la cible en entrée est une classe d’entités ponctuelles.
| Boolean |
percent_testing (Facultatif) | Pourcentage des points de test à utiliser pour rechercher des erreurs. L’outil recherche trois types d’erreurs : les erreurs sur les points d’entraînement, les erreurs sur les points de test et les erreurs sur les points de localisation test. La valeur par défaut est 10. | Double |
out_scatterplots (Facultatif) | Nuages de points en sortie au format PDF ou HTML. La sortie inclut des nuages de points des données d’entraînement, des données de test et des données test de localisation. | File |
out_sample_features (Facultatif) | Classe d’entités en sortie qui contient les valeurs cibles et les valeurs prédites pour les points d’entraînement, les points de test et les points de test de localisation. | Feature Class |
Exemple de code
Ce script de fenêtre Python modélise la relation entre des variables explicatives et un jeu de données cible.
# Import system modules
import arcpy
from arcpy.ia import *
# Check out the ArcGIS Image Analyst extension license
arcpy.CheckOutExtension("ImageAnalyst")
# Execute
arcpy.ia.TrainRandomTreesRegressionModel("weather_variables.crf";"dem.tif", "pm2.5.shp", r"c:\data\pm2.5_trained.ecd", "mean_pm2.5", "date_collected", "StdTime”, r"c:\data\pm2.5_importanc.csv", 50, 30, 10000)
Ce script autonome Python modélise la relation entre des variables explicatives et un jeu de données cible.
# Import system modules
import arcpy
from arcpy.ia import *
# Check out the ArcGIS Image Analyst extension license
arcpy.CheckOutExtension("ImageAnalyst")
# Define input parameters
in_weather_variables = "C:/Data/ClimateVariables.crf"
in_dem_varaible = "C:/Data/dem.tif"
in_target = "C:/Data/pm2.5_observations.shp"
target_value_field = "mean_pm2.5"
Target_date_field = "date_collected"
Raster_dimension = “StdTime”
out_model_definition = "C:/Data/pm2.5_trained_model.ecd"
Out_importance_table = "C:/Data/pm2.5_importance_table.csv"
max_num_trees = 50
max_tree_depth = 30
max_num_samples = 10000
# Execute - train with random tree regression model
arcpy.ia.TrainRandomTreesRegressionModel(in_weather_variables;in_dem_varaible, in_target, out_model_definition, target_value_field, Target_date_field, Raster_dimension, max_num_trees, max_tree_depth, max_num_samples)
Environnements
Informations de licence
- Basic: Nécessite Image Analyst
- Standard: Nécessite Image Analyst
- Advanced: Nécessite Image Analyst
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?