Entrenar modelo de regresión de árboles aleatorios (Image Analyst)

Disponible con licencia de Image Analyst.

Resumen

Modela la relación entre variables explicativas (variables independientes) y un dataset de destino (variable dependiente).

Uso

  • La herramienta se puede usar para entrenar con diversos tipos de datos. Los rásteres de entrada (variables explicativas) pueden ser un ráster o una lista de rásteres, una banda única o una multibanda en la que cada banda sea una variable explicativa, un ráster multidimensional en el que las variables del ráster sean las variables explicativas o una combinación de tipos de datos.

  • Un dataset de mosaico de entrada se tratará como un dataset ráster (no como un conjunto de rásteres). Para usar un conjunto de rásteres como entrada, genere información multidimensional para el dataset de mosaico y utilice el resultado como entrada.

  • El destino de entrada puede ser un ráster o una clase de entidad. Cuando el destino es una entidad, el valor Campo de valor de destino se debe establecer en un campo numérico.

  • Si la entidad de destino de entrada tiene un campo de fecha o un campo que define la dimensión, especifique un valor para los parámetros Campo de valor de destino y Campo de dimensión de destino.

  • El destino del ráster de entrada también puede ser un ráster multidimensional.

  • Si el destino de entrada es multidimensional, las variables explicativas de entrada correspondientes deben tener al menos un ráster multidimensional. Las que intersecan las dimensiones de destino se utilizarán en el entrenamiento; los demás rásteres sin dimensiones de la lista se aplicarán a todas las dimensiones. Si no se intersecan variables explicativas o no tienen dimensiones, no se producirá ningún entrenamiento.

  • Si el destino de entrada no tiene dimensiones y las variables explicativas tienen dimensión, se utilizará el primer segmento.

  • Si la salida es un ráster multidimensional, utilice el formato CRF. Si la salida es un ráster sin dimensión, se puede almacenar en cualquier formato de ráster de salida.

  • Los tamaños de celda de las variables explicativas de entrada afectarán al resultado de entrenamiento y al tiempo de procesamiento. De forma predeterminada, la herramienta utiliza el tamaño de celda del primer ráster explicativo; puede cambiarlo con la configuración del entorno Tamaño de celda. En general, no se recomienda entrenar con un tamaño de celda inferior al de sus datos.

  • El valor del parámetro Tabla de importancia de salida se puede utilizar para analizar la importancia de cada variable explicativa que contribuye a predecir el destino de la variable.

  • Compruebe el parámetro Porcentaje de muestras para evaluación para calcular tres tipos de errores: errores en los puntos de entrenamiento, errores en los puntos de prueba y errores en los puntos de ubicación de prueba. Por ejemplo, si el valor porcentual está establecido en 10, se utilizará el 10 por ciento de los puntos de muestra de entrenamiento como referencia basada en la ubicación. Estos puntos de referencia se utilizarán para medir el error de la interpolación en el espacio, denominado puntos de ubicación de prueba. Los puntos de muestra de entrenamiento restantes se dividirán en dos grupos: un grupo, que contiene el 90 por ciento de los puntos de muestra de entrenamiento y el otro grupo que contiene el 10 por ciento de los puntos de muestra de entrenamiento. El grupo que contiene el 90 por ciento de los puntos se utilizará para entrenar el modelo de regresión y el grupo que contiene el 10 por ciento de los puntos se utilizará para obtener la exactitud.

  • Al activar el parámetro Porcentaje de muestras para evaluación, se generará un gráfico de dispersión de los valores de muestras de entrenamiento previstos frente a referencia. El coeficiente de determinación (R cuadrado) también se calcula como una estimación de la idoneidad de ajuste.

  • Para crear un gráfico de dispersión de valores previstos y valores de entrenamiento, puede usar la herramienta Muestra para extraer los valores previstos de los rásteres previstos. A continuación, realice una unión de tabla utilizando el campo LocationID en la salida de la herramienta Muestra y el campo ObjectID en la clase de campo de destino. Si la entrada de destino es un ráster, puede generar puntos aleatorios y extraer valores tanto del ráster de destino de entrada como del ráster de predicción.

Parámetros

EtiquetaExplicaciónTipo de datos
Rásteres de entrada

Datasets ráster de banda única, multidimensional o multibanda o datasets de mosaico que contienen variables explicativas.

Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String
Puntos o ráster de destino

La clase de entidad de punto o ráster que contiene los datos de la variable de destino (variable dependiente).

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service
Archivo de definición de regresión de salida

Archivo de formato JSON con extensión .ecd que contiene información de atributos, estadísticas u otra información para el clasificador.

File
Campo de valor de destino
(Opcional)

Nombre de campo de la información que se va a modelar en la clase de entidad de punto o dataset ráster de destino.

Field
Campo de dimensión de destino
(Opcional)

Campo de fecha o numérico de la clase de entidad de punto de entrada que define los valores de dimensión.

Field
Dimensión de ráster
(Opcional)

Nombre de dimensión del ráster multidimensional de entrada (variables explicativas) que se vincula a la dimensión de los datos de destino.

String
Tabla de importancia de salida
(Opcional)

Tabla que contiene información que describe la importancia de cada variable explicativa utilizada en el modelo. Un número mayor indica que la variable correspondiente está más correlacionada con la variable prevista y aportará más a la predicción. Los valores varían entre 0 y 1, y la suma de todos los valores es igual a 1.

Table
Número máximo de árboles
(Opcional)

El número máximo de árboles en el bosque. Al aumentar el número de árboles se obtendrán tasas de precisión más elevadas, aunque esta mejora se estabilizará. El número de árboles aumenta el tiempo de procesamiento de forma lineal. El valor predeterminado es 50.

Long
Profundidad máxima de árbol
(Opcional)

La profundidad máxima de cada árbol del bosque. La profundidad determina el número de reglas que puede crear cada árbol, lo que resulta en una decisión. Los árboles no profundizarán más allá de este valor. El valor predeterminado es 30.

Long
Número máximo de muestras
(Opcional)

Número máximo de muestras que se utilizará en el análisis de regresión. Un valor igual o menor que 0 significa que el sistema utilizará todas las muestras del ráster de destino de entrada o la clase de entidad de punto para entrenar el modelo de regresión. El valor predeterminado es 10.000.

Long
Promedio de puntos por celda
(Opcional)

Especifica si el promedio se calculará cuando varios puntos de entrenamiento caigan en una celda. Este parámetro solo se aplica cuando el destino de entrada es una clase de entidad de punto.

  • Desactivado: todos los puntos se utilizarán cuando varios puntos de entrenamiento caigan en una sola celda. Esta es la opción predeterminada.
  • Activado: se calculará el valor medio de los puntos de entrenamiento de una celda.

  • Conservar todos los puntosTodos los puntos se utilizarán cuando varios puntos de entrenamiento caigan en una sola celda. Esta es la opción predeterminada.
  • Promedio de puntos por celdaSe calculará el valor medio de los puntos de entrenamiento de una celda.
Boolean
Porcentaje de muestras para evaluación
(Opcional)

Porcentaje de puntos de prueba que se utilizará en la comprobación de errores. La herramienta comprueba si hay tres tipos de errores: errores en puntos de entrenamiento, errores en puntos de prueba y errores en puntos de ubicación de prueba. El valor predeterminado es 10.

Double
Gráficos de dispersión de salida (pdf o html)
(Opcional)

Gráficos de dispersión de salida en formato PDF o HTML. La salida incluirá gráficos de dispersión de datos de entrenamiento, datos de prueba y datos de prueba de ubicación.

File
Entidades de muestra de salida
(Opcional)

Clase de entidad de salida que contendrá valores de destino y valores previstos para puntos de entrenamiento, puntos de prueba y puntos de prueba de ubicación.

Feature Class

TrainRandomTreesRegressionModel(in_rasters, in_target_data, out_regression_definition, {target_value_field}, {target_dimension_field}, {raster_dimension}, {out_importance_table}, {max_num_trees}, {max_tree_depth}, {max_samples}, {average_points_per_cell}, {percent_testing}, {out_scatterplots}, {out_sample_features})
NombreExplicaciónTipo de datos
in_rasters
[in_rasters,...]

Datasets ráster de banda única, multidimensional o multibanda o datasets de mosaico que contienen variables explicativas.

Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String
in_target_data

La clase de entidad de punto o ráster que contiene los datos de la variable de destino (variable dependiente).

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service
out_regression_definition

Archivo de formato JSON con extensión .ecd que contiene información de atributos, estadísticas u otra información para el clasificador.

File
target_value_field
(Opcional)

Nombre de campo de la información que se va a modelar en la clase de entidad de punto o dataset ráster de destino.

Field
target_dimension_field
(Opcional)

Campo de fecha o numérico de la clase de entidad de punto de entrada que define los valores de dimensión.

Field
raster_dimension
(Opcional)

Nombre de dimensión del ráster multidimensional de entrada (variables explicativas) que se vincula a la dimensión de los datos de destino.

String
out_importance_table
(Opcional)

Tabla que contiene información que describe la importancia de cada variable explicativa utilizada en el modelo. Un número mayor indica que la variable correspondiente está más correlacionada con la variable prevista y aportará más a la predicción. Los valores varían entre 0 y 1, y la suma de todos los valores es igual a 1.

Table
max_num_trees
(Opcional)

El número máximo de árboles en el bosque. Al aumentar el número de árboles se obtendrán tasas de precisión más elevadas, aunque esta mejora se estabilizará. El número de árboles aumenta el tiempo de procesamiento de forma lineal. El valor predeterminado es 50.

Long
max_tree_depth
(Opcional)

La profundidad máxima de cada árbol del bosque. La profundidad determina el número de reglas que puede crear cada árbol, lo que resulta en una decisión. Los árboles no profundizarán más allá de este valor. El valor predeterminado es 30.

Long
max_samples
(Opcional)

Número máximo de muestras que se utilizará en el análisis de regresión. Un valor igual o menor que 0 significa que el sistema utilizará todas las muestras del ráster de destino de entrada o la clase de entidad de punto para entrenar el modelo de regresión. El valor predeterminado es 10.000.

Long
average_points_per_cell
(Opcional)

Especifica si el promedio se calculará cuando varios puntos de entrenamiento caigan en una celda. Este parámetro solo se aplica cuando el destino de entrada es una clase de entidad de punto.

  • Desactivado: todos los puntos se utilizarán cuando varios puntos de entrenamiento caigan en una sola celda. Esta es la opción predeterminada.
  • Activado: se calculará el valor medio de los puntos de entrenamiento de una celda.

  • KEEP_ALL_POINTSTodos los puntos se utilizarán cuando varios puntos de entrenamiento caigan en una sola celda. Esta es la opción predeterminada.
  • AVERAGE_POINTS_PER_CELLSe calculará el valor medio de los puntos de entrenamiento de una celda.
Boolean
percent_testing
(Opcional)

Porcentaje de puntos de prueba que se utilizará en la comprobación de errores. La herramienta comprueba si hay tres tipos de errores: errores en puntos de entrenamiento, errores en puntos de prueba y errores en puntos de ubicación de prueba. El valor predeterminado es 10.

Double
out_scatterplots
(Opcional)

Gráficos de dispersión de salida en formato PDF o HTML. La salida incluirá gráficos de dispersión de datos de entrenamiento, datos de prueba y datos de prueba de ubicación.

File
out_sample_features
(Opcional)

Clase de entidad de salida que contendrá valores de destino y valores previstos para puntos de entrenamiento, puntos de prueba y puntos de prueba de ubicación.

Feature Class

Muestra de código

Ejemplo 1 de TrainRandomTreesRegressionModel (ventana de Python)

Este script de la ventana de Python modela la relación entre las variables explicativas y un dataset de destino.

# Import system modules 
import arcpy 
from arcpy.ia import * 

# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 

# Execute  
arcpy.ia.TrainRandomTreesRegressionModel("weather_variables.crf";"dem.tif", "pm2.5.shp", r"c:\data\pm2.5_trained.ecd",  "mean_pm2.5", "date_collected", "StdTime”,  r"c:\data\pm2.5_importanc.csv", 50, 30, 10000)
Ejemplo 2 de TrainRandomTreesRegressionModel (script independiente)

Este script independiente de Python modela la relación entre las variables explicativas y un dataset de destino.

# Import system modules 

import arcpy 
from arcpy.ia import * 

# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 

# Define input parameters 
in_weather_variables = "C:/Data/ClimateVariables.crf" 
in_dem_varaible = "C:/Data/dem.tif" 
in_target = "C:/Data/pm2.5_observations.shp" 
target_value_field = "mean_pm2.5" 
Target_date_field = "date_collected" 
Raster_dimension = “StdTime” 
out_model_definition = "C:/Data/pm2.5_trained_model.ecd" 
Out_importance_table = "C:/Data/pm2.5_importance_table.csv" 
max_num_trees = 50 
max_tree_depth = 30 
max_num_samples = 10000 

# Execute - train with random tree regression model 
arcpy.ia.TrainRandomTreesRegressionModel(in_weather_variables;in_dem_varaible, in_target, out_model_definition,  target_value_field, Target_date_field, Raster_dimension, max_num_trees, max_tree_depth, max_num_samples)

Información de licenciamiento

  • Basic: Requiere Image Analyst
  • Standard: Requiere Image Analyst
  • Advanced: Requiere Image Analyst

Temas relacionados