Entrenar un modelo de aprendizaje profundo (Image Analyst)

Disponible con licencia de Image Analyst.

Resumen

Entrena un modelo de aprendizaje profundo utilizando la salida de la herramienta Exportar datos de entrenamiento para aprendizaje profundo.

Uso

  • Esta herramienta entrena un modelo de aprendizaje profundo con marcos de aprendizaje profundo.

  • Para configurar su equipo para usar marcos de aprendizaje profundo en ArcGIS Pro, consulte Instalar marcos de aprendizaje profundo para ArcGIS.

  • Si va a entrenar modelos en un entorno sin conexión, consulte Instalación adicional para el entorno sin conexión para obtener más información.

  • Esta herramienta también se puede utilizar para ajustar un modelo entrenado existente. Por ejemplo, un modelo existente entrenado para coches se puede ajustar para entrenar un modelo que identifique camiones.

  • Para ejecutar esta herramienta con la GPU, configure el entorno Tipo de procesador en GPU. Si tiene más de una GPU, especifique el entorno de Id. de GPU en su lugar.

  • Los datos de entrenamiento de entrada para esta herramienta deben incluir las carpetas de imágenes y etiquetas generadas con la herramienta Exportar datos de entrenamiento para aprendizaje profundo.

  • Para obtener información sobre los requisitos para ejecutar esta herramienta y los problemas que pueden presentarse, consulte Preguntas frecuentes sobre el aprendizaje profundo.

  • Para obtener más información sobre el aprendizaje profundo, consulte Aprendizaje profundo en ArcGIS Pro.

Parámetros

EtiquetaExplicaciónTipo de datos
Datos de entrenamiento de entrada

Carpetas que contienen los chips de imagen, las etiquetas y las estadísticas necesarias para entrenar el modelo. Esta es la salida de la herramienta Exportar datos de entrenamiento para aprendizaje profundo.

Se admiten varias carpetas de entrada cuando se cumplen las siguientes condiciones:

  • El tipo de formato de metadatos debe ser teselas clasificadas, teselas etiquetadas, teselas multietiquetadas, clases de objetos visuales Pascal o máscaras RCNN.
  • Todos los datos de entrenamiento deben tener el mismo formato de metadatos.
  • Todos los datos de entrenamiento deben tener el mismo número de bandas.
  • Todos los datos de entrenamiento deben tener el mismo tamaño de tesela.

Folder
Modelo de salida

Ubicación de la carpeta de salida en la que se almacenará el modelo entrenado.

Folder
Máximo de épocas
(Opcional)

Número máximo de épocas para las que se entrenará el modelo. Una época máxima de uno significa que el dataset se enviará hacia delante y hacia atrás a través de la red neuronal una vez. El valor predeterminado es 20.

Long
Tipo de modelo
(Opcional)

Especifica el tipo de modelo que se usará para entrenar el modelo de aprendizaje profundo.

  • Single Shot Detector (detección de objetos)Se utilizará la arquitectura Single Shot Detector (SSD) para entrenar el modelo. SSD se utiliza para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Pascal Visual Object Classes.
  • U-Net (clasificación de píxeles)Se utilizará la arquitectura U-Net para entrenar el modelo. U-Net se utiliza para la clasificación de píxeles.
  • Clasificador de entidad (clasificación de objetos)Se utilizará la arquitectura Clasificador de entidades para entrenar el modelo. Este se utiliza para la clasificación de objetos o imágenes.
  • Red de análisis de escenas piramidales (clasificación de píxeles)Se utilizará la arquitectura Red de análisis de escenas de pirámide (PSPNET) para entrenar el modelo. PSPNET se utiliza para la clasificación de píxeles.
  • RetinaNet (detección de objetos)Se utilizará la arquitectura RetinaNet para entrenar el modelo. RetinaNet se utiliza para detectar objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Pascal Visual Object Classes.
  • MaskRCNN (detección de objetos)Se utilizará la arquitectura MaskRCNN para entrenar el modelo. MaskRCNN se utiliza para la detección de objetos. Este enfoque se utiliza para la segmentación de instancias, que es una delineación precisa de los objetos de una imagen. Este tipo de modelo se puede utilizar para detectar huellas de edificios. Utiliza el formato de metadatos MaskRCNN para los datos de entrenamiento como entrada. Los valores de clase de los datos de entrenamiento de entrada deben comenzar en 1. Este tipo de modelo solo se puede entrenar con una GPU habilitada para CUDA.
  • YOLOv3 (detección de objetos)Se utilizará la arquitectura YOLOv3 para entrenar el modelo. YOLOv3 se utiliza para la detección de objetos.
  • DeepLabV3 (clasificación de píxeles)Se utilizará la arquitectura DeepLabV3 para entrenar el modelo. DeepLab se utiliza para la clasificación de píxeles.
  • FasterRCNN (detección de objetos)Se utilizará la arquitectura FasterRCNN para entrenar el modelo. FasterRCNN se utiliza para la detección de objetos.
  • Detector de bordes BDCN (clasificación de píxeles)Para entrenar el modelo se utilizará la arquitectura de red en cascada bidireccional (BDCN). El detector de bordes BDCN se utiliza para la clasificación de píxeles. Este enfoque es útil para mejorar la detección de los bordes de los objetos en diferentes escalas.
  • Detector de bordes HED (clasificación de píxeles)La arquitectura de detección de bordes anidados de forma holística (HED) se utilizará para entrenar el modelo. El detector de bordes HED se utiliza para la clasificación de píxeles. Este enfoque resulta útil en la detección bordes y de límites de objetos.
  • Extractor de carreteras de varias tareas (clasificación de píxeles)Se utilizará la arquitectura de extractor de carreteras de varias tareas para entrenar el modelo. El extractor de carreteras de varias tareas se utiliza para la clasificación de píxeles. Este enfoque resulta útil para la extracción de redes de carreteras de imágenes de satélite.
  • ConnectNet (clasificación de píxeles)La arquitectura ConnectNet se utilizará para entrenar el modelo. ConnectNet se utiliza para la clasificación de píxeles. Este enfoque resulta útil para la extracción de redes de carreteras de imágenes de satélite.
  • Pix2Pix (traducción de imágenes)Se utilizará la arquitectura Pix2Pix para entrenar el modelo. Pix2Pix se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto de modelo que genera imágenes de un tipo a otro. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Exportar teselas.
  • CycleGAN (traducción de imágenes)Se utilizará la arquitectura CycleGAN para entrenar el modelo. CycleGAN se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto de modelo que genera imágenes de un tipo a otro. Este enfoque es único porque las imágenes que se van a entrenar no tienen que superponerse. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos CycleGAN.
  • Superresolución (traducción de imágenes)Se utilizará la arquitectura Superresolución para entrenar el modelo. La superresolución se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto de modelo que aumenta la resolución y mejora la calidad de las imágenes. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Exportar teselas.
  • Detector de cambios (clasificación de píxeles)Se utilizará la arquitectura Detector de cambios para entrenar el modelo. El detector de cambios se utiliza para la clasificación de píxeles. Este enfoque crea un objeto de modelo que utiliza dos imágenes espaciotemporales para crear un ráster clasificado del cambio. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Teselas clasificadas.
  • Subtitulador de imágenes (traducción de imágenes)Se utilizará la arquitectura Subtitulador de imágenes para entrenar el modelo. El subtitulador de imágenes se utiliza para la traducción de imagen a texto. Este enfoque crea un modelo que genera subtítulos de texto para una imagen.
  • Siam Mask (seguimiento de objetos)Se utilizará la arquitectura Siam Mask para entrenar el modelo. Siam Mask se utiliza para detectar objetos en vídeos. El modelo se entrena utilizando fotogramas del vídeo y detecta las clases y los cuadros de delimitación de los objetos en cada fotograma. Los datos de entrenamiento de entrada de este tipo de modelo utilizan el formato de metadatos MaskRCNN.
  • MMDetection (detección de objetos)Se utilizará la arquitectura MMDetection para entrenar el modelo. MMDetection se utiliza para la detección de objetos. Los formatos de metadatos admitidos son rectángulos Pascal Visual Object Class y rectángulos KITTI.
  • MMSegmentation (clasificación de píxeles)Se utilizará la arquitectura MMSegmentation para entrenar el modelo. MMDetection se utiliza para la clasificación de píxeles. El formato de metadatos admitido es Teselas clasificadas.
  • Orden profundo (seguimiento de objetos)Se utilizará la arquitectura Orden profundo para entrenar el modelo. El orden profundo se utiliza para detectar objetos en vídeos. El modelo se entrena utilizando fotogramas del vídeo y detecta las clases y los cuadros de delimitación de los objetos en cada fotograma. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Imagenet. Mientras que Siam Mask es útil durante la realización de un seguimiento de un objeto, Orden profundo es útil para entrenar un modelo con el fin de realizar un seguimiento de varios objetos.
  • Pix2PixHD (traducción de imágenes)Se utilizará la arquitectura Pix2PixHD para entrenar el modelo. Pix2PixHD se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto de modelo que genera imágenes de un tipo a otro. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Exportar teselas.
  • MaX-DeepLab (segmentación panóptica)Se utilizará la arquitectura MaX-DeepLab para entrenar el modelo. Se utiliza MaX-DeepLab para la segmentación panóptica. Este enfoque crea un objeto de modelo que genera imágenes y entidades. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos de segmentación panóptica.
  • DETReg (detección de objetos)Se utilizará la arquitectura DETReg para entrenar el modelo. DETReg se utiliza para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan Pascal Visual Object Classes. Este tipo de modelo hace un uso intensivo de la GPU; requiere una GPU dedicada con al menos 16 GB de memoria para funcionar correctamente.
  • PSETAE (clasificación de píxeles)La arquitectura Pixel-Set Encoders and Temporal Self-Attention (PSETAE) se utilizará para entrenar el modelo para la clasificación de series temporales. Los datos preliminares utilizados para este método son datos multidimensionales. PSETAE se utiliza para la clasificación de píxeles.
String
Tamaño de lote
(Opcional)

Número de muestras de entrenamiento que se procesarán para el entrenamiento a la vez.

Aumentar el tamaño de lote puede mejorar el rendimiento de la herramienta; sin embargo, a medida que aumenta el tamaño del lote, se utiliza más memoria. Si se produce un error de memoria insuficiente, utilice un tamaño de lote más pequeño.

Long
Argumentos de modelo
(Opcional)

Los argumentos de función se definen en la clase de función ráster de Python. Aquí es donde enumera los argumentos y parámetros de aprendizaje profundo adicionales para experimentos y refinamiento, como un umbral de confianza para ajustar la sensibilidad. Los nombres de los argumentos se rellenan a partir de la lectura del módulo de Python.

Cuando elige Single Shot Detector (detección de objetos) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se rellena con los siguientes argumentos:

  • Cuadrículas: número de cuadrículas en las que se dividirá la imagen para el procesamiento. Establecer este argumento en 4 significa que la imagen se dividirá en 4 x 4 o 16 celdas de cuadrícula. Si no se especifica ningún valor, el valor óptimo de la cuadrícula se calculará en función de las imágenes de entrada.
  • Zoom: el número de niveles de zoom de cada celda de cuadrícula aumentará o se reducirá a escala. Establecer este argumento en 1 significa que todas las celdas de cuadrícula permanecerán en el mismo tamaño o nivel de zoom. Un nivel de zoom de 2 significa que todas las celdas de cuadrícula serán dos veces más grandes (acercado en 100 por ciento). Proporcionar una lista de niveles de zoom significa que todas las celdas de cuadrícula se escalarán utilizando todos los números de la lista. El valor predeterminado es 1,0.
  • Relaciones: lista de relaciones de aspecto que se van a utilizar para los cuadros de anclaje. En la detección de objetos, un cuadro de anclaje representa la ubicación, la forma y el tamaño ideales del objeto que se desea predecir. Establecer este argumento como [1,0, 1,0], [1,0, 0,5] significa que el cuadro de anclaje es un cuadrado (1:1) o un rectángulo en el que el lado horizontal es la mitad del tamaño del lado vertical (1:0,5). El valor predeterminado es [1,0, 1,0].
  • monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_loss y average_ precision. El valor predeterminado es valid_loss.

Si elige un modelo de clasificación de píxeles como Red de análisis de escenas piramidales (clasificación de píxeles), U-Net (clasificación de píxeles) o DeepLabv3 (clasificación de píxeles) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se completa con los siguientes argumentos:

  • use_net: especifica si el decodificador U-Net se utilizará para recuperar datos una vez que se haya completado la agrupación piramidal. El valor predeterminado es Verdadero. Este argumento es específico del modelo Red de análisis de escenas piramidales.
  • pyramid_sizes: número y tamaño de las capas de convolución que se aplicarán a las distintas subregiones. El valor predeterminado es [1,2,3,6]. Este argumento es específico del modelo Red de análisis de escenas piramidales.
  • Mezcla:: especifica si se utilizará el aumento de mezcla y la pérdida de mezcla. El valor predeterminado es Falso.
  • class_balancing: especifica si la pérdida inversa de la entropía cruzada se equilibrará con la frecuencia de píxeles por clase. El valor predeterminado es Falso.
  • focal_loss: especifica si se utilizará pérdida focal. El valor predeterminado es Falso.
  • ignore_classes: contiene la lista de valores de clase en los que el modelo no generará pérdidas.
  • monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_los y precisión. El valor predeterminado es valid_loss.

Cuando elige RetinaNet (detección de objetos) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se completa con los siguientes argumentos:

  • escalas: cantidad de niveles de escala que aumentará o se reducirá a escala cada celda. El valor predeterminado es [1, 0,8, 0,63].
  • relaciones: relación de aspecto del cuadro de anclaje. El valor predeterminado es 0,5,1,2.
  • monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_loss y average_ precision. El valor predeterminado es valid_loss.

Si elige Extractor de carreteras de varias tareas (clasificación de píxeles) o ConnectNet (clasificación de píxeles) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se rellena con los siguientes argumentos:

  • gaussian_thresh: define el umbral gaussiano, que establece el ancho de carretera requerido. El rango válido es 0,0 a 1,0. El valor predeterminado es 0,76.
  • orient_bin_size:: define el tamaño de bin para los ángulos de orientación. El valor predeterminado es 20.
  • orient_theta:: establece el ancho de la máscara de orientación. El valor predeterminado es 8.
  • mtl_model: establece el tipo de arquitectura que se utilizará para crear el modelo. Las opciones válidas son linknet o reloj de arena para arquitecturas basadas en Linknet o reloj de arena, respectivamente, y arquitecturas neuronales. El valor predeterminado es reloj de arena.
  • monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_los,precisión, miou y subdividir. El valor predeterminado es valid_loss.

Cuando elige Subtitulador de imágenes (traducción de imágenes) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se rellena con los siguientes argumentos:

  • decode_params: diccionario que controla cómo se ejecutará el subtitulador de imágenes. El valor predeterminado es {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.
  • chip_size: define el tamaño de imagen para entrenar el modelo. Las imágenes se recortan según el tamaño de chip especificado. Si el tamaño de la imagen es menor que el tamaño de chip, se utilizará el tamaño de imagen. El tamaño predeterminado es 224 píxeles.
  • monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_los,precisión,corpus_bleu y multi_label_fbeta. El valor predeterminado es valid_loss.
El argumento decode_params está compuesto por los seis parámetros siguientes:
  • embed_size:: define el tamaño de la integración. El valor predeterminado es 100 capas en la red neuronal.
  • hidden_size:: define el tamaño de la capa oculta. El valor predeterminado es 100 capas en la red neuronal.
  • attention_size:: define el tamaño intermedio de la capa de atención. El valor predeterminado es 100 capas en la red neuronal.
  • profesor_ force: establece la probabilidad de forzamiento del profesor. El forzamiento de los profesores es una estrategia para el entrenamiento de redes neuronales recurrentes. Utiliza la salida del modelo de un periodo de tiempo anterior como entrada, en lugar de la salida anterior, durante la retropropagación. El rango válido es 0,0 a 1,0. El valor predeterminado es 1.
  • gotout: configura la probabilidad de abandono. El rango válido es 0,0 a 1,0. El valor predeterminado es 0,1.
  • pretrained_emb: define el marcador de integración previamente entrenado. Si es Verdadero, utilizará la integración de texto rápido. Si es Falso, no utilizará la integración de texto previamente entrenada. El valor predeterminado es Falso.

Si elige Detector de cambios (clasificación de píxeles) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se rellena con el siguiente argumento:

  • attention_type: especifica el tipo de módulo. Las opciones de módulo son PAM (módulo de atención piramidal) o BAM (módulo de atención básica). El valor predeterminado es PAM.
  • monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_los,precisión, recuperación y f1. El valor predeterminado es valid_loss.

Si elige MMDetection (detección de objetos) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se completa con los siguientes argumentos:

  • modelo: modelo de base utilizado para entrenar el modelo. Puede utilizar atss, carafe, cascade_rcnn, cascade_rpn, dcn, detectors, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl o vfnet como modelo base. El valor predeterminado es cascade_rcnn.
  • model_weight: especifica si se utilizarán ponderaciones del modelo preentrenado. El valor predeterminado es falso. El valor también puede ser una ruta a un archivo de configuración que contiene las ponderaciones de un modelo, desde el repositorio MMDetection.

Cuando elige MMSegmentation (clasificación de píxeles) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se rellena con los siguientes argumentos:

  • modelo: modelo de base utilizado para entrenar el modelo. Puede utilizar ann, apcnet, ccnet, cgnet, danet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, encnet, fastscnn, fcn, gcnet, hrnet, mobilenet_v2, mobilenet_v3, nonlocal_net, ocrnet, ocrnet_base, pointrend, psanet, pspnet, resnest, sem_fpn, unet o upernet como modelo base. El valor predeterminado es deeplabv3.
  • model_weight: especifica si se utilizarán ponderaciones del modelo preentrenado. El valor predeterminado es falso. El valor también puede ser una ruta a un archivo de configuración que contiene las ponderaciones de un modelo, desde el repositorio MMSegmentation.

Todos los tipos de modelo admiten el argumento chip_size, que es el tamaño del chip de imagen de las muestras de entrenamiento. El tamaño del chip de imagen se extrae del archivo .emd de la carpeta especificada en el parámetro Datos de entrenamiento de entrada.

Value Table
Tasa de aprendizaje
(Opcional)

Velocidad con la que se sobrescribirá la información existente con información recién adquirida a lo largo del proceso de formación. Si no se especifica ningún valor, el índice de aprendizaje óptimo se extraerá de la curva de aprendizaje durante el proceso de entrenamiento.

Double
Modelo de base
(Opcional)

Especifica la red neuronal preconfigurada que se usará como arquitectura para entrenar el nuevo modelo. Este método se conoce como Aprendizaje de transferencia.

Además, las redes neuronales convolucionales admitidas de los Modelos de imagen de PyTorch (timm) se pueden especificar utilizando timm: como prefijo, por ejemplo, timm:resnet31, timm:inception_v4, timm:efficientnet_b3, y así sucesivamente.

  • DenseNet-121El modelo preconfigurado será una red densa entrenada en el dataset Imagenet que contiene más de 1 millón de imágenes y tiene 121 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
  • DenseNet-161El modelo preconfigurado será una red densa entrenada en el dataset Imagenet que contiene más de 1 millón de imágenes y tiene 161 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
  • DenseNet-169El modelo preconfigurado será una red densa entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 169 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
  • DenseNet-201El modelo preconfigurado será una red densa entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 201 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
  • Mobilenet versión 2Este modelo preconfigurado se entrenará en la base de datos de Imagenet y tiene 54 capas muy profundas orientadas la computación de dispositivos Edge, ya que utiliza menos memoria.
  • ResNet-18El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de millones de imágenes y tiene 18 capas de profundidad.
  • ResNet-34El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 34 capas de profundidad. Esta es la opción predeterminada.
  • ResNet-50El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 50 capas de profundidad.
  • ResNet-101El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 101 capas de profundidad.
  • ResNet-152El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 152 capas de profundidad.
  • VGG-11El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1.000 categorías de objetos y tiene de 11 capas de profundidad.
  • VGG-11 con normalización por lotesEste modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 11 capas.
  • VGG-13El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene de 13 capas de profundidad.
  • VGG-13 con normalización por lotesEste modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 13 capas.
  • VGG-16El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene de 16 capas de profundidad.
  • VGG-16 con normalización por lotesEste modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 16 capas.
  • VGG-19El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene de 19 capas de profundidad.
  • VGG-19 con normalización por lotesEste modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 19 capas.
  • Darknet-53El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 53 capas de profundidad.
  • Reid_v1El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que se utiliza para el seguimiento de objetos.
  • Reid_v2El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que se utiliza para el seguimiento de objetos.
String
Modelo preentrenado
(Opcional)

Modelo previamente entrenado que se utilizará para ajustar con precisión el nuevo modelo. La entrada es un archivo de definición de modelo de Esri (.emd) o un archivo de paquete de aprendizaje profundo (.dlpk).

Se puede ajustar un modelo previamente entrenado con clases similares para que se adecue al nuevo modelo. El modelo previamente entrenado se debe haber entrenado con el mismo tipo de modelo y el mismo modelo de base que se utilizará para entrenar el nuevo modelo.

File
Validación %
(Opcional)

Porcentaje de muestras de entrenamiento que se utilizarán para validar el modelo. El valor predeterminado es 10.

Double
Detener cuando el modelo deja de mejorar
(Opcional)

Especifica si se implementará la parada anticipada.

  • Activado: se implementará la parada anticipada y el entrenamiento del modelo se detendrá cuando el modelo deje de mejorar, independientemente del valor del parámetro Épocas máx. especificado. Esta es la opción predeterminada.
  • Desactivado: la parada anticipada del modelo no se implementará y el entrenamiento del modelo continuará hasta alcanzar el valor del parámetro Épocas máx.
Boolean
Inmovilizar modelo
(Opcional)

Especifica si las capas de base del modelo previamente entrenado se inmovilizarán, de modo que los pesos y sesgos permanezcan tal como se diseñaron originalmente.

  • Activado: las capas de base se inmovilizarán y los pesos y sesgos predefinidos no se alterarán en el parámetro Modelo de base. Esta es la opción predeterminada.
  • Desactivado: las capas de base no se inmovilizarán y los pesos y sesos del parámetro Modelo de base se pueden modificar para ajustarse a las muestras de entrenamiento. Esto tarda más tiempo en procesarse, pero generalmente produce mejores resultados.

Boolean

Salida derivada

EtiquetaExplicaciónTipo de datos
Modelo de salida

Archivo de modelo entrenado de salida.

File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze})
NombreExplicaciónTipo de datos
in_folder
[in_folder,...]

Carpetas que contienen los chips de imagen, las etiquetas y las estadísticas necesarias para entrenar el modelo. Esta es la salida de la herramienta Exportar datos de entrenamiento para aprendizaje profundo.

Se admiten varias carpetas de entrada cuando se cumplen las siguientes condiciones:

  • El tipo de formato de metadatos debe ser teselas clasificadas, teselas etiquetadas, teselas multietiquetadas, clases de objetos visuales Pascal o máscaras RCNN.
  • Todos los datos de entrenamiento deben tener el mismo formato de metadatos.
  • Todos los datos de entrenamiento deben tener el mismo número de bandas.
  • Todos los datos de entrenamiento deben tener el mismo tamaño de tesela.

Folder
out_folder

Ubicación de la carpeta de salida en la que se almacenará el modelo entrenado.

Folder
max_epochs
(Opcional)

Número máximo de épocas para las que se entrenará el modelo. Una época máxima de uno significa que el dataset se enviará hacia delante y hacia atrás a través de la red neuronal una vez. El valor predeterminado es 20.

Long
model_type
(Opcional)

Especifica el tipo de modelo que se usará para entrenar el modelo de aprendizaje profundo.

  • SSDSe utilizará la arquitectura Single Shot Detector (SSD) para entrenar el modelo. SSD se utiliza para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Pascal Visual Object Classes.
  • UNETSe utilizará la arquitectura U-Net para entrenar el modelo. U-Net se utiliza para la clasificación de píxeles.
  • FEATURE_CLASSIFIERSe utilizará la arquitectura Clasificador de entidades para entrenar el modelo. Este se utiliza para la clasificación de objetos o imágenes.
  • PSPNETSe utilizará la arquitectura Red de análisis de escenas de pirámide (PSPNET) para entrenar el modelo. PSPNET se utiliza para la clasificación de píxeles.
  • RETINANETSe utilizará la arquitectura RetinaNet para entrenar el modelo. RetinaNet se utiliza para detectar objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Pascal Visual Object Classes.
  • MASKRCNNSe utilizará la arquitectura MaskRCNN para entrenar el modelo. MaskRCNN se utiliza para la detección de objetos. Este enfoque se utiliza para la segmentación de instancias, que es una delineación precisa de los objetos de una imagen. Este tipo de modelo se puede utilizar para detectar huellas de edificios. Utiliza el formato de metadatos MaskRCNN para los datos de entrenamiento como entrada. Los valores de clase de los datos de entrenamiento de entrada deben comenzar en 1. Este tipo de modelo solo se puede entrenar con una GPU habilitada para CUDA.
  • YOLOV3Se utilizará la arquitectura YOLOv3 para entrenar el modelo. YOLOv3 se utiliza para la detección de objetos.
  • DEEPLABSe utilizará la arquitectura DeepLabV3 para entrenar el modelo. DeepLab se utiliza para la clasificación de píxeles.
  • FASTERRCNNSe utilizará la arquitectura FasterRCNN para entrenar el modelo. FasterRCNN se utiliza para la detección de objetos.
  • BDCN_EDGEDETECTORPara entrenar el modelo se utilizará la arquitectura de red en cascada bidireccional (BDCN). El detector de bordes BDCN se utiliza para la clasificación de píxeles. Este enfoque es útil para mejorar la detección de los bordes de los objetos en diferentes escalas.
  • HED_EDGEDETECTORLa arquitectura de detección de bordes anidados de forma holística (HED) se utilizará para entrenar el modelo. El detector de bordes HED se utiliza para la clasificación de píxeles. Este enfoque resulta útil en la detección bordes y de límites de objetos.
  • MULTITASK_ROADEXTRACTORSe utilizará la arquitectura de extractor de carreteras de varias tareas para entrenar el modelo. El extractor de carreteras de varias tareas se utiliza para la clasificación de píxeles. Este enfoque resulta útil para la extracción de redes de carreteras de imágenes de satélite.
  • CONNECTNETLa arquitectura ConnectNet se utilizará para entrenar el modelo. ConnectNet se utiliza para la clasificación de píxeles. Este enfoque resulta útil para la extracción de redes de carreteras de imágenes de satélite.
  • PIX2PIXSe utilizará la arquitectura Pix2Pix para entrenar el modelo. Pix2Pix se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto de modelo que genera imágenes de un tipo a otro. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Exportar teselas.
  • CYCLEGANSe utilizará la arquitectura CycleGAN para entrenar el modelo. CycleGAN se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto de modelo que genera imágenes de un tipo a otro. Este enfoque es único porque las imágenes que se van a entrenar no tienen que superponerse. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos CycleGAN.
  • SUPERRESOLUTIONSe utilizará la arquitectura Superresolución para entrenar el modelo. La superresolución se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto de modelo que aumenta la resolución y mejora la calidad de las imágenes. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Exportar teselas.
  • CHANGEDETECTORSe utilizará la arquitectura Detector de cambios para entrenar el modelo. El detector de cambios se utiliza para la clasificación de píxeles. Este enfoque crea un objeto de modelo que utiliza dos imágenes espaciotemporales para crear un ráster clasificado del cambio. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Teselas clasificadas.
  • IMAGECAPTIONERSe utilizará la arquitectura Subtitulador de imágenes para entrenar el modelo. El subtitulador de imágenes se utiliza para la traducción de imagen a texto. Este enfoque crea un modelo que genera subtítulos de texto para una imagen.
  • SIAMMASKSe utilizará la arquitectura Siam Mask para entrenar el modelo. Siam Mask se utiliza para detectar objetos en vídeos. El modelo se entrena utilizando fotogramas del vídeo y detecta las clases y los cuadros de delimitación de los objetos en cada fotograma. Los datos de entrenamiento de entrada de este tipo de modelo utilizan el formato de metadatos MaskRCNN.
  • MMDETECTIONSe utilizará la arquitectura MMDetection para entrenar el modelo. MMDetection se utiliza para la detección de objetos. Los formatos de metadatos admitidos son rectángulos Pascal Visual Object Class y rectángulos KITTI.
  • MMSEGMENTATIONSe utilizará la arquitectura MMSegmentation para entrenar el modelo. MMDetection se utiliza para la clasificación de píxeles. El formato de metadatos admitido es Teselas clasificadas.
  • DEEPSORTSe utilizará la arquitectura Orden profundo para entrenar el modelo. El orden profundo se utiliza para detectar objetos en vídeos. El modelo se entrena utilizando fotogramas del vídeo y detecta las clases y los cuadros de delimitación de los objetos en cada fotograma. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Imagenet. Mientras que Siam Mask es útil durante la realización de un seguimiento de un objeto, Orden profundo es útil para entrenar un modelo con el fin de realizar un seguimiento de varios objetos.
  • PIX2PIXHDSe utilizará la arquitectura Pix2PixHD para entrenar el modelo. Pix2PixHD se utiliza para la traducción de imagen a imagen. Este enfoque crea un objeto de modelo que genera imágenes de un tipo a otro. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos Exportar teselas.
  • MAXDEEPLABSe utilizará la arquitectura MaX-DeepLab para entrenar el modelo. Se utiliza MaX-DeepLab para la segmentación panóptica. Este enfoque crea un objeto de modelo que genera imágenes y entidades. Los datos de entrenamiento de entrada para este tipo de modelo utilizan el formato de metadatos de segmentación panóptica.
  • DETREGSe utilizará la arquitectura DETReg para entrenar el modelo. DETReg se utiliza para la detección de objetos. Los datos de entrenamiento de entrada para este tipo de modelo utilizan Pascal Visual Object Classes. Este tipo de modelo hace un uso intensivo de la GPU; requiere una GPU dedicada con al menos 16 GB de memoria para funcionar correctamente.
  • PSETAELa arquitectura Pixel-Set Encoders and Temporal Self-Attention (PSETAE) se utilizará para entrenar el modelo para la clasificación de series temporales. Los datos preliminares utilizados para este método son datos multidimensionales. PSETAE se utiliza para la clasificación de píxeles.
String
batch_size
(Opcional)

Número de muestras de entrenamiento que se procesarán para el entrenamiento a la vez.

Aumentar el tamaño de lote puede mejorar el rendimiento de la herramienta; sin embargo, a medida que aumenta el tamaño del lote, se utiliza más memoria. Si se produce un error de memoria insuficiente, utilice un tamaño de lote más pequeño.

Long
arguments
[arguments,...]
(Opcional)

Los argumentos de función se definen en la clase de función ráster de Python. Aquí es donde enumera los argumentos y parámetros de aprendizaje profundo adicionales para experimentos y refinamiento, como un umbral de confianza para ajustar la sensibilidad. Los nombres de los argumentos se rellenan a partir de la lectura del módulo de Python.

Si elige SSD como valor de parámetro model_type, el parámetro arguments se rellena con los siguientes argumentos:

  • grids: número de cuadrículas en las que se dividirá la imagen para el procesamiento. Establecer este argumento en 4 significa que la imagen se dividirá en 4 x 4 o 16 celdas de cuadrícula. Si no se especifica ningún valor, el valor óptimo de la cuadrícula se calculará en función de las imágenes de entrada.
  • zooms: el número de niveles de zoom de cada celda de cuadrícula aumentará o se reducirá a escala. Establecer este argumento en 1 significa que todas las celdas de cuadrícula permanecerán en el mismo tamaño o nivel de zoom. Un nivel de zoom de 2 significa que todas las celdas de cuadrícula serán dos veces más grandes (acercado en 100 por ciento). Proporcionar una lista de niveles de zoom significa que todas las celdas de cuadrícula se escalarán utilizando todos los números de la lista. El valor predeterminado es 1,0.
  • ratios: lista de relaciones de aspecto que se van a utilizar para los cuadros de anclaje. En la detección de objetos, un cuadro de anclaje representa la ubicación, la forma y el tamaño ideales del objeto que se desea predecir. Establecer este argumento como [1,0, 1,0], [1,0, 0,5] significa que el cuadro de anclaje es un cuadrado (1:1) o un rectángulo en el que el lado horizontal es la mitad del tamaño del lado vertical (1:0,5). El valor predeterminado es [1,0, 1,0].
  • monitor: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_loss y average_precision. El valor predeterminado es valid_loss.

Si elige un modelo de clasificación de píxeles como PSPNET, UNET o DEEPLAB como valor del parámetro model_type, el parámetro arguments se rellenará con los siguientes argumentos:

  • USE_UNET: el decodificador U-Net se utilizará para recuperar datos una vez que se haya completado la agrupación piramidal. El valor predeterminado es True. Este argumento es específico del modelo PSPNET.
  • PYRAMID_SIZES: número y tamaño de las capas de convolución que se aplicarán a las distintas subregiones. El valor predeterminado es [1,2,3,6]. Este argumento es específico del modelo PSPNET.
  • MIXUP: especifica si se utilizará el aumento de mezcla y la pérdida de mezcla. El valor predeterminado es False.
  • CLASS_BALANCING: especifica si la pérdida inversa de la entropía cruzada se equilibrará con la frecuencia de píxeles por clase. El valor predeterminado es False.
  • FOCAL_LOSS: especifica si se utilizará pérdida focal. El valor predeterminado es False.
  • IGNORE_CLASSES: contiene la lista de valores de clase en los que el modelo no generará pérdidas.
  • monitor: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_loss y accuracy. El valor predeterminado es valid_loss.

Si elige RETINANET como valor de parámetro model_type, el parámetro arguments se rellena con los siguientes argumentos:

  • SCALES: cantidad de niveles de escala que aumentará o se reducirá a escala cada celda. El valor predeterminado es [1, 0,8, 0,63].
  • RATIOS: relación de aspecto del cuadro de anclaje. El valor predeterminado es [0,5,1,2].
  • monitor: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_loss y average_precision. El valor predeterminado es valid_loss.

Si elige MULTITASK_ROADEXTRACTOR o CONNECTNET como valor del parámetro model_type, el parámetro arguments se rellena con los siguientes argumentos:

  • gaussian_thresh: define el umbral gaussiano, que establece el ancho de carretera requerido. El rango válido es 0,0 a 1,0. El valor predeterminado es 0,76.
  • orient_bin_size: define el tamaño de bin para los ángulos de orientación. El valor predeterminado es 20.
  • orient_theta: establece el ancho de la máscara de orientación. El valor predeterminado es 8.
  • mtl_model: define el tipo de arquitectura que se utilizará para crear el modelo. Las opciones válidas son linknet o hourglass para arquitecturas basadas en Linknet o reloj de arena, respectivamente, y arquitecturas neuronales. El valor predeterminado es hourglass.
  • monitor: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son: valid_loss, accuracy, miou y dice. El valor predeterminado es valid_loss.

Si elige IMAGECAPTIONER como valor de parámetro model_type, el parámetro arguments se rellena con los siguientes argumentos:

  • decode_params: diccionario que controla cómo se ejecutará el subtitulador de imágenes. El valor predeterminado es {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.
  • chip_size: establece el tamaño de la imagen para entrenar el modelo. Las imágenes se recortan según el tamaño de chip especificado. Si el tamaño de la imagen es menor que el tamaño de chip, se utilizará el tamaño de imagen. El tamaño predeterminado es 224 píxeles.
  • monitor: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son: valid_loss, accuracy, corpus_bleu y multi_label_fbeta. El valor predeterminado es valid_loss.
El argumento decode_params se compone de los siguientes seis parámetros:
  • embed_size: define el tamaño de la integración. El valor predeterminado es 100 capas en la red neuronal.
  • hidden_size: define el tamaño de la capa oculta. El valor predeterminado es 100 capas en la red neuronal.
  • attention_size: define el tamaño intermedio de la capa de atención. El valor predeterminado es 100 capas en la red neuronal.
  • teacher_forcing: establece la probabilidad de forzamiento del profesor. El forzamiento de los profesores es una estrategia para el entrenamiento de redes neuronales recurrentes. Utiliza la salida del modelo de un periodo de tiempo anterior como entrada, en lugar de la salida anterior, durante la retropropagación. El rango válido es 0,0 a 1,0. El valor predeterminado es 1.
  • dropout: configura la probabilidad de abandono. El rango válido es 0,0 a 1,0. El valor predeterminado es 0,1.
  • pretrained_emb: define el marcador de integración previamente entrenado. Si es Verdadero, utilizará la integración de texto rápido. Si es Falso, no utilizará la integración de texto previamente entrenada. El valor predeterminado es Falso.

Si elige CHANGEDETECTOR como valor de parámetro model_type, el parámetro arguments se rellena con los siguientes argumentos:

  • attention_type: especifica el tipo de módulo. Las opciones de módulo son PAM (módulo de atención piramidal) o BAM (módulo de atención básica). El valor predeterminado es PAM.
  • monitor: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son: valid_loss, precision, recall y f1. El valor predeterminado es valid_loss.

Si elige MMDETECTION como valor de parámetro model_type, el parámetro arguments se rellena con los siguientes argumentos:

  • model: modelo de base utilizado para entrenar el modelo. Las opciones disponibles son: atss, carafe, cascade_rcnn, cascade_rpn, dcn, detectors, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl y vfnet. El valor predeterminado es cascade_rcnn.
  • model_weight: especifica si se utilizarán ponderaciones del modelo preentrenado. El valor predeterminado es false. El valor también puede ser una ruta a un archivo de configuración que contiene las ponderaciones de un modelo, desde el repositorio MMDetection.

Si elige MMSegmentation como valor de parámetro model_type, el parámetro arguments se rellena con los siguientes argumentos:

  • model: modelo de base utilizado para entrenar el modelo. Las opciones disponibles son ann, apcnet, ccnet, cgnet, danet, deeplabv3, deeplabv3plus, dmnet, dnlnet, emanet, encnet, fastscnn, fcn, gcnet, hrnet, mobilenet_v2, mobilenet_v3, nonlocal_net, ocrnet, ocrnet_base, pointrend, psanet, pspnet, resnest, sem_fpn, unet y upernet. El valor predeterminado es deeplabv3.
  • model_weight: especifica si se utilizarán ponderaciones del modelo preentrenado. El valor predeterminado es false. El valor también puede ser una ruta a un archivo de configuración que contiene las ponderaciones de un modelo, desde el repositorio MMSegmentation.

Todos los tipos de modelo son compatibles con el argumento chip_size, que es el tamaño de chip de las teselas en las muestras de entrenamiento. El tamaño del chip de imagen se extrae del archivo .emd de la carpeta especificada en el parámetro in_folder.

Value Table
learning_rate
(Opcional)

Velocidad con la que se sobrescribirá la información existente con información recién adquirida a lo largo del proceso de formación. Si no se especifica ningún valor, el índice de aprendizaje óptimo se extraerá de la curva de aprendizaje durante el proceso de entrenamiento.

Double
backbone_model
(Opcional)

Especifica la red neuronal preconfigurada que se usará como arquitectura para entrenar el nuevo modelo. Este método se conoce como Aprendizaje de transferencia.

  • DENSENET121El modelo preconfigurado será una red densa entrenada en el dataset Imagenet que contiene más de 1 millón de imágenes y tiene 121 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
  • DENSENET161El modelo preconfigurado será una red densa entrenada en el dataset Imagenet que contiene más de 1 millón de imágenes y tiene 161 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
  • DENSENET169El modelo preconfigurado será una red densa entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 169 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
  • DENSENET201El modelo preconfigurado será una red densa entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 201 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
  • MOBILENET_V2Este modelo preconfigurado se entrenará en la base de datos de Imagenet y tiene 54 capas muy profundas orientadas la computación de dispositivos Edge, ya que utiliza menos memoria.
  • RESNET18El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de millones de imágenes y tiene 18 capas de profundidad.
  • RESNET34El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 34 capas de profundidad. Esta es la opción predeterminada.
  • RESNET50El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 50 capas de profundidad.
  • RESNET101El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 101 capas de profundidad.
  • RESNET152El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 152 capas de profundidad.
  • VGG11El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1.000 categorías de objetos y tiene de 11 capas de profundidad.
  • VGG11_BNEste modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 11 capas.
  • VGG13El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene de 13 capas de profundidad.
  • VGG13_BNEste modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 13 capas.
  • VGG16El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene de 16 capas de profundidad.
  • VGG16_BNEste modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 16 capas.
  • VGG19El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene de 19 capas de profundidad.
  • VGG19_BNEste modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 19 capas.
  • DARKNET53El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 53 capas de profundidad.
  • REID_V1El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que se utiliza para el seguimiento de objetos.
  • REID_V2El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que se utiliza para el seguimiento de objetos.

Además, las redes neuronales convolucionales admitidas de los Modelos de imagen de PyTorch (timm) se pueden especificar utilizando timm: como prefijo, por ejemplo, timm:resnet31, timm:inception_v4, timm:efficientnet_b3, y así sucesivamente.

String
pretrained_model
(Opcional)

Modelo previamente entrenado que se utilizará para ajustar con precisión el nuevo modelo. La entrada es un archivo de definición de modelo de Esri (.emd) o un archivo de paquete de aprendizaje profundo (.dlpk).

Se puede ajustar un modelo previamente entrenado con clases similares para que se adecue al nuevo modelo. El modelo previamente entrenado se debe haber entrenado con el mismo tipo de modelo y el mismo modelo de base que se utilizará para entrenar el nuevo modelo.

File
validation_percentage
(Opcional)

Porcentaje de muestras de entrenamiento que se utilizarán para validar el modelo. El valor predeterminado es 10.

Double
stop_training
(Opcional)

Especifica si se implementará la parada anticipada.

  • STOP_TRAININGSe implementará la parada anticipada y el entrenamiento del modelo se detendrá cuando el modelo deje de mejorar, independientemente del valor del parámetro max_epochs especificado. Esta es la opción predeterminada.
  • CONTINUE_TRAININGLa parada anticipada del modelo no se implementará y el entrenamiento del modelo continuará hasta alcanzar el valor del parámetro max_epochs.
Boolean
freeze
(Opcional)

Especifica si las capas de base del modelo previamente entrenado se inmovilizarán, de modo que los pesos y sesgos permanezcan tal como se diseñaron originalmente.

  • FREEZE_MODELLas capas de base se inmovilizarán y los pesos y sesgos predefinidos no se alterarán en el parámetro backbone_model. Esta es la opción predeterminada.
  • UNFREEZE_MODELLas capas de base no se inmovilizarán y los pesos y sesos del parámetro backbone_model se pueden modificar para ajustarse a las muestras de entrenamiento. Esto tarda más tiempo en procesarse, pero generalmente produce mejores resultados.
Boolean

Salida derivada

NombreExplicaciónTipo de datos
out_model_file

Archivo de modelo entrenado de salida.

File

Muestra de código

Ejemplo 1 de TrainDeepLearningModel (ventana de Python)

En este ejemplo se entrena un modelo de clasificación de árboles utilizando el enfoque U-Net.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
# Execute 
TrainDeepLearningModel(r"C:\DeepLearning\TrainingData\Roads_FC", 
     r"C:\DeepLearning\Models\Fire", 40, "UNET", 16, "# #", None, 
     "RESNET34", None, 10, "STOP_TRAINING", "FREEZE_MODEL")
Ejemplo 2 de TrainDeepLearningModel (script independiente)

En este ejemplo se entrena un modelo de detección de objetos utilizando el enfoque SSD.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
#Define input parameters
in_folder = "C:\\DeepLearning\\TrainingData\\Cars" 
out_folder = "C:\\Models\\Cars"
max_epochs = 100
model_type = "SSD"
batch_size = 2
arg = "grids '[4, 2, 1]';zooms '[0.7, 1.0, 1.3]';ratios '[[1, 1], [1, 0.5], [0.5, 1]]'"
learning_rate = 0.003
backbone_model = "RESNET34" 
pretrained_model = "C:\\Models\\Pretrained\\vehicles.emd"
validation_percent = 10
stop_training = "STOP_TRAINING"
freeze = "FREEZE_MODEL"


# Execute
TrainDeepLearningModel(in_folder, out_folder, max_epochs, model_type, 
     batch_size, arg, learning_rate, backbone_model, pretrained_model, 
     validation_percent, stop_training, freeze)

Información de licenciamiento

  • Basic: Requiere Image Analyst
  • Standard: Requiere Image Analyst
  • Advanced: Requiere Image Analyst

Temas relacionados