Argumentos del aprendizaje profundo

Disponible con licencia de Image Analyst.

Los argumentos son una de las muchas formas de controlar cómo se entrenan y utilizan los modelos de aprendizaje profundo. En este tema, en la primera tabla figuran los argumentos de modelos admitidos en el entrenamiento de modelos de aprendizaje profundo. En la segunda tabla figuran los argumentos para controlar la forma de utilizar los modelos de aprendizaje profundo en la inferencia.

Argumentos de entrenamiento

La herramienta Entrenar un modelo de aprendizaje profundo incluye argumentos para entrenar modelos de aprendizaje profundo. Estos argumentos varían dependiendo de la arquitectura del modelo. Puede cambiar los valores de estos argumentos para entrenar un modelo. Los argumentos son los siguientes:

  • attention_type: especifica el tipo de módulo. El valor predeterminado es PAM.
  • attn_res: número de atenciones en bloques residuales. Es un valor entero opcional; el valor predeterminado es 16. Este argumento solo se admite cuando el valor del parámetro Modelo base es SR3.
  • backend: controla el marco de backend que se va a utilizar en este modelo. Para utilizar Tensorflow, cambie el tipo de procesador a CPU. El valor predeterminado es pytorch.
  • bias: sesgo de la cabeza de Single Shot Detector (SSD). El valor predeterminado es -0,4.
  • box_batch_size_per_image: número de propuestas que se muestrean durante el entrenamiento de la clasificación. El valor predeterminado es 512.
  • box_bg_iou_thresh: la intersección de combinación (IoU) máxima entre propuestas y el cuadro GT (realidad del terreno) para que puedan considerarse como negativas durante el entrenamiento de la cabeza de clasificación. El valor predeterminado es 0,5.
  • box_detections_per_img: número máximo de detecciones por imagen, para todas las clases. El valor predeterminado es 100.
  • box_fg_iou_thresh: la IoU mínima entre propuestas y el cuadro GT para que puedan considerarse como positivas durante el entrenamiento de la cabeza de clasificación. El valor predeterminado es 0,5.
  • box_nms_thresh: el umbral de supresión no máxima (NMS) de la cabeza de predicción; se utiliza durante la inferencia. El valor predeterminado es 0,5.
  • box_positive_fraction: proporción de propuestas positivas en un lote minúsculo durante el entrenamiento de la cabeza de clasificación. El valor predeterminado es 0,25.
  • box_score_thresh: umbral de puntuación de clasificación que debe alcanzarse para que se devuelvan propuestas durante la inferencia. El valor predeterminado es 0,05.
  • channel_mults: multiplicadores de profundidad opcionales para resoluciones posteriores en U-Net. El valor predeterminado es 1, 2, 4, 4, 8, 8. Este argumento solo se admite cuando el valor del parámetro Modelo base es SR3.
  • channels_of_interest: lista de bandas espectrales (canales) de interés. Esto permite ignorar las bandas de rásteres de series de tiempo multitemporales basándose en esta lista. Por ejemplo, si hay bandas 0-4 en el dataset, pero en el entrenamiento solo se van a usar las bandas 0,1 y 2, la lista será [0,1,2].
  • chip_size: tamaño de la imagen que se utilizará para entrenar el modelo. Las imágenes se recortarán al tamaño de chip especificado.
  • class_balancing: especifica si la pérdida inversa de la entropía cruzada se equilibrará con la frecuencia de píxeles por clase. El valor predeterminado es Falso.
  • d_k: dimensión de la clave y los vectores de consulta. El valor predeterminado es 32.
  • decode_params: diccionario que controla cómo se ejecutará el subtitulador de imágenes. Consta de los siguientes parámetros: embed_size, hidden_size, attention_size, teacher_forcing, dropout y pretrained_emb. teacher_forcing es la probabilidad de que el profesor sea forzoso. El forzamiento de los profesores es una estrategia para el entrenamiento de redes neuronales recurrentes. Utiliza la salida del modelo de un periodo de tiempo anterior como entrada, en lugar de la salida anterior, durante la retropropagación. pretrained_emb especifica si se utilizará la incrustación de texto preentrenada. Si es Verdadero, utilizará la integración de texto rápido. Si es Falso, no utilizará la integración de texto previamente entrenada.
  • depth: profundidad del modelo. El valor predeterminado es 17.
  • dice_loss_average: elija entre el promedio micro o macro. El promedio macro calculará la métrica con independencia de la clase y tomará el promedio, con lo que todas las clases se tratan igual. El promedio micro agregará las contribuciones de todas las clases para calcular la métrica promedio. En una configuración de clasificación multiclase es preferible utilizar el promedio micro si sospecha que puede haber un desequilibrio de clases que implique la existencia de muchas más muestras de una clase que de otra. El valor predeterminado es micro.
  • dice_loss_fraction: sirve para ajustar el peso de la pérdida predeterminada (o pérdida focal) en comparación con la pérdida de fracción en la pérdida total para guiar el entrenamiento. El valor predeterminado es 0. Si focal_loss se configura en true, se utiliza la pérdida focal en lugar de la pérdida predeterminada. Si dice_loss_fraction se configura en 0, el entrenamiento utilizará la pérdida predeterminada (pérdida focal) como pérdida total para guiar el entrenamiento. Si la fracción dice_loss es mayor que 0, el entrenamiento utilizará una fórmula para usar como pérdida total para guiar el entrenamiento:
    =(1 – dice_loss_fraction)*default_loss + dice_loss_fraction*dice_loss
  • downsample_factor: factor para el submuestreo de las imágenes. El valor predeterminado es 4.
  • drop: probabilidad de abandono. Para reducir el exceso de ajuste, aumente el valor. El valor predeterminado es de 0,3.
  • dropout: probabilidad de abandono. Para reducir el exceso de ajuste, aumente el valor. Este argumento solo se admite cuando el valor del parámetro Modelo base es SR3.
  • embed_dim: dimensión de las integraciones. El valor predeterminado es 768.
  • feat_loss: especifica si se va a utilizar la pérdida de coincidencia de entidades del discriminador. El valor predeterminado es Verdadero.
  • focal_loss: especifica si se utilizará pérdida focal. El valor predeterminado es Falso.
  • gaussian_thresh: el umbral gaussiano, que establece el ancho de carretera requerido. El rango válido es 0,0 a 1,0. El valor predeterminado es 0,76.
  • gen_blocks: número de bloques ResNet que se va a usar en el generador. El valor predeterminado es 9.
  • gen_network: seleccione el modelo que se va a utilizar para el generador. Use global si la memoria de la GPU del equipo es lenta. El valor predeterminado es local.
  • grids: número de cuadrículas en las que se dividirá la imagen para el procesamiento. Por ejemplo, establecer este argumento en 4 significa que la imagen se dividirá en 4 x 4 o 16 celdas de cuadrícula. Si no se especifica ningún valor, el valor óptimo de la cuadrícula se calculará en función de las imágenes de entrada.
  • ignore_classes: la lista de valores de clase en los que el modelo no incurrirá en pérdidas.
  • inner_channel: la dimensión de la primera capa U-net. Es un valor entero opcional. El valor predeterminado es 64. Este argumento solo se admite cuando el valor del parámetro Modelo base es SR3.
  • keep_dilation: especifique si va a utilizar keep_dilation. Cuando se configura en verdadero y se utiliza la arquitectura de pointrend, podría mejorar la precisión a costa del consumo de memoria. El valor predeterminado es Falso.
  • lambda_feat: peso de la pérdida de coincidencia de entidades. El valor predeterminado es 10.
  • lambda_l1: peso de la pérdida de coincidencia de entidades. El valor predeterminado es 100. No se admite en imágenes de 3 bandas.
  • linear_end: entero opcional para programar el final. El valor predeterminado es 1e-06. Este argumento solo se admite cuando el valor del parámetro Modelo base es SR3.
  • linear_start: entero opcional para programar el inicio. El valor predeterminado es 1e-02. Este argumento solo se admite cuando el valor del parámetro Modelo base es SR3.
  • lsgan: permite especificar si se va a utilizar el error cuadrático medio en el entrenamiento. Si es falso, se utilizará la entropía cruzada binaria en su lugar. El valor predeterminado es Verdadero.
  • location_loss_factor: permite establecer el peso de la pérdida del cuadro de delimitación. Este factor ajusta el foco del modelo en la ubicación del cuadro de delimitación. Cuando se configura en Ninguno, arroja un peso igual en la ubicación y la pérdida de clasificación.
  • min_points: número de píxeles para muestrear de cada región enmascarada de entrenamiento; este valor debe ser un múltiplo de 64.
  • mixup: elija si va a utilizar mixup. Cuando se configura en verdadero, crea nuevas imágenes de entrenamiento mezclando imágenes del conjunto de entrenamiento de forma aleatoria. El valor predeterminado es Falso.
  • mlp_ratio: ratio de perceptrón multicapa (MLP). El valor predeterminado es 4.
  • mlp1: dimensiones de los espacios de entidades sucesivas de MLP1. El valor predeterminado es 32,64.
  • mlp2: dimensiones de los espacios de entidades sucesivas de MLP2. El valor predeterminado es 128,128.
  • mlp4: dimensiones del decodificador MLP. El valor predeterminado es 64,32.
  • model: modelo de base utilizado para entrenar el modelo. Las redes centrales disponibles dependen del valor del parámetro Tipo de modelo especificado. Este argumento solo se admite para los tipos de modelo MMDetection y MMSegmentation. El valor predeterminado para MMDetection es cascade_rcnn. El valor predeterminado para MMSegmentation es mask2former.
  • model_weight: especifica si se utilizarán ponderaciones del modelo preentrenado. El valor predeterminado es Falso. El valor también puede ser una ruta a un archivo de configuración que contenga los pesos de un modelo del repositorio de MMDetection o del repositorio de MMSegmentation.
  • monitor: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles dependen del valor del parámetro Tipo de modelo. El valor predeterminado es valid_loss.
  • mtl_model: especifica el tipo de arquitectura que se utilizará para crear el modelo. Las opciones son linknet o reloj de arena para arquitecturas neuronales basadas en linknet o reloj de arena, respectivamente. El valor predeterminado es hourglass.
  • n_blocks_global: número de bloques residuales de la red del generador global. El valor predeterminado es 9.
  • n_blocks_local: número de bloques residuales de la red del intensificador local. El valor predeterminado es 3.
  • n_downsample_global: número de capas de submuestreo de la red del generador global.
  • n_dscr: número de discriminadores que se van a utilizar. El valor predeterminado es 2.
  • n_dscr_filters: número de filtros de discriminador en la primera capa de convolución. El valor predeterminado es 64.
  • n_gen_filters: número de filtros gen en la primera capa de convolución. El valor predeterminado es 64.
  • n_head: número de cabezas de observación. El valor predeterminado es 4.
  • n_layers_dscr: número de capas de la red del discriminador utilizadas en Pix2PixHD. El valor predeterminado es 3.
  • n_local_enhancers: número de intensificadores locales que se van a utilizar. El valor predeterminado es 1.
  • n_masks: representa el número máximo de etiquetas de clase e instancias que puede contener una imagen. El valor predeterminado es 30.
  • n_timestep: valor opcional correspondiente al número de periodos de tiempo de difusión. El valor predeterminado es 1000. Este argumento solo se admite cuando el valor del parámetro Modelo base es SR3.
  • norm: permite especificar si se va a utilizar la normalización de instancias o lotes. El valor predeterminado es instance.
  • norm_groups: el número de grupos para la normalización de grupo. Es un valor entero opcional. El valor predeterminado es 32. Este argumento solo se admite cuando el valor del parámetro Modelo base es SR3.
  • num_heads: número de cabezas de observación. El valor predeterminado es 12.
  • orient_bin_size: el tamaño de bin para los ángulos de orientación. El valor predeterminado es 20.
  • orient_theta: la anchura de la máscara de orientación. El valor predeterminado es 8.
  • oversample: permite especificar si se va a utilizar el sobremuestreo. Si se configura en verdadero, las clases desequilibradas del dataset se sobremuestrean durante el entrenamiento. Esto es incompatible con los datasets multietiqueta. El valor predeterminado es Falso.
  • patch_size: tamaño de parche para generar integraciones de parche. El valor predeterminado es 16.
  • perceptual_loss : permite especificar si se va a utilizar la pérdida perceptual en el entrenamiento. El valor predeterminado es Falso.
  • pointrend: permite especificar si se va a utilizar la arquitectura PointRend sobre la cabeza de segmentación. Para obtener más información sobre la arquitectura PointRend, consulte el PDF de PointRend. El valor predeterminado es Falso.
  • pooling: estrategia de agrupación de integraciones de píxel que se va a utilizar. El valor predeterminado es mean
  • pyramid_sizes: número y tamaño de las capas de convolución que se aplicarán a las distintas subregiones. El valor predeterminado es [1,2,3,6]. Este argumento es específico del modelo Pyramid Scene Parsing Network.
  • qkv_bias : permite especificar si se va a utilizar el sesgo del vector QK en el entrenamiento. El valor predeterminado es Falso.
  • ratios: lista de relaciones de aspecto que se van a utilizar para los cuadros de anclaje. En la detección de objetos, un cuadro de anclaje representa la ubicación, la forma y el tamaño ideales del objeto que se desea predecir. Por ejemplo, establecer este argumento en [1,0, 1,0], [1,0, 0,5] significa que la caja de anclaje es un cuadrado (1:1) o un rectángulo en el que el lado horizontal tiene la mitad del tamaño del lado vertical (1:0,5). El valor predeterminado de RetinaNet es [0,5, 1, 2]. El valor predeterminado para Single Shot Detector es [1.0, 1.0].
  • res_blocks: número de bloques residuales. Es un valor entero opcional. El valor predeterminado es 3. Este argumento solo se admite cuando el valor del parámetro Modelo base es SR3.
  • rpn_batch_size_per_image: número de delimitadores que se muestrean durante el entrenamiento de la RPN para calcular la pérdida. El valor predeterminado es 256.
  • rpn_bg_iou_thresh: la IoU máxima entre delimitadores y el cuadro GT para que puedan considerarse como negativas durante el entrenamiento de la cabeza de la RPN. El valor predeterminado es de 0,3.
  • rpn_fg_iou_thresh: la IoU mínima entre delimitadores y el cuadro GT para que puedan considerarse como positivas durante el entrenamiento de la cabeza de la RPN. El valor predeterminado es 0,7.
  • rpn_nms_thresh: umbral de NMS utilizado para posprocesar las propuestas de la RPN. El valor predeterminado es 0,7.
  • rpn_positive_fraction: proporción de delimitadores positivos en un lote minúsculo durante el entrenamiento de la RPN. El valor predeterminado es 0,5.
  • rpn_post_nms_top_n_test: número de propuestas para mantener después de aplicar la NMS durante las pruebas. El valor predeterminado es 1000.
  • rpn_post_nms_top_n_train: número de propuestas para mantener después de aplicar la NMS durante el entrenamiento. El valor predeterminado es 2000.
  • rpn_pre_nms_top_n_test: número de propuestas para mantener antes de aplicar la NMS durante las pruebas. El valor predeterminado es 1000.
  • rpn_pre_nms_top_n_train: número de propuestas para mantener antes de aplicar la NMS durante el entrenamiento. El valor predeterminado es 2000.
  • scales: cantidad de niveles de escala que aumentará o se reducirá a escala cada celda. El valor predeterminado es [1, 0,8, 0,63].
  • schedule: argumento opcional para configurar el tipo de programa que se va a utilizar. Las opciones son lineal, warmup10, warmup50, const, jsd y coseno. El valor predeterminado es lineal. Este argumento solo se admite cuando el valor del parámetro Modelo base es SR3.
  • T: periodo que se va a utilizar durante la codificación posicional. El valor predeterminado es 1000.
  • timesteps_of_interest: lista de los intervalos de tiempo de interés; esto filtrará series de tiempo multitemporales basadas en la lista de intervalos de tiempo especificados. Por ejemplo, si el dataset tiene intervalos de tiempo 0, 1, 2 y 3, pero solo se utilizan los intervalos de tiempo 0, 1 y 2 en el entrenamiento, este parámetro debería configurarse en [0,1,2]; the rest of the time-steps will be filtered out.
  • use_net: especifica si se usará el decodificador U-Net para recuperar datos una vez que se complete la agrupación piramidal. El valor predeterminado es Verdadero. Este argumento es específico del modelo Pyramid Scene Parsing Network.
  • vgg_loss: permite especificar si se va a utilizar la pérdida de coincidencia de entidades de VGG. Solo se admite en imágenes de 3 bandas. El valor predeterminado es Verdadero.
  • zooms: el número de niveles de zoom de cada celda de cuadrícula aumentará o se reducirá a escala. Establecer este argumento en 1 significa que todas las celdas de cuadrícula permanecerán en el mismo tamaño o nivel de zoom. Un nivel de zoom de 2 significa que todas las celdas de cuadrícula serán dos veces más grandes (acercado en 100 por ciento). Proporcionar una lista de niveles de zoom significa que todas las celdas de cuadrícula se escalarán utilizando todos los números de la lista. El valor predeterminado es 1.

Tipo de modeloArgumentoValores válidos

Detector de cambios

(clasificación de píxeles)

attention_type

PAM (módulo de atención piramidal) o BAM (módulo de atención básica). El valor predeterminado es PAM.

chip_size

Enteros entre 0 y tamaño de imagen.

monitor

valid_loss, precision, recall y f1.

ConnectNet

(clasificación de píxeles)

chip_size

Enteros entre 0 y tamaño de imagen.

gaussian_thresh

0,0 a 1,0. El valor predeterminado es 0,76.

monitor

valid_loss, accuracy, miou y dice.

mtl_model

linknet o hourglass.

orient_bin_size

Número positivo. El valor predeterminado es 20.

orient_theta

Número positivo. El valor predeterminado es 8.

CycleGAN

(traducción de imágenes)

gen_blocks

Entero positivo. El valor predeterminado es 9.

lsgan

true o false. El valor predeterminado es true.

DeepLabv

(clasificación de píxeles)

chip_size

Enteros entre 0 y tamaño de imagen.

class_balancing

true o false.

dice_loss_average

micro o macro. El valor predeterminado es micro.

dice_loss_fraction

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0.

focal_loss

true o false.

ignore_classes

Valores de clase válidos.

keep_dilation

true o false. El valor predeterminado es false.

mixup

true o false.

monitor

valid_loss y accuracy.

pointrend

true o false. El valor predeterminado es false.

FasterRCNN

(Detección de objetos)

box_batch_size_per_image

Enteros positivos. El valor predeterminado es 512.

box_bg_iou_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,5.

box_detections_per_img

Enteros positivos. El valor predeterminado es 100.

box_fg_iou_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,5.

box_nms_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,5.

box_positive_fraction

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,25.

box_score_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,05.

rpn_batch_size_per_image

Enteros positivos. El valor predeterminado es 256.

rpn_bg_iou_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es de 0,3.

rpn_fg_iou_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,7.

rpn_nms_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,7.

rpn_positive_fraction

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,5.

rpn_post_nms_top_n_test

Enteros positivos. El valor predeterminado es 1000.

rpn_post_nms_top_n_train

Enteros positivos. El valor predeterminado es 2000.

rpn_pre_nms_top_n_test

Enteros positivos. El valor predeterminado es 1000.

rpn_pre_nms_top_n_train

Enteros positivos. El valor predeterminado es 2000.

Clasificador de entidades

(Clasificación de objetos)

backend

pytorch o tensorflow. El valor predeterminado es pytorch.

mixup

true o false. El valor predeterminado es false.

oversample

true o false. El valor predeterminado es false.

Subtitulador de imágenes

(traducción de imágenes)

chip_size

Enteros entre 0 y tamaño de imagen.

El argumento decode_params se compone de los siguientes parámetros:

  • embed_size
  • hidden_size
  • attention_size
  • teacher_forcing
  • dropout
  • pretrained_emb

El valor predeterminado es {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.

monitor

valid_loss, accuracy, corpus_bleu y multi_label_fbeta.

MaskRCNN

(Detección de objetos)

box_batch_size_per_image

Enteros positivos. El valor predeterminado es 512.

box_bg_iou_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,5.

box_detections_per_img

Enteros positivos. El valor predeterminado es 100.

box_fg_iou_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,5.

box_nms_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,5.

box_positive_fraction

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,25.

box_score_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,05.

rpn_batch_size_per_image

Enteros positivos. El valor predeterminado es 256.

rpn_bg_iou_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es de 0,3.

rpn_fg_iou_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,7.

rpn_nms_thresh

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,7.

rpn_positive_fraction

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,5.

rpn_post_nms_top_n_test

Enteros positivos. El valor predeterminado es 1000.

rpn_post_nms_top_n_train

Enteros positivos. El valor predeterminado es 2000.

rpn_pre_nms_top_n_test

Enteros positivos. El valor predeterminado es 1000.

rpn_pre_nms_top_n_train

Enteros positivos. El valor predeterminado es 2000.

MaXDeepLab

(Segmentación panóptica)

n_masks

Enteros positivos. El valor predeterminado es 30.

MMDetection

(detección de objetos)

chip_size

Enteros entre 0 y tamaño de imagen.

model

atss, carafe, cascade_rcnn, cascade_rpn, dcn, deeplabv3, detectors, dino, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl y vfnet.

El valor predeterminado es deeplabv3.

model_weight

true o false.

MMSegmentation

(clasificación de píxeles)

chip_size

Enteros entre 0 y tamaño de imagen.

model

ann, apcnet, ccnet, cgnet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, fastscnn, fcn, gcnet, hrnet, mask2former, mobilenet_v2, nonlocal_net, ocrnet, prithvi100m, psanet, pspnet, resnest, sem_fpn, unet y upernet.

El valor predeterminado es mask2former.

model_weight

true o false.

Extractor de carreteras de varias tareas

(clasificación de píxeles)

chip_size

Enteros entre 0 y tamaño de imagen.

gaussian_thresh

0,0 a 1,0. El valor predeterminado es 0,76.

monitor

valid_loss, accuracy, miou y dice.

mtl_model

linknet o hourglass.

orient_bin_size

Número positivo. El valor predeterminado es 20.

orient_theta

Número positivo. El valor predeterminado es 8.

Pix2Pix

(traducción de imágenes)

perceptual_loss

true o false. El valor predeterminado es false.

Pix2PixHD

(traducción de imágenes)

gen_network

local o global. El valor predeterminado es local.

feat_loss

true o false. El valor predeterminado es true.

lambda_feat

Valores enteros positivos. El valor predeterminado es 10.

lambda_l1

Valores enteros positivos. El valor predeterminado es 100.

lsgan

true o false. El valor predeterminado es true.

n_blocks_global

Valores enteros positivos. El valor predeterminado es 9.

n_blocks_local

Valores enteros positivos. El valor predeterminado es 3.

n_downsample_global

Valores enteros positivos. El valor predeterminado es 4.

n_dscr

Valores enteros positivos. El valor predeterminado es 2.

n_dscr_filters

Valores enteros positivos. El valor predeterminado es 64.

n_gen_filters

Valores enteros positivos. El valor predeterminado es 64.

n_layers_dscr

Valores enteros positivos. El valor predeterminado es 3.

n_local_enhancers

Valores enteros positivos. El valor predeterminado es 1.

norm

instance o batch. El valor predeterminado es instance.

vgg_loss

true o false. El valor predeterminado es true.

PSETAE

(clasificación de píxeles)

channels_of_interest

Lista de números de banda (enteros positivos).

d_k

Valores enteros positivos. El valor predeterminado es 32.

dropout

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0,2.

min_points

Múltiplos enteros de 64.

mlp1

Lista de enteros positivos. El valor predeterminado es 32, 64.

mlp2

Lista de enteros positivos. El valor predeterminado es 128, 128.

mlp4

Lista de enteros positivos. El valor predeterminado es 64, 32.

n_head

Valores enteros positivos. El valor predeterminado es 4.

pooling

mean, std, max o min.

T

Valores enteros positivos. El valor predeterminado es 1000.

timesteps_of_interest

Lista de enteros positivos.

Red de análisis de escenas de pirámide

(clasificación de píxeles)

chip_size

Enteros entre 0 y tamaño de imagen.

class_balancing

true o false.

dice_loss_average

micro o macro. El valor predeterminado es micro.

dice_loss_fraction

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0.

focal_loss

true o false.

ignore_classes

Valores de clase válidos.

keep_dilation

true o false. El valor predeterminado es false.

monitor

valid_loss o accuracy.

mixup

true o false.

pointrend

true o false. El valor predeterminado es false.

pyramid_sizes

[capa de convolución 1, capa de convolución 2, ... , capa de convolución n]

use_net

true o false.

RetinaNet

(detección de objetos)

chip_size

Enteros entre 0 y tamaño de imagen.

monitor

valid_loss o average_precision.

ratios

Valor de relación 1, valor de relación 2, valor de relación 3.

El valor predeterminado es 0.5,1,2.

scales

[valor de escala 1, valor de escala 2, valor de escala 3]

El valor predeterminado es [1, 0.8, 0.63].

SAMLoRA

(clasificación de píxeles)

class_balancing

true o false.

ignore_classes

Valores de clase válidos.

Single Shot Detector

(detección de objetos)

backend

pytorch o tensorflow. El valor predeterminado es pytorch.

bias

Valor de punto flotante. El valor predeterminado es -0,4.

chip_size

Enteros entre 0 y tamaño de imagen. El valor predeterminado es de 0,3.

drop

Valor de punto flotante entre 0 y 1.

focal_loss

true o false. El valor predeterminado es false.

grids

Valores enteros mayores que 0.

location_loss_factor

Valor de punto flotante entre 0 y 1.

monitor

valid_loss o average_precision.

ratios

[valor horizontal, valor vertical]

zooms

Valor de zoom en el que 1,0 es un zoom normal.

Superresolución con base SR3

(traducción de imágenes)

attn_res

Enteros mayores que 0. El valor predeterminado es 16.

channel_mults

Conjuntos de multiplicadores enteros El valor predeterminado es [1, 2, 4, 4, 8, 8].

downsample_factor

Valor entero positivo. El valor predeterminado es 4.

dropout

Valor de punto flotante. El valor predeterminado es 0.

inner_channel

Valor entero mayor que 0. El valor predeterminado es 64.

linear_start

Entero de hora. El valor predeterminado es 1e-02.

linear_end

Entero de hora. El valor predeterminado es 1e-06.

n_timestep 

Valor entero mayor que 0. El valor predeterminado es 1000.

norm_groups

Valor entero mayor que 0. El valor predeterminado es 32.

res_blocks

Valor entero mayor que 0. El valor predeterminado es 3.

schedule 

linear, warmup10, warmup50, const, jsd o cosine.

El valor predeterminado es linear.

Superresolución con base SR3_UViT

(traducción de imágenes)

depth

Valor de punto entero positivo. El valor predeterminado es 17.

embed_dim

Valor de punto entero positivo. El valor predeterminado es 768.

mlp_ratio

Valor de punto flotante positivo. El valor predeterminado es 4,0.

num_heads

Valor de punto entero positivo. El valor predeterminado es 12.

patch_size

Valor de punto entero positivo. El valor predeterminado es 16.

qkv_bias

true o false. El valor predeterminado es false.

U-Net

(clasificación de píxeles)

chip_size

Enteros entre 0 y tamaño de imagen.

class_balancing

true o false.

dice_loss_average

micro o macro. El valor predeterminado es micro.

dice_loss_fraction

Valor de punto flotante entre 0 y 1. El valor predeterminado es 0.

focal_loss

true o false.

ignore_classes

Valores de clase válidos.

monitor

valid_loss o accuracy.

mixup

true o false.

Argumentos de inferencia

Los siguientes argumentos están disponibles para controlar cómo entrenar modelos de aprendizaje profundo para inferencia. La información del parámetro Definición de modelo se utilizará para rellenar el parámetro Argumentos de las herramientas de inferencia. Estos argumentos varían dependiendo de la arquitectura del modelo. Los modelos preentrenados de ArcGIS y los modelos de aprendizaje profundo personalizados pueden tener argumentos adicionales que son compatibles con las herramientas.

ArgumentoTipo de inferenciaValores válidos

batch_size

Número de teselas de imágenes procesadas en cada paso de la inferencia del modelo. Esto depende de la memoria de la tarjeta gráfica. El argumento está disponible para todas las arquitecturas del modelo.

Clasificar objetos

Clasificar píxeles

Detectar cambios

Detectar objetos

Valores enteros mayores que 0; suele ser un entero que es una potencia de 2.

direction

La imagen se convierte de un dominio a otro. Para obtener información sobre este argumento, consulte Funcionamiento de CycleGAN.

El argumento solo está disponible para la arquitectura CycleGAN.

Clasificar píxeles

Las opciones disponibles son AtoB y BtoA.

exclude_pad_detections

\si se establece en verdadero, se filtrarán detecciones potencialmente truncadas cerca de los bordes que están en la región rellena de chips de imagen.

El argumento está disponible para SSD, RetinaNet, YOLOv3, DETReg, MMDetection y Faster RCNN solamente.

Detectar objetos

true o false.

merge_policy

Política para fusionar predicciones aumentadas. Solo es aplicable cuando se utiliza el aumento del tiempo de prueba.

En el caso de la herramienta Clasificar píxeles con aprendizaje profundo, el argumento está disponible para las arquitecturas MultiTaskRoadExtractor y ConnectNet. Si IsEdgeDetection está presente en el archivo .emd del modelo, BDCNEdgeDetector, HEDEdgeDetector y MMSegmentation también son arquitecturas disponibles.

En el caso de la herramienta Detectar objetos con aprendizaje profundo, el argumento solo está disponible para MaskRCNN.

Clasificar píxeles

Detectar objetos

Las opciones disponibles son mean, max y min.

nms_overlap

El ratio de superposición máximo para dos entidades de superposición, definido como la relación del área de intersección sobre el área de combinación. El argumento está disponible para todas las arquitecturas del modelo.

Detectar objetos

Valor de punto flotante de 0,0 a 1,0. El valor predeterminado es 0,1.

output_classified_raster

Ruta al ráster de salida. El argumento solo está disponible para MaXDeepLab.

Detectar objetos

Nombre y ruta del archivo del raster clasificado de salida.

padding

Número de píxeles en el borde de las teselas de imágenes desde los cuales se combinarán las predicciones de las teselas adyacentes. Para suavizar la salida a la vez que se reducen los artefactos, aumente el valor. El valor máximo del relleno puede ser la mitad del valor del tamaño de tesela. El argumento está disponible para todas las arquitecturas del modelo.

Clasificar píxeles

Detectar cambios

Detectar objetos

Valores enteros mayores que 0 y menores que la mitad del valor de tamaño de tesela.

predict_background

Cuando es verdadero, la clase de fondo también se clasifica. El argumento está disponible para UNET, PSPNET, DeepLab y MMSegmentation.

Clasificar píxeles

true o false.

return_probability_raster

Cuando es verdadero, genera un ráster de probabilidad. El ráster de probabilidad es un ráster cuyos píxeles especifican la probabilidad de que la variable de interés esté por encima o por debajo de un valor de umbral especificado.

Si ArcGISLearnVersion pertenece a la versión 1.8.4 u otra posterior en el archivo .emd del modelo, las arquitecturas MultiTaskRoadExtractor y ConnectNet están disponibles. Si ArcGISLearnVersion pertenece a la versión 1.8.4 u otra posterior yIsEdgeDetection está presente en el archivo .emd del modelo, las arquitecturas BDCNEdgeDetector, HEDEdgeDetector y MMSegmentation también están disponibles.

Clasificar píxeles

true o false.

score_threshold

Las predicciones por encima de esta puntuación de confianza se incluyen en el resultado. El argumento está disponible para todas las arquitecturas del modelo.

Clasificar objetos

0 a 1,0

test_time_augmentation

Aplica un aumento del tiempo de prueba durante la predicción. Si se establece en verdadero, las predicciones de variantes rotadas y volteadas de la imagen de entrada se fusionarán en la salida final. El argumento está disponible para la mayoría de las arquitecturas del modelo.

Clasificar objetos

Clasificar píxeles

true o false.

threshold

Las predicciones con una puntuación de confianza superior a este umbral se incluyen en el resultado.

En el caso de la herramienta Clasificar píxeles con aprendizaje profundo, si ArcGISLearnVersion pertenece a la versión 1.8.4 u otra posterior en el archivo .emd del modelo, las arquitecturas MultiTaskRoadExtractor y ConnectNet están disponibles. Si ArcGISLearnVersion pertenece a la versión 1.8.4 u otra posterior yIsEdgeDetection está presente en el archivo .emd del modelo, las arquitecturas BDCNEdgeDetector, HEDEdgeDetector y MMSegmentation también están disponibles.

En el caso de la herramienta Detectar objetos con aprendizaje profundo, el argumento está disponible para todas las arquitecturas de modelos.

Clasificar píxeles

Detectar objetos

0 a 1,0.

thinning

Reduce el grosor o esquematiza los bordes previstos.

Si IsEdgeDetection está presente en el archivo .emd del modelo, BDCNEdgeDetector, HEDEdgeDetector y MMSegmentation son arquitecturas disponibles.

Clasificar píxeles

true o false.

tile_size

tile_size: el ancho y la altura de las teselas de imágenes en las que se dividen las imágenes para la predicción.

En el caso de la herramienta Clasificar píxeles mediante aprendizaje profundo, el argumento solo está disponible para la arquitectura CycleGAN.

En el caso de la herramienta Detectar objetos con aprendizaje profundo, el argumento solo está disponible para MaskRCNN.

Clasificar píxeles

Detectar objetos

Valores enteros mayores que 0 y menores que el tamaño de la imagen.

Temas relacionados