Argumentos de modelo (Opcional) | Los argumentos de función se definen en la clase de función ráster de Python. Aquí es donde enumera los argumentos y parámetros de aprendizaje profundo adicionales para experimentos y refinamiento, como un umbral de confianza para ajustar la sensibilidad. Los nombres de los argumentos se rellenan a partir de la lectura del módulo de Python. Cuando elige Single Shot Detector (detección de objetos) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se rellena con los siguientes argumentos: - Cuadrículas: número de cuadrículas en las que se dividirá la imagen para el procesamiento. Establecer este argumento en 4 significa que la imagen se dividirá en 4 x 4 o 16 celdas de cuadrícula. Si no se especifica ningún valor, el valor óptimo de la cuadrícula se calculará en función de las imágenes de entrada.
- Zoom: el número de niveles de zoom de cada celda de cuadrícula aumentará o se reducirá a escala. Establecer este argumento en 1 significa que todas las celdas de cuadrícula permanecerán en el mismo tamaño o nivel de zoom. Un nivel de zoom de 2 significa que todas las celdas de cuadrícula serán dos veces más grandes (acercado en 100 por ciento). Proporcionar una lista de niveles de zoom significa que todas las celdas de cuadrícula se escalarán utilizando todos los números de la lista. El valor predeterminado es 1,0.
- Relaciones: lista de relaciones de aspecto que se van a utilizar para los cuadros de anclaje. En la detección de objetos, un cuadro de anclaje representa la ubicación, la forma y el tamaño ideales del objeto que se desea predecir. Establecer este argumento como [1,0, 1,0], [1,0, 0,5] significa que el cuadro de anclaje es un cuadrado (1:1) o un rectángulo en el que el lado horizontal es la mitad del tamaño del lado vertical (1:0,5). El valor predeterminado es [1,0, 1,0].
- monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_loss y average_ precision. El valor predeterminado es valid_loss.
Si elige un modelo de clasificación de píxeles como Red de análisis de escenas piramidales (clasificación de píxeles), U-Net (clasificación de píxeles) o DeepLabv3 (clasificación de píxeles) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se completa con los siguientes argumentos: - use_net: especifica si el decodificador U-Net se utilizará para recuperar datos una vez que se haya completado la agrupación piramidal. El valor predeterminado es Verdadero. Este argumento es específico del modelo Red de análisis de escenas piramidales.
- pyramid_sizes: número y tamaño de las capas de convolución que se aplicarán a las distintas subregiones. El valor predeterminado es [1,2,3,6]. Este argumento es específico del modelo Red de análisis de escenas piramidales.
- Mezcla:: especifica si se utilizará el aumento de mezcla y la pérdida de mezcla. El valor predeterminado es Falso.
- class_balancing: especifica si la pérdida inversa de la entropía cruzada se equilibrará con la frecuencia de píxeles por clase. El valor predeterminado es Falso.
- focal_loss: especifica si se utilizará pérdida focal. El valor predeterminado es Falso.
- ignore_classes: contiene la lista de valores de clase en los que el modelo no generará pérdidas.
- monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_los y precisión. El valor predeterminado es valid_loss.
Cuando elige RetinaNet (detección de objetos) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se completa con los siguientes argumentos: - escalas: cantidad de niveles de escala que aumentará o se reducirá a escala cada celda. El valor predeterminado es [1, 0,8, 0,63].
- relaciones: relación de aspecto del cuadro de anclaje. El valor predeterminado es 0,5,1,2.
- monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_loss y average_ precision. El valor predeterminado es valid_loss.
Si elige Extractor de carreteras de varias tareas (clasificación de píxeles) o ConnectNet (clasificación de píxeles) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se rellena con los siguientes argumentos: - gaussian_thresh: define el umbral gaussiano, que establece el ancho de carretera requerido. El rango válido es 0,0 a 1,0. El valor predeterminado es 0,76.
- orient_bin_size:: define el tamaño de bin para los ángulos de orientación. El valor predeterminado es 20.
- orient_theta:: establece el ancho de la máscara de orientación. El valor predeterminado es 8.
- mtl_model: establece el tipo de arquitectura que se utilizará para crear el modelo. Las opciones válidas son linknet o reloj de arena para arquitecturas basadas en Linknet o reloj de arena, respectivamente, y arquitecturas neuronales. El valor predeterminado es reloj de arena.
- monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_los,precisión, miou y subdividir. El valor predeterminado es valid_loss.
Cuando elige Subtitulador de imágenes (traducción de imágenes) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se rellena con los siguientes argumentos: - decode_params: diccionario que controla cómo se ejecutará el subtitulador de imágenes. El valor predeterminado es {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.
- chip_size: define el tamaño de imagen para entrenar el modelo. Las imágenes se recortan según el tamaño de chip especificado. Si el tamaño de la imagen es menor que el tamaño de chip, se utilizará el tamaño de imagen. El tamaño predeterminado es 224 píxeles.
- monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_los,precisión,corpus_bleu y multi_label_fbeta. El valor predeterminado es valid_loss.
El argumento decode_params está compuesto por los seis parámetros siguientes:- embed_size:: define el tamaño de la integración. El valor predeterminado es 100 capas en la red neuronal.
- hidden_size:: define el tamaño de la capa oculta. El valor predeterminado es 100 capas en la red neuronal.
- attention_size:: define el tamaño intermedio de la capa de atención. El valor predeterminado es 100 capas en la red neuronal.
- profesor_ force: establece la probabilidad de forzamiento del profesor. El forzamiento de los profesores es una estrategia para el entrenamiento de redes neuronales recurrentes. Utiliza la salida del modelo de un periodo de tiempo anterior como entrada, en lugar de la salida anterior, durante la retropropagación. El rango válido es 0,0 a 1,0. El valor predeterminado es 1.
- gotout: configura la probabilidad de abandono. El rango válido es 0,0 a 1,0. El valor predeterminado es 0,1.
- pretrained_emb: define el marcador de integración previamente entrenado. Si es Verdadero, utilizará la integración de texto rápido. Si es Falso, no utilizará la integración de texto previamente entrenada. El valor predeterminado es Falso.
Si elige Detector de cambios (clasificación de píxeles) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se rellena con el siguiente argumento: - attention_type: especifica el tipo de módulo. Las opciones de módulo son PAM (módulo de atención piramidal) o BAM (módulo de atención básica). El valor predeterminado es PAM.
- monitorizar: especifica la métrica a monitorizar durante la verificación y la detención temprana. Las métricas disponibles son valid_los,precisión, recuperación y f1. El valor predeterminado es valid_loss.
Si elige MMDetection (detección de objetos) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se completa con los siguientes argumentos: - modelo: modelo de base utilizado para entrenar el modelo. Puede utilizar atss, carafe, cascade_rcnn, cascade_rpn, dcn, detectors, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl o vfnet como modelo base. El valor predeterminado es cascade_rcnn.
- model_weight: especifica si se utilizarán ponderaciones del modelo preentrenado. El valor predeterminado es falso. El valor también puede ser una ruta a un archivo de configuración que contiene las ponderaciones de un modelo, desde el repositorio MMDetection.
Cuando elige MMSegmentation (clasificación de píxeles) como valor del parámetro Tipo de modelo, el parámetro Argumentos de modelo se rellena con los siguientes argumentos: - modelo: modelo de base utilizado para entrenar el modelo. Puede utilizar ann, apcnet, ccnet, cgnet, danet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, encnet, fastscnn, fcn, gcnet, hrnet, mobilenet_v2, mobilenet_v3, nonlocal_net, ocrnet, ocrnet_base, pointrend, psanet, pspnet, resnest, sem_fpn, unet o upernet como modelo base. El valor predeterminado es deeplabv3.
- model_weight: especifica si se utilizarán ponderaciones del modelo preentrenado. El valor predeterminado es falso. El valor también puede ser una ruta a un archivo de configuración que contiene las ponderaciones de un modelo, desde el repositorio MMSegmentation.
Todos los tipos de modelo admiten el argumento chip_size, que es el tamaño del chip de imagen de las muestras de entrenamiento. El tamaño del chip de imagen se extrae del archivo .emd de la carpeta especificada en el parámetro Datos de entrenamiento de entrada. | Value Table |
Modelo de base (Opcional) | Especifica la red neuronal preconfigurada que se usará como arquitectura para entrenar el nuevo modelo. Este método se conoce como Aprendizaje de transferencia. Además, las redes neuronales convolucionales admitidas de los Modelos de imagen de PyTorch (timm) se pueden especificar utilizando timm: como prefijo, por ejemplo, timm:resnet31, timm:inception_v4, timm:efficientnet_b3, y así sucesivamente. - DenseNet-121—El modelo preconfigurado será una red densa entrenada en el dataset Imagenet que contiene más de 1 millón de imágenes y tiene 121 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
- DenseNet-161—El modelo preconfigurado será una red densa entrenada en el dataset Imagenet que contiene más de 1 millón de imágenes y tiene 161 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
- DenseNet-169—El modelo preconfigurado será una red densa entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 169 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
- DenseNet-201—El modelo preconfigurado será una red densa entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 201 capas de profundidad. A diferencia de RESNET, que combina la capa mediante suma, DenseNet combina las capas mediante concatenación.
- Mobilenet versión 2—Este modelo preconfigurado se entrenará en la base de datos de Imagenet y tiene 54 capas muy profundas orientadas la computación de dispositivos Edge, ya que utiliza menos memoria.
- ResNet-18—El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de millones de imágenes y tiene 18 capas de profundidad.
- ResNet-34—El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 34 capas de profundidad. Esta es la opción predeterminada.
- ResNet-50—El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 50 capas de profundidad.
- ResNet-101—El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 101 capas de profundidad.
- ResNet-152—El modelo preconfigurado será una red residual entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 152 capas de profundidad.
- VGG-11—El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1.000 categorías de objetos y tiene de 11 capas de profundidad.
- VGG-11 con normalización por lotes—Este modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 11 capas.
- VGG-13—El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene de 13 capas de profundidad.
- VGG-13 con normalización por lotes—Este modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 13 capas.
- VGG-16—El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene de 16 capas de profundidad.
- VGG-16 con normalización por lotes—Este modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 16 capas.
- VGG-19—El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes para clasificar imágenes en 1000 categorías de objetos y tiene de 19 capas de profundidad.
- VGG-19 con normalización por lotes—Este modelo preconfigurado se basará en la red VGG, pero con normalización por lotes, lo que significa que cada capa de la red está normalizada. Está entrenado en el dataset de Imagenet y tiene 19 capas.
- Darknet-53—El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que contiene más de 1 millón de imágenes y tiene 53 capas de profundidad.
- Reid_v1—El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que se utiliza para el seguimiento de objetos.
- Reid_v2—El modelo preconfigurado será una red neuronal convolucional entrenada en el dataset de Imagenet que se utiliza para el seguimiento de objetos.
| String |