Exportar datos de entrenamiento para aprendizaje profundo (Spatial Analyst)

Disponible con una licencia de Spatial Analyst.

Disponible con licencia de Image Analyst.

Resumen

Convierte los datos de vectores o datos ráster etiquetados en datasets de entrenamiento de aprendizaje profundo utilizando imágenes de teledetección. La salida será una carpeta de chips de imagen y una carpeta de archivos de metadatos en el formato especificado.

Uso

  • Esta herramienta crea datasets de entrenamiento para admitir aplicaciones de aprendizaje profundo de terceros, como Google TensorFlow, Keras, PyTorch, Microsoft CNTK y otras.

  • Las muestras de entrenamiento de aprendizaje profundo se basan en pequeñas subimágenes, llamadas chips de imágenes, que contienen la entidad o clase de interés.

  • Utilice sus datos de muestras de entrenamiento de clasificación actuales o datos de clase de entidad SIG, como por ejemplo una capa de huellas de edificios, para generar chips de imagen que contengan la muestra de clase de la imagen de origen. Los chips de imagen con frecuencia son filas de 256 píxeles por columnas de 256 píxeles, a menos que el tamaño de la muestra de entrenamiento sea más grande. Cada chip de imagen puede contener uno o varios objetos. Si se utiliza el formato de metadatos de parámetros Teselas etiquetadas, solo puede haber un objeto por cada chip de imagen.

  • Al especificar el valor de parámetro Sistema de referencia, los datos de entrenamiento se pueden exportar al espacio de mapa o espacio de píxeles (espacio de imagen sin formato) que se desea utilizar para el entrenamiento del modelo de aprendizaje profundo.

  • Esta herramienta admite la exportación de datos de entrenamiento desde una colección de imágenes. Es posible agregar una carpeta de imágenes como valor Ráster de entrada. Si el valor Ráster de entrada es un dataset de mosaico o un servicio de imágenes, también puede especificar que el parámetro Modo de procesamiento procese el mosaico como una entrada o cada elemento de ráster por separado.

  • El tamaño de celda y la extensión se pueden ajustar con la configuración del entorno de geoprocesamiento.

  • Esta herramienta respeta el ajuste de entorno Factor de procesamiento en paralelo. De forma predeterminada, el Factor de procesamiento en paralelo no está habilitado; en consecuencia, la herramienta se ejecutará en un solo núcleo. Cuando se utilizan grandes datasets, habilite el Factor de procesamiento en paralelo especificando la cantidad de núcleos que la herramienta puede usar para distribuir la carga de trabajo.

  • Para obtener información sobre los requisitos para ejecutar esta herramienta y los problemas que pueden presentarse, consulte Preguntas frecuentes sobre el aprendizaje profundo.

Parámetros

EtiquetaExplicaciónTipo de datos
Ráster de entrada

Las imágenes de origen de entrada, normalmente imágenes multiespectrales.

Ejemplos del tipo de imagen de origen de entrada son: satélite, tomada por drones, aérea y del Programa Nacional de Imágenes Agrícolas (NAIP), todas ellas multiespectrales. La entrada puede ser una carpeta de imágenes.

Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Map Server; Map Server Layer; Internet Tiled Layer; Folder
Carpeta de salida

La carpeta en la que se almacenarán los chips de imagen de salida y los metadatos.

La carpeta también puede ser una URL de carpeta que utiliza un archivo de conexión a un almacenamiento en la nube (*.acs).

Folder
Ráster clasificado o clase de entidad de entrada o tabla

Los datos de muestra de entrenamiento en formato vectorial o ráster. Las entradas vectoriales deben seguir un formato de muestra de entrenamiento como el generado con el panel Administrador de muestras de entrenamiento. Las entradas de ráster deben seguir un formato de ráster clasificado generado por la herramienta Clasificar ráster.

La entrada de ráster también puede proceder de una carpeta de rásteres clasificados. Las entradas de ráster clasificado requieren la tabla de atributos ráster correspondiente. Las tablas de entrada deben seguir un formato de muestra de entrenamiento generado por el botón Etiquetar objetos para aprendizaje profundo en el panel Administrador de muestras de entrenamiento. Al seguir un formato de muestra de entrenamiento adecuado, se obtienen resultados óptimos con la información estadística; sin embargo, la entrada también puede ser una clase de entidad de puntos que no tiene un campo de valor de clase, o bien un ráster entero sin información de clase.

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Table; Folder
Formato de imagen

Especifica el formato de ráster que se utilizará para las salidas de chips de imagen.

Los formatos PNG y JPEG admiten hasta tres bandas.

  • Formato TIFFSe utilizará el formato TIFF.
  • Formato PNGSe utilizará el formato PNG.
  • Formato JPEGSe utilizará el formato JPEG.
  • MRF (formato de metarráster)Se utilizará el formato metarráster (MRF).
String
Tamaño de tesela X
(Opcional)

El tamaño de los chips de imagen para la dimensión x.

Long
Tamaño de tesela Y
(Opcional)

El tamaño de los chips de imagen para la dimensión y.

Long
Paso X
(Opcional)

La distancia a la que se desplaza la dirección x al crear los siguientes chips de imagen.

Cuando el paso equivale al tamaño de la tesela, no habrá ninguna superposición. Cuando el paso equivale a la mitad del tamaño de la tesela, habrá una superposición del 50 por ciento.

Long
Paso Y
(Opcional)

La distancia a la que se desplaza la dirección y al crear los siguientes chips de imagen.

Cuando el paso equivale al tamaño de la tesela, no habrá ninguna superposición. Cuando el paso equivale a la mitad del tamaño de la tesela, habrá una superposición del 50 por ciento.

Long
Salida de teselas sin entidades
(Opcional)

Especifica si se exportarán los chips de imagen que no capturen muestras de entrenamiento.

  • Activado: se exportarán todos los chips de imagen, incluidos aquellos que no capturen muestras de entrenamiento.
  • Desactivado: solo se exportarán los chips de imagen que capturen muestras de entrenamiento. Esta es la opción predeterminada.

Si se activa, también se exportarán los chips de imagen que no capturen datos etiquetados; si no se activa, no se exportarán.

Boolean
Formato de metadatos
(Opcional)

Especifica el formato que se utilizará para las etiquetas de metadatos de salida.

Si los datos de muestra de entrenamiento de entrada son una capa de clase de entidad, como por ejemplo una capa de edificios o un archivo de muestra de entrenamiento de clasificación estándar, utilice la opción Etiquetas KITTI o PASCAL Visual Object Classes (KITTI_rectangles o PASCAL_VOC_rectangles en Python). Los metadatos de salida son un archivo .txt o un archivo .xml que contiene los datos de muestra de entrenamiento incluidos en el rectángulo mínimo de delimitación. El nombre del archivo de metadatos coincide con el nombre de la imagen de origen de entrada. Si los datos de muestra de entrenamiento de entrada son un mapa de clase, utilice la opción Teselas clasificadas (Classified_Tiles en Python) como formato de metadatos de salida.

El formato de metadatos KITTI permite 15 columnas, pero solo se utilizan 5 de ellas en la herramienta. La primera columna es el valor de clase. Las siguientes 3 columnas se omiten. Las columnas 5 a 8 definen el rectángulo mínimo de delimitación, que consta de cuatro ubicaciones de coordenada de imagen: píxeles izquierdo, superior, derecho e inferior. El rectángulo mínimo de delimitación comprende el chip de formación utilizado en el clasificador de aprendizaje profundo. Las columnas restantes no se utilizan.

  • Etiquetas KITTILos metadatos seguirán el mismo formato que el dataset de evaluación de detección de objetos del Instituto Tecnológico de Karlsruhe y el Instituto Tecnológico de Toyota (KITTI). El dataset KITTI es un conjunto de referencia de visión. Los archivos de etiquetas son archivos de texto plano. Todos los valores, tanto numéricos como de cadena de caracteres, se separan con espacios y cada fila se corresponde con un objeto.Este formato se utiliza para la detección de objetos.
  • PASCAL Visual Object ClassesLos metadatos seguirán el mismo formato que el dataset Pattern Analysis, Statistical Modeling and Computational Learning, Visual Object Classes (PASCAL_VOC). El dataset PASCAL VOC es un dataset de imágenes estandarizado para el reconocimiento de clases de objetos. Los archivos de etiquetas están en formato XML y contienen información sobre el nombre de la imagen, el valor de clase y los cuadros de delimitación.Este formato se utiliza para la detección de objetos. Esta es la opción predeterminada.
  • Teselas clasificadasLa salida será chip de imagen clasificado por cada chip de imagen de entrada. No se utiliza ningún otro metadato para cada chip de imagen. Solo el resultado de las estadísticas tiene más información sobre las clases, como los nombres de las clases, los valores de las clases y las estadísticas de salida.Este formato se utiliza principalmente para la clasificación de píxeles. Este formato también se utiliza para la detección de cambios cuando la salida es un chip de imagen clasificado a partir de dos chips de imagen.
  • Máscaras RCNNLa salida serán chips de imágenes de salida con una máscara en las áreas donde existe la muestra. El modelo genera cuadros de delimitación y máscaras de segmentación para cada instancia de un objeto de la imagen. Este formato se basa en Feature Pyramid Network (FPN) y una base ResNet101 en el modelo de marco de aprendizaje profundo.Este formato se utiliza para la detección de objetos; sin embargo, también se puede utilizar para realizar un rastreo de objetos cuando se utiliza el tipo de modelo Siam Mask durante el entrenamiento, así como la clasificación de píxeles de serie temporal cuando se utiliza la arquitectura PSETAE.
  • Teselas etiquetadasCada tesela de salida se etiqueta con una clase específica.Este formato se utiliza para la clasificación de objetos.
  • Teselas multietiquetasCada tesela de salida se etiqueta con una o varias clases. Por ejemplo, una tesela puede etiquetarse como agricultura y también como nublado.Este formato se utiliza para la clasificación de objetos.
  • Exportar teselasLa salida serán chips de imagen sin etiqueta.Este formato se utiliza para técnicas de traslación de imágenes, como Pix2Pix y Superresolución.
  • CycleGANLa salida serán chips de imagen sin etiqueta.Este formato se utiliza para la técnica de traslación de imágenes CycleGAN, que se utiliza para entrenar imágenes que no se solapan.
  • ImageNetCada tesela de salida se etiqueta con una clase específica.Este formato se usa para la clasificación de objetos; sin embargo, también se puede usar para realizar un rastreo de objetos cuando se usa el tipo de modelo de Orden profundo durante el entrenamiento.
  • Segmentación panópticaLa salida será un chip de imagen clasificado y una instancia por cada chip de imagen de entrada. La salida también tendrá chips de imagen que enmascaran las áreas donde existe la muestra; estos chips de imagen se almacenarán en una carpeta diferente.Este formato se utiliza tanto para la clasificación de píxeles como para la segmentación de instancias, de modo que se generarán dos carpetas de etiquetas de salida.
String
Índice inicial
(Opcional)

Heredado:

Este parámetro ha quedado obsoleto.

Long
Campo de valor de clase
(Opcional)

El campo que contiene los valores de clase. Si no se especifica ningún campo, el sistema busca un campo value o classvalue. El campo debe ser numérico, normalmente un número entero. Si la entidad no contiene un campo de clase, el sistema determina que todos los registros pertenecen a una clase.

Field
Radio de zona de influencia
(Opcional)

El radio de una zona de influencia alrededor de cada muestra de entrenamiento que se utilizará para delinear un área de muestra de entrenamiento. Le permite crear muestras de entrenamiento poligonales circulares a partir de puntos.

Se utiliza la unidad lineal de la referencia espacial del valor del parámetro Clase de entidad de entrada o ráster clasificado o tabla.

Double
Polígonos de máscara de entrada
(Opcional)

Una clase de entidad poligonal que delinea el área en la que se crearán los chips de imagen.

Solo se crean los chips de imagen que recaen completamente dentro de los polígonos.

Feature Layer
Ángulo de rotación
(Opcional)

El ángulo de rotación que se utilizará para generar chips de imagen.

Se genera un chip de imagen sin rotación. A continuación, se girará en el ángulo especificado para crear chips de imagen adicionales. La imagen se girará y se creará un chip hasta que haya girado por completo. Por ejemplo, si especifica un ángulo de rotación de 45 grados, la herramienta creará ocho chips de imagen. Estos ocho chips de imagen se crearán con los ángulos siguientes: 0, 45, 90, 135, 180, 25, 270 y 315.

El ángulo de rotación predeterminado es 0, que crea un chip de imagen predeterminado.

Double
Sistema de Referencia
(Opcional)

Especifica el tipo de sistema de referencia que se usará para interpretar la imagen de entrada. El sistema de referencia especificado debe coincidir con el sistema de referencia utilizado para entrenar el modelo de aprendizaje profundo.

  • Espacio de mapaSe utilizará un sistema de coordenadas basado en mapa. Esta es la opción predeterminada.
  • Espacio de píxelesSe utilizará el espacio de imagen, sin giro ni distorsión.
String
Modo de procesamiento
(Opcional)

Especifica cómo se procesarán todos los elementos de ráster en un dataset de mosaico o un servicio de imágenes. Este parámetro se aplica si el ráster de entrada es un dataset de mosaico o un servicio de imágenes.

  • Procesar como imagen en mosaicoSe creará un mosaico con todos los elementos de ráster del dataset de mosaico o del servicio de imágenes y se procesarán. Esta es la opción predeterminada.
  • Procesar todos los elementos de ráster por separadoTodos los elementos de ráster del dataset de mosaico o del servicio de imágenes se procesarán como imágenes separadas.
String
Oscurecer alrededor de entidad
(Opcional)

Especifica si se ocultarán los píxeles situados alrededor de cada objeto o entidad de cada tesela de imagen.

Este parámetro solo se aplica si el parámetro Formato de metadatos tiene el valor Teselas etiquetadas y se ha especificado una clase de entidad de entrada o un ráster clasificado.

  • Desactivado: los píxeles que rodean a los objetos o entidades no se ocultan. Esta es la opción predeterminada.
  • Activado: los píxeles que rodean a los objetos o entidades se ocultan.
Boolean
Modo de cultivo
(Opcional)

Especifica si las teselas exportadas se deben recortar de forma que todas tengan el mismo tamaño.

Este parámetro solo se aplica si el parámetro Formato de metadatos tiene el valor Teselas etiquetadas o bien ImageNet y se ha especificado una clase de entidad de entrada o un ráster clasificado.

  • Tamaño fijoLas teselas exportadas se recortarán con el mismo tamaño y se centrarán en la entidad. Esta es la opción predeterminada.
  • Cuadro de delimitaciónLas teselas exportadas se recortarán de forma que la geometría de delimitación rodee solo a la entidad en la tesela.
String
Ráster de entrada adicional
(Opcional)

Una fuente de imágenes de entrada adicional que se usará para los métodos de traslación de imágenes.

Este parámetro es válido cuando el parámetro Formato de metadatos se establece en Teselas clasificadas, Teselas de exportación o CycleGAN.

Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Map Server; Map Server Layer; Internet Tiled Layer; Folder
Clase de entidad de instancia
(Opcional)

Los datos de muestras de entrenamiento capturados que contienen clases para la segmentación de instancias.

La entrada también puede ser una clase de entidad de punto sin un campo de valor de clase o un ráster entero sin información de clase.

Este parámetro solo es válido cuando el parámetro Formato de metadatos está establecido en Segmentación panóptica.

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Table; Folder
Campo de valor de clase de instancia
(Opcional)

El campo que contiene los valores de clase para la segmentación de instancias. Si no se especifica ningún campo, la herramienta utilizará un campo de valor o valor de clase, si lo hubiera. Si la entidad no contiene un campo de clase, la herramienta determinará que todos los registros pertenecen a una clase.

Este parámetro solo es válido cuando el parámetro Formato de metadatos está establecido en Segmentación panóptica.

Field
Ratio de superposición mínimo entre polígonos
(Opcional)

El porcentaje de superposición mínimo para que una entidad se incluya en los datos de entrenamiento. Si el porcentaje de superposición es menor que el valor especificado, la entidad se excluirá del chip de entrenamiento y no se agregará al archivo de etiquetas.

El valor porcentual se expresa como un decimal. Por ejemplo, para especificar una superposición del 20 por ciento, utilice un valor de 0,2. El valor predeterminado es 0, lo que significa que se incluirán todas las entidades.

Este parámetro mejora el rendimiento de la herramienta y también mejora la inferencia. La velocidad mejora porque se crean menos chips de entrenamiento. La inferencia mejora porque el modelo se entrena para detectar solamente parches grandes de objetos e ignora pequeñas esquinas de entidades. Esto significa que se detectarán menos falsos positivos y que la herramienta Supresión no máxima eliminará menos falsos positivos.

Este parámetro está activo cuando el valor del parámetro Clase de entidad de entrada o ráster clasificado o tabla es una clase de entidad.

Double

ExportTrainingDataForDeepLearning(in_raster, out_folder, in_class_data, image_chip_format, {tile_size_x}, {tile_size_y}, {stride_x}, {stride_y}, {output_nofeature_tiles}, {metadata_format}, {start_index}, {class_value_field}, {buffer_radius}, {in_mask_polygons}, {rotation_angle}, {reference_system}, {processing_mode}, {blacken_around_feature}, {crop_mode}, {in_raster2}, {in_instance_data}, {instance_class_value_field}, {min_polygon_overlap_ratio})
NombreExplicaciónTipo de datos
in_raster

Las imágenes de origen de entrada, normalmente imágenes multiespectrales.

Ejemplos del tipo de imagen de origen de entrada son: satélite, tomada por drones, aérea y del Programa Nacional de Imágenes Agrícolas (NAIP), todas ellas multiespectrales. La entrada puede ser una carpeta de imágenes.

Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Map Server; Map Server Layer; Internet Tiled Layer; Folder
out_folder

La carpeta en la que se almacenarán los chips de imagen de salida y los metadatos.

La carpeta también puede ser una URL de carpeta que utiliza un archivo de conexión a un almacenamiento en la nube (*.acs).

Folder
in_class_data

Los datos de muestra de entrenamiento en formato vectorial o ráster. Las entradas vectoriales deben seguir un formato de muestra de entrenamiento como el generado con el panel Administrador de muestras de entrenamiento. Las entradas de ráster deben seguir un formato de ráster clasificado generado por la herramienta Clasificar ráster.

La entrada de ráster también puede proceder de una carpeta de rásteres clasificados. Las entradas de ráster clasificado requieren la tabla de atributos ráster correspondiente. Las tablas de entrada deben seguir un formato de muestra de entrenamiento generado por el botón Etiquetar objetos para aprendizaje profundo en el panel Administrador de muestras de entrenamiento. Al seguir un formato de muestra de entrenamiento adecuado, se obtienen resultados óptimos con la información estadística; sin embargo, la entrada también puede ser una clase de entidad de puntos que no tiene un campo de valor de clase, o bien un ráster entero sin información de clase.

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Table; Folder
image_chip_format

Especifica el formato de ráster que se utilizará para las salidas de chips de imagen.

Los formatos PNG y JPEG admiten hasta tres bandas.

  • TIFFSe utilizará el formato TIFF.
  • PNGSe utilizará el formato PNG.
  • JPEGSe utilizará el formato JPEG.
  • MRFSe utilizará el formato metarráster (MRF).
String
tile_size_x
(Opcional)

El tamaño de los chips de imagen para la dimensión x.

Long
tile_size_y
(Opcional)

El tamaño de los chips de imagen para la dimensión y.

Long
stride_x
(Opcional)

La distancia a la que se desplaza la dirección x al crear los siguientes chips de imagen.

Cuando el paso equivale al tamaño de la tesela, no habrá ninguna superposición. Cuando el paso equivale a la mitad del tamaño de la tesela, habrá una superposición del 50 por ciento.

Long
stride_y
(Opcional)

La distancia a la que se desplaza la dirección y al crear los siguientes chips de imagen.

Cuando el paso equivale al tamaño de la tesela, no habrá ninguna superposición. Cuando el paso equivale a la mitad del tamaño de la tesela, habrá una superposición del 50 por ciento.

Long
output_nofeature_tiles
(Opcional)

Especifica si se exportarán los chips de imagen que no capturen muestras de entrenamiento.

  • ALL_TILESSe exportarán todos los chips de imagen, incluidos aquellos que no capturen muestras de entrenamiento.
  • ONLY_TILES_WITH_FEATURESSolo se exportarán los chips de imagen que capturen muestras de entrenamiento. Esta es la opción predeterminada.
Boolean
metadata_format
(Opcional)

Especifica el formato que se utilizará para las etiquetas de metadatos de salida.

Si los datos de muestra de entrenamiento de entrada son una capa de clase de entidad, como por ejemplo una capa de edificios o un archivo de muestra de entrenamiento de clasificación estándar, utilice la opción Etiquetas KITTI o PASCAL Visual Object Classes (KITTI_rectangles o PASCAL_VOC_rectangles en Python). Los metadatos de salida son un archivo .txt o un archivo .xml que contiene los datos de muestra de entrenamiento incluidos en el rectángulo mínimo de delimitación. El nombre del archivo de metadatos coincide con el nombre de la imagen de origen de entrada. Si los datos de muestra de entrenamiento de entrada son un mapa de clase, utilice la opción Teselas clasificadas (Classified_Tiles en Python) como formato de metadatos de salida.

  • KITTI_rectanglesLos metadatos seguirán el mismo formato que el dataset de evaluación de detección de objetos del Instituto Tecnológico de Karlsruhe y el Instituto Tecnológico de Toyota (KITTI). El dataset KITTI es un conjunto de referencia de visión. Los archivos de etiquetas son archivos de texto plano. Todos los valores, tanto numéricos como de cadena de caracteres, se separan con espacios y cada fila se corresponde con un objeto.Este formato se utiliza para la detección de objetos.
  • PASCAL_VOC_rectanglesLos metadatos seguirán el mismo formato que el dataset Pattern Analysis, Statistical Modeling and Computational Learning, Visual Object Classes (PASCAL_VOC). El dataset PASCAL VOC es un dataset de imágenes estandarizado para el reconocimiento de clases de objetos. Los archivos de etiquetas están en formato XML y contienen información sobre el nombre de la imagen, el valor de clase y los cuadros de delimitación.Este formato se utiliza para la detección de objetos. Esta es la opción predeterminada.
  • Classified_TilesLa salida será chip de imagen clasificado por cada chip de imagen de entrada. No se utiliza ningún otro metadato para cada chip de imagen. Solo el resultado de las estadísticas tiene más información sobre las clases, como los nombres de las clases, los valores de las clases y las estadísticas de salida.Este formato se utiliza principalmente para la clasificación de píxeles. Este formato también se utiliza para la detección de cambios cuando la salida es un chip de imagen clasificado a partir de dos chips de imagen.
  • RCNN_MasksLa salida serán chips de imágenes de salida con una máscara en las áreas donde existe la muestra. El modelo genera cuadros de delimitación y máscaras de segmentación para cada instancia de un objeto de la imagen. Este formato se basa en Feature Pyramid Network (FPN) y una base ResNet101 en el modelo de marco de aprendizaje profundo.Este formato se utiliza para la detección de objetos; sin embargo, también se puede utilizar para realizar un rastreo de objetos cuando se utiliza el tipo de modelo Siam Mask durante el entrenamiento, así como la clasificación de píxeles de serie temporal cuando se utiliza la arquitectura PSETAE.
  • Labeled_TilesCada tesela de salida se etiqueta con una clase específica.Este formato se utiliza para la clasificación de objetos.
  • MultiLabeled_TilesCada tesela de salida se etiqueta con una o varias clases. Por ejemplo, una tesela puede etiquetarse como agricultura y también como nublado.Este formato se utiliza para la clasificación de objetos.
  • Export_TilesLa salida serán chips de imagen sin etiqueta.Este formato se utiliza para técnicas de traslación de imágenes, como Pix2Pix y Superresolución.
  • CycleGANLa salida serán chips de imagen sin etiqueta.Este formato se utiliza para la técnica de traslación de imágenes CycleGAN, que se utiliza para entrenar imágenes que no se solapan.
  • ImagenetCada tesela de salida se etiqueta con una clase específica.Este formato se usa para la clasificación de objetos; sin embargo, también se puede usar para realizar un rastreo de objetos cuando se usa el tipo de modelo de Orden profundo durante el entrenamiento.
  • Panoptic_SegmentationLa salida será un chip de imagen clasificado y una instancia por cada chip de imagen de entrada. La salida también tendrá chips de imagen que enmascaran las áreas donde existe la muestra; estos chips de imagen se almacenarán en una carpeta diferente.Este formato se utiliza tanto para la clasificación de píxeles como para la segmentación de instancias, de modo que se generarán dos carpetas de etiquetas de salida.

El formato de metadatos KITTI permite 15 columnas, pero solo se utilizan 5 de ellas en la herramienta. La primera columna es el valor de clase. Las siguientes 3 columnas se omiten. Las columnas 5 a 8 definen el rectángulo mínimo de delimitación, que consta de cuatro ubicaciones de coordenada de imagen: píxeles izquierdo, superior, derecho e inferior. El rectángulo mínimo de delimitación comprende el chip de formación utilizado en el clasificador de aprendizaje profundo. Las columnas restantes no se utilizan.

A continuación, encontrará un ejemplo de opción PASCAL_VOC_rectangles:

  <?xml version=”1.0”?>
- <layout>
      <image>000000000</image>
      <object>1</object>
    - <part>
         <class>1</class>
       - <bndbox>
            <xmin>31.85</xmin>
            <ymin>101.52</ymin>
            <xmax>256.00</xmax>
            <ymax>256.00</ymax>
         </bndbox>
      </part>
  </layout>

Para obtener más información, consulte el documento Microsoft PASCAL Visual Object Classes (VOC) Challenge.

String
start_index
(Opcional)

Heredado:

Este parámetro ha quedado obsoleto. Utilice un valor de 0 o # en Python.

Long
class_value_field
(Opcional)

El campo que contiene los valores de clase. Si no se especifica ningún campo, el sistema busca un campo value o classvalue. El campo debe ser numérico, normalmente un número entero. Si la entidad no contiene un campo de clase, el sistema determina que todos los registros pertenecen a una clase.

Field
buffer_radius
(Opcional)

El radio de una zona de influencia alrededor de cada muestra de entrenamiento que se utilizará para delinear un área de muestra de entrenamiento. Le permite crear muestras de entrenamiento poligonales circulares a partir de puntos.

Se utiliza la unidad lineal de la referencia espacial del valor del parámetro in_class_data.

Double
in_mask_polygons
(Opcional)

Una clase de entidad poligonal que delinea el área en la que se crearán los chips de imagen.

Solo se crean los chips de imagen que recaen completamente dentro de los polígonos.

Feature Layer
rotation_angle
(Opcional)

El ángulo de rotación que se utilizará para generar chips de imagen.

Se genera un chip de imagen sin rotación. A continuación, se girará en el ángulo especificado para crear chips de imagen adicionales. La imagen se girará y se creará un chip hasta que haya girado por completo. Por ejemplo, si especifica un ángulo de rotación de 45 grados, la herramienta creará ocho chips de imagen. Estos ocho chips de imagen se crearán con los ángulos siguientes: 0, 45, 90, 135, 180, 25, 270 y 315.

El ángulo de rotación predeterminado es 0, que crea un chip de imagen predeterminado.

Double
reference_system
(Opcional)

Especifica el tipo de sistema de referencia que se usará para interpretar la imagen de entrada. El sistema de referencia especificado debe coincidir con el sistema de referencia utilizado para entrenar el modelo de aprendizaje profundo.

  • MAP_SPACESe utilizará un sistema de coordenadas basado en mapa. Esta es la opción predeterminada.
  • PIXEL_SPACESe utilizará el espacio de imagen, sin giro ni distorsión.
String
processing_mode
(Opcional)

Especifica cómo se procesarán todos los elementos de ráster en un dataset de mosaico o un servicio de imágenes. Este parámetro se aplica si el ráster de entrada es un dataset de mosaico o un servicio de imágenes.

  • PROCESS_AS_MOSAICKED_IMAGESe creará un mosaico con todos los elementos de ráster del dataset de mosaico o del servicio de imágenes y se procesarán. Esta es la opción predeterminada.
  • PROCESS_ITEMS_SEPARATELYTodos los elementos de ráster del dataset de mosaico o del servicio de imágenes se procesarán como imágenes separadas.
String
blacken_around_feature
(Opcional)

Especifica si se ocultarán los píxeles situados alrededor de cada objeto o entidad de cada tesela de imagen.

Este parámetro solo se aplica si el parámetro metadata_format tiene el valor Labeled_Tiles y se ha especificado una clase de entidad de entrada o un ráster clasificado.

  • NO_BLACKENLos píxeles que rodean a los objetos o entidades no se ocultan. Esta es la opción predeterminada.
  • BLACKEN_AROUND_FEATURELos píxeles que rodean a los objetos o entidades se ocultan.
Boolean
crop_mode
(Opcional)

Especifica si las teselas exportadas se deben recortar de forma que todas tengan el mismo tamaño.

Este parámetro solo se aplica si el parámetro metadata_format tiene el valor Labeled_Tiles o bien Imagenet y se ha especificado una clase de entidad de entrada o un ráster clasificado.

  • FIXED_SIZELas teselas exportadas se recortarán con el mismo tamaño y se centrarán en la entidad. Esta es la opción predeterminada.
  • BOUNDING_BOXLas teselas exportadas se recortarán de forma que la geometría de delimitación rodee solo a la entidad en la tesela.
String
in_raster2
(Opcional)

Una fuente de imágenes de entrada adicional que se usará para los métodos de traslación de imágenes.

Este parámetro es válido cuando el parámetro metadata_format está establecido en Classified_Tiles, Export_Tiles o CycleGAN.

Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Map Server; Map Server Layer; Internet Tiled Layer; Folder
in_instance_data
(Opcional)

Los datos de muestras de entrenamiento capturados que contienen clases para la segmentación de instancias.

La entrada también puede ser una clase de entidad de punto sin un campo de valor de clase o un ráster entero sin información de clase.

Este parámetro solo es válido cuando el parámetro metadata_format se establece en Panoptic_Segmentation.

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Table; Folder
instance_class_value_field
(Opcional)

El campo que contiene los valores de clase para la segmentación de instancias. Si no se especifica ningún campo, la herramienta utilizará un campo de valor o valor de clase, si lo hubiera. Si la entidad no contiene un campo de clase, la herramienta determinará que todos los registros pertenecen a una clase.

Este parámetro solo es válido cuando el parámetro metadata_format se establece en Panoptic_Segmentation.

Field
min_polygon_overlap_ratio
(Opcional)

El porcentaje de superposición mínimo para que una entidad se incluya en los datos de entrenamiento. Si el porcentaje de superposición es menor que el valor especificado, la entidad se excluirá del chip de entrenamiento y no se agregará al archivo de etiquetas.

El valor porcentual se expresa como un decimal. Por ejemplo, para especificar una superposición del 20 por ciento, utilice un valor de 0,2. El valor predeterminado es 0, lo que significa que se incluirán todas las entidades.

Este parámetro mejora el rendimiento de la herramienta y también mejora la inferencia. La velocidad mejora porque se crean menos chips de entrenamiento. La inferencia mejora porque el modelo se entrena para detectar solamente parches grandes de objetos e ignora pequeñas esquinas de entidades. Esto significa que se detectarán menos falsos positivos y que la herramienta Supresión no máxima eliminará menos falsos positivos.

Este parámetro está habilitado cuando el valor del parámetro in_class_data es una clase de entidad.

Double

Muestra de código

Ejemplo 1 de ExportTrainingDataForDeepLearning (ventana de Python)

En este ejemplo se crean muestras de entrenamiento para aprendizaje profundo.

# Import system modules
import arcpy
from arcpy.sa import *

# Check out the ArcGIS Image Analyst extension license
arcpy.CheckOutExtension("spatialAnalyst")

ExportTrainingDataForDeepLearning("c:/test/image.tif", "c:/test/outfolder",
             "c:/test/training.shp", "TIFF", "256", "256", "128", "128", 
             "ONLY_TILES_WITH_FEATURES", "Labeled_Tiles", 0, "Classvalue", 0, 
			 None, 0,  "MAP_SPACE", "PROCESS_AS_MOSAICKED_IMAGE", "NO_BLACKEN", 
			 "FIXED_SIZE")
Ejemplo 2 de ExportTrainingDataForDeepLearning (script independiente)

En este ejemplo se crean muestras de entrenamiento para aprendizaje profundo.

# Import system modules and check out ArcGIS Image Analyst extension license
import arcpy
arcpy.CheckOutExtension("SpatialAnalyst")
from arcpy.sa import *

# Set local variables
inRaster = "C:/test/InputRaster.tif"
out_folder = "c:/test/OutputFolder"
in_training = "c:/test/TrainingData.shp"
image_chip_format = "TIFF"
tile_size_x = "256"
tile_size_y = "256"
stride_x="128"
stride_y="128"
output_nofeature_tiles="ONLY_TILES_WITH_FEATURES"
metadata_format="Labeled_Tiles"
start_index = 0
classvalue_field = "Classvalue"
buffer_radius = 0
in_mask_polygons = "MaskPolygon"
rotation_angle = 0
reference_system = "MAP_SPACE"
processing_mode = "PROCESS_AS_MOSAICKED_IMAGE"
blacken_around_feature = "NO_BLACKEN"
crop_mode = "FIXED_SIZE"

# Execute 
ExportTrainingDataForDeepLearning(inRaster, out_folder, in_training, 
             image_chip_format,tile_size_x, tile_size_y, stride_x, 
             stride_y,output_nofeature_tiles, metadata_format, start_index, 
			 classvalue_field, buffer_radius, in_mask_polygons, rotation_angle, 
			 reference_system, processing_mode, blacken_around_feature, crop_mode)

Información de licenciamiento

  • Basic: Requiere Spatial Analyst o Image Analyst
  • Standard: Requiere Spatial Analyst o Image Analyst
  • Advanced: Requiere Spatial Analyst o Image Analyst

Temas relacionados