Objetos etiquetados para aprendizaje profundo—ArcGIS Pro

Disponible con licencia de Image Analyst.

Disponible con una licencia de Spatial Analyst.

Todas las tareas de aprendizaje profundo supervisado dependen de datasets etiquetados, lo que significa que las personas deben aplicar su conocimiento para entrenar a la red neuronal para identificar o detectar objetos de interés. La red neuronal utilizará los objetos etiquetados para entrenar un modelo que puede usarse para realizar inferencias sobre los datos.

El etiquetado es el proceso de selección de muestras representativas de un objeto de interés. Los objetos seleccionados para el etiquetado deben representar con precisión las características espaciales, espectrales, de orientación, tamaño y condición de los objetos de interés. Cuanto mejor representen los objetos etiquetados la entidad de interés, mejor será el entrenamiento del modelo de aprendizaje profundo y más precisas serán la clasificación y la detección de inferencias.

La anotación de imagen, o el etiquetado, es vital para las tareas de aprendizaje profundo, como la visión y el aprendizaje informático. Se requiere una gran cantidad de datos etiquetados para entrenar un buen modelo de aprendizaje profundo. Cuando se dispone de los datos de entrenamiento adecuados, los sistemas de aprendizaje profundo pueden ser precisos en la extracción de entidades, el reconocimiento de patrones y la resolución de problemas complejos. Puede utilizar el panel Etiquetar objetos para aprendizaje profundo para etiquetar datos.

Acceda al botón Etiquetar objetos para aprendizaje profundo desde el menú desplegable Herramientas de aprendizaje profundo, en el grupo Clasificación de imágenes en la pestaña Imágenes. Al abrir la herramienta, elija utilizar una capa existente o crear una colección de imágenes. Para una nueva colección de imágenes, examine la ubicación de la carpeta de imágenes y se creará una capa con la colección de imágenes.

Una vez especificado el valor del parámetro Imágenes/Colección de imágenes, aparece el panel Etiquetar objetos. El panel se divide en dos partes. La parte superior del panel sirve para administrar clases y la parte inferior para administrar la recogida de muestras, así como para exportar los datos de entrenamiento para los marcos de aprendizaje profundo.

Crear clases y etiquetar objetos

La parte superior del panel le permite administrar las clases de objetos y crear los objetos utilizados para entrenar el modelo de aprendizaje profundo. Dispone de las siguientes herramientas de boceto y herramientas asistidas por inteligencia artificial (IA) para crear objetos etiquetados:


Herramienta	Descripción
	Crear un objeto etiquetado dibujando un rectángulo alrededor de una entidad o un objeto en el ráster.
	Crear un objeto etiquetado dibujando un polígono alrededor de una entidad o un objeto en el ráster.
	Crear un objeto etiquetado dibujando un círculo alrededor de una entidad o un objeto en el ráster.
	Crear un objeto etiquetado dibujando una forma a mano alzada alrededor de una entidad o un objeto en el ráster.
	Detectar y etiquetar automáticamente la entidad u objeto. Se dibuja un polígono alrededor de la entidad u objeto. Esta herramienta solo está disponible si están instaladas las bibliotecas de marcos de aprendizaje profundo.
	Crear una entidad seleccionando un segmento de una capa segmentada. Esta opción solo está disponible si hay una capa segmentada en el panel Contenido. Active el Selector de segmento seleccionando la capa segmentada en el panel Contenido y seleccione la capa de la lista desplegable Selector de segmento.
	Asigne la clase seleccionada a la imagen actual. Esta herramienta solo está disponible en el modo Colección de imágenes.
	Seleccione y edite un objeto etiquetado.
	Crear un esquema de clasificación.
	Elija una opción de esquema de clasificación. Ir a un esquema existente. Generar un nuevo esquema a partir de una clase de entidad de muestra de entrenamiento existente. Generar un nuevo esquema a partir de un ráster clasificado existente. Genere un nuevo esquema utilizando el esquema predeterminado de la base de datos nacional de cobertura de suelo de 2011.
	Guarde los cambios en el esquema.
	Guarde una copia del esquema.
	Agregar una categoría de clase al esquema. Seleccione primero el nombre del esquema para crear una clase principal en el nivel más alto. Seleccione el nombre de una clase existente para crear una subclase.
	Elimine la clase o categoría de subclase seleccionada del esquema.

Herramientas de etiquetado asistidas por IA

Existen dos tipos de herramientas de IA para etiquetar objetos: Detección automática y Mensaje de texto.

Herramienta Detección automática

La herramienta Detección automática dibuja automáticamente un rectángulo alrededor de una entidad. Haga clic en la entidad y se dibujará un rectángulo delimitador que la contendrá. Si desea un límite poligonal de la entidad, pulse la tecla Mayús mientras hace clic en la entidad y se dibujará un perímetro alrededor de la forma de la entidad. Para que la herramienta funcione bien, requiere que se visualice en el mapa un número significativo de píxeles de las entidades, lo que requiere acercarse a las mismas.

La herramienta Detección automática funciona bien en entidades distintas caracterizadas por formas distintivas, bordes nítidos y alto contraste. No se recomienda para entidades continuas muy próximas entre sí.

Nota:

Los marcos de aprendizaje profundo para ArcGIS deben estar instalados para utilizar esta característica.

Herramienta Mensaje de texto

Con la herramienta Mensaje de texto, puede utilizar la entidad de detección como ayuda para el etiquetado. Escriba el nombre del objeto en el cuadro de texto Nombre de clase y haga clic en el botón Detectar. Se recomienda utilizar una GPU de gama alta con al menos 12 GB de RAM para esta entidad.

Para mejorar los resultados, puede fijar los valores de Umbral de cuadro y Umbral de texto en las opciones de Configurar:

Umbral de cuadro: este valor se utiliza para la detección de objetos en la imagen. Un valor más alto hace que el modelo sea más selectivo, identificando solo las instancias de objetos de mayor confianza, lo que conduce a menos detecciones en general. Un valor más bajo hace que el modelo sea más tolerante, lo que conduce a un aumento de las detecciones, incluidas las de potencialmente menor confianza. Los valores de umbral van de 0 a 1.
Umbral de texto: este valor se utiliza para asociar los objetos detectados al mensaje de texto proporcionado. Un valor más alto requiere una asociación más fuerte entre el objeto y el mensaje de texto, lo que conduce a asociaciones más precisas, pero potencialmente menos numerosas. Un valor más bajo permite asociaciones más débiles, lo que puede aumentar el número de asociaciones, pero también introducir correlaciones menos precisas. Los valores de umbral van de 0 a 1.

Nota:

Los marcos de aprendizaje profundo para ArcGIS deben estar instalados para utilizar esta característica.

Cuadro de diálogo Definir clase

El cuadro de diálogo Definir clase le permite crear una clase o definir una clase existente. Si elige Utilizar la clase existente, seleccione la opción Nombre de clase apropiada para ese objeto. Si elige Agregar nueva clase, puede editar la información y hacer clic en Aceptar para crear la clase.

Pestaña Objetos etiquetados

La pestaña Objetos etiquetados se encuentra en la parte inferior del panel Etiquetar objetos y es donde se administran las muestras de entrenamiento que ha recopilado para cada clase. Recopile sitios representativos, o muestras de entrenamiento, para cada clase de la imagen. Una muestra de entrenamiento tiene información de ubicación (de polígono) y una clase asociada. El algoritmo de clasificación de imágenes usa las muestras de entrenamiento, guardadas como clase de entidad, para identificar las clases de cobertura de suelo en toda la imagen.

Puede ver y administrar muestras de entrenamiento agregándolas, agrupándolas o eliminándolas. Al hacer clic en una muestra de entrenamiento, esta se selecciona en el mapa. Haga doble clic en una muestra de entrenamiento de la tabla para acercarla en el mapa.

Las herramientas de la pestaña Objetos etiquetados se describen en la tabla siguiente:


Herramienta	Descripción
	Abrir una clase de entidad de muestras de entrenamiento existente.
	Guardar las ediciones realizadas en la clase de entidad de objetos etiquetados actual.
	Guardar los objetos etiquetados actuales como una nueva clase de entidad.
	Eliminar los objetos etiquetados seleccionados.

Pestaña Exportar datos de entrenamiento

Una vez recopiladas las muestras, puede exportarlas a datos de entrenamiento haciendo clic en la pestaña Exportar datos de entrenamiento. A continuación, los datos de entrenamiento se pueden usar en un modelo de aprendizaje profundo. Una vez establecidos los valores de los parámetros descritos a continuación, haga clic en Ejecutar para crear los datos de entrenamiento.


Parámetro	Descripción
Carpeta de salida	La carpeta de salida donde se guardarán los datos de entrenamiento.
Entidades poligonales de máscara	Una clase de entidad poligonal que delinea el área en la que se crearán los chips de imagen. Solo se crean los chips de imagen que recaen completamente dentro de los polígonos.
Formato de imagen	Especifica el formato de ráster para las salidas de chips de imagen: TIFF: es el valor predeterminado. MRF (formato de metarráster) PNG JPEG Los formatos PNG y JPEG admiten hasta tres bandas.
Tamaño de tesela X	El tamaño de los chips de imagen para la dimensión x.
Tamaño de tesela Y	El tamaño de los chips de imagen para la dimensión y.
Paso X	La distancia a la que se desplaza la dirección x al crear los siguientes chips de imagen. Cuando el paso equivale al tamaño de la tesela, no habrá ninguna superposición. Cuando el paso equivale a la mitad del tamaño de la tesela, habrá una superposición del 50 por ciento.
Paso Y	La distancia a la que se desplaza la dirección y al crear los siguientes chips de imagen. Cuando el paso equivale al tamaño de la tesela, no habrá ninguna superposición. Cuando el paso equivale a la mitad del tamaño de la tesela, habrá una superposición del 50 por ciento.
Ángulo de rotación	El ángulo de rotación que se utilizará para generar chips de imagen. Se genera un chip de imagen sin rotación. A continuación, se girará en el ángulo especificado para crear chips de imagen adicionales. La imagen se girará y se creará un chip hasta que haya girado por completo. Por ejemplo, si especifica un ángulo de rotación de 45 grados, la herramienta creará ocho chips de imagen. Estos ocho chips de imagen se crearán con los ángulos siguientes: 0, 45, 90, 135, 180, 25, 270 y 315.
Salida de teselas sin entidades	Especifica si se exportarán los chips de imagen que no capturen muestras de entrenamiento. Desactivado: solo se exportarán los chips de imagen que capturen muestras de entrenamiento. Esta es la opción predeterminada. Activado: se exportarán todos los chips de imagen, incluidos aquellos que no capturen muestras de entrenamiento. La recopilación de chips de imagen que no contienen muestras de entrenamiento puede ayudar al modelo a identificar objetos que no deberían considerarse parte de los resultados, como los objetos falsos positivos. También puede reducir el exceso de ajuste.
Formato de metadatos	Especifica el formato que se utilizará para las etiquetas de metadatos de salida. Si los datos de muestra de entrenamiento de entrada son una capa de clase de entidad, como por ejemplo una capa de edificios o un archivo de muestra de entrenamiento de clasificación estándar, utilice la opción Etiquetas KITTI o PASCAL Visual Object Classes (KITTI_rectangles o PASCAL_VOC_rectangles en Python). Los metadatos de salida son un archivo .txt o un archivo .xml que contiene los datos de muestra de entrenamiento incluidos en el rectángulo mínimo de delimitación. El nombre del archivo de metadatos coincide con el nombre de la imagen de origen de entrada. Si los datos de muestra de entrenamiento de entrada son un mapa de clase, utilice la opción Teselas clasificadas (Classified_Tiles en Python) como formato de metadatos de salida. Etiquetas KITTI: los metadatos siguen el mismo formato que el dataset de evaluación de detección de objetos del Instituto Tecnológico de Karlsruhe y el Instituto Tecnológico de Toyota (KITTI). El dataset KITTI es un conjunto de referencia de visión. Los archivos de etiquetas son archivos de texto plano. Todos los valores, tanto numéricos como de cadena de caracteres, se separan con espacios y cada fila se corresponde con un objeto. PASCAL Visual Object Classes: los metadatos siguen el mismo formato que el dataset Pattern Analysis, Statistical Modeling and Computational Learning, Visual Object Classes (PASCAL VOC). El dataset PASCAL VOC es un dataset de imágenes estandarizado para el reconocimiento de clases de objetos. Los archivos de etiquetas son archivos .xml que contienen información sobre el nombre de la imagen, el valor de clase y los cuadros de delimitación. Esta es la opción predeterminada. Teselas clasificadas: la salida será un chip de imagen clasificado por cada chip de imagen de entrada. No se utiliza ningún otro metadato para cada chip de imagen. Solo la salida de estadísticas tiene más información sobre las clases, como los nombres de las clases, los valores de las clases y las estadísticas de salida. Máscaras RCNN: la salida serán chips de imagen con una máscara en las áreas donde existe la muestra. El modelo genera cuadros de delimitación y máscaras de segmentación para cada instancia de un objeto de la imagen. Se basa en Feature Pyramid Network (FPN) y una base ResNet101 en el modelo de marco de aprendizaje profundo. Teselas etiquetadas: cada tesela de salida se etiquetará con una clase específica. Si elige este formato de metadatos, también puede refinar los parámetros Oscurecer alrededor de entidad y Modo de cultivo. Teselas multietiquetas: cada tesela de salida se etiquetará con una o varias clases. Por ejemplo, una tesela puede etiquetarse como agricultura y también como nublado. Este formato se utiliza para la clasificación de objetos. Exportar teselas: la salida serán chips de imagen sin etiqueta. Este formato se utiliza para técnicas de traslación de imágenes, como Pix2Pix y Superresolución. CycleGAN: la salida serán chips de imagen sin etiqueta. Este formato se utiliza para la técnica de traslación de imágenes CycleGAN, que se utiliza para entrenar imágenes que no se solapan. ImageNet: cada tesela de salida se etiquetará con una clase específica. Este formato se usa para la clasificación de objetos; sin embargo, también se puede usar para realizar un rastreo de objetos cuando se usa el tipo de modelo de Orden profundo durante el entrenamiento. El formato de metadatos KITTI permite 15 columnas, pero solo se utilizan 5 de ellas en la herramienta. La primera columna es el valor de clase. Las siguientes 3 columnas se omiten. Las columnas 5 a 8 definen el rectángulo mínimo de delimitación, que consta de cuatro ubicaciones de coordenada de imagen: píxeles izquierdo, superior, derecho e inferior. El rectángulo mínimo de delimitación comprende el chip de formación utilizado en el clasificador de aprendizaje profundo. Las columnas restantes no se utilizan.
Oscurecer alrededor de entidad	Especifica si se ocultarán los píxeles situados alrededor de cada objeto o entidad de cada tesela de imagen. Desactivado: los píxeles que rodean a los objetos o entidades no se ocultan. Esta es la opción predeterminada. Activado: los píxeles que rodean a los objetos o entidades se ocultan. Este parámetro solo se aplica si el parámetro Formato de metadatos tiene el valor Teselas etiquetadas y se ha especificado una clase de entidad de entrada o un ráster clasificado.
Modo de cultivo	Especifica si las teselas exportadas se deben recortar de forma que todas tengan el mismo tamaño. Tamaño fijo: las teselas exportadas tendrán el mismo tamaño y se centrarán en la entidad. Esta es la opción predeterminada. Cuadro de delimitación: las teselas exportadas se recortarán de forma que la geometría de delimitación rodee solo a la entidad de la tesela. Este parámetro solo se aplica si el parámetro Formato de metadatos tiene el valor Teselas etiquetadas o bien ImageNet y se ha especificado una clase de entidad de entrada o un ráster clasificado.
Sistema de Referencia	Especifica el tipo de sistema de referencia que se utilizará para interpretar la imagen de entrada. El sistema de referencia especificado debe coincidir con el sistema de referencia utilizado para entrenar el modelo de aprendizaje profundo. Espacio de mapa: la imagen de entrada se encuentra en un sistema de coordenadas basado en un mapa. Esta es la opción predeterminada. Espacio de píxeles: la imagen de entrada está en el espacio de imagen (filas y columnas), sin rotación ni distorsión.
Ráster de entrada adicional	Una fuente adicional de imágenes de entrada para los métodos de traslación de imágenes. Este parámetro es válido cuando el parámetro Formato de metadatos se establece en Teselas clasificadas, Exportar teselas o CycleGAN.

Los datos de entrenamiento exportados ahora se pueden usar en un modelo de aprendizaje profundo.

Temas relacionados

¿Algún comentario sobre este tema?

Crear clases y etiquetar objetos

Herramientas de etiquetado asistidas por IA

Herramienta Detección automática

Nota:

Herramienta Mensaje de texto

Nota:

Cuadro de diálogo Definir clase

Pestaña Objetos etiquetados

Pestaña Exportar datos de entrenamiento

Temas relacionados

En este tema