Contenidos de datos de formación en aprendizaje profundo

Disponible con licencia de Image Analyst.

Los datos de entrenamiento de aprendizaje profundo que se crean en ArcGIS Pro, utilizando la herramienta Exportar datos de entrenamiento, suelen contener las siguientes carpetas y archivos:

  • Carpeta de imágenes: contiene los chips de imagen que se extrajeron de la tecnología de imágenes de origen y se exportaron mediante la herramienta Exportar datos de entrenamiento.
  • Carpeta de etiquetas: contiene la etiqueta correspondiente a cada chip de imagen. Las etiquetas indican las entidades u objetos específicos presentes en el chip de la imagen, como edificios, carreteras o árboles.
  • Archivo esri_accumulated_stats.json: contiene información estadística sobre los datos de formación.
  • Archivo esri_model_definition.emd: el archivo de definición de modelo de Esri (.emd) contiene información sobre los datos de entrenamiento exportados.
  • Archivo map.txt: enumera los chips de imagen correspondientes y sus respectivas etiquetas para garantizar que el modelo de aprendizaje profundo pueda asociar con precisión cada imagen con su etiqueta correcta durante el entrenamiento.
  • Archivo stats.txt: contiene información estadística sobre los datos de formación. Normalmente incluye detalles como imágenes, entidades, entidades por imagen, clases y estadísticas específicas de cada clase.

Estructura de carpetas de datos de entrenamiento

Archivo de estadísticas acumuladas de Esri

El archivo esri_accumulated_stats.json contiene información estadística sobre los datos de formación que se exportaron. Esta información tiene los siguientes parámetros clave:

  • Version: el número de versión del archivo.
  • NumBands: el número total de bandas espectrales en las imágenes de entrada.
  • TileSizeX: la dimensión X de los chips de imagen.
  • TileSizeY: la dimensión Y de los chips de imagen.
  • NumClasses: el número total de categorías o clases de objetos.
  • NumTiles: el número total de chips de imágenes.
  • OutputFeatures: especifica si el modelo se configurará para producir entidades o píxeles. Si el parámetro se ha establecido como true, producirá entidades. Si el parámetro se ha establecido como false, producirá píxeles.
  • MetaDataMode: el formato de metadatos que se utiliza para las etiquetas. Por ejemplo, para una tarea de detección de objetos, el tipo puede ser PASCAL_VOC_rectangles o KITTI_rectangles. Para obtener una lista de los formatos disponibles, consulte el parámetro Formato de metadatos dentro de la herramienta Exportar datos de entrenamiento para aprendizaje profundo.
  • MinCellSize: el tamaño mínimo de píxel del ráster de entrada y la información de referencia espacial.
  • MaxCellSize: el tamaño máximo de píxel del ráster de entrada y la información de referencia espacial.
  • Classes: la lista de clases, incluyendo su valor, nombre y color.
  • FeatureStats: las estadísticas acerca de las entidades.
    • NumImagesTotal: el número total de chips de imágenes.
    • NumFeaturesTotal: el número total de entidades.
    • NumImagesPerClass: el número de imágenes por clase.
    • NumFeaturesPerClass: el número de entidades por clase.
    • NumFeaturesPerImage: la información estadística sobre la distribución de entidades por imagen, como mínimo, máximo, media, suma y recuento.
    • FeatureAreaPerClass: la información estadística sobre el tamaño de entidades por clase, como mínimo, máximo, media, suma y recuento.
  • InputRastersProps: información sobre el ráster de entrada, como el recuento de ráster, el nombre del sensor y los nombres de las bandas.
    • RasterCount: el número de bandas en el ráster de entrada.
    • SensorName: el nombre del sensor del ráster de entrada.
    • BandNames: los nombres de banda para el ráster de entrada.
  • BandStatsState: la información estadística sobre cada banda en el ráster de entrada, como mínimo, máximo, media y desviación estándar.

Este archivo es principalmente para el uso interno. Modificar este archivo de manera manual no se recomienda y podría dar lugar a resultados inesperados.

Archivo de definición de modelo de Esri

El archivo de definición de modelo de Esri (.emd) contiene información sobre los datos de entrenamiento exportados. Esta información tiene los siguientes parámetros clave:

  • ImageHeight: la dimensión de altura de los chips de imagen.
  • ImageWidth: la dimensión de anchura de los chips de imagen.
  • MetaDataMode: el formato de metadatos que se utiliza para las etiquetas. Por ejemplo, para una tarea de detección de objetos, el tipo puede ser PASCAL_VOC_rectangles o KITTI_rectangles. Para obtener una lista de los formatos disponibles, consulte el parámetro Formato de metadatos dentro de la herramienta Exportar datos de entrenamiento para aprendizaje profundo.
  • BlackenAroundFeature: especifica si se ocultarán los píxeles situados alrededor de cada objeto o entidad de cada chip de imagen. Los valores posibles son true o false
  • IsMultidimensional: especifica si los datos de entrada son multidimensionales o con tiempo habilitado. Los valores posibles son true o false
  • CropTileMode: especifica si las teselas exportadas se recortan de forma que todas tengan el mismo tamaño.
    • Fixed size: las teselas exportadas tienen el mismo tamaño y se centrarán en la entidad. Esta es la opción predeterminada.
    • Bounding box: las teselas exportadas se recortan de forma que la geometría de delimitación rodee solo a la entidad en la tesela.
  • MinCellSize: el tamaño mínimo de píxel del ráster de entrada y la información de referencia espacial.
  • MaxCellSize: el tamaño máximo de píxel del ráster de entrada y la información de referencia espacial.
  • ImageSpaceUsed: el tipo de sistema de referencia utilizado para crear datos de entrenamiento. Las opciones son MAP_SPACE o PIXEL_SPACE.
  • Classes: el número total de diferentes categorías o clases de objetos. Cada clase contiene la siguiente información:
    • Value—el identificador numérico único de la clase.
    • Name: el nombre de la clase.
    • Color: el código de colores que se utiliza para visualizar la clase en la salida.
  • InputRastersProps: información sobre el ráster de entrada, como el recuento de ráster, el nombre del sensor y los nombres de las bandas.
    • RasterCount: el número de bandas en el ráster de entrada.
    • SensorName: el nombre del sensor del ráster de entrada.
    • BandNames: los nombres de banda para el ráster de entrada.
  • AllTilesStats: la información estadística sobre cada chip de imágenes, como mínimo, máximo, media y desviación estándar.

Archivos de esri_model_definition.emd más antiguos pueden contener parámetros adicionales como Framework, ModelConfiguration, ModelType, ModelFile, Description, ExtractBands, DataRange, ModelPadding, BatchSize, PerProcessGPUMemoryFraction o WellKnownBandNames.

Archivo de texto de mapa

El archivo map.txt enumera los chips de imagen correspondientes y sus respectivas etiquetas para garantizar que el modelo de aprendizaje profundo pueda asociar con precisión cada imagen con su etiqueta correcta durante el entrenamiento.

Archivo map.txt de muestra

Archivo de estadísticas

El archivo stats.txt contiene información estadística sobre los datos de formación. Normalmente incluye detalles como imágenes, entidades, entidades por imagen, clases y estadísticas específicas de cada clase:

  • images: información sobre los chips de imagen, como el número total de chips de imagen, el número de bandas y las dimensiones.
  • features: el número total de entidades en las imágenes.
  • features per image: la información estadística sobre la distribución de entidades por imagen, los valores mínimo, medio y máximo.
  • classes: el número total de diferentes categorías o clases de objetos.
  • Estadísticas específicas de clase: información para cada clase, como el nombre de la clase, el valor de la clase, el número de imágenes, el número de entidades, el tamaño mínimo, el tamaño medio y el tamaño máximo de los objetos que pertenecen a esa clase.

Archivo stats.txt de muestra

Temas relacionados