Inhalte von Deep-Learning-Trainingsdaten—ArcGIS Pro

Mit der Image Analyst-Lizenz verfügbar.

Trainingsdaten für Deep Learning, die in ArcGIS Pro mit dem Werkzeug Trainingsdaten exportieren erstellt werden, enthalten in der Regel die folgenden Ordner und Dateien:

Ordner "Images": Enthält die Bildausschnitte, die aus den Quellbilddaten extrahiert und mit dem Werkzeug Trainingsdaten exportieren exportiert wurden.
Ordner "Labels": Enthält die entsprechende Beschriftung für jeden Bildausschnitt. Beschriftungen geben die spezifischen Features oder Objekte im Bildausschnitt an, wie z. B. Gebäude, Straßen oder Bäume.
Datei "esri_accumulated_stats.json": Enthält statistische Informationen zu den Trainingsdaten.
Datei esri_model_definition.emd: Die Modelldefinitionsdatei von Esri (.emd) enthält Informationen zu den exportierten Trainingsdaten.
Datei "map.txt": Listet die entsprechenden Bildausschnitte und ihre jeweiligen Beschriftungen auf, um sicherzustellen, dass das Deep-Learning-Modell während des Trainings jedes Bild der richtigen Beschriftung genau zuordnen kann.
Datei "stats.txt": Enthält statistische Informationen zu den Trainingsdaten. Sie enthält in der Regel Details wie Bilder, Features, Features pro Bild, Klassen und klassenspezifische Statistiken.

Ordnerstruktur der Trainingsdaten

Akkumulierte Statistikdatei von Esri

Die Datei "esri_accumulated_stats.json" enthält statistische Informationen über die exportierten Trainingsdaten. Diese Informationen enthalten die folgenden Schlüsselparameter:

Version: Die Versionsnummer der Datei.
NumBands: Die Gesamtzahl der Spektralbänder in den Eingabebildern.
TileSizeX: Die X-Dimension für die Bildausschnitte.
TileSizeY: Die Y-Dimension für die Bildausschnitte.
NumClasses: Die Gesamtzahl der Objektkategorien oder -klassen.
NumTiles: Die Gesamtzahl der Bildausschnitte.
OutputFeatures: Gibt an, ob das Modell für die Feature- oder Pixel-Ausgabe konfiguriert wird. Wenn der Parameter auf true festgelegt ist, werden Features ausgegeben. Wenn der Parameter auf false festgelegt ist, werden Pixel ausgegeben.
MetaDataMode: Das Metadatenformat, das für die Beschriftungen verwendet wird. Bei einer Task zur Objekterkennung kann der Typ beispielsweise PASCAL_VOC_rectangles oder KITTI_rectangles sein. Eine Liste der verfügbaren Formate finden Sie im Parameter Metadatenformat im Werkzeug Trainingsdaten für Deep Learning exportieren.
MinCellSize: Die minimale Pixelgröße des Eingabe-Rasters und die Raumbezugsinformation.
MaxCellSize: Die maximale Pixelgröße des Eingabe-Rasters und die Raumbezugsinformation.
Classes: Die Liste der Klassen, einschließlich ihres Werts, Namens und ihrer Farbe.
FeatureStats: Die Statistiken zu den Features.
- NumImagesTotal: Die Gesamtzahl der Bildausschnitte.
- NumFeaturesTotal: Die Gesamtzahl der Features.
- NumImagesPerClass: Die Anzahl der Bilder pro Klasse.
- NumFeaturesPerClass: Die Anzahl der Features pro Klasse.
- NumFeaturesPerImage: Die statistischen Informationen über die Verteilung der Features pro Bild, wie Minimum, Maximum, Mittelwert, Summe und Anzahl.
- FeatureAreaPerClass: Die statistischen Informationen über die Größe der Features pro Klasse, wie Minimum, Maximum, Mittelwert, Summe und Anzahl.
InputRastersProps: Informationen über das Eingabe-Raster, wie z. B. die Rasteranzahl, den Sensornamen und die Bandnamen.
- RasterCount: Die Anzahl der Bänder im Eingabe-Raster.
- SensorName: Der Sensorname für das Eingabe-Raster.
- BandNames: Die Bandnamen für das Eingabe-Raster.
BandStatsState: Die statistischen Informationen zu jedem Band im Eingabe-Raster, wie z. B. Minimum, Maximum, Mittelwert und Standardabweichung.

Diese Datei ist in erster Linie für den internen Gebrauch bestimmt. Es wird davon abgeraten, diese Datei manuell zu ändern, da dies zu unerwarteten Ergebnissen führen kann.

Esri Modelldefinitionsdatei

Die Modelldefinitionsdatei von Esri (.emd) enthält Informationen zu den exportierten Trainingsdaten. Diese Informationen enthalten die folgenden Schlüsselparameter:

ImageHeight: Die Höhendimension der Bildausschnitte.
ImageWidth: Die Breitendimension der Bildausschnitte.
MetaDataMode: Das Metadatenformat, das für die Beschriftungen verwendet wird. Bei einer Task zur Objekterkennung kann der Typ beispielsweise PASCAL_VOC_rectangles oder KITTI_rectangles sein. Eine Liste der verfügbaren Formate finden Sie im Parameter Metadatenformat im Werkzeug Trainingsdaten für Deep Learning exportieren.
BlackenAroundFeature: Gibt an, ob die Pixel um die einzelnen Objekte oder Features in den Bildausschnitten maskiert werden sollen. Die möglichen Werte sind true oder false.
IsMultidimensional: Gibt an, ob die Eingabedaten multidimensional oder zeitbezogen sind. Die möglichen Werte sind true oder false.
CropTileMode: Gibt an, ob die exportierten Kacheln auf die gleiche Größe zugeschnitten werden sollen.
- Fixed size: Die exportierten Kacheln sind gleich groß und das Feature ist auf den Mittelpunkt ausgerichtet. Dies ist die Standardeinstellung.
- Bounding box: Die exportierten Kacheln werden zugeschnitten, sodass die Begrenzungsgeometrie nur das Feature in der Kachel umgibt.
MinCellSize: Die minimale Pixelgröße des Eingabe-Rasters und die Raumbezugsinformation.
MaxCellSize: Die maximale Pixelgröße des Eingabe-Rasters und die Raumbezugsinformation.
ImageSpaceUsed: Der Typ des Referenzsystems, das zum Erstellen von Trainingsdaten verwendet wird. Die Optionen sind MAP_SPACE bzw. PIXEL_SPACE.
Classes: Die Gesamtzahl der verschiedenen Objektkategorien oder -klassen. Jede Klasse enthält die folgenden Informationen:
- Value: Die eindeutige numerische Kennung für die Klasse.
- Name: Der Name der Klasse.
- Color: Der zum Visualisieren der Klasse in der Ausgabe verwendete Farbcode.
InputRastersProps: Informationen über das Eingabe-Raster, wie z. B. die Rasteranzahl, den Sensornamen und die Bandnamen.
- RasterCount: Die Anzahl der Bänder im Eingabe-Raster.
- SensorName: Der Sensorname für das Eingabe-Raster.
- BandNames: Die Bandnamen für das Eingabe-Raster.
AllTilesStats: Die statistischen Informationen zu jedem Bildausschnitt, wie z. B. Minimum, Maximum, Mittelwert und Standardabweichung.

Ältere esri_model_definition.emd-Dateien enthalten möglicherweise zusätzliche optionale Parameter wie Framework, ModelConfiguration, ModelType, ModelFile, Description, ExtractBands, DataRange, ModelPadding, BatchSize, PerProcessGPUMemoryFraction oder WellKnownBandNames.

Kartentextdatei

Datei "map.txt" listet die entsprechenden Bildausschnitte und ihre jeweiligen Beschriftungen auf, um sicherzustellen, dass das Deep-Learning-Modell während des Trainings jedes Bild der richtigen Beschriftung genau zuordnen kann.

Beispieldatei "map.txt"

Statistikdatei

Die Datei "stats.txt" enthält statistische Informationen zu den Trainingsdaten. Sie enthält in der Regel Details wie Bilder, Features, Features pro Bild, Klassen und klassenspezifische Statistiken:

images: Informationen zu den Bildausschnitten, wie z. B. die Gesamtzahl der Bildausschnitte, die Anzahl der Bänder und die Informationen zu den Dimensionen.
features: Die Gesamtzahl der Features in den Bildern.
features per image: Die statistischen Informationen über die Verteilung der Features pro Bild, die minimalen, mittleren und maximalen Werte.
classes: Die Gesamtzahl der verschiedenen Objektkategorien oder -klassen.
Klassenspezifische Statistiken: Informationen zu jeder Klasse, wie z. B. Klassenname, Klassenwert, Anzahl der Bilder, Anzahl der Features, minimale , mittlere und maximale Größe der Objekte, die zu dieser Klasse gehören.

Beispieldatei "stats.txt"

Akkumulierte Statistikdatei von Esri

Esri Modelldefinitionsdatei

Kartentextdatei

Statistikdatei

Verwandte Themen

In diesem Thema