Trainingsdaten für Deep Learning exportieren (Image Analyst)

Mit der Spatial Analyst-Lizenz verfügbar.

Mit der Image Analyst-Lizenz verfügbar.

Zusammenfassung

Verwendet ein Fernerkundungsbild zum Konvertieren von beschrifteten Vektor- oder Raster-Daten in Training-Datasets für Deep Learning. Die Ausgabe ist ein Ordner mit Bildschnipseln und ein Ordner mit Metadaten-Dateien im angegebenen Format.

Verwendung

  • Mit diesem Werkzeug lassen sich Training-Datasets für die Unterstützung von Deep-Learning-Anwendungen von Drittanbietern erstellen, wie z. B. Google TensorFlow, Keras, PyTorch und Microsoft CNTK.

  • Deep-Learning-Class-Trainingsgebiete basieren auf kleinen Sub-Bildern mit dem relevanten Feature oder der relevanten Klasse. Diese Sub-Bilder werden Bildschnipsel genannt.

  • Verwenden Sie vorhandene Klassifizierungs-Trainingsgebietdaten oder GIS-Feature-Class-Daten wie Gebäude-Footprint-Layer, um Bildschnipsel zu erzeugen, die das Klassenbeispiel aus dem Quellbild enthalten. Die Abmessungen von Bildschnipseln betragen in der Regel 256 x 256 Pixel, es sei denn, das Trainingsgebiet ist größer. Ein Bildschnipsel kann ein oder mehrere Objekte enthalten. Bei Verwendung des Metadatenformats Beschriftete Kacheln ist nur ein Objekt je Bildschnipsel zulässig.

  • Mit dem Bezugssystem können Trainingsdaten in den Kartenraum oder Pixelraum (roher Bildraum) exportiert werden, die dem Training des Deep-Learning-Modells dienen.

  • Dieses Werkzeug unterstützt den Export von Trainingsdaten aus einer Sammlung vom Bildern. Als Wert für Eingabe-Raster können Sie einen Bildordner festlegen. Wenn es sich bei dem Wert für Eingabe-Raster um ein Mosaik-Dataset oder einen Image-Service handelt, können Sie auch angeben, dass der Parameter Verarbeitungsmodus das Mosaik entweder als eine einzige Eingabe oder jedes Raster-Element einzeln verarbeitet.

  • Die Zellengröße und -ausdehnung kann in den Einstellungen der Geoverarbeitungsumgebung angepasst werden.

  • Dieses Werkzeug berücksichtigt die Umgebungseinstellung Faktor für parallele Verarbeitung. Standardmäßig ist Faktor für parallele Verarbeitung nicht aktiviert; folglich wird das Werkzeug für einen einzelnen Kern ausgeführt. Wenn große Datasets verwendet werden, aktivieren Sie Faktor für parallele Verarbeitung, und geben Sie die Anzahl der Kerne an, die das Werkzeug zum Verteilen der Arbeitslast verwenden kann.

  • Weitere Informationen zu den Voraussetzungen für die Ausführung dieses Werkzeugs und eventuell dabei auftretenden Problemen finden Sie unter Häufig gestellte Fragen zu Deep Learning.

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Raster

Die Eingabe-Quellbilddaten, in der Regel multispektrale Bilddaten.

Beispiele für Eingabe-Quellbilddaten sind Multispektralsatellit-, Drohnen-, Luft- und NAIP-Bilder (National Agriculture Imagery Program). Bei der Eingabe kann es sich um einen Ordner mit Bildern handeln.

Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Map Server; Map Server Layer; Internet Tiled Layer; Folder
Ausgabeordner

Der Ordner für die ausgegebenen Bildschnipsel und Metadaten.

Dies kann auch eine Ordner-URL sein, die eine Verbindungsdatei für den Cloud-Speicher (*.acs) verwendet.

Folder
Eingabe-Feature-Class oder klassifiziertes Eingabe-Raster oder Eingabetabelle

Die Trainingsdaten in Vektor- oder Raster-Form. Vektoreingaben sollten dem Trainingsgebiet-Format entsprechen, das im Bereich Trainingsgebiet-Manager erstellt wurde. Raster-Eingaben sollten einem klassifizierten Raster-Format entsprechen, das mit dem Werkzeug Raster klassifizieren erstellt wurde.

Die Raster-Eingabe kann auch aus einem Ordner mit klassifizierten Rastern stammen. Klassifizierte Raster-Eingaben erfordern eine entsprechende Raster-Attributtabelle. Eingabetabellen sollten einem Trainingsgebiet-Format entsprechen, das mit Objekte für Deep Learning beschriften im Bereich Trainingsgebiet-Manager erstellt wurde. Wenn das richtige Trainingsgebiet-Format verwendet wird, liefern die statistischen Informationen optimale Ergebnisse; allerdings kann die Eingabe auch eine Point-Feature-Class ohne Klassenwertefeld oder ein Integer-Raster ohne Klasseninformationen sein.

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Table; Folder
Bildformat

Gibt das Raster-Format für die ausgegebenen Bildschnipsel an.

Die Formate PNG und JPEG unterstützen bis zu drei Bänder.

  • TIFF-FormatEs wird das TIFF-Format verwendet.
  • PNG-FormatEs wird das PNG-Format verwendet.
  • JPEG-FormatEs wird das JPEG-Format verwendet.
  • MRF (Meta-Raster-Format)Es wird das Meta-Raster-Format (MRF) verwendet.
String
Kachelgröße X
(optional)

Größe der Bildschnipsel (X-Dimension).

Long
Kachelgröße Y
(optional)

Größe der Bildschnipsel (Y-Dimension).

Long
Schritt X
(optional)

Verschiebung in X-Richtung bei Erstellung der nächsten Bildschnipsel.

Wenn der Schritt der Kachelgröße entspricht, gibt es keine Überlappung. Wenn der Schritt der halben Kachelgröße entspricht, gibt es eine Überlappung von 50 Prozent

Long
Schritt Y
(optional)

Verschiebung in Y-Richtung bei Erstellung der nächsten Bildschnipsel.

Wenn der Schritt der Kachelgröße entspricht, gibt es keine Überlappung. Wenn der Schritt der halben Kachelgröße entspricht, gibt es eine Überlappung von 50 Prozent

Long
NoFeature-Kacheln ausgeben
(optional)

Gibt an, ob Bildschnipsel, die keine Trainingsgebiete erfassen, exportiert werden.

  • Aktiviert: Alle Bildschnipsel einschließlich solcher, die keine Trainingsgebiete erfassen, werden exportiert.
  • Deaktiviert: Nur Bildschnipsel, die Trainingsgebiete erfassen, werden exportiert. Dies ist die Standardeinstellung.

Ist diese Option aktiviert, werden auch Bildschnipsel ohne Label exportiert. Bei deaktivierter Option werden diese nicht exportiert.

Boolean
Metadatenformat
(optional)

Gibt das Format für die ausgegebenen Metadaten-Label an.

Wenn es sich bei den Eingabedaten für das Trainingsgebiet um einen Feature-Class-Layer handelt, wie zum Beispiel eine Gebäude-Layer- oder Standardklassifizierungs-Trainingsgebiet-Datei, verwenden Sie die Option KITTI-Beschriftungen oder PASCAL Visual Object Classes (KITTI_rectangles oder PASCAL_VOC_rectangles in Python). Die Ausgabe-Metadaten sind eine .txt-Datei oder eine .xml-Datei mit den Daten für das Trainingsgebiet, die im kleinsten umgebenden Rechteck enthalten sind. Der Name der Metadatendatei stimmt mit dem Namen des Eingabequellbildes überein. Wenn es sich bei den Eingabedaten für das Trainingsgebiet um eine Klassenkarte handelt, verwenden Sie als Format für die Ausgabe-Metadaten die Option Klassifizierte Kacheln (Classified_Tiles in Python).

Beim KITTI-Metadatenformat werden 15 Spalten erstellt, jedoch nur 5 davon im Werkzeug verwendet. Die erste Spalte ist der Klassenwert. Die nächsten 3 Spalten werden übersprungen. In den Spalten 5 bis 8 wird das kleinste umgebende Rechteck definiert, das aus vier Bildkoordinatenpositionen besteht. Diese sind die Pixel links, oben, rechts und unten. Das kleinste umgebende Rechteck umfasst den im Deep-Learning-Klassifikator verwendeten Training-Schnipsel. Die verbleibenden Spalten werden nicht verwendet.

  • KITTI-BeschriftungenDie Metadaten weisen dasselbe Format auf wie das Object Detection Evaluation Dataset, das vom Karlsruher Institut für Technologie gemeinsam mit dem Toyota Technological Institute (KITTI) entwickelt wurde. Das KITTI-Dataset ist eine Vision Benchmark Suite. Bei den Label-Dateien handelt es sich um Nur-Text-Dateien. Numerische Werte und Zeichenfolgenwerte werden durch Leerzeichen getrennt, und jede Zeile entspricht einem Objekt.Dieses Format wird für die Objekterkennung eingesetzt.
  • PASCAL Visual Object ClassesDie Metadaten weisen dasselbe Format auf wie das PASCAL_VOC-Dataset (Pattern Analysis, Statistical Modeling and Computational Learning, Visual Object Classes). Das PASCAL_VOC-Dataset ist ein standardisiertes Bild-Dataset für die Erkennung von Objektklassen. Die Label-Dateien (XML-Format) enthalten Informationen zu Bildnamen, Klassenwerten und umgebenden Rechtecken.Dieses Format wird für die Objekterkennung eingesetzt. Dies ist die Standardeinstellung.
  • Klassifizierte KachelnDie Ausgabe besteht aus einem klassifizierten Bildschnipsel für jeden Eingabebildschnipsel. Für die einzelnen Bildschnipsel werden keine weiteren Metadaten verwendet. Weitere Informationen zu den Klassen (Klassennamen, Klassenwerte und Ausgabestatistiken) können den ausgegebenen Statistiken entnommen werden.Dieses Format wird hauptsächlich für die Pixelklassifizierung verwendet. Dieses Format wird ebenfalls für die Änderungserkennung verwendet, wenn es sich bei der Ausgabe um einen klassifizierten Bildschnipsel aus zwei Bildschnipseln handelt.
  • RCNN-MaskenDie Ausgabe sind Bildschnipsel mit Maskierungen in Bereichen mit vorhandener Stichprobe. Das Modell generiert umgebende Rechtecke und Segmentierungsmasken für jede Instanz eines Objekts im Bild. Diese Format basiert auf dem Feature Pyramid Network (FPN) und einem ResNet101-Backbone im Deep-Learning-Framework-Modell.Dieses Format dient der Objekterkennung. Es kann aber auch zur Objektverfolgung eingesetzt werden, wenn der Modelltyp "Siam Mask" für das Training verwendet wird, oder zur Zeitserien-Pixelklassifizierung genutzt werden, wenn die PSETAE-Architektur verwendet wird.
  • Beschriftete KachelnJede Ausgabekachel wird mit einer spezifischen Klasse beschriftet.Dieses Format wird für die Objektklassifizierung verwendet.
  • Kacheln mit mehreren BeschriftungenJede Ausgabekachel wird mit mindestens einer Klasse beschriftet. Zum Beispiel kann eine Kachel als "Landwirtschaft" und auch als "Bewölkt" beschriftet werden.Dieses Format wird für die Objektklassifizierung verwendet.
  • Kacheln exportierenDie Ausgabe ist ein Bildschnipsel ohne Label.Dieses Format wird für Techniken zur Bild-zu-Bild-Übersetzung, wie z. B. Pix2Pix und Super Resolution, verwendet.
  • CycleGANDie Ausgabe ist ein Bildschnipsel ohne Label.Dieses Format wird für die Bild-zu-Bild-Übersetzungstechnik CycleGAN verwendet, mit der nicht überlappende Bilder trainiert werden.
  • ImageNetJede Ausgabekachel wird mit einer spezifischen Klasse beschriftet.Dieses Format dient der Objektklassifizierung, kann jedoch auch zur Objektverfolgung eingesetzt werden, wenn der Modelltyp "Deep Sort" für das Training verwendet wird.
  • Panoptische SegmentierungDie Ausgabe besteht aus einem klassifizierten Bildschnipsel und einer Instanz für jeden Eingabebildschnipsel. Die Ausgabe enthält auch Bildschnipsel, die die Bereiche mit vorhandener Stichprobe maskieren. Diese Bildschnipsel werden in einem anderen Ordner gespeichert.Dieses Format wird sowohl für die Pixelklassifizierung als auch für die Instanzsegmentierung verwendet. Daher werden zwei Ordner mit Ausgabebeschriftungen erstellt.
String
Startindex
(optional)

Vorversion:

Dieser Parameter ist veraltet.

Long
Klassenwertefeld
(optional)

Das Feld, das die Klassenwerte enthält. Wird kein Feld angegeben, sucht das System nach einem Feld des Typs value oder classvalue. Wenn das Feature kein Klassenwerte-Feld enthält, wird vom System festgelegt, dass alle Datensätze zu einer Klasse gehören.

Field
Pufferradius
(optional)

Der Radius eines Puffers um die einzelnen Trainingsgebiete, der zur Abgrenzung einer Trainingsgebietsfläche verwendet wird. Auf diese Weise können Sie kreisförmige Polygon-Trainingsgebiete aus Punkten erstellen.

Die lineare Einheit des Raumbezugs für den Parameter Eingabe-Feature-Class, klassifiziertes Eingabe-Raster oder Eingabetabelle wird verwendet.

Double
Eingabe-Maskenpolygone
(optional)

Eine Polygon-Feature-Class zur Abgrenzung der Fläche, in der Bildschnipsel erstellt werden.

Es werden nur Bildschnipsel erstellt, die vollständig in die Polygone fallen.

Feature Layer
Drehwinkel
(optional)

Der Drehwinkel, der für die Generierung weiterer Bildschnipsel verwendet wird.

Ein Bildschnipsel wird mit dem Drehwinkel 0 und somit ohne Drehung erstellt. Danach wird er um den angegebenen Winkel gedreht, um einen weiteren Bildschnipsel zu erstellen. Zur Datenerweiterung werden dieselben Trainingsgebiete mit mehreren Winkeln in mehreren Bildschnipseln erfasst.

Der Standard-Drehwinkel beträgt 0 Grad.

Double
Bezugssystem
(optional)

Gibt den Typ des Bezugssystems an, das zum Interpretieren des Eingabebildes verwendet wird. Das angegebene Bezugssystem muss mit dem Bezugssystem übereinstimmen, das für das Training des Deep-Learning-Modells verwendet wurde.

  • KartenraumEs wird ein kartenbasiertes Koordinatensystem verwendet. Dies ist die Standardeinstellung.
  • PixelabstandEs wird Bildraum ohne Drehung oder Verzerrung verwendet.
String
Verarbeitungsmodus
(optional)

Legt fest, wie alle Raster-Elemente in einem Mosaik-Dataset oder Image-Service verarbeitet werden. Dieser Parameter findet Anwendung, wenn es sich beim Eingabe-Raster um ein Mosaik-Dataset oder einen Image-Service handelt.

  • Als mosaikiertes Bild verarbeitenAlle Raster-Elemente im Mosaik-Dataset oder Image-Service werden zusammen mosaikiert und verarbeitet. Dies ist die Standardeinstellung.
  • Alle Raster-Elemente separat verarbeitenAlle Raster-Elemente im Mosaik-Dataset oder Image-Service werden als separate Bilder verarbeitet.
String
Feature schwärzen
(optional)

Gibt an, ob die Pixel um die einzelnen Objekte oder Features in den Bildkacheln maskiert werden sollen.

Dieser Parameter findet nur Anwendung, wenn der Parameter Metadatenformat auf Beschriftete Kacheln festgelegt ist und eine Eingabe-Feature-Class oder ein klassifiziertes Eingabe-Raster angegeben wurde.

  • Deaktiviert: Die die Objekte oder Features umgebenden Pixel werden nicht maskiert. Dies ist die Standardeinstellung.
  • Aktiviert: Die die Objekte oder Features umgebenden Pixel werden maskiert.
Boolean
Zuschneide-Modus
(optional)

Gibt an, ob die exportierten Kacheln auf die gleiche Größe zugeschnitten werden sollen.

Dieser Parameter findet nur Anwendung, wenn der Parameter Metadatenformat auf Beschriftete Kacheln oder ImageNet festgelegt ist und eine Eingabe-Feature-Class oder ein klassifiziertes Eingabe-Raster angegeben wurde.

  • Feste GrößeDie exportierten Kacheln werden auf die gleiche Größe zugeschnitten und befinden sich in der Mitte des Features. Dies ist die Standardeinstellung.
  • RahmenDie exportierten Kacheln werden zugeschnitten, sodass die angrenzende Geometrie nur das Feature in der Kachel umgibt.
String
Zusätzliches Eingabe-Raster
(optional)

Eine zusätzliche Eingabequelle aus Bilddaten, die für Bild-zu-Bild-Übersetzungsmethoden verwendet wird.

Dieser Parameter ist gültig, wenn der Parameter Metadatenformat auf Klassifizierte Kacheln, Kacheln exportieren oder CycleGAN festgelegt wurde.

Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Map Server; Map Server Layer; Internet Tiled Layer; Folder
Instance-Feature-Class
(optional)

Die erfassten Trainingsgebietsdaten, die Klassen für die Instanzsegmentierung enthalten.

Die Eingabe kann auch eine Point-Feature-Class ohne Klassenwertefeld oder ein Integer-Raster ohne Klasseninformationen sein.

Dieser Parameter ist nur gültig, wenn der Parameter Metadatenformat auf Panoptische Segmentierung festgelegt ist.

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Table; Folder
Wertefeld für Instanzklasse
(optional)

Das Feld, das die Klassenwerte für die Instanzsegmentierung enthält. Wird kein Feld angegeben, verwendet das Werkzeug einen Wert oder ein Klassenwertefeld, sofern vorhanden. Wenn das Feature kein Klassenwertefeld enthält, wird mit dem Werkzeug festgelegt, dass alle Datensätze zu einer Klasse gehören.

Dieser Parameter ist nur gültig, wenn der Parameter Metadatenformat auf Panoptische Segmentierung festgelegt ist.

Field
Minimale Polygon-Überlappungsrate
(optional)

Der Prozentsatz der minimalen Überlappung für ein in die Trainingsdaten einzubeziehendes Feature. Wenn die prozentuale Überlappung kleiner als der angegebene Wert ist, wird das Feature aus dem Training-Schnipsel ausgeschlossen und der Label-Datei nicht hinzugefügt.

Der Prozentwert wird als Dezimalzahl angegeben. Um beispielsweise eine Überlappung von 20 Prozent anzugeben, verwenden Sie den Wert 0,2. Der Standardwert ist 0, d. h. alle Features werden einbezogen.

Durch diesen Parameter wird neben der Performance des Werkzeugs auch die Inferenzierung verbessert. Die Geschwindigkeit wird verbessert, da weniger Trainingsschnipsel erstellt werden. Die Inferenzierung wird verbessert, da das Modell so trainiert wird, dass nur große Objektflächen erkannt und kleine Ecken von Features ignoriert werden. Dadurch werden weniger falsch positive Ergebnisse erkannt und vom Werkzeug Non-maximum Suppression entfernt.

Dieser Parameter ist aktiv, wenn der Parameterwert Eingabe-Feature-Class oder klassifiziertes Eingabe-Raster oder Eingabetabelle eine Feature-Class ist.

Double

ExportTrainingDataForDeepLearning(in_raster, out_folder, in_class_data, image_chip_format, {tile_size_x}, {tile_size_y}, {stride_x}, {stride_y}, {output_nofeature_tiles}, {metadata_format}, {start_index}, {class_value_field}, {buffer_radius}, {in_mask_polygons}, {rotation_angle}, {reference_system}, {processing_mode}, {blacken_around_feature}, {crop_mode}, {in_raster2}, {in_instance_data}, {instance_class_value_field}, {min_polygon_overlap_ratio})
NameErläuterungDatentyp
in_raster

Die Eingabe-Quellbilddaten, in der Regel multispektrale Bilddaten.

Beispiele für Eingabe-Quellbilddaten sind Multispektralsatellit-, Drohnen-, Luft- und NAIP-Bilder (National Agriculture Imagery Program). Bei der Eingabe kann es sich um einen Ordner mit Bildern handeln.

Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Map Server; Map Server Layer; Internet Tiled Layer; Folder
out_folder

Der Ordner für die ausgegebenen Bildschnipsel und Metadaten.

Dies kann auch eine Ordner-URL sein, die eine Verbindungsdatei für den Cloud-Speicher (*.acs) verwendet.

Folder
in_class_data

Die Trainingsdaten in Vektor- oder Raster-Form. Vektoreingaben sollten dem Trainingsgebiet-Format entsprechen, das im Bereich Trainingsgebiet-Manager erstellt wurde. Raster-Eingaben sollten einem klassifizierten Raster-Format entsprechen, das mit dem Werkzeug Raster klassifizieren erstellt wurde.

Die Raster-Eingabe kann auch aus einem Ordner mit klassifizierten Rastern stammen. Klassifizierte Raster-Eingaben erfordern eine entsprechende Raster-Attributtabelle. Eingabetabellen sollten einem Trainingsgebiet-Format entsprechen, das mit Objekte für Deep Learning beschriften im Bereich Trainingsgebiet-Manager erstellt wurde. Wenn das richtige Trainingsgebiet-Format verwendet wird, liefern die statistischen Informationen optimale Ergebnisse; allerdings kann die Eingabe auch eine Point-Feature-Class ohne Klassenwertefeld oder ein Integer-Raster ohne Klasseninformationen sein.

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Table; Folder
image_chip_format

Gibt das Raster-Format für die ausgegebenen Bildschnipsel an.

Die Formate PNG und JPEG unterstützen bis zu drei Bänder.

  • TIFFEs wird das TIFF-Format verwendet.
  • PNGEs wird das PNG-Format verwendet.
  • JPEGEs wird das JPEG-Format verwendet.
  • MRFEs wird das Meta-Raster-Format (MRF) verwendet.
String
tile_size_x
(optional)

Größe der Bildschnipsel (X-Dimension).

Long
tile_size_y
(optional)

Größe der Bildschnipsel (Y-Dimension).

Long
stride_x
(optional)

Verschiebung in X-Richtung bei Erstellung der nächsten Bildschnipsel.

Wenn der Schritt der Kachelgröße entspricht, gibt es keine Überlappung. Wenn der Schritt der halben Kachelgröße entspricht, gibt es eine Überlappung von 50 Prozent

Long
stride_y
(optional)

Verschiebung in Y-Richtung bei Erstellung der nächsten Bildschnipsel.

Wenn der Schritt der Kachelgröße entspricht, gibt es keine Überlappung. Wenn der Schritt der halben Kachelgröße entspricht, gibt es eine Überlappung von 50 Prozent

Long
output_nofeature_tiles
(optional)

Gibt an, ob Bildschnipsel, die keine Trainingsgebiete erfassen, exportiert werden.

  • ALL_TILESAlle Bildschnipsel einschließlich solcher, die keine Trainingsgebiete erfassen, werden exportiert.
  • ONLY_TILES_WITH_FEATURESNur Bildschnipsel, die Trainingsgebiete erfassen, werden exportiert. Dies ist die Standardeinstellung.
Boolean
metadata_format
(optional)

Gibt das Format für die ausgegebenen Metadaten-Label an.

Wenn es sich bei den Eingabedaten für das Trainingsgebiet um einen Feature-Class-Layer handelt, wie zum Beispiel eine Gebäude-Layer- oder Standardklassifizierungs-Trainingsgebiet-Datei, verwenden Sie die Option KITTI-Beschriftungen oder PASCAL Visual Object Classes (KITTI_rectangles oder PASCAL_VOC_rectangles in Python). Die Ausgabe-Metadaten sind eine .txt-Datei oder eine .xml-Datei mit den Daten für das Trainingsgebiet, die im kleinsten umgebenden Rechteck enthalten sind. Der Name der Metadatendatei stimmt mit dem Namen des Eingabequellbildes überein. Wenn es sich bei den Eingabedaten für das Trainingsgebiet um eine Klassenkarte handelt, verwenden Sie als Format für die Ausgabe-Metadaten die Option Klassifizierte Kacheln (Classified_Tiles in Python).

  • KITTI_rectanglesDie Metadaten weisen dasselbe Format auf wie das Object Detection Evaluation Dataset, das vom Karlsruher Institut für Technologie gemeinsam mit dem Toyota Technological Institute (KITTI) entwickelt wurde. Das KITTI-Dataset ist eine Vision Benchmark Suite. Bei den Label-Dateien handelt es sich um Nur-Text-Dateien. Numerische Werte und Zeichenfolgenwerte werden durch Leerzeichen getrennt, und jede Zeile entspricht einem Objekt.Dieses Format wird für die Objekterkennung eingesetzt.
  • PASCAL_VOC_rectanglesDie Metadaten weisen dasselbe Format auf wie das PASCAL_VOC-Dataset (Pattern Analysis, Statistical Modeling and Computational Learning, Visual Object Classes). Das PASCAL_VOC-Dataset ist ein standardisiertes Bild-Dataset für die Erkennung von Objektklassen. Die Label-Dateien (XML-Format) enthalten Informationen zu Bildnamen, Klassenwerten und umgebenden Rechtecken.Dieses Format wird für die Objekterkennung eingesetzt. Dies ist die Standardeinstellung.
  • Classified_TilesDie Ausgabe besteht aus einem klassifizierten Bildschnipsel für jeden Eingabebildschnipsel. Für die einzelnen Bildschnipsel werden keine weiteren Metadaten verwendet. Weitere Informationen zu den Klassen (Klassennamen, Klassenwerte und Ausgabestatistiken) können den ausgegebenen Statistiken entnommen werden.Dieses Format wird hauptsächlich für die Pixelklassifizierung verwendet. Dieses Format wird ebenfalls für die Änderungserkennung verwendet, wenn es sich bei der Ausgabe um einen klassifizierten Bildschnipsel aus zwei Bildschnipseln handelt.
  • RCNN_MasksDie Ausgabe sind Bildschnipsel mit Maskierungen in Bereichen mit vorhandener Stichprobe. Das Modell generiert umgebende Rechtecke und Segmentierungsmasken für jede Instanz eines Objekts im Bild. Diese Format basiert auf dem Feature Pyramid Network (FPN) und einem ResNet101-Backbone im Deep-Learning-Framework-Modell.Dieses Format dient der Objekterkennung. Es kann aber auch zur Objektverfolgung eingesetzt werden, wenn der Modelltyp "Siam Mask" für das Training verwendet wird, oder zur Zeitserien-Pixelklassifizierung genutzt werden, wenn die PSETAE-Architektur verwendet wird.
  • Labeled_TilesJede Ausgabekachel wird mit einer spezifischen Klasse beschriftet.Dieses Format wird für die Objektklassifizierung verwendet.
  • MultiLabeled_TilesJede Ausgabekachel wird mit mindestens einer Klasse beschriftet. Zum Beispiel kann eine Kachel als "Landwirtschaft" und auch als "Bewölkt" beschriftet werden.Dieses Format wird für die Objektklassifizierung verwendet.
  • Export_TilesDie Ausgabe ist ein Bildschnipsel ohne Label.Dieses Format wird für Techniken zur Bild-zu-Bild-Übersetzung, wie z. B. Pix2Pix und Super Resolution, verwendet.
  • CycleGANDie Ausgabe ist ein Bildschnipsel ohne Label.Dieses Format wird für die Bild-zu-Bild-Übersetzungstechnik CycleGAN verwendet, mit der nicht überlappende Bilder trainiert werden.
  • ImagenetJede Ausgabekachel wird mit einer spezifischen Klasse beschriftet.Dieses Format dient der Objektklassifizierung, kann jedoch auch zur Objektverfolgung eingesetzt werden, wenn der Modelltyp "Deep Sort" für das Training verwendet wird.
  • Panoptic_SegmentationDie Ausgabe besteht aus einem klassifizierten Bildschnipsel und einer Instanz für jeden Eingabebildschnipsel. Die Ausgabe enthält auch Bildschnipsel, die die Bereiche mit vorhandener Stichprobe maskieren. Diese Bildschnipsel werden in einem anderen Ordner gespeichert.Dieses Format wird sowohl für die Pixelklassifizierung als auch für die Instanzsegmentierung verwendet. Daher werden zwei Ordner mit Ausgabebeschriftungen erstellt.

Beim KITTI-Metadatenformat werden 15 Spalten erstellt, jedoch nur 5 davon im Werkzeug verwendet. Die erste Spalte ist der Klassenwert. Die nächsten 3 Spalten werden übersprungen. In den Spalten 5 bis 8 wird das kleinste umgebende Rechteck definiert, das aus vier Bildkoordinatenpositionen besteht. Diese sind die Pixel links, oben, rechts und unten. Das kleinste umgebende Rechteck umfasst den im Deep-Learning-Klassifikator verwendeten Training-Schnipsel. Die verbleibenden Spalten werden nicht verwendet.

Nachfolgend finden Sie ein Beispiel für die Option PASCAL_VOC_rectangles:

  <?xml version=”1.0”?>
- <layout>
      <image>000000000</image>
      <object>1</object>
    - <part>
         <class>1</class>
       - <bndbox>
            <xmin>31.85</xmin>
            <ymin>101.52</ymin>
            <xmax>256.00</xmax>
            <ymax>256.00</ymax>
         </bndbox>
      </part>
  </layout>

Weitere Informationen finden Sie unter PASCAL Visual Object Classes.

String
start_index
(optional)

Vorversion:

Dieser Parameter ist veraltet. Verwenden Sie in Python den Wert 0 oder #.

Long
class_value_field
(optional)

Das Feld, das die Klassenwerte enthält. Wird kein Feld angegeben, sucht das System nach einem Feld des Typs value oder classvalue. Wenn das Feature kein Klassenwerte-Feld enthält, wird vom System festgelegt, dass alle Datensätze zu einer Klasse gehören.

Field
buffer_radius
(optional)

Der Radius eines Puffers um die einzelnen Trainingsgebiete, der zur Abgrenzung einer Trainingsgebietsfläche verwendet wird. Auf diese Weise können Sie kreisförmige Polygon-Trainingsgebiete aus Punkten erstellen.

Die lineare Einheit des Raumbezugs für den Parameter in_class_data wird verwendet.

Double
in_mask_polygons
(optional)

Eine Polygon-Feature-Class zur Abgrenzung der Fläche, in der Bildschnipsel erstellt werden.

Es werden nur Bildschnipsel erstellt, die vollständig in die Polygone fallen.

Feature Layer
rotation_angle
(optional)

Der Drehwinkel, der für die Generierung weiterer Bildschnipsel verwendet wird.

Ein Bildschnipsel wird mit dem Drehwinkel 0 und somit ohne Drehung erstellt. Danach wird er um den angegebenen Winkel gedreht, um einen weiteren Bildschnipsel zu erstellen. Zur Datenerweiterung werden dieselben Trainingsgebiete mit mehreren Winkeln in mehreren Bildschnipseln erfasst.

Der Standard-Drehwinkel beträgt 0 Grad.

Double
reference_system
(optional)

Gibt den Typ des Bezugssystems an, das zum Interpretieren des Eingabebildes verwendet wird. Das angegebene Bezugssystem muss mit dem Bezugssystem übereinstimmen, das für das Training des Deep-Learning-Modells verwendet wurde.

  • MAP_SPACEEs wird ein kartenbasiertes Koordinatensystem verwendet. Dies ist die Standardeinstellung.
  • PIXEL_SPACEEs wird Bildraum ohne Drehung oder Verzerrung verwendet.
String
processing_mode
(optional)

Legt fest, wie alle Raster-Elemente in einem Mosaik-Dataset oder Image-Service verarbeitet werden. Dieser Parameter findet Anwendung, wenn es sich beim Eingabe-Raster um ein Mosaik-Dataset oder einen Image-Service handelt.

  • PROCESS_AS_MOSAICKED_IMAGEAlle Raster-Elemente im Mosaik-Dataset oder Image-Service werden zusammen mosaikiert und verarbeitet. Dies ist die Standardeinstellung.
  • PROCESS_ITEMS_SEPARATELYAlle Raster-Elemente im Mosaik-Dataset oder Image-Service werden als separate Bilder verarbeitet.
String
blacken_around_feature
(optional)

Gibt an, ob die Pixel um die einzelnen Objekte oder Features in den Bildkacheln maskiert werden sollen.

Dieser Parameter findet nur Anwendung, wenn der Parameter metadata_format auf Labeled_Tiles festgelegt ist und eine Eingabe-Feature-Class oder ein klassifiziertes Eingabe-Raster angegeben wurde.

  • NO_BLACKENDie die Objekte oder Features umgebenden Pixel werden nicht maskiert. Dies ist die Standardeinstellung.
  • BLACKEN_AROUND_FEATUREDie die Objekte oder Features umgebenden Pixel werden maskiert.
Boolean
crop_mode
(optional)

Gibt an, ob die exportierten Kacheln auf die gleiche Größe zugeschnitten werden sollen.

Dieser Parameter findet nur Anwendung, wenn der Parameter metadata_format auf Labeled_Tiles oder Imagenet festgelegt ist und eine Eingabe-Feature-Class oder ein klassifiziertes Eingabe-Raster angegeben wurde.

  • FIXED_SIZEDie exportierten Kacheln werden auf die gleiche Größe zugeschnitten und befinden sich in der Mitte des Features. Dies ist die Standardeinstellung.
  • BOUNDING_BOXDie exportierten Kacheln werden zugeschnitten, sodass die angrenzende Geometrie nur das Feature in der Kachel umgibt.
String
in_raster2
(optional)

Eine zusätzliche Eingabequelle aus Bilddaten, die für Bild-zu-Bild-Übersetzungsmethoden verwendet wird.

Dieser Parameter ist gültig, wenn der Parameter metadata_format auf Classified_Tiles, Export_Tiles oder CycleGAN festgelegt wurde.

Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Map Server; Map Server Layer; Internet Tiled Layer; Folder
in_instance_data
(optional)

Die erfassten Trainingsgebietsdaten, die Klassen für die Instanzsegmentierung enthalten.

Die Eingabe kann auch eine Point-Feature-Class ohne Klassenwertefeld oder ein Integer-Raster ohne Klasseninformationen sein.

Dieser Parameter ist gültig, wenn der Parameter metadata_format auf Panoptic_Segmentation festgelegt wurde.

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service; Table; Folder
instance_class_value_field
(optional)

Das Feld, das die Klassenwerte für die Instanzsegmentierung enthält. Wird kein Feld angegeben, verwendet das Werkzeug einen Wert oder ein Klassenwertefeld, sofern vorhanden. Wenn das Feature kein Klassenwertefeld enthält, wird mit dem Werkzeug festgelegt, dass alle Datensätze zu einer Klasse gehören.

Dieser Parameter ist gültig, wenn der Parameter metadata_format auf Panoptic_Segmentation festgelegt wurde.

Field
min_polygon_overlap_ratio
(optional)

Der Prozentsatz der minimalen Überlappung für ein in die Trainingsdaten einzubeziehendes Feature. Wenn die prozentuale Überlappung kleiner als der angegebene Wert ist, wird das Feature aus dem Training-Schnipsel ausgeschlossen und der Label-Datei nicht hinzugefügt.

Der Prozentwert wird als Dezimalzahl angegeben. Um beispielsweise eine Überlappung von 20 Prozent anzugeben, verwenden Sie den Wert 0,2. Der Standardwert ist 0, d. h. alle Features werden einbezogen.

Durch diesen Parameter wird neben der Performance des Werkzeugs auch die Inferenzierung verbessert. Die Geschwindigkeit wird verbessert, da weniger Trainingsschnipsel erstellt werden. Die Inferenzierung wird verbessert, da das Modell so trainiert wird, dass nur große Objektflächen erkannt und kleine Ecken von Features ignoriert werden. Dadurch werden weniger falsch positive Ergebnisse erkannt und vom Werkzeug Non-maximum Suppression entfernt.

Dieser Parameter ist aktiviert, wenn der Parameterwert in_class_data eine Feature-Class ist.

Double

Codebeispiel

ExportTrainingDataForDeepLearning: Beispiel 1 (Python-Fenster)

In diesem Beispiel werden Trainingsgebiete für Deep Learning erstellt.

# Import system modules
import arcpy
from arcpy.ia import *

# Check out the ArcGIS Image Analyst extension license
arcpy.CheckOutExtension("ImageAnalyst")

ExportTrainingDataForDeepLearning("c:/test/image.tif", "c:/test/outfolder", 
    "c:/test/training.shp", "TIFF", "256", "256", "128", "128", 
	"ONLY_TILES_WITH_FEATURES", "Labeled_Tiles", 0, "Classvalue", 
	0, None, 0, "MAP_SPACE", "PROCESS_AS_MOSAICKED_IMAGE", "NO_BLACKEN", "FIXED_SIZE")
ExportTrainingDataForDeepLearning: Beispiel 2 (eigenständiges Skript)

In diesem Beispiel werden Trainingsgebiete für Deep Learning erstellt.

# Import system modules and check out ArcGIS Image Analyst extension license
import arcpy
arcpy.CheckOutExtension("ImageAnalyst")
from arcpy.ia import *

# Set local variables
inRaster = "c:/test/InputRaster.tif"
out_folder = "c:/test/OutputFolder"
in_training = "c:/test/TrainingData.shp"
image_chip_format = "TIFF"
tile_size_x = "256"
tile_size_y = "256"
stride_x= "128"
stride_y= "128"
output_nofeature_tiles= "ONLY_TILES_WITH_FEATURES"
metadata_format= "Labeled_Tiles"
start_index = 0
classvalue_field = "Classvalue"
buffer_radius = 0
in_mask_polygons = "MaskPolygon"
rotation_angle = 0
reference_system = "PIXEL_SPACE"
processing_mode = "PROCESS_AS_MOSAICKED_IMAGE"
blacken_around_feature = "NO_BLACKEN"
crop_mode = “FIXED_SIZE”

# Execute 
ExportTrainingDataForDeepLearning(inRaster, out_folder, in_training, 
    image_chip_format,tile_size_x, tile_size_y, stride_x, 
    stride_y,output_nofeature_tiles, metadata_format, start_index, 
    classvalue_field, buffer_radius, in_mask_polygons, rotation_angle, 
    reference_system, processing_mode, blacken_around_feature, crop_mode)

Lizenzinformationen

  • Basic: Erfordert Image Analyst oder Spatial Analyst
  • Standard: Erfordert Image Analyst oder Spatial Analyst
  • Advanced: Erfordert Image Analyst oder Spatial Analyst

Verwandte Themen