Beschriften von Objekten für Deep Learning

Mit der Image Analyst-Lizenz verfügbar.

Mit der Spatial Analyst-Lizenz verfügbar.

Alle überwachten Deep-Learning-Aufgaben hängen von beschrifteten Datasets ab, d. h. Menschen müssen ihr Wissen anwenden, um das neuronale Netzwerk im Hinblick auf die zu identifizierenden Objekte zu trainieren. Das neuronale Netzwerk trainiert mithilfe der beschrifteten Objekte ein Modell, das zur Dateninferenzierung verwendet werden kann.

Die Annotation bzw. Beschriftung von Bildern ist für Deep-Learning-Aufgaben wie maschinelles Sehen und Lernen von entscheidender Bedeutung. Um ein gutes Deep-Learning-Modell zu trainieren, ist eine große Menge beschrifteter Daten erforderlich. Sofern geeignete Trainingsdaten zur Verfügung stehen, können Deep-Learning-Systeme bei der Feature-Extraktion, der Mustererkennung und der Lösung komplexer Probleme sehr genaue Ergebnisse liefern. Im Bereich Objekte für Deep Learning beschriften können Sie Daten schnell und präzise beschriften.

Die Schaltfläche Objekte für Deep Learning beschriften befindet sich im Dropdown-Menü Klassifizierungswerkzeuge in der Gruppe Bildklassifizierung auf der Registerkarte Bilddaten. Der Bereich besteht aus zwei Teilen. Im oberen Teil werden die Klassen verwaltet, während der untere Teil des Bereichs verwendet wird, um die gesammelten Stichproben zu verwalten und die Trainingsdaten für Deep-Learning-Frameworks zu exportieren.

Erstellen von Klassen und Beschriften von Objekten

Im oberen Teil des Bereichs können Sie Objektklassen verwalten und manuell Objekte für das Training des Deep-Learning-Modells erstellen. Es stehen zahlreiche Werkzeuge zur Verfügung, mit denen Sie beschriftete Objekte erstellen können.

WerkzeugFunktion
New Rectangle

Erstellt ein beschriftetes Objekt durch Zeichnen eines Rechtecks um ein Feature oder Objekt im Raster.

New Polygon

Erstellt ein beschriftetes Objekt durch Zeichnen eines Polygons um ein Feature oder Objekt im Raster.

New Circle

Erstellt ein beschriftetes Objekt durch Zeichnen eines Kreises um ein Feature oder Objekt im Raster.

New Lasso Area

Erstellt ein beschriftetes Objekt durch Zeichnen einer Freihandform um ein Feature oder Objekt im Raster.

Mit Polygon auswählen

Erstellt ein Feature durch Auswählen eines Segments aus einem segmentierten Layer. Diese Option ist nur verfügbar, wenn der Bereich Inhalt einen segmentierten Layer enthält. Aktivieren Sie die Segmentauswahl, indem Sie den segmentierten Layer im Bereich Inhalt markieren, und wählen Sie den Layer dann in der Dropdown-Liste Segmentauswahl aus.

Beschriftungsbild

Weist dem aktuellen Bild die ausgewählte Klasse zu.

Diese Option ist nur im Modus "Bildsammlung" verfügbar.

Bearbeiten

Ermöglicht das Auswählen und Bearbeiten eines beschrifteten Objekts.

Neue Vorlage

Erstellt ein Klassifizierungsschema.

Durchsuchen

Wählen Sie eine Option für das Klassifizierungsschema aus.

  • Zu einem vorhandenen Schema navigieren.
  • Ein neues Schema aus einer vorhandenen Trainingsgebiet-Feature-Class generieren.
  • Ein neues Schema aus einem vorhandenen klassifizierten Raster generieren.
  • Standardschema der National Land Cover Database 2011 verwenden.

Speichern

Speichert die am Schema vorgenommenen Änderungen.

Änderungen speichern

Speichert eine neue Kopie des Schemas.

Hinzufügen

Fügt dem Schema eine Klassenkategorie hinzu. Wählen Sie zunächst den Namen des Schemas aus, um eine übergeordnete Klasse auf höchster Ebene zu erstellen. Wählen Sie den Namen einer vorhandenen Klasse aus, um eine Unterklasse zu erstellen.

Ausgewählte Elemente löschen

Entfernt die ausgewählte Klassen- oder Unterklassen-Kategorie aus dem Schema.

  1. Klicken Sie auf eines der Skizzenwerkzeuge, z. B. Rechteck, Polygon, Kreis oder Freihand, um mit dem Sammeln von Objektstichproben zu beginnen.
  2. Skizzieren Sie mithilfe eines Skizzenwerkzeugs das Bild-Feature, welches das Objekt auf der Karte darstellt.
    1. Wenn Sie ein Feature erstellen, für das keine Klasse angegeben wurde, wird das Dialogfeld Klasse definieren angezeigt. Weitere Informationen zu diesem Dialogfeld finden Sie im Abschnitt Klasse definieren.
  3. Erstellen und beschriften Sie weitere Objekte, wobei Sie die oben beschriebenen Schritte ausführen.
  4. Sie können die Registerkarte Beschriftete Objekte (im unteren Teil des Bereichs) verwenden, um die beschrifteten Objektstichproben zu löschen und zu organisieren.
  5. Wenn Sie mit den beschrifteten Objekten zufrieden sind, speichern Sie die Stichproben, indem Sie auf die Schaltfläche Speichern Speichern auf der Registerkarte Beschriftete Objekte klicken.

Nachdem Sie eine repräsentative Stichprobe der Objekte manuell beschriftet haben, können Sie diese verwenden, um Ihre Trainingsdaten zu exportieren.

Klasse definieren

Im Dialogfeld Klasse definieren können Sie eine neue Klasse erstellen oder eine vorhandene Klasse definieren. Mit der Option Vorhandene Klasse verwenden können Sie die entsprechende Option Klassenname für das Objekt auswählen. Mit der Option Neue Klasse hinzufügen haben Sie die Möglichkeit, die Informationen zu bearbeiten, bevor Sie auf OK klicken, um die neue Klasse zu erstellen.

Bildsammlungen beschriften

Wenn Sie über eine Bildsammlung verfügen oder einzelne Bilder in einem Mosaik-Dataset beschriften möchten, verwenden Sie die Registerkarte Bildsammlung. Weitere Informationen zu Bildsammlungen finden Sie unter Mosaik-Datasets.

Mithilfe des Mosaik-Layers können Sie die einzelnen Bilder beschriften. Über die Registerkarte Bildsammlung können Sie auf die List der Bilder in der Dropdown-Liste zugreifen. Das ausgewählte Bild wird auf der Karte dargestellt. Nun können Sie das Bild mit der entsprechenden Klasse beschriften. Wählen Sie mit den Pfeilschaltflächen das nächste Bild aus, das Sie anzeigen und beschriften möchten.

Wenn sich das Bild in einem Bildkoordinatensystem (ICS) befindet, kann es eine unübliche Ausrichtung aufweisen. Dies gilt insbesondere für Schrägluft- oder perspektivische Bilddaten. Um das Bild mit Pixelabstand anzuzeigen, aktivieren Sie das Kontrollkästchen Beschriftung in Pixelabstand. Dadurch wird das Bild in einer Ausrichtung dargestellt, die günstiger für eine intuitive Bildinterpretation ist.

Gesamtes Bild beschriften

In Fällen, in den Sie keine Grenze um ein Objekt zeichnen möchten, können Sie die Schaltfläche Bild beschriften Beschriftungsbild verwenden, um das gesamte Bild unabhängig von der räumlichen Ausrichtung des Objekts mit der ausgewählten Klasse zu beschriften.

Beschriftete Objekte

Die Registerkarte Beschriftete Objekte befindet sich im unteren Teil des Bereichs und verwaltet die Trainingsgebiete, die Sie für die einzelnen Klassen gesammelt haben. Sammeln Sie für jede Klasse im Bild repräsentative Standorte oder Trainingsgebiete. Ein Trainingsgebiet verfügt über Positionsinformationen (Polygon) und eine zugehörige Klasse. Der Bildklassifizierungsalgorithmus verwendet die als Feature-Class gespeicherten Trainingsgebiete, um die Landbedeckungsklasse im gesamten Bild zu identifizieren.

Sie können Trainingsgebiete anzeigen und verwalten, indem Sie diese hinzufügen, gruppieren oder entfernen. Wenn Sie ein Trainingsgebiet auswählen, wird es auf der Karte markiert. Doppelklicken Sie auf ein Trainingsgebiet in der Tabelle, um auf der Karte darauf zu zoomen.

WerkzeugFunktion
Durchsuchen

Öffnet eine vorhandene Trainingsgebiet-Feature-Class.

Speichern

Speichert die an der aktuellen Feature-Class mit beschrifteten Objekten vorgenommenen Änderungen.

Änderungen speichern

Speichert die aktuellen beschrifteten Objekte als eine neue Feature-Class.

Ausgewählte Elemente löschen

Löscht die ausgewählten beschrifteten Objekte.

Trainingsdaten exportieren

Nachdem die Stichproben gesammelt wurden, können sie durch Klicken auf die Registerkarte Trainingsdaten exportieren in die Trainingsdaten exportiert werden. Anschließend können die Trainingsdaten in einem Deep-Learning-Modell verwendet werden. Nachdem die Parameter angegeben wurden, klicken Sie auf Ausführen, um die Trainingsdaten zu erstellen.

ParameterBeschreibung

Ausgabeordner

Wählen Sie den Ausgabeordner aus, in dem die Trainingsdaten gespeichert werden sollen.

Polygon-Features maskieren

Eine Polygon-Feature-Class zur Abgrenzung der Fläche, in der Bildschnipsel erstellt werden.

Es werden nur Bildschnipsel erstellt, die vollständig in die Polygone fallen.

Bildformat

Gibt das Raster-Format für die ausgegebenen Bildschnipsel an.

  • TIFF. Dies ist die Standardeinstellung.
  • MRF (Meta Raster Format).
  • PNG.
  • JPEG.

Die Formate PNG und JPEG unterstützen bis zu drei Bänder.

Kachelgröße X

Größe der Bildschnipsel (X-Dimension).

Kachelgröße Y

Größe der Bildschnipsel (Y-Dimension).

Schritt X

Verschiebung in X-Richtung bei Erstellung der nächsten Bildschnipsel.

Wenn der Schritt der Kachelgröße entspricht, gibt es keine Überlappung. Wenn der Schritt der halben Kachelgröße entspricht, gibt es eine Überlappung von 50 Prozent

Schritt Y

Verschiebung in Y-Richtung bei Erstellung der nächsten Bildschnipsel.

Wenn der Schritt der Kachelgröße entspricht, gibt es keine Überlappung. Wenn der Schritt der halben Kachelgröße entspricht, gibt es eine Überlappung von 50 Prozent

Drehwinkel

Der Drehwinkel, der für die Generierung weiterer Bildschnipsel verwendet wird. Ein Bildschnipsel wird mit dem Drehwinkel 0 und somit ohne Drehung erstellt. Danach wird er um den angegebenen Winkel gedreht, um einen weiteren Bildschnipsel zu erstellen. Zur Datenerweiterung werden dieselben Trainingsgebiete mit mehreren Winkeln in mehreren Bildschnipseln erfasst. Der Standard-Drehwinkel beträgt 0 Grad.

NoFeature-Kacheln ausgeben

Gibt an, ob Bildschnipsel, die keine Trainingsgebiete erfassen, exportiert werden.

  • Deaktiviert: Nur Bildschnipsel, die Trainingsgebiete erfassen, werden exportiert. Dies ist die Standardeinstellung.
  • Aktiviert: Alle Bildschnipsel einschließlich solcher, die keine Trainingsgebiete erfassen, werden exportiert.

Metadatenformat

Gibt das Format für die ausgegebenen Metadatenbeschriftungen an.

Wenn es sich bei den Eingabedaten für das Trainingsgebiet um einen Feature-Class-Layer handelt, wie zum Beispiel eine Gebäude-Layer- oder Standardklassifizierungs-Trainingsgebiet-Datei, verwenden Sie die Option KITTI-Beschriftungen oder PASCAL Visual Object Classes (KITTI_rectangles oder PASCAL_VOC_rectangles in Python). Die Ausgabe-Metadaten sind eine .txt-Datei oder eine .xml-Datei mit den Daten für das Trainingsgebiet, die im kleinsten umgebenden Rechteck enthalten sind. Der Name der Metadatendatei stimmt mit dem Namen des Eingabequellbildes überein. Wenn es sich bei den Eingabedaten für das Trainingsgebiet um eine Klassenkarte handelt, verwenden Sie als Format für die Ausgabe-Metadaten die Option Klassifizierte Kacheln (Classified_Tiles in Python).

  • KITTI-Beschriftungen: Die Metadaten weisen dasselbe Format auf wie das Object Detection Evaluation Dataset, das vom Karlsruher Institut für Technologie gemeinsam mit dem Toyota Technological Institute (KITTI) entwickelt wurde. Das KITTI-Dataset ist eine Vision Benchmark Suite. Bei den Beschriftungsdateien handelt es sich um Nur-Text-Dateien. Numerische Werte und Zeichenfolgenwerte werden durch Leerzeichen getrennt, und jede Zeile entspricht einem Objekt.
  • PASCAL Visual Object Classes: Die Metadaten weisen dasselbe Format auf wie das PASCAL VOC-Dataset (Pattern Analysis, Statistical Modeling and Computational Learning Visual Object Classes). Das PASCAL_VOC-Dataset ist ein standardisiertes Bild-Dataset für die Erkennung von Objektklassen. Die Beschriftungsdateien (XML-Dateien) enthalten Informationen zu Bildnamen, Klassenwerten und umgebenden Rechtecken. Dies ist die Standardeinstellung.
  • Klassifizierte Kacheln: Die Ausgabe besteht aus einem klassifizierten Bildschnipsel für jeden Eingabebildschnipsel. Für die einzelnen Bildschnipsel werden keine weiteren Metadaten verwendet. Weitere Informationen zu den Klassen (Klassennamen, Klassenwerte und Ausgabestatistiken) können den ausgegebenen Statistiken entnommen werden.
  • RCNN-Masken: Die Ausgabe sind Bildschnipsel mit Maskierung in Bereichen mit vorhandener Stichprobe. Das Modell generiert umgebende Rechtecke und Segmentierungsmasken für jede Instanz eines Objekts im Bild. Es basiert auf dem Feature Pyramid Network (FPN) und einem ResNet101-Backbone im Deep-Learning-Framework-Modell.
  • Beschriftete Kacheln: Jede Ausgabekachel wird mit einer spezifischen Klasse beschriftet. Wenn Sie dieses Metadatenformat auswählen, können Sie die Parameter Feature schwärzen und Zuschneide-Modus zusätzlich optimieren.
  • Kacheln mit mehreren Beschriftungen: Jede Ausgabekachel wird mit mindestens einer Klasse beschriftet. Zum Beispiel kann eine Kachel als "Landwirtschaft" und auch als "bewölkt" beschriftet werden. Dieses Format wird für die Objektklassifizierung verwendet.
  • Kacheln exportieren: Die Ausgabe sind Bildschnipsel ohne Beschriftung. Dieses Format wird für Techniken zur Bild-zu-Bild-Übersetzung, wie z. B. Pix2Pix und Super Resolution, verwendet.
  • CycleGAN: Die Ausgabe ist ein Bildschnipsel ohne Beschriftung. Dieses Format wird für die Bild-zu-Bild-Übersetzungstechnik CycleGAN verwendet, mit der nicht überlappende Bilder trainiert werden.
  • ImageNet: Jede Ausgabekachel wird mit einer spezifischen Klasse beschriftet. Dieses Format dient der Objektklassifizierung, kann jedoch auch zur Objektverfolgung eingesetzt werden, wenn der Modelltyp "Deep Sort" für das Training verwendet wird.

Beim KITTI-Metadatenformat werden 15 Spalten erstellt, jedoch nur 5 davon im Werkzeug verwendet. Die erste Spalte ist der Klassenwert. Die nächsten 3 Spalten werden übersprungen. In den Spalten 5 bis 8 wird das kleinste umgebende Rechteck definiert, das aus vier Bildkoordinatenpositionen besteht. Diese sind die Pixel links, oben, rechts und unten. Das kleinste umgebende Rechteck umfasst den im Deep-Learning-Klassifikator verwendeten Training-Schnipsel. Die verbleibenden Spalten werden nicht verwendet.

Feature schwärzen

Gibt an, ob die Pixel um die einzelnen Objekte oder Features in den Bildkacheln maskiert werden sollen.

  • Deaktiviert: Die die Objekte oder Features umgebenden Pixel werden nicht maskiert. Dies ist die Standardeinstellung.
  • Aktiviert: Die die Objekte oder Features umgebenden Pixel werden maskiert.

Dieser Parameter findet nur Anwendung, wenn der Parameter Metadatenformat auf Beschriftete Kacheln festgelegt ist und eine Eingabe-Feature-Class oder ein klassifiziertes Eingabe-Raster angegeben wurde.

Zuschneide-Modus

Gibt an, ob die exportierten Kacheln auf die gleiche Größe zugeschnitten werden sollen.

  • Feste Größe: Die exportierten Kacheln sind gleich groß und befinden sich in der Mitte des Features. Dies ist die Standardeinstellung.
  • Umgebendes Rechteck: Die exportierten Kacheln werden zugeschnitten, sodass die angrenzende Geometrie nur das Feature in der Kachel umgibt.

Dieser Parameter findet nur Anwendung, wenn der Parameter Metadatenformat auf Beschriftete Kacheln oder ImageNet festgelegt ist und eine Eingabe-Feature-Class oder ein klassifiziertes Eingabe-Raster angegeben wurde.

Bezugssystem

Gibt den Typ von Bezugssystem an, mit dem das Eingabebild interpretiert wird. Das angegebene Bezugssystem muss mit dem Bezugssystem übereinstimmen, das für das Training des Deep-Learning-Modells verwendet wurde.

  • Kartenraum: Das Eingabebild in einem kartenbasierten Koordinatensystem. Dies ist die Standardeinstellung.
  • Pixelabstand: Das Eingabebild liegt im Bildraum (Zeilen und Spalten) ohne Drehung oder Verzerrung.

Zusätzliches Eingabe-Raster

Eine zusätzliche Eingabequelle aus Bilddaten für Bild-zu-Bild-Übersetzungsmethoden.

Dieser Parameter ist gültig, wenn der Parameter Metadatenformat auf Klassifizierte Kacheln, Kacheln exportieren oder CycleGAN festgelegt wurde.

Die exportierten Trainingsdaten können jetzt in einem Deep-Learning-Modell verwendet werden.

Verwandte Themen