Beschriften von Objekten für Deep Learning

Mit der Image Analyst-Lizenz verfügbar.

Mit der Spatial Analyst-Lizenz verfügbar.

Alle überwachten Deep-Learning-Aufgaben hängen von beschrifteten Datasets ab, d. h., Menschen müssen ihr Wissen anwenden, um das neuronale Netzwerk für das Identifizieren oder Erkennen von relevanten Objekten zu trainieren. Das neuronale Netzwerk trainiert mithilfe der beschrifteten Objekte ein Modell, das zur Dateninferenzierung verwendet werden kann.

Die Beschriftung ist der Prozess, bei dem repräsentative Beispiele eines relevanten Objekts ausgewählt werden. Die für die Beschriftung ausgewählten Objekte müssen räumliche, spektrale, ausrichtungsbezogene, größenbezogene und zustandsbezogene Merkmale der relevanten Objekte genau darstellen. Je besser die beschrifteten Objekte das relevante Feature darstellen, umso besser wird das Deep-Learning-Modell trainiert, und umso genauer ist die Klassifizierung und Erkennung der Inferenzierung.

Die Annotation bzw. Beschriftung von Bildern ist für Deep-Learning-Aufgaben wie maschinelles Sehen und Lernen von entscheidender Bedeutung. Um ein gutes Deep-Learning-Modell zu trainieren, ist eine große Menge beschrifteter Daten erforderlich. Sofern geeignete Trainingsdaten zur Verfügung stehen, können Deep-Learning-Systeme bei der Feature-Extraktion, der Mustererkennung und der Lösung komplexer Probleme genaue Ergebnisse liefern. Sie können den Bereich Objekte für Deep Learning beschriften zum Beschriften von Daten verwenden.

Sie finden die Schaltfläche Objekte für Deep Learning beschriften Objekte für Deep Learning beschriften im Dropdown-Menü Deep Learning Tools in der Gruppe Bildklassifizierung auf der Registerkarte Bilddaten. Wenn das Werkzeug geöffnet ist, wählen Sie aus, ob Sie einen vorhandenen Layer verwenden oder eine Bildsammlung erstellen möchten. Navigieren Sie für eine neue Bildsammlung zum Speicherort des Bilddatenordners. Dann wird ein Layer mit der Bildsammlung erstellt.

Nachdem der Parameterwert Bilder/Bilddatensammlung angegeben wurde, wird der Bereich Objekte beschriften angezeigt. Der Bereich besteht aus zwei Teilen. Im oberen Teil des Bereichs werden die Klassen verwaltet, während der untere Teil des Bereichs verwendet wird, um die gesammelten Stichproben zu verwalten und die Trainingsdaten für Deep-Learning-Frameworks zu exportieren.

Bereich "Objekte beschriften"

Erstellen von Klassen und Beschriften von Objekten

Im oberen Teil des Bereichs können Sie Objektklassen verwalten und Objekte zum Trainieren des Deep-Learning-Modells erstellen. Zum Erstellen beschrifteter Objekte stehen die folgenden Skizzenwerkzeuge und KI-gestützten Werkzeuge zur Verfügung:

WerkzeugBeschreibung
New Rectangle

Ein beschriftetes Objekt durch Zeichnen eines Rechtecks um ein Feature oder Objekt im Raster erstellen

New Polygon

Ein beschriftetes Objekt durch Zeichnen eines Polygons um ein Feature oder Objekt im Raster erstellen

New Circle

Ein beschriftetes Objekt durch Zeichnen eines Kreises um ein Feature oder Objekt im Raster erstellen

New Lasso Area

Ein beschriftetes Objekt durch Zeichnen einer Freihandform um ein Feature oder Objekt im Raster erstellen

Automatisch erkennen

Das Feature oder Objekt automatisch erkennen und beschriften. Um das Feature oder Objekt wird ein Polygon gezeichnet.

Dieses Werkzeug ist nur verfügbar, wenn die Deep-Learning-Framework-Bibliotheken installiert sind.

Mit Polygon auswählen

Ein Feature durch Auswählen eines Segments aus einem segmentierten Layer erstellen. Diese Option ist nur verfügbar, wenn der Bereich Inhalt einen segmentierten Layer enthält. Aktivieren Sie die Segmentauswahl, indem Sie den segmentierten Layer im Bereich Inhalt auswählen, und wählen Sie den Layer dann in der Dropdown-Liste Segmentauswahl aus.

Beschriftungsbild

Weisen Sie dem aktuellen Bild die ausgewählte Klasse zu.

Dieses Werkzeug ist nur im Modus "Bildsammlung" verfügbar.

Bearbeiten

Ein beschriftetes Objekt auswählen und bearbeiten

Neue Vorlage

Ein Klassifizierungsschema erstellen

Durchsuchen

Wählen Sie eine Option für das Klassifizierungsschema aus.

  • Zu einem vorhandenen Schema navigieren.
  • Ein neues Schema aus einer vorhandenen Trainingsgebiet-Feature-Class generieren
  • Ein neues Schema aus einem vorhandenen klassifizierten Raster generieren
  • Ein neues Schema mit dem Standardschema der National Land Cover Database 2011 generieren

Speichern

Die am Schema vorgenommenen Änderungen speichern

Änderungen speichern

Eine Kopie des Schemas speichern

Hinzufügen

Dem Schema eine Klassenkategorie hinzufügen. Wählen Sie zunächst den Namen des Schemas aus, um eine übergeordnete Klasse auf höchster Ebene zu erstellen. Wählen Sie den Namen einer vorhandenen Klasse aus, um eine Unterklasse zu erstellen.

Ausgewählte Elemente löschen

Die ausgewählte Klassen- oder Unterklassen-Kategorie aus dem Schema entfernen.

KI-gestützte Beschriftungswerkzeuge

Es gibt zwei Arten von KI-Werkzeugen zum Beschriften von Objekten: Automatisch erkennen und Textvorgabe.

Werkzeug "Automatisch erkennen"

Mit dem Werkzeug Automatisch erkennen Automatisch erkennen wird automatisch ein Rechteck um ein Feature gezeichnet. Klicken Sie auf das Feature, damit ein umgebendes Rechteck darum herum gezeichnet wird. Wenn Sie eine Polygongrenze des Features benötigen, drücken Sie die Umschalt-Taste, und klicken Sie gleichzeitig auf das Feature. Daraufhin wird eine Umfanglinie um die Form des Features gezeichnet. Damit das Werkzeug erfolgreich eingesetzt werden kann, muss eine beträchtliche Anzahl der Pixel der Features auf der Karte angezeigt werden, sodass Sie die Features vergrößern müssen.

Das Werkzeug Automatisch erkennen eignet sich gut, wenn verschiedene Features vorliegen, die sich durch verschiedene Formen, scharfe Kanten und hohen Kontrast auszeichnen. Es wird nicht empfohlen, wenn kontinuierliche Features in enger Nachbarschaft zueinander vorhanden sind.

Hinweis:

Die Deep-Learning-Frameworks für ArcGIS müssen für die Verwendung dieses Features installiert sein.

Werkzeug "Textvorgabe"

Mit dem Werkzeug Textvorgabe können Sie das Erkennungs-Feature als Unterstützung beim Beschriften verwenden. Geben Sie den Namen des Objekts in das Textfeld Klassenname ein, und klicken Sie auf die Schaltfläche Erkennen. Es wird empfohlen, für dieses Feature eine hochleistungsfähige GPU mit mindestens 12 GB RAM zu verwenden.

Zur Verbesserung der Ergebnisse können Sie die Werte für Schwellenwert für Feld und Schwellenwert für Text in den Optionen für Konfigurieren festlegen.

  • Schwellenwert für Feld: Dieser Wert wird für die Objekterkennung im Bild verwendet. Ein höherer Wert macht das Modell selektiver, und es werden nur die Objektinstanzen mit der höchsten Konfidenz identifiziert, was insgesamt zu weniger Erkennungen führt. Durch einen niedrigeren Wert wird das Modell toleranter, was zu mehr Erkennungen führt, zu denen auch solche mit geringerer Konfidenz gehören. Die Schwellenwerte liegen zwischen 0 und 1.
  • Schwellenwert für Text: Dieser Wert wird zum Verknüpfen der erkannten Objekte mit der bereitgestellten Textvorgabe verwendet. Ein höherer Wert erfordert eine stärkere Verknüpfung zwischen dem Objekt und der Textvorgabe und führt zu präziseren, aber potenziell weniger Verknüpfungen. Ein niedrigerer Wert ermöglicht schwächere Verknüpfungen, durch die die Anzahl der Verknüpfungen steigen kann, wobei sich jedoch auch weniger präzise Übereinstimmungen ergeben. Die Schwellenwerte liegen zwischen 0 und 1.

Hinweis:

Die Deep-Learning-Frameworks für ArcGIS müssen für die Verwendung dieses Features installiert sein.

Dialogfeld "Klasse definieren"

Im Dialogfeld Klasse definieren können Sie eine Klasse erstellen oder eine vorhandene Klasse definieren. Mit der Option Vorhandene Klasse verwenden können Sie die entsprechende Option Klassenname für das Objekt auswählen. Mit der Option Neue Klasse hinzufügen können Sie die Informationen bearbeiten, bevor Sie auf OK klicken, um die Klasse zu erstellen.

Registerkarte "Beschriftete Objekte"

Die Registerkarte Beschriftete Objekte befindet sich im unteren Abschnitt des Bereichs Objekte beschriften. Hier verwalten Sie die Trainingsgebiete, die Sie für die einzelnen Klassen gesammelt haben. Sammeln Sie für jede Klasse im Bild repräsentative Standorte oder Trainingsgebiete. Ein Trainingsgebiet verfügt über Positionsinformationen (Polygon) und eine zugehörige Klasse. Der Bildklassifizierungsalgorithmus verwendet die als Feature-Class gespeicherten Trainingsgebiete, um die Landbedeckungsklasse im gesamten Bild zu identifizieren.

Sie können Trainingsgebiete anzeigen und verwalten, indem Sie diese hinzufügen, gruppieren oder entfernen. Wenn Sie auf ein Trainingsgebiet klicken, wird es auf der Karte markiert. Doppelklicken Sie auf ein Trainingsgebiet in der Tabelle, um auf der Karte darauf zu zoomen.

Die Werkzeuge auf der Registerkarte Beschriftete Objekte werden in der folgenden Tabelle beschrieben:

WerkzeugBeschreibung
Durchsuchen

Eine vorhandene Trainingsgebiet-Feature-Class öffnen

Speichern

Die an der aktuellen Feature-Class mit beschrifteten Objekten vorgenommenen Änderungen speichern

Änderungen speichern

Die aktuellen beschrifteten Objekte als eine neue Feature-Class speichern

Ausgewählte Elemente löschen

Die ausgewählten beschrifteten Objekte löschen

Registerkarte "Trainingsdaten exportieren"

Nachdem die Stichproben gesammelt wurden, können Sie sie durch Klicken auf die Registerkarte Trainingsdaten exportieren als Trainingsdaten exportieren. Anschließend können die Trainingsdaten in einem Deep-Learning-Modell verwendet werden. Nachdem Sie die unten beschriebenen Parameterwerte festgelegt haben, klicken Sie auf Ausführen, um die Trainingsdaten zu erstellen.

ParameterBeschreibung

Ausgabeordner

Der Ausgabeordner, in dem die Trainingsdaten gespeichert werden sollen

Polygon-Features maskieren

Eine Polygon-Feature-Class zur Abgrenzung der Fläche, in der Bildschnipsel erstellt werden.

Es werden nur Bildschnipsel erstellt, die vollständig in die Polygone fallen.

Bildformat

Gibt das Raster-Format für die ausgegebenen Bildschnipsel an.

  • TIFF: Dies ist das Standardformat.
  • MRF (Meta-Raster-Format)
  • PNG
  • JPEG

Die Formate PNG und JPEG unterstützen bis zu drei Bänder.

Kachelgröße X

Größe der Bildschnipsel (X-Dimension).

Kachelgröße Y

Größe der Bildschnipsel (Y-Dimension).

Schritt X

Verschiebung in X-Richtung bei Erstellung der nächsten Bildschnipsel.

Wenn der Schritt der Kachelgröße entspricht, gibt es keine Überlappung. Wenn der Schritt der halben Kachelgröße entspricht, gibt es eine Überlappung von 50 Prozent

Schritt Y

Verschiebung in Y-Richtung bei Erstellung der nächsten Bildschnipsel.

Wenn der Schritt der Kachelgröße entspricht, gibt es keine Überlappung. Wenn der Schritt der halben Kachelgröße entspricht, gibt es eine Überlappung von 50 Prozent

Drehwinkel

Der Drehwinkel, der für die Generierung von Bildschnipseln verwendet wird.

Zunächst wird ein Bildschnipsel ohne Drehung generiert. Danach wird um den angegebenen Winkel gedreht, um weitere Bildschnipsel zu erstellen. Bei jeder Drehung wird ein Schnipsel erstellt, bis das Bild vollständig gedreht wurde. Wenn Sie beispielsweise einen Drehwinkel von 45 Grad angeben, werden acht Bildschnipsel erstellt. Die acht Bildschnipsel werden bei folgenden Winkeln erstellt: 0, 45, 90, 135, 180, 25, 270 und 315.

NoFeature-Kacheln ausgeben

Gibt an, ob Bildschnipsel, die keine Trainingsgebiete erfassen, exportiert werden.

  • Deaktiviert: Nur Bildschnipsel, die Trainingsgebiete erfassen, werden exportiert. Dies ist die Standardeinstellung.
  • Aktiviert: Alle Bildschnipsel einschließlich solcher, die keine Trainingsgebiete erfassen, werden exportiert.

Das Sammeln von Bildschnipseln, die keine Trainingsgebiete enthalten, kann dem Modell helfen, Objekte zu identifizieren, die nicht zu den Ergebnissen gehören sollten, z. B. falsch positive Objekte. Dadurch kann auch eine Überanpassung reduziert werden.

Metadatenformat

Gibt das Format für die ausgegebenen Metadaten-Label an.

Wenn es sich bei den Eingabedaten für das Trainingsgebiet um einen Feature-Class-Layer handelt, wie zum Beispiel eine Gebäude-Layer- oder Standardklassifizierungs-Trainingsgebiet-Datei, verwenden Sie die Option KITTI-Beschriftungen oder PASCAL Visual Object Classes (KITTI_rectangles oder PASCAL_VOC_rectangles in Python). Die Ausgabe-Metadaten sind eine .txt-Datei oder eine .xml-Datei mit den Daten für das Trainingsgebiet, die im kleinsten umgebenden Rechteck enthalten sind. Der Name der Metadatendatei stimmt mit dem Namen des Eingabequellbildes überein. Wenn es sich bei den Eingabedaten für das Trainingsgebiet um eine Klassenkarte handelt, verwenden Sie als Format für die Ausgabe-Metadaten die Option Klassifizierte Kacheln (Classified_Tiles in Python).

  • KITTI-Beschriftungen: Die Metadaten weisen dasselbe Format auf wie das Object Detection Evaluation Dataset, das vom Karlsruher Institut für Technologie gemeinsam mit dem Toyota Technological Institute (KITTI) entwickelt wurde. Das KITTI-Dataset ist eine Vision Benchmark Suite. Bei den Beschriftungsdateien handelt es sich um Nur-Text-Dateien. Numerische Werte und Zeichenfolgenwerte werden durch Leerzeichen getrennt, und jede Zeile entspricht einem Objekt.
  • PASCAL Visual Object Classes: Die Metadaten weisen dasselbe Format auf wie das PASCAL VOC-Dataset (Pattern Analysis, Statistical Modeling and Computational Learning Visual Object Classes). Das PASCAL_VOC-Dataset ist ein standardisiertes Bild-Dataset für die Erkennung von Objektklassen. Die Beschriftungsdateien (.xml-Dateien) enthalten Informationen zu Bildnamen, Klassenwerten und umgebenden Rechtecken. Dies ist die Standardeinstellung.
  • Klassifizierte Kacheln: Die Ausgabe besteht aus einem klassifizierten Bildschnipsel für jeden Eingabebildschnipsel. Für die einzelnen Bildschnipsel werden keine weiteren Metadaten verwendet. Weitere Informationen zu den Klassen (Klassennamen, Klassenwerte und Ausgabestatistiken) können den ausgegebenen Statistiken entnommen werden.
  • RCNN-Masken: Die Ausgabe besteht aus Bildschnipseln mit Maskierung in Bereichen mit vorhandener Stichprobe. Das Modell generiert umgebende Rechtecke und Segmentierungsmasken für jede Instanz eines Objekts im Bild. Es basiert auf dem Feature Pyramid Network (FPN) und einem ResNet101-Backbone im Deep-Learning-Framework-Modell.
  • Beschriftete Kacheln: Jede Ausgabekachel wird mit einer spezifischen Klasse beschriftet. Wenn Sie dieses Metadatenformat auswählen, können Sie die Parameter Feature schwärzen und Zuschneide-Modus zusätzlich optimieren.
  • Kacheln mit mehreren Beschriftungen: Jede Ausgabekachel wird mit mindestens einer Klasse beschriftet. Zum Beispiel kann eine Kachel als "Landwirtschaft" und auch als "bewölkt" beschriftet werden. Dieses Format wird für die Objektklassifizierung verwendet.
  • Kacheln exportieren: Die Ausgabe besteht aus Bildschnipseln ohne Beschriftung. Dieses Format wird für Techniken zur Bild-zu-Bild-Übersetzung, wie z. B. Pix2Pix und Super Resolution, verwendet.
  • CycleGAN: Die Ausgabe besteht aus Bildschnipseln ohne Beschriftung. Dieses Format wird für die Bild-zu-Bild-Übersetzungstechnik CycleGAN verwendet, mit der nicht überlappende Bilder trainiert werden.
  • ImageNet: Jede Ausgabekachel wird mit einer spezifischen Klasse beschriftet. Dieses Format dient der Objektklassifizierung, kann jedoch auch zur Objektverfolgung eingesetzt werden, wenn der Modelltyp "Deep Sort" für das Training verwendet wird.

Beim KITTI-Metadatenformat werden 15 Spalten erstellt, jedoch nur 5 davon im Werkzeug verwendet. Die erste Spalte ist der Klassenwert. Die nächsten 3 Spalten werden übersprungen. In den Spalten 5 bis 8 wird das kleinste umgebende Rechteck definiert, das aus vier Bildkoordinatenpositionen besteht. Diese sind die Pixel links, oben, rechts und unten. Das kleinste umgebende Rechteck umfasst den im Deep-Learning-Klassifikator verwendeten Training-Schnipsel. Die verbleibenden Spalten werden nicht verwendet.

Feature schwärzen

Gibt an, ob die Pixel um die einzelnen Objekte oder Features in den Bildkacheln maskiert werden sollen.

  • Deaktiviert: Die die Objekte oder Features umgebenden Pixel werden nicht maskiert. Dies ist die Standardeinstellung.
  • Aktiviert: Die die Objekte oder Features umgebenden Pixel werden maskiert.

Dieser Parameter findet nur Anwendung, wenn der Parameter Metadatenformat auf Beschriftete Kacheln festgelegt ist und eine Eingabe-Feature-Class oder ein klassifiziertes Eingabe-Raster angegeben wurde.

Zuschneide-Modus

Gibt an, ob die exportierten Kacheln auf die gleiche Größe zugeschnitten werden sollen.

  • Feste Größe: Die exportierten Kacheln sind gleich groß und befinden sich in der Mitte des Features. Dies ist die Standardeinstellung.
  • Umgebendes Rechteck: Die exportierten Kacheln werden zugeschnitten, sodass die angrenzende Geometrie nur das Feature in der Kachel umgibt.

Dieser Parameter findet nur Anwendung, wenn der Parameter Metadatenformat auf Beschriftete Kacheln oder ImageNet festgelegt ist und eine Eingabe-Feature-Class oder ein klassifiziertes Eingabe-Raster angegeben wurde.

Bezugssystem

Gibt den Typ des Bezugssystems an, das zum Interpretieren des Eingabebildes verwendet wird. Das angegebene Bezugssystem muss mit dem Bezugssystem übereinstimmen, das für das Training des Deep-Learning-Modells verwendet wurde.

  • Kartenraum: Das Eingabebild in einem kartenbasierten Koordinatensystem. Dies ist die Standardeinstellung.
  • Pixelabstand: Das Eingabebild liegt im Bildraum (Zeilen und Spalten) ohne Drehung oder Verzerrung.

Zusätzliches Eingabe-Raster

Eine zusätzliche Eingabequelle aus Bilddaten für Bild-zu-Bild-Übersetzungsmethoden.

Dieser Parameter ist gültig, wenn der Parameter Metadatenformat auf Klassifizierte Kacheln, Kacheln exportieren oder CycleGAN festgelegt wurde.

Die exportierten Trainingsdaten können jetzt in einem Deep-Learning-Modell verwendet werden.

Verwandte Themen