Deep-Learning-Modell trainieren (Image Analyst)—ArcGIS Pro

Mit der Image Analyst-Lizenz verfügbar.

Zusammenfassung

Trainiert ein Deep-Learning-Modell mit der Ausgabe des Werkzeugs Trainingsdaten für Deep Learning exportieren.

Verwendung

Dieses Werkzeug trainiert ein Deep-Learning-Modell in Deep-Learning-Umgebungen.
Informationen zum Einrichten des Computers für Deep-Learning-Frameworks in ArcGIS Pro finden Sie unter Installieren von Deep-Learning-Frameworks for ArcGIS.
Weitere Informationen zum Trainieren von Modellen in einer nicht verbundenen Umgebung finden Sie unter Installation for Disconnected Environment.
Dieses Werkzeug kann auch zur Optimierung eines vorhandenen trainierten Modells verwendet werden. Beispielsweise kann für ein vorhandenes Modell, das für Autos trainiert wurde, ein Finetuning durchgeführt werden, um ein Modell für die Identifizierung von Lastwagen zu trainieren.
Wenn Sie dieses Werkzeug mit dem Grafikprozessor ausführen möchten, legen Sie die Umgebungsvariable Prozessortyp auf GPU fest. Wenn Sie mehrere Grafikprozessoren haben, legen Sie stattdessen die Umgebungsvariable GPU ID fest.
Die Eingabe-Trainingsdaten für dieses Werkzeug müssen die Bilder- und Beschriftungsordner umfassen, die vom Werkzeug Trainingsdaten für Deep Learning exportieren generiert werden.
Weitere Informationen zu den Voraussetzungen für die Ausführung dieses Werkzeugs und eventuell dabei auftretenden Problemen finden Sie unter Häufig gestellte Fragen zu Deep Learning.
Weitere Informationen zu Deep Learning finden Sie unter Deep Learning in ArcGIS Pro.

Parameter

Beschriftung	Erläuterung	Datentyp
Eingabe-Trainingsdaten	Der Ordner mit den Bildschnipseln, Beschriftungen und Statistiken, die zum Trainieren des Modells benötigt werden. Dies ist die Ausgabe des Werkzeugs Trainingsdaten für Deep Learning exportieren. Zum Trainieren eines Modells müssen die Eingabe-Bilder 8-Bit-Raster mit drei Bändern sein.	Folder
Ausgabemodell	Der Speicherort des Ausgabeordners, in dem das trainierte Modell gespeichert wird.	Folder
Max. Epochen (optional)	Die maximale Anzahl von Epochen, für die das Modell trainiert wird. Eine maximale Epoche von eins bedeutet, dass das Dataset einmal vorwärts und einmal rückwärts durch das neuronale Netz geleitet wird. Der Standardwert ist 20.	Long
Modelltyp (optional)	Gibt den Modelltyp an, der zum Trainieren des Deep-Learning-Modells verwendet wird. Single Shot Detector (Objekterkennung)—Der Single Shot Detector (SSD)-Ansatz wird zum Trainieren des Modells verwendet. SSD wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Pascal Visual Object Classes-Metadatenformat verwendet. U-Net (Pixelklassifizierung)—Der U-Net-Ansatz wird zum Trainieren des Modells verwendet. U-Net wird für die Pixelklassifizierung verwendet. Feature Classifier (Objektklassifizierung)—Der Feature Classifier-Ansatz wird zum Trainieren des Modells verwendet. Dies wird für die Objekt- oder Bildklassifizierung verwendet. Pyramid Scene Parsing Network (Pixelklassifizierung)—Der Pyramid Scene Parsing Network (PSPNET)-Ansatz wird zum Trainieren des Modells verwendet. PSPNET wird für die Pixelklassifizierung verwendet. RetinaNet (Objekterkennung)—Der RetinaNet-Ansatz wird zum Trainieren des Modells verwendet. RetinaNet wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Pascal Visual Object Classes-Metadatenformat verwendet. MaskRCNN (Objekterkennung)—Der MaskRCNN-Ansatz wird zum Trainieren des Modells verwendet. MaskRCNN wird für die Objekterkennung eingesetzt. Dieser Ansatz wird für die Instanzsegmentierung verwendet, d. h. zur genauen Abgrenzung von Objekten in einem Bild. Dieser Modelltyp kann zur Erkennung von Gebäudegrundrissen verwendet werden. Er verwendet das MaskRCNN-Metadatenformat für die Trainingsdaten als Eingabe. Klassenwerte für Eingabe-Trainingsdaten müssen bei 1 beginnen. Dieser Modelltyp kann nur mit einer CUDA-aktivierten GPU trainiert werden. YOLOv3 (Objekterkennung)—Der YOLOv3-Ansatz wird zum Trainieren des Modells verwendet. Für die Objekterkennung wird YOLOv3 verwendet. DeepLabV3 (Pixelklassifizierung)—Der DeepLabV3-Ansatz wird zum Trainieren des Modells verwendet. DeepLab wird für die Pixelklassifizierung verwendet. FasterRCNN (Objekterkennung)—Der FasterRCNN-Ansatz wird zum Trainieren des Modells verwendet. FasterRCNN wird für die Objekterkennung eingesetzt. BDCN Edge Detector (Pixelklassifizierung)—Die Architektur "Bi-Directional Cascade Network" (BDCN) wird zum Trainieren des Modells verwendet. Der BDCN Edge Detector wird für der Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Verbesserung der Kantenerkennung für Objekte in unterschiedlichen Maßstäben. HED Edge Detector (Pixelklassifizierung)—Die Architektur "Holistically-Nested Edge Detection" (HED) wird zum Trainieren des Modells verwendet. Der HED Edge Detector wird für der Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Kanten- und Objektgrenzenerkennung. Multi Task Road Extractor (Pixelklassifizierung)—Die Architektur "Multi Task Road Extractor" wird zum Trainieren des Modells verwendet. Der Multi Task Road Extractor wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Extraktion von Straßennetzen aus Satellitenbildern. ConnectNet (Pixelklassifizierung)—Die Architektur "ConnectNet" wird zum Trainieren des Modells verwendet. ConnectNet wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Extraktion von Straßennetzen aus Satellitenbildern. Pix2Pix (Bild-zu-Bild-Übersetzung)—Der Pix2Pix-Ansatz wird zum Trainieren des Modells verwendet. Pix2Pix wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern eines Typs Bilder eines anderen Typs generiert werden. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Export-Kacheln" verwendet. CycleGAN (Bild-zu-Bild-Übersetzung)—Der CycleGAN-Ansatz wird zum Trainieren des Modells verwendet. CycleGAN wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern eines Typs Bilder eines anderen Typs generiert werden. Dies ist der einzige Ansatz, bei dem die zu trainierenden Bilder nicht überlappen müssen. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das CycleGAN-Metadatenformat verwendet. Super-Resolution (Bild-zu-Bild-Übersetzung)—Der Super-Resolution-Ansatz wird zum Trainieren des Modells verwendet. Super-Resolution wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem die Auflösung erhöht und die Bildqualität verbessert wird. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Export-Kacheln" verwendet. Change Detector (Pixelklassifizierung)—Der Change-Detector-Ansatz wird zum Trainieren des Modells verwendet. Change Detector wird für die Pixelklassifizierung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, bei dem unter Verwendung von zwei räumlich-zeitlichen Bildern ein klassifiziertes Raster der Änderung erstellt wird. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Klassifizierte Kacheln" verwendet. Image Captioner (Bild-zu-Text-Übersetzung)—Der Image-Captioner-Ansatz wird zum Trainieren des Modells verwendet. Image Captioner wird für die Bild-zu-Text-Übersetzung verwendet. Mit diesem Ansatz wird ein Modell erstellt, das Bildunterschriften für Bilder generiert.	String
Batch-Größe (optional)	Die Anzahl der Trainingstichproben, die für das Training gleichzeitig bearbeitet werden müssen. Der Standardwert ist 2. Wenn Sie eine leistungsstarke GPU haben, kann diese Zahl auf 8, 16, 32 oder 64 erhöht werden.	Long
Modellargumente (optional)	Die Funktionsargumente werden in der Python-Raster-Funktionsklasse definiert. Hier geben Sie zusätzliche Deep-Learning-Parameter und Argumente für Experimente und Verfeinerungen wie den Konfidenzschwellenwert zur Anpassung der Empfindlichkeit an. Die Namen der Argumente werden durch Lesen des Python-Moduls aufgefüllt. Wenn Sie Single Shot Detector als Parameterwert Modelltyp wählen, wird der Parameter Modellargumente mit folgenden Argumenten befüllt: grids: Die Anzahl der Gitternetze, in die das Bild für die Verarbeitung aufgeteilt wird. Das Festlegen des Arguments auf 4 bedeutet, dass das Bild in 4 x 4 bzw. 16 Gitterzellen aufgeteilt wird. Wenn kein Wert angegeben wird, wird der optimale Gitternetzwert auf der Grundlage der Eingabe-Bilddaten berechnet. zooms: Die Anzahl der Zoomstufen, die jede Zelle hoch- oder herunterskaliert wird. Das Festlegen des Arguments auf 1 bedeutet, dass alle Gitterzellen die gleiche Größe oder Zoomstufe beibehalten. Eine Zoomstufe von 2 bedeutet, dass alle Gitterzellen zwei Mal so groß werden (um 100 Prozent vergrößert). Die Bereitstellung einer Liste von Zoomstufen bedeutet, dass alle Gitterzellen mit allen Zahlen in der Liste skaliert werden. Der Standardwert ist 1,0. ratios: Die Liste der für die Ankerboxen zu verwendenden Seitenverhältnisse. Bei der Objekterkennung stellt eine Ankerbox die ideale Position, Form und Größe des vorhergesagten Objekts dar. Das Festlegen dieses Arguments auf [1,0,1,0], [1,0, 0,5] bedeutet, die Ankerbox ist ein Quadrat (1:1) oder ein Rechteck, bei dem die horizontale Seite halb so groß wie die vertikale Seite ist (1:0,5). Die Standardeinstellung ist [1,0, 1,0]. Wenn Sie ein Pixelklassifizierungsmodell wie Pyramid Scene Parsing Network, U-Net oder DeepLabv3 als Wert für den Parameter Modelltyp auswählen, wird der Parameter Modellargumente mit folgenden Argumenten ausgefüllt: use_net: Gibt an, ob der U-Net-Decoder zum Wiederherstellen von Daten verwendet wird, nachdem das Pyramiden-Pooling abgeschlossen ist. Der Standardwert ist true. Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell. pyramid_sizes: Die Anzahl und Größe der Faltungs-Layer, die auf die verschiedenen Unterregionen anzuwenden sind. Die Standardeinstellung ist [1,2,3,6]. Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell. mixup: Gibt an, ob Zu- und Abnahme des Mixups verwendet werden. Die Standardeinstellung ist False. class_balancing: Gibt an, ob der Kreuzentropie-Verlust umgekehrt proportional zur Pixelhäufigkeit pro Klasse ausgeglichen wird. Die Standardeinstellung ist False. focal_loss: Gibt an, ob Fokusverlust verwendet wird. Die Standardeinstellung ist False. ignore_classes: Enthält die Liste der Klassenwerte, bei denen das Modell keinen Verlust verzeichnen wird. Wenn Sie RetinaNet als Parameterwert Modelltyp wählen, wird der Parameter Modellargumente mit folgenden Argumenten befüllt: scales: Die Anzahl der Maßstabsebenen, die jede Zelle hoch- oder herunterskaliert wird. Die Standardeinstellung ist [1, 0,8, 0,63]. ratios: Das Seitenverhältnis der Ankerbox. Die Standardeinstellung ist 0,5,1,2. Wenn Sie Multi Task Road Extractor oder ConnectNet als Parameterwert Modelltyp wählen, wird der Parameter Modellargumente mit folgenden Argumenten befüllt: gaussian_thresh: Legt den Gauß'schen Schwellenwert zur Festlegung der erforderlichen Straßenbreite fest. Der gültige Bereich liegt zwischen 0,0 und 1,0. Der Standardwert ist 0,76. orient_bin_size: Legt die Abschnittsgröße für Ausrichtungswinkel fest. Die Standardeinstellung ist 20. orient_theta: Legt die Breite der Ausrichtungsmaske fest. Der Standardwert ist 8. mtl_model: Legt den Architekturtyp fest, der zum Erstellen des Modells verwendet wird. Gültige Auswahloptionen sind linknet oder hourglass für auf LinkNet bzw. auf Hourglass basierende neuronale Architekturen. Die Standardeinstellung ist hourglass. Wenn Sie Image Captioner als Parameterwert für Modelltyp wählen, wird der Parameter Modellargumente mit den folgenden Argumenten befüllt: decode_params: Ein Wörterbuch, das steuert, wie Image Captioner ausgeführt wird. Der Standardwert ist {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}. chip_size: Legt die Bildgröße zum Trainieren des Modells fest. Bilder werden auf die angegebene Schnipselgröße zugeschnitten. Wenn die Bildgröße kleiner als die Schnipselgröße ist, wird die Bildgröße verwendet. Die Standardgröße beträgt 224 Pixel. Die decode_params umfassen die folgenden sechs Parameter: embed_size: Legt die Einbettungsgröße fest. Der Standardwert ist 100 Layer im neuronalen Netzwerk. hidden_size: Legt die Größe für ausgeblendete Layer fest. Der Standardwert ist 100 Layer im neuronalen Netzwerk. attention_size: Legt die Größe für Attention-Zwischen-Layer fest. Der Standardwert ist 100 Layer im neuronalen Netzwerk. teacher_forcing: Legt die Wahrscheinlichkeit für Teacher Forcing fest. Teacher Forcing ist eine Strategie für das Trainieren rekurrenter neuronaler Netzwerke. Dabei wird im Rahmen der Backpropagation statt der vorherigen Ausgabe die Modellausgabe aus einem vorherigen Zeitschritt als Eingabe verwendet. Der gültige Bereich liegt zwischen 0,0 und 1,0. Die Standardeinstellung ist 1. dropout: Legt die Dropout-Wahrscheinlichkeit fest. Der gültige Bereich liegt zwischen 0,0 und 1,0. Die Standardeinstellung ist 0,01. pretrained_emb: Legt das Flag für vortrainierte Einbettungen fest. Bei True wird schnelle Texteinbettung verwendet. Bei False wird die vortrainierte Texteinbettung nicht verwendet. Die Standardeinstellung ist False. Wenn Sie Change Detector als Parameterwert für Modelltyp wählen, wird der Parameter Modellargumente mit dem folgenden Argument befüllt: attention_type: Gibt den Modultyp an. Zur Auswahl stehen die Module PAM (Pyramid Attention Module) oder BAM (Basic Attention Module). Die Standardeinstellung ist PAM. Alle Modelltypen unterstützen das Argument "chip_size", bei dem es sich um die Bildschnipselgröße der Trainingsgebiete handelt. Die Bildschnipselgröße wird aus der .emd-Datei in dem Ordner extrahiert, der im Parameter Eingabe-Trainingsdaten angegeben ist.	Value Table
Lernrate (optional)	Die Rate, mit der vorhandene Informationen während des gesamten Trainingsprozesses durch neu erworbene Informationen überschrieben werden. Ist kein Wert angegeben, wird die optimale Lernrate während des Trainingsprozesses aus der Lernkurve extrahiert.	Double
Backbone-Modell (optional)	Gibt das vorkonfigurierte neuronale Netzwerk an, das als Architektur für das Training des neuen Modells verwendet werden soll. Diese Methode wird als Transfer Learning bezeichnet. DenseNet-121—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 121 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung. DenseNet-161—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 161 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung. DenseNet-169—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 169 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung. DenseNet-201—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 201 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung. MobileNet-Version 2—Dieses vorkonfigurierte Modell wird auf der ImageNet-Datenbank trainiert und enthält 54 Layer. Es ist auf Edgegeräte-Computing ausgerichtet, da es weniger Speicher benötigt. ResNet -18—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 18 Layer enthält. ResNet -34—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 34 Layer enthält. Dies ist die Standardeinstellung. ResNet -50—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 50 Layer enthält. ResNet -101—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 101 Layer enthält. ResNet -152—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 152 Layer enthält. VGG-11—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 11 Layer umfasst. VGG-11 mit Batch-Normalisierung—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 11 Layer. VGG-13—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 13 Layer umfasst. VGG-13 mit Batch-Normalisierung—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 13 Layer. VGG-16—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 16 Layer umfasst. VGG-16 mit Batch-Normalisierung—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 16 Layer. VGG-19—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 19 Layer umfasst. VGG-19 mit Batch-Normalisierung—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 19 Layer. DarkNet-53—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder und 53 Layer enthält.	String
Vortrainiertes Modell (optional)	Ein vortrainiertes Modell, das zum Finetuning des neuen Modells verwendet wird. Die Eingabe ist eine Esri Modelldefinitionsdatei (.emd) oder eine Deep-Learning-Paketdatei (.dlpk). Für ein vortrainiertes Modell mit ähnlichen Klassen kann ein Finetuning durchgeführt werden, um es auf das neue Modell abzustimmen. Das vortrainierte Modell muss mit dem gleichen Modelltyp und dem gleichen Backbone-Modell trainiert worden sein, das für das Training des neuen Modells verwendet wird.	File
Prozentsatz für Validierung (optional)	Der Prozentsatz der Trainingsgebiete, die für die Überprüfung des Modells verwendet werden sollen. Der Standardwert ist 10.	Double
Beenden, wenn sich das Modell nicht mehr verbessert (optional)	Gibt an, ob ein frühzeitiges Beenden implementiert wird. Aktiviert: Frühzeitiges Beenden wird implementiert, und das Modelltraining wird beendet, wenn sich das Modell nicht mehr verbessert, und zwar unabhängig vom angegebenen Parameterwert Max. Epochen. Dies ist die Standardeinstellung. Deaktiviert: Frühzeitiges Beenden wird nicht implementiert, und das Modelltraining wird fortgesetzt, bis der Parameterwert Max. Epochen erreicht wurde.	Boolean
Modell fixieren (optional)	Gibt an, ob die Backbone-Layer im vorab trainierten Modell fixiert werden sollen, sodass die Gewichtungen und Verzerrungen wie ursprünglich vorgesehen beibehalten werden. Aktiviert: Die Backbone-Layer werden fixiert, und die vordefinierten Gewichtungen und Verzerrungen werden im Parameter Backbone-Modell nicht geändert. Dies ist die Standardeinstellung. Deaktiviert: Die Backbone-Layer werden nicht fixiert, und die Gewichtungen und Verzerrungen des Parameters Backbone-Modell können geändert werden, um sie an die Trainingsgebiete anzupassen. Die Verarbeitung dauert zwar länger, führt aber in der Regel zu besseren Ergebnissen.	Boolean

Abgeleitete Ausgabe

Beschriftung	Erläuterung	Datentyp
Ausgabemodell	Die trainierte Ausgabe-Modelldatei.	File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze})

Name	Erläuterung	Datentyp
in_folder	Der Ordner mit den Bildschnipseln, Beschriftungen und Statistiken, die zum Trainieren des Modells benötigt werden. Dies ist die Ausgabe des Werkzeugs Trainingsdaten für Deep Learning exportieren. Zum Trainieren eines Modells müssen die Eingabe-Bilder 8-Bit-Raster mit drei Bändern sein.	Folder
out_folder	Der Speicherort des Ausgabeordners, in dem das trainierte Modell gespeichert wird.	Folder
max_epochs (optional)	Die maximale Anzahl von Epochen, für die das Modell trainiert wird. Eine maximale Epoche von eins bedeutet, dass das Dataset einmal vorwärts und einmal rückwärts durch das neuronale Netz geleitet wird. Der Standardwert ist 20.	Long
model_type (optional)	Gibt den Modelltyp an, der zum Trainieren des Deep-Learning-Modells verwendet wird. SSD—Der Single Shot Detector (SSD)-Ansatz wird zum Trainieren des Modells verwendet. SSD wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Pascal Visual Object Classes-Metadatenformat verwendet. UNET—Der U-Net-Ansatz wird zum Trainieren des Modells verwendet. U-Net wird für die Pixelklassifizierung verwendet. FEATURE_CLASSIFIER—Der Feature Classifier-Ansatz wird zum Trainieren des Modells verwendet. Dies wird für die Objekt- oder Bildklassifizierung verwendet. PSPNET—Der Pyramid Scene Parsing Network (PSPNET)-Ansatz wird zum Trainieren des Modells verwendet. PSPNET wird für die Pixelklassifizierung verwendet. RETINANET—Der RetinaNet-Ansatz wird zum Trainieren des Modells verwendet. RetinaNet wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Pascal Visual Object Classes-Metadatenformat verwendet. MASKRCNN—Der MaskRCNN-Ansatz wird zum Trainieren des Modells verwendet. MaskRCNN wird für die Objekterkennung eingesetzt. Dieser Ansatz wird für die Instanzsegmentierung verwendet, d. h. zur genauen Abgrenzung von Objekten in einem Bild. Dieser Modelltyp kann zur Erkennung von Gebäudegrundrissen verwendet werden. Er verwendet das MaskRCNN-Metadatenformat für die Trainingsdaten als Eingabe. Klassenwerte für Eingabe-Trainingsdaten müssen bei 1 beginnen. Dieser Modelltyp kann nur mit einer CUDA-aktivierten GPU trainiert werden. YOLOV3—Der YOLOv3-Ansatz wird zum Trainieren des Modells verwendet. Für die Objekterkennung wird YOLOv3 verwendet. DEEPLAB—Der DeepLabV3-Ansatz wird zum Trainieren des Modells verwendet. DeepLab wird für die Pixelklassifizierung verwendet. FASTERRCNN—Der FasterRCNN-Ansatz wird zum Trainieren des Modells verwendet. FasterRCNN wird für die Objekterkennung eingesetzt. BDCN_EDGEDETECTOR—Die Architektur "Bi-Directional Cascade Network" (BDCN) wird zum Trainieren des Modells verwendet. Der BDCN Edge Detector wird für der Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Verbesserung der Kantenerkennung für Objekte in unterschiedlichen Maßstäben. HED_EDGEDETECTOR—Die Architektur "Holistically-Nested Edge Detection" (HED) wird zum Trainieren des Modells verwendet. Der HED Edge Detector wird für der Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Kanten- und Objektgrenzenerkennung. MULTITASK_ROADEXTRACTOR—Die Architektur "Multi Task Road Extractor" wird zum Trainieren des Modells verwendet. Der Multi Task Road Extractor wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Extraktion von Straßennetzen aus Satellitenbildern. CONNECTNET—Die Architektur "ConnectNet" wird zum Trainieren des Modells verwendet. ConnectNet wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Extraktion von Straßennetzen aus Satellitenbildern. PIX2PIX—Der Pix2Pix-Ansatz wird zum Trainieren des Modells verwendet. Pix2Pix wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern eines Typs Bilder eines anderen Typs generiert werden. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Export-Kacheln" verwendet. CYCLEGAN—Der CycleGAN-Ansatz wird zum Trainieren des Modells verwendet. CycleGAN wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern eines Typs Bilder eines anderen Typs generiert werden. Dies ist der einzige Ansatz, bei dem die zu trainierenden Bilder nicht überlappen müssen. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das CycleGAN-Metadatenformat verwendet. SUPERRESOLUTION—Der Super-Resolution-Ansatz wird zum Trainieren des Modells verwendet. Super-Resolution wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem die Auflösung erhöht und die Bildqualität verbessert wird. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Export-Kacheln" verwendet. CHANGEDETECTOR—Der Change-Detector-Ansatz wird zum Trainieren des Modells verwendet. Change Detector wird für die Pixelklassifizierung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, bei dem unter Verwendung von zwei räumlich-zeitlichen Bildern ein klassifiziertes Raster der Änderung erstellt wird. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Klassifizierte Kacheln" verwendet. IMAGECAPTIONER—Der Image-Captioner-Ansatz wird zum Trainieren des Modells verwendet. Image Captioner wird für die Bild-zu-Text-Übersetzung verwendet. Mit diesem Ansatz wird ein Modell erstellt, das Bildunterschriften für Bilder generiert.	String
batch_size (optional)	Die Anzahl der Trainingstichproben, die für das Training gleichzeitig bearbeitet werden müssen. Der Standardwert ist 2. Wenn Sie eine leistungsstarke GPU haben, kann diese Zahl auf 8, 16, 32 oder 64 erhöht werden.	Long
arguments [arguments,...] (optional)	Die Funktionsargumente werden in der Python-Raster-Funktionsklasse definiert. Hier geben Sie zusätzliche Deep-Learning-Parameter und Argumente für Experimente und Verfeinerungen wie den Konfidenzschwellenwert zur Anpassung der Empfindlichkeit an. Die Namen der Argumente werden durch Lesen des Python-Moduls aufgefüllt. Wenn Sie SSD als model_type-Parameterwert wählen, wird der Parameter arguments mit folgenden Argumenten befüllt: grids: Die Anzahl der Gitternetze, in die das Bild für die Verarbeitung aufgeteilt wird. Das Festlegen des Arguments auf 4 bedeutet, dass das Bild in 4 x 4 bzw. 16 Gitterzellen aufgeteilt wird. Wenn kein Wert angegeben wird, wird der optimale Gitternetzwert auf der Grundlage der Eingabe-Bilddaten berechnet. zooms: Die Anzahl der Zoomstufen, die jede Zelle hoch- oder herunterskaliert wird. Das Festlegen des Arguments auf 1 bedeutet, dass alle Gitterzellen die gleiche Größe oder Zoomstufe beibehalten. Eine Zoomstufe von 2 bedeutet, dass alle Gitterzellen zwei Mal so groß werden (um 100 Prozent vergrößert). Die Bereitstellung einer Liste von Zoomstufen bedeutet, dass alle Gitterzellen mit allen Zahlen in der Liste skaliert werden. Der Standardwert ist 1,0. ratios: Die Liste der für die Ankerboxen zu verwendenden Seitenverhältnisse. Bei der Objekterkennung stellt eine Ankerbox die ideale Position, Form und Größe des vorhergesagten Objekts dar. Das Festlegen dieses Arguments auf [1,0,1,0], [1,0, 0,5] bedeutet, die Ankerbox ist ein Quadrat (1:1) oder ein Rechteck, bei dem die horizontale Seite halb so groß wie die vertikale Seite ist (1:0,5). Die Standardeinstellung ist [1,0, 1,0]. Wenn Sie ein Pixelklassifizierungsmodell wie PSPNET, UNET oder DEEPLAB als Wert für den Parameter model_type auswählen, wird der Parameter arguments mit folgenden Argumenten aufgefüllt: USE_UNET: Der U-Net-Decoder wird zum Wiederherstellen von Daten verwendet, nachdem das Pyramiden-Pooling abgeschlossen ist. Die Standardeinstellung ist True. Dieses Argument gilt speziell für das PSPNET-Modell. PYRAMID_SIZES: Die Anzahl und Größe der Faltungs-Layer, die auf die verschiedenen Unterregionen anzuwenden sind. Die Standardeinstellung ist [1,2,3,6]. Dieses Argument gilt speziell für das PSPNET-Modell. MIXUP: Gibt an, ob Zu- und Abnahme des Mixups verwendet werden. Die Standardeinstellung ist False. CLASS_BALANCING: Gibt an, ob der Kreuzentropie-Verlust umgekehrt proportional zur Pixelhäufigkeit pro Klasse ausgeglichen wird. Die Standardeinstellung ist False. FOCAL_LOSS: Gibt an, ob Fokusverlust verwendet wird. Die Standardeinstellung ist False. IGNORE_CLASSES: Enthält die Liste der Klassenwerte, bei denen das Modell keinen Verlust verzeichnen wird. Wenn Sie RETINANET als model_type-Parameterwert wählen, wird der Parameter arguments mit folgenden Argumenten befüllt: SCALES: Die Anzahl der Maßstabsebenen, die jede Zelle hoch- oder herunterskaliert wird. Die Standardeinstellung ist [1, 0,8, 0,63]. RATIOS: Das Seitenverhältnis der Ankerbox. Die Standardeinstellung ist [0,5,1,2]. Wenn Sie MULTITASK_ROADEXTRACTOR oder ConnectNet als model_type-Parameterwert wählen, wird der Parameter arguments mit folgenden Argumenten befüllt: gaussian_thresh: Legt den Gauß'schen Schwellenwert zur Festlegung der erforderlichen Straßenbreite fest. Der gültige Bereich liegt zwischen 0,0 und 1,0. Der Standardwert ist 0,76. orient_bin_size: Legt die Abschnittsgröße für Ausrichtungswinkel fest. Die Standardeinstellung ist 20. orient_theta: Legt die Breite der Ausrichtungsmaske fest. Der Standardwert ist 8. mtl_model: Legt den Architekturtyp fest, der zum Erstellen des Modells verwendet wird. Gültige Auswahloptionen sind linknet oder hourglass für auf LinkNet bzw. auf Hourglass basierende neuronale Architekturen. Die Standardeinstellung ist hourglass. Wenn Sie IMAGECAPTIONER als model_type-Parameterwert wählen, wird der Parameter arguments mit folgenden Argumenten befüllt: decode_params: Ein Wörterbuch, das steuert, wie Image Captioner ausgeführt wird. Der Standardwert ist {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}. chip_size: Legt die Bildgröße zum Trainieren des Modells fest. Bilder werden auf die angegebene Schnipselgröße zugeschnitten. Wenn die Bildgröße kleiner als die Schnipselgröße ist, wird die Bildgröße verwendet. Die Standardgröße beträgt 224 Pixel. Die decode_params umfassen die folgenden sechs Parameter: embed_size: Legt die Einbettungsgröße fest. Der Standardwert ist 100 Layer im neuronalen Netzwerk. hidden_size: Legt die Größe für ausgeblendete Layer fest. Der Standardwert ist 100 Layer im neuronalen Netzwerk. attention_size: Legt die Größe für Attention-Zwischen-Layer fest. Der Standardwert ist 100 Layer im neuronalen Netzwerk. teacher_forcing: Legt die Wahrscheinlichkeit für Teacher Forcing fest. Teacher Forcing ist eine Strategie für das Trainieren rekurrenter neuronaler Netzwerke. Dabei wird im Rahmen der Backpropagation statt der vorherigen Ausgabe die Modellausgabe aus einem vorherigen Zeitschritt als Eingabe verwendet. Der gültige Bereich liegt zwischen 0,0 und 1,0. Die Standardeinstellung ist 1. dropout: Legt die Dropout-Wahrscheinlichkeit fest. Der gültige Bereich liegt zwischen 0,0 und 1,0. Die Standardeinstellung ist 0,01. pretrained_emb: Legt das Flag für vortrainierte Einbettungen fest. Bei True wird schnelle Texteinbettung verwendet. Bei False werden die vortrainierten Texteinbettungen nicht verwendet. Die Standardeinstellung ist False. Wenn Sie CHANGEDETECTOR als model_type-Parameterwert wählen, wird der Parameter arguments mit dem folgenden Argument befüllt: attention_type: Gibt den Modultyp an. Zur Auswahl stehen die Module PAM (Pyramid Attention Module) oder BAM (Basic Attention Module). Die Standardeinstellung ist PAM. Alle Modelltypen unterstützen das Argument "chip_size", bei dem es sich um die Schnipselgröße der Kacheln in den Trainingsgebieten handelt. Die Bildschnipselgröße wird aus der .emd-Datei in dem Ordner extrahiert, der im Parameter in_folder angegeben ist.	Value Table
learning_rate (optional)	Die Rate, mit der vorhandene Informationen während des gesamten Trainingsprozesses durch neu erworbene Informationen überschrieben werden. Ist kein Wert angegeben, wird die optimale Lernrate während des Trainingsprozesses aus der Lernkurve extrahiert.	Double
backbone_model (optional)	Gibt das vorkonfigurierte neuronale Netzwerk an, das als Architektur für das Training des neuen Modells verwendet werden soll. Diese Methode wird als Transfer Learning bezeichnet. DENSENET121—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 121 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung. DENSENET161—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 161 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung. DENSENET169—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 169 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung. DENSENET201—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 201 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung. MOBILENET_V2—Dieses vorkonfigurierte Modell wird auf der ImageNet-Datenbank trainiert und enthält 54 Layer. Es ist auf Edgegeräte-Computing ausgerichtet, da es weniger Speicher benötigt. RESNET18—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 18 Layer enthält. RESNET34—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 34 Layer enthält. Dies ist die Standardeinstellung. RESNET50—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 50 Layer enthält. RESNET101—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 101 Layer enthält. RESNET152—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 152 Layer enthält. VGG11—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 11 Layer umfasst. VGG11_BN—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 11 Layer. VGG13—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 13 Layer umfasst. VGG13_BN—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 13 Layer. VGG16—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 16 Layer umfasst. VGG16_BN—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 16 Layer. VGG19—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 19 Layer umfasst. VGG19_BN—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 19 Layer. DARKNET53—Das vorkonfigurierte Modell ist ein auf dem ImageNET-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder und 53 Layer enthält.	String
pretrained_model (optional)	Ein vortrainiertes Modell, das zum Finetuning des neuen Modells verwendet wird. Die Eingabe ist eine Esri Modelldefinitionsdatei (.emd) oder eine Deep-Learning-Paketdatei (.dlpk). Für ein vortrainiertes Modell mit ähnlichen Klassen kann ein Finetuning durchgeführt werden, um es auf das neue Modell abzustimmen. Das vortrainierte Modell muss mit dem gleichen Modelltyp und dem gleichen Backbone-Modell trainiert worden sein, das für das Training des neuen Modells verwendet wird.	File
validation_percentage (optional)	Der Prozentsatz der Trainingsgebiete, die für die Überprüfung des Modells verwendet werden sollen. Der Standardwert ist 10.	Double
stop_training (optional)	Gibt an, ob ein frühzeitiges Beenden implementiert wird. STOP_TRAINING—Frühzeitiges Beenden wird implementiert, und das Modelltraining wird beendet, wenn sich das Modell nicht mehr verbessert, und zwar unabhängig vom angegebenen Parameterwert max_epochs. Dies ist die Standardeinstellung. CONTINUE_TRAINING—Frühzeitiges Beenden wird nicht implementiert, und das Modelltraining wird fortgesetzt, bis der Parameterwert max_epochs erreicht wurde.	Boolean
freeze (optional)	Gibt an, ob die Backbone-Layer im vorab trainierten Modell fixiert werden sollen, sodass die Gewichtungen und Verzerrungen wie ursprünglich vorgesehen beibehalten werden. FREEZE_MODEL—Die Backbone-Layer werden fixiert, und die vordefinierten Gewichtungen und Verzerrungen werden im Parameter backbone_model nicht geändert. Dies ist die Standardeinstellung. UNFREEZE_MODEL—Die Backbone-Layer werden nicht fixiert, und die Gewichtungen und Verzerrungen des Parameters backbone_model können geändert werden, um sie an die Trainingsgebiete anzupassen. Die Verarbeitung dauert zwar länger, führt aber in der Regel zu besseren Ergebnissen.	Boolean

Abgeleitete Ausgabe

Name	Erläuterung	Datentyp
out_model_file	Die trainierte Ausgabe-Modelldatei.	File

Codebeispiel

TrainDeepLearningModel – Beispiel 1 (Python-Fenster)

In diesem Beispiel wird ein Baumklassifizierungsmodell mit dem U-Netz-Ansatz trainiert.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
# Execute 
TrainDeepLearningModel(r"C:\DeepLearning\TrainingData\Roads_FC", 
     r"C:\DeepLearning\Models\Fire", 40, "UNET", 16, "# #", None, 
     "RESNET34", None, 10, "STOP_TRAINING", "FREEZE_MODEL")

TrainDeepLearningModel – Beispiel 2 (eigenständiges Skript)

In diesem Beispiel wird ein Objekterkennungsmodell mit dem SSD-Ansatz trainiert.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
#Define input parameters
in_folder = "C:\\DeepLearning\\TrainingData\\Cars" 
out_folder = "C:\\Models\\Cars"
max_epochs = 100
model_type = "SSD"
batch_size = 2
arg = "grids '[4, 2, 1]';zooms '[0.7, 1.0, 1.3]';ratios '[[1, 1], [1, 0.5], [0.5, 1]]'"
learning_rate = 0.003
backbone_model = "RESNET34" 
pretrained_model = "C:\\Models\\Pretrained\\vehicles.emd"
validation_percent = 10
stop_training = "STOP_TRAINING"
freeze = "FREEZE_MODEL"


# Execute
TrainDeepLearningModel(in_folder, out_folder, max_epochs, model_type, 
     batch_size, arg, learning_rate, backbone_model, pretrained_model, 
     validation_percent, stop_training, freeze)

Umgebungen

Aktueller Workspace, Ausdehnung, Prozessortyp, GPU-ID, Faktor für parallele Verarbeitung, Scratch-Workspace

Sonderfälle

Lizenzinformationen

Basic: Erfordert Image Analyst
Standard: Erfordert Image Analyst
Advanced: Erfordert Image Analyst

Zusammenfassung

Verwendung

Parameter

Abgeleitete Ausgabe

Abgeleitete Ausgabe

Codebeispiel

Umgebungen

Sonderfälle

Lizenzinformationen

Verwandte Themen

In diesem Thema