Deep-Learning-Modell trainieren (Image Analyst)

Mit der Image Analyst-Lizenz verfügbar.

Zusammenfassung

Trainiert ein Deep-Learning-Modell mit der Ausgabe des Werkzeugs Trainingsdaten für Deep Learning exportieren.

Verwendung

  • Dieses Werkzeug trainiert ein Deep-Learning-Modell in Deep-Learning-Umgebungen.

  • Informationen zum Einrichten des Computers für Deep-Learning-Frameworks in ArcGIS Pro finden Sie unter Installieren von Deep-Learning-Frameworks for ArcGIS.

  • Weitere Informationen zum Trainieren von Modellen in einer nicht verbundenen Umgebung finden Sie unter Additional Installation for Disconnected Environment.

  • Dieses Werkzeug kann auch zur Optimierung eines vorhandenen trainierten Modells verwendet werden. Beispielsweise kann für ein vorhandenes Modell, das für Autos trainiert wurde, ein Finetuning durchgeführt werden, um ein Modell für die Identifizierung von Lastwagen zu trainieren.

  • Um dieses Werkzeug mithilfe einer GPU auszuführen, legen Sie die Umgebung für den Prozessortyp auf GPU fest. Wenn Sie mehrere Grafikprozessoren haben, legen Sie stattdessen die Umgebungsvariable GPU ID fest.

  • Das Werkzeug verwendet standardmäßig alle verfügbaren GPUs, wenn der Parameter Modelltyp auf eine der folgenden Optionen festgelegt ist:

    • ConnectNet
    • Feature Classifier
    • MaskRCNN
    • Multi Task Road Extractor
    • Single Shot Detector
    • U-Net

    Um eine bestimmte GPU zu verwenden, verwenden Sie die GPU-ID-Umgebung.

  • Die Eingabe-Trainingsdaten für dieses Werkzeug müssen die Bilder- und Beschriftungsordner umfassen, die vom Werkzeug Trainingsdaten für Deep Learning exportieren generiert werden.

  • Legen Sie mithilfe der Datei transforms.json, die sich im selben Ordner befindet wie die Trainingsdaten, fastai-Transformationen für die Datenerweiterung von Trainings- und Validierungs-Datasets fest. Nachfolgend finden Sie ein Beispiel einer transforms.json-Datei:

    Benutzerdefinierte Erweiterungsparameter

    
    {
        "Training": {
            "rotate": {
                "degrees": 30,
                "p": 0.5
            },
            "crop": {
                "size": 224,
                "p": 1,
                "row_pct": "0, 1",
                "col_pct": "0, 1"
            },
            "brightness": {
                "change": "0.4, 0.6"
            },
            "contrast": {
                "scale": "1.0, 1.5"
            },
            "rand_zoom": {
                "scale": "1, 1.2"
            }
        },
        "Validation": {
            "crop": {
                "size": 224,
                "p": 1.0,
                "row_pct": 0.5,
                "col_pct": 0.5
            }
        }
    }

  • Weitere Informationen zu den Voraussetzungen für die Ausführung dieses Werkzeugs und eventuell dabei auftretenden Problemen finden Sie unter Häufig gestellte Fragen zu Deep Learning.

  • Weitere Informationen zu Deep Learning finden Sie unter Deep Learning in ArcGIS Pro.

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Trainingsdaten

Die Ordner mit den Bildschnipseln, Beschriftungen und Statistiken, die zum Trainieren des Modells benötigt werden. Dies ist die Ausgabe des Werkzeugs Trainingsdaten für Deep Learning exportieren.

Wenn die folgenden Bedingungen erfüllt sind, werden mehrere Eingabeordner unterstützt:

  • Das Metadatenformat muss "Klassifizierte Kacheln", "Beschriftende Kacheln", "Kacheln mit mehreren Beschriftungen", "PASCAL Visual Object Classes" oder "RCNN-Masken" sein.
  • Alle Trainingsdaten müssen im selben Metadatenformat vorliegen.
  • Alle Trainingsdaten müssen dieselbe Anzahl an Bändern aufweisen.
  • Alle Trainingsdaten müssen dieselbe Kachelgröße aufweisen.

Folder
Ausgabeordner

Der Speicherort des Ausgabeordners, in dem das trainierte Modell gespeichert wird.

Folder
Max. Epochen
(optional)

Die maximale Anzahl von Epochen, für die das Modell trainiert wird. Eine maximale Epoche von eins bedeutet, dass das Dataset einmal vorwärts und einmal rückwärts durch das neuronale Netz geleitet wird. Der Standardwert ist 20.

Long
Modelltyp
(optional)

Gibt den Modelltyp an, der zum Trainieren des Deep-Learning-Modells verwendet wird.

  • BDCN Edge Detector (Pixelklassifizierung)Die Architektur "Bi-Directional Cascade Network" (BDCN) wird zum Trainieren des Modells verwendet. BDCN Edge Detector wird für die Pixelklassifizierung eingesetzt. Dieser Ansatz ist sinnvoll zur Verbesserung der Kantenerkennung für Objekte in unterschiedlichen Maßstäben.
  • Change Detector (Pixelklassifizierung)Die Architektur "Change Detector" wird zum Trainieren des Modells verwendet. Change Detector wird für die Pixelklassifizierung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, bei dem unter Verwendung von zwei räumlich-zeitlichen Bildern ein klassifiziertes Raster der Änderung erstellt wird. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Klassifizierte Kacheln" verwendet.
  • ConnectNet (Pixelklassifizierung)Die Architektur "ConnectNet" wird zum Trainieren des Modells verwendet. ConnectNet wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Extraktion von Straßennetzen aus Satellitenbildern.
  • CycleGAN (Bild-zu-Bild-Übersetzung)Die Architektur "CycleGAN" wird zum Trainieren des Modells verwendet. CycleGAN wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern eines Typs Bilder eines anderen Typs generiert werden. Dies ist der einzige Ansatz, bei dem die zu trainierenden Bilder nicht überlappen müssen. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das CycleGAN-Metadatenformat verwendet.
  • DeepLabV3 (Pixelklassifizierung)Die Architektur "DeepLabV3" wird zum Trainieren des Modells verwendet. DeepLab wird für die Pixelklassifizierung verwendet.
  • Deep Sort (Objekt-Tracker)Die Architektur "Deep Sort" wird zum Trainieren des Modells verwendet. Deep Sort wird für die Objekterkennung in Videos verwendet. Das Modell wird mit Videobildern trainiert und erkennt die Klassen und umgebenden Rechtecke der Objekte in den einzelnen Bildern. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Imagenet-Metadatenformat verwendet. Während Siam Mask bei der Nachverfolgung eines Objekts hilfreich ist, eignet sich Deep Sort für das Trainieren eines Modells zur Nachverfolgung mehrerer Objekte.
  • DETReg (Objekterkennung)Die Architektur "DETReg" wird zum Trainieren des Modells verwendet. DETReg wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird "Pascal Visual Object Classes" verwendet. Dieser Modelltyp ist GPU-intensiv. Er erfordert eine dedizierte GPU mit mindestens 16 GB Speicher, damit er ordnungsgemäß ausgeführt wird.
  • FasterRCNN (Objekterkennung)Die Architektur "FasterRCNN" wird zum Trainieren des Modells verwendet. FasterRCNN wird für die Objekterkennung eingesetzt.
  • Feature Classifier (Objektklassifizierung)Die Feature Classifier-Architektur wird zum Trainieren des Modells verwendet. Feature Classifier wird zur Objekt- oder Bildklassifizierung verwendet.
  • HED Edge Detector (Pixelklassifizierung)Die Architektur "Holistically-Nested Edge Detection" (HED) wird zum Trainieren des Modells verwendet. HED Edge Detector wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Kanten- und Objektgrenzenerkennung.
  • Image Captioner (Bild-zu-Bild-Übersetzung)Die Architektur "Image Captioner" wird zum Trainieren des Modells verwendet. Image Captioner wird für die Bild-zu-Text-Übersetzung verwendet. Mit diesem Ansatz wird ein Modell erstellt, das Bildunterschriften für Bilder generiert.
  • MaskRCNN (Objekterkennung)Die Architektur "MaskRCNN" wird zum Trainieren des Modells verwendet. MaskRCNN wird für die Objekterkennung eingesetzt. Dieser Ansatz wird für die Instanzsegmentierung verwendet, d. h. zur genauen Abgrenzung von Objekten in einem Bild. Dieser Modelltyp kann zur Erkennung von Gebäudegrundrissen verwendet werden. Er verwendet das MaskRCNN-Metadatenformat für die Trainingsdaten als Eingabe. Klassenwerte für Eingabe-Trainingsdaten müssen bei 1 beginnen. Dieser Modelltyp kann nur mit einer CUDA-aktivierten GPU trainiert werden.
  • MaX-DeepLab (panoptische Segmentierung)Die Architektur "MaX-DeepLab" wird zum Trainieren des Modells verwendet. "MaX-DeepLab" wird für die panoptische Segmentierung verwendet. Bei diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern und Features Modellobjekte generiert werden. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Panoptische Segmentierung" verwendet.
  • MMDetection (Objekterkennung)Die Architektur "MMDetection" wird zum Trainieren des Modells verwendet. MMDetection wird für die Objekterkennung eingesetzt. Unterstützte Metadatenformate sind PASCAL Visual Object Classes-Rechtecke und KITTI-Rechtecke.
  • MMSegmentation (Pixelklassifizierung)Die Architektur "MMSegmentation" wird zum Trainieren des Modells verwendet. MMSegmentation wird für die Pixelklassifizierung verwendet. Als Metadatenformat werden klassifizierte Kacheln unterstützt.
  • Multi Task Road Extractor (Pixelklassifizierung)Die Architektur "Multi Task Road Extractor" wird zum Trainieren des Modells verwendet. Multi Task Road Extractor wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Extraktion von Straßennetzen aus Satellitenbildern.
  • Pix2Pix (Bild-zu-Bild-Übersetzung)Die Architektur "Pix2Pix" wird zum Trainieren des Modells verwendet. Pix2Pix wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern eines Typs Bilder eines anderen Typs generiert werden. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Export-Kacheln" verwendet.
  • Pix2PixHD (Bild-zu-Bild-Übersetzung)Die Architektur "Pix2PixHD" wird zum Trainieren des Modells verwendet. Pix2PixHD wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern eines Typs Bilder eines anderen Typs generiert werden. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Export-Kacheln" verwendet.
  • PSETAE (Pixelklassifizierung)Die Pixel-Set Encoders and Temporal Self-Attention-(PSETAE-)Architektur wird zum Trainieren des Modells für die Klassifizierung von Zeitserien verwendet. PSETAE wird für die Pixelklassifizierung verwendet. Die für diese Methode verwendeten vorläufigen Daten sind multidimensionale Daten.
  • Pyramid Scene Parsing Network (Pixelklassifizierung)Die Architektur "Pyramid Scene Parsing Network (PSPNET)" wird zum Trainieren des Modells verwendet. PSPNET wird für die Pixelklassifizierung verwendet.
  • RetinaNet (Objekterkennung)Die Architektur "RetinaNet" wird zum Trainieren des Modells verwendet. RetinaNet wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Pascal Visual Object Classes-Metadatenformat verwendet.
  • SAMLoRA (Pixelklassifizierung)Das Segment Anything Modell (SAM) mit Low Rank Adaption (LoRA) wird zum Trainieren des Modells verwendet. Dieser Modelltyp verwendet das Segment Anything Modell (SAM) als Grundlagenmodell und wird für eine spezifische Aufgabe mit verhältnismäßig niedrigen Berechnungsanforderungen und einem kleineren Dataset optimiert.
  • Siam Mask (Objekt-Tracker)Die Architektur "Siam Mask" wird zum Trainieren des Modells verwendet. Siam Mask wird für die Objekterkennung in Videos verwendet. Das Modell wird mit Videobildern trainiert und erkennt die Klassen und umgebenden Rechtecke der Objekte in den einzelnen Bildern. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das MaskRCNN-Metadatenformat verwendet.
  • Single Shot Detector (Objekterkennung)Die Architektur "Single Shot Detector (SSD)" wird zum Trainieren des Modells verwendet. SSD wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Pascal Visual Object Classes-Metadatenformat verwendet.
  • Super-Resolution (Bild-zu-Bild-Übersetzung)Die Architektur "Super-Resolution" wird zum Trainieren des Modells verwendet. Super-Resolution wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem die Auflösung erhöht und die Bildqualität verbessert wird. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Export-Kacheln" verwendet.
  • U-Net (Pixelklassifizierung)Die Architektur "U-Net" wird zum Trainieren des Modells verwendet. U-Net wird für die Pixelklassifizierung verwendet.
  • YOLOv3 (Objekterkennung)Die Architektur "YOLOv3" wird zum Trainieren des Modells verwendet. Für die Objekterkennung wird YOLOv3 verwendet.
String
Batch-Größe
(optional)

Die Anzahl der Trainingstichproben, die für das Training gleichzeitig bearbeitet werden müssen.

Durch größere Batches kann die Leistung des Werkzeugs erhöht werden. Aber größere Batches belegen mehr Arbeitsspeicher.

Wenn nicht genügend GPU-Speicher für die festgelegte Batch-Größe zur Verfügung steht, versucht das Werkzeug, eine optimale Batch-Größe zu schätzen und zu verwenden. Wird die Fehlermeldung "Nicht genügend Arbeitsspeicher" angezeigt, verwenden Sie kleinere Batches.

Long
Modellargumente
(optional)

Zum Füllen dieses Parameters werden die Informationen aus dem Parameter Modelltyp verwendet. Diese Argumente variieren je nach Modellarchitektur. Nachfolgend werden die Modellargumente beschrieben, die für Modelle unterstützt werden, die in ArcGIS trainiert werden. Vortrainierte ArcGIS-Modelle und benutzerdefinierte Deep-Learning-Modelle enthalten ggf. zusätzliche von dem Werkzeug unterstützte Argumente.

Weitere Informationen zu den Argumenten, die für einen Modelltyp verfügbar sind, finden Sie unter Deep-Learning-Argumente.

  • attention_type: Gibt den Modultyp an. Die Moduloptionen sind PAM (Pyramid Attention Module) oder BAM (Basic Attention Module). Die Standardeinstellung ist PAM.
  • attn_res: Aufmerksamkeitszahl in Residualblöcken. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 16. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • channel_mults: Optionale Tiefenmultiplikatoren für nachfolgende Auflösungen in U-Net. Der Standard ist 1, 2, 4, 4, 8, 8. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • class_balancing: Gibt an, ob der Kreuzentropie-Verlust umgekehrt proportional zur Pixelhäufigkeit pro Klasse ausgeglichen wird. Die Standardeinstellung ist False.
  • decode_params: Ein Wörterbuch, das steuert, wie Image Captioner ausgeführt wird. Der Standardwert ist {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}. Das Argument decode_params setzt sich aus den folgenden Parameter zusammen:
    • embed_size: Die Größe zum Einbetten. Der Standardwert ist 100 Layer im neuronalen Netzwerk.
    • hidden_size: Die Größe des ausgeblendeten Layers. Der Standardwert ist 100 Layer im neuronalen Netzwerk.
    • attention_size: Die Größe des Layers für temporäre Aufmerksamkeit. Der Standardwert ist 100 Layer im neuronalen Netzwerk.
    • teacher_forcing: Die Wahrscheinlichkeit des Erzwingens durch Teacher. Teacher Forcing ist eine Strategie für das Trainieren rekurrenter neuronaler Netzwerke. Dabei wird im Rahmen der Backpropagation statt der vorherigen Ausgabe die Modellausgabe aus einem vorherigen Zeitschritt als Eingabe verwendet. Der gültige Bereich liegt zwischen 0,0 und 1,0. Die Standardeinstellung ist 1.
    • dropout: Die Abbruchwahrscheinlichkeit. Der gültige Bereich liegt zwischen 0,0 und 1,0. Die Standardeinstellung ist 0,1.
    • pretrained_emb: Gibt das vortrainierte Flag zum Einbetten an. Bei True wird schnelle Texteinbettung verwendet. Bei False wird die vortrainierte Texteinbettung nicht verwendet. Die Standardeinstellung ist False.
  • dropout: Ein optionaler Gleitkommawert für den Abbruch. Die Standardeinstellung ist 0. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • focal_loss: Gibt an, ob Fokusverlust verwendet wird. Die Standardeinstellung ist False.
  • gaussian_thresh: Der Gauß'sche Schwellenwert, mit dem die erforderliche Straßenbreite festgelegt wird. Der gültige Bereich liegt zwischen 0,0 und 1,0. Der Standardwert ist 0,76.
  • grids: Die Anzahl der Gitternetze, in die das Bild für die Verarbeitung aufgeteilt wird. Das Festlegen dieses Arguments auf "4" bedeutet beispielsweise, dass das Bild in 4 x 4 oder 16 Gitterzellen aufgeteilt wird. Wenn kein Wert angegeben wird, wird der optimale Gitternetzwert auf der Grundlage der Eingabe-Bilddaten berechnet.
  • ignore_classes: Die Liste der Klassenwerte, bei denen das Modell keinen Verlust verzeichnen wird.
  • inner_channel: Der Wert von "inner_channel" ist die Dimension des ersten U-Net-Layers. Dies ist ein optionaler ganzzahliger Wert. Die Standardeinstellung ist 64. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • linear_start: Ein optionaler ganzzahliger Wert zum Planen des Starts. Der Standardwert ist 1e-02. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • linear_end: Ein optionaler ganzzahliger Wert zum Planen des Endes. Der Standardwert ist 1e-06. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • model: Das Backbone-Modell, das zum Trainieren des Modells verwendet wird. Die verfügbaren Backbones sind abhängig vom Parameterwert Modelltyp. Die Standardeinstellung für MMDetection ist cascade_rcnn. Die Standardeinstellung für MMSegmentation ist deeplabv3.
  • Model_weight: Gibt an, ob die Gewichtungen des vorab trainierten Modells verwendet werden sollen. Die Standardeinstellung ist False. Der Wert kann auch ein Pfad zu einer Konfigurationsdatei mit den Gewichtungen eines Modells aus dem Repository "MMDetection" oder dem Repository "MMSegmentation" sein.
  • monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Die verfügbaren Kennwerte sind abhängig vom Parameterwert Modelltyp. Die Standardeinstellung ist valid_loss.
  • mtl_model: Gibt den Architekturtyp an, der zum Erstellen des Modells verwendet werden soll. Die Optionen sind linknet oder hourglass für linknet-basierte bzw. sanduhrbasierte neuronale Architekturen. Die Standardeinstellung ist hourglass.
  • n_timestep: Ein optionaler Wert für die Anzahl an Diffusionszeitschritten. Der Standardwert ist 1000. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • norm_groups: Die Anzahl der Gruppen für die Gruppennormalisierung. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 32. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • orient_bin_size: Die Abschnittsgröße für Ausrichtungswinkel. Die Standardeinstellung ist 20.
  • orient_theta: Die Breite der Ausrichtungsmaske. Der Standardwert ist 8.
  • pyramid_sizes: Die Anzahl und Größe der Faltungs-Layer, die auf die verschiedenen Unterregionen anzuwenden sind. Die Standardeinstellung ist [1,2,3,6]. Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell.
  • ratios: Die Liste der für die Ankerboxen zu verwendenden Seitenverhältnisse. Bei der Objekterkennung stellt eine Ankerbox die ideale Position, Form und Größe des vorhergesagten Objekts dar. Das Festlegen dieses Arguments auf [1,0,1,0], [1,0, 0,5] bedeutet beispielsweise, dass die Ankerbox ein Quadrat (1:1) oder ein Rechteck ist, bei dem die horizontale Seite halb so groß ist wie die vertikale Seite (1:0,5). Die Standardeinstellung für RetinaNet ist [0,5,1,2]. Die Standardeinstellung für Single Shot Detector ist [1,0, 1,0].
  • res_blocks: Die Anzahl der Residualblöcke. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 3. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • scales: Die Anzahl der Maßstabsebenen, die jede Zelle hoch- oder herunterskaliert wird. Die Standardeinstellung ist [1, 0,8, 0,63].
  • schedule: Optionale Festlegung des zu verwendenden Zeitplans. Die verfügbaren Optionen sind linear, warmup10, warmup50, const, jsd und cosine. Der Standardwert ist linear. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • use_net: Gibt an, ob der U-Net-Decoder zum Wiederherstellen von Daten verwendet wird, nachdem das Pyramiden-Pooling abgeschlossen ist. Der Standardwert ist true. Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell.
  • zooms: Die Anzahl der Zoomstufen, die jede Zelle hoch- oder herunterskaliert wird. Das Festlegen des Arguments auf 1 bedeutet, dass alle Gitterzellen die gleiche Größe oder Zoomstufe beibehalten. Eine Zoomstufe von 2 bedeutet, dass alle Gitterzellen zwei Mal so groß werden (um 100 Prozent vergrößert). Die Bereitstellung einer Liste von Zoomstufen bedeutet, dass alle Gitterzellen mit allen Zahlen in der Liste skaliert werden. Die Standardeinstellung ist 1.
Value Table
Lernrate
(optional)

Die Rate, mit der vorhandene Informationen während des gesamten Trainingsprozesses durch neu erworbene Informationen überschrieben werden. Ist kein Wert angegeben, wird die optimale Lernrate während des Trainingsprozesses aus der Lernkurve extrahiert.

Double
Backbone-Modell
(optional)

Gibt das vorkonfigurierte neuronale Netzwerk an, das als Architektur für das Training des neuen Modells verwendet werden soll. Diese Methode wird als Transfer Learning bezeichnet.

Darüber hinaus können unterstützte neuronale Faltungsnetzwerke der PyTorch Image Models (timm) mit "timm" als Präfix angegeben werden, z. B. timm:resnet31, timm:inception_v4, timm:efficientnet_b3 usw.

  • DenseNet-121Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 121 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
  • DenseNet-161Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 161 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
  • DenseNet-169Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 169 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
  • DenseNet-201Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 201 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
  • MobileNet-Version 2Das vorkonfigurierte Modell wird auf der ImageNet-Datenbank trainiert und enthält 54 Layer. Es ist für das Edge-Geräte-Computing vorgesehen, da es weniger Speicher benötigt.
  • ResNet -18Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 18 Layer enthält.
  • ResNet -34Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 34 Layer enthält. Dies ist die Standardeinstellung.
  • ResNet -50Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 50 Layer enthält.
  • ResNet -101Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 101 Layer enthält.
  • ResNet -152Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 152 Layer enthält.
  • VGG-11Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 11 Layer umfasst.
  • VGG-11 mit Batch-NormalisierungDas vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 11 Layer.
  • VGG-13Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 13 Layer umfasst.
  • VGG-13 mit Batch-NormalisierungDas vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 13 Layer.
  • VGG-16Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 16 Layer umfasst.
  • VGG-16 mit Batch-NormalisierungDas vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 16 Layer.
  • VGG-19Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 19 Layer umfasst.
  • VGG-19 mit Batch-NormalisierungDas vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 19 Layer.
  • DarkNet-53Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder und 53 Layer enthält.
  • Reid_v1Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das für die Objektverfolgung verwendet wird.
  • Reid_v2Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das für die Objektverfolgung verwendet wird.
  • ResNeXt-50Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das 50 Layer enthält. Es handelt sich um ein homogenes neuronales Netzwerk, das die Anzahl der vom konventionellen ResNet benötigten Hyperparameter reduziert.
  • Wide ResNet-50Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das 50 Layer enthält. Es hat dieselbe Architektur wie ResNet, jedoch mit weiteren Kanälen.
  • SR3Das vorkonfigurierte Modell verwendet das Modell Super Resolution via Repeated Refinement (SR3). SR3 passt probabilistische Modelle der Entrauschungsdiffusion an die bedingte Bilderzeugung an und führt eine Super-Resolution mittels eines stochastischen Entrauschungsvorgangs durch. Weitere Informationen finden Sie unter Image Super-Resolution via Iterative Refinement.
  • ViT-BDas vorkonfigurierte Segment Anything Modell (SAM) wird mit einer Basisgröße des neuronalen Netzwerks verwendet. Dies ist die kleinste Größe. Weitere Informationen finden Sie unter Segment Anything.
  • ViT-LDas vorkonfigurierte Segment Anything Modell (SAM) wird mit einer großen Größe des neuronalen Netzwerks verwendet. Weitere Informationen finden Sie unter Segment Anything.
  • ViT-HDas vorkonfigurierte Segment Anything Modell (SAM) wird mit einer sehr großen Größe des neuronalen Netzwerks verwendet. Dies ist die größte Größe. Weitere Informationen finden Sie unter Segment Anything.
String
Vortrainiertes Modell
(optional)

Ein vortrainiertes Modell, das zum Finetuning des neuen Modells verwendet wird. Die Eingabe ist eine Esri Modelldefinitionsdatei (.emd) oder eine Deep-Learning-Paketdatei (.dlpk).

Für ein vortrainiertes Modell mit ähnlichen Klassen kann ein Finetuning durchgeführt werden, um es auf das neue Modell abzustimmen. Das vortrainierte Modell muss mit dem gleichen Modelltyp und dem gleichen Backbone-Modell trainiert worden sein, das für das Training des neuen Modells verwendet wird.

File
Prozentsatz für Validierung
(optional)

Der Prozentsatz der Trainingsgebiete, die für die Überprüfung des Modells verwendet werden sollen. Der Standardwert ist 10.

Double
Beenden, wenn sich das Modell nicht mehr verbessert
(optional)

Gibt an, ob ein frühzeitiges Beenden implementiert wird.

  • Aktiviert: Frühzeitiges Beenden wird implementiert, und das Modelltraining wird beendet, wenn sich das Modell nicht mehr verbessert, und zwar unabhängig vom angegebenen Parameterwert Max. Epochen. Dies ist die Standardeinstellung.
  • Deaktiviert: Frühzeitiges Beenden wird nicht implementiert, und das Modelltraining wird fortgesetzt, bis der Parameterwert Max. Epochen erreicht wurde.
Boolean
Modell fixieren
(optional)

Gibt an, ob die Backbone-Layer im vorab trainierten Modell fixiert werden sollen, sodass die Gewichtungen und Verzerrungen wie ursprünglich vorgesehen beibehalten werden.

  • Aktiviert: Die Backbone-Layer werden fixiert, und die vordefinierten Gewichtungen und Verzerrungen werden im Parameter Backbone-Modell nicht geändert. Dies ist die Standardeinstellung.
  • Deaktiviert: Die Backbone-Layer werden nicht fixiert, und die Gewichtungen und Verzerrungen des Parameters Backbone-Modell können geändert werden, um sie an die Trainingsgebiete anzupassen. Die Verarbeitung dauert zwar länger, führt aber in der Regel zu besseren Ergebnissen.

Boolean
Datenerweiterung
(optional)

Gibt den verwendeten Datenerweiterungstyp an.

Datenerweiterung ist ein Verfahren, bei dem das Training-Dataset künstlich vergrößert wird, indem mithilfe vorhandener Daten modifizierte Kopien eines Datasets erstellt werden.

  • StandardEs werden die standardmäßigen Datenerweiterungsverfahren und -werte verwendet.Die verwendeten standardmäßigen Datenerweiterungsverfahren sind crop, dihedral_affine, brightness, contrast und zoom. Diese Standardwerte funktionieren bei Satellitenbildern in der Regel gut.
  • KeinEs wird keine Datenerweiterung eingesetzt.
  • BenutzerdefiniertDatenerweiterungswerte werden mithilfe des Parameters Erweiterungsparameters angegeben.
  • DateiMithilfe der Datei transforms.json, die sich im selben Ordner befindet wie die Trainingsdaten, werden fastai-Transformationen für die Datenerweiterung von Trainings- und Validierungs-Datasets festgelegt.Weitere Informationen zu den verschiedenen Transformationen finden Sie auf der fastai-Website unter vision transforms.
String
Erweiterungsparameter
(optional)

Gibt den Wert für jede Transformation im Erweiterungsparameter an.

  • rotate: Das Bild wird nach dem Zufallsprinzip (in Grad) nach einer Wahrscheinlichkeit (p) gedreht. Falls die Gradzahlen als Bereich angegeben sind (a,b) wird ein Wert einheitlich von a nach b zugewiesen. Der Standardwert ist 30,0; 0,5.
  • brightness: Die Helligkeit des Bildes wird nach dem Zufallsprinzip je nach Änderungswert mit einer Wahrscheinlichkeit (p) angepasst. Durch eine Änderung von "0" wird das Bild so hell wie möglich, und durch eine Änderung von "1" wird das Bild so hell wie möglich. Bei einer Änderung von 0,5 wird die Helligkeit nicht angepasst. Falls die Änderung ein Bereich ist (a,b), wird durch die Erweiterung einheitlich ein Wert von a nach b zugewiesen. Der Standardwert ist (0,4,0,6); 1,0.
  • contrast: Der Kontrast des Bildes wird nach dem Zufallsprinzip je nach Skalenwert mit einer Wahrscheinlichkeit (p) angepasst. Bei einer Skala von "0" wird das Bild in Graustufen transformiert, und bei einer Skala über "1" wird das Bild in ein Bild mit Super-Kontrast transformiert. Bei einer Skala von "1" wird der Kontrast nicht angepasst. Falls die Skala ein Bereich ist (a,b), wird durch die Erweiterung einheitlich ein Wert von a nach b zugewiesen. Der Standardwert ist (0,75, 1,5); 1,0.
  • zoom: Das Bild wird nach dem Zufallsprinzip je nach Skalenwert vergrößert. Der Zoom-Wert hat die Form scale(a,b); p. Der Standardwert ist (1,0, 1,2); 1,0, wobei p für die Wahrscheinlichkeit steht. Nur bei einer Skala von über 1,0 wird das Bild vergrößert. Falls die Skala ein Bereich ist (a,b), wird einheitlich ein Wert von a nach b zugewiesen.
  • crop: Das Bild wird nach dem Zufallsprinzip zugeschnitten. Der Zuschnittswert hat die Form size;p;row_pct;col_pct, wobei p für die Wahrscheinlichkeit steht. Die Position wird durch (col_pct, row_pct), angegeben, wobei col_pct und row_pct zwischen 0 und 1 normalisiert werden. Falls col_pct oder row_pct ein Bereich ist (a,b), wird einheitlich ein Wert von a nach b zugewiesen. Der Standardwert ist chip_size;1,0; (0, 1); (0, 1), wobei 224 die Standardschnipselgröße ist.

Value Table
Schnipselgröße
(optional)

Die Größe des Bildes, das zum Trainieren des Modells verwendet wird. Bilder werden auf die angegebene Schnipselgröße zugeschnitten. Wenn die Bildgröße geringer ist als der Parameterwert, wird die Bildgröße verwendet.

Die Standardschnipselgröße entspricht der Kachelgröße der Trainingsdaten. Wenn die X- und Y-Kachelgrößen nicht gleich sind, wird der größere Wert verwendet.

Long
Größe anpassen
(optional)

Passt die Größe der Bildschnipsel an. Nachdem die Größe eines Schnipsels angepasst wurde, werden Pixelblöcke auf die Schnipselgröße zugeschnitten und für das Training verwendet. Dieser Parameter findet nur auf die Objekterkennung (PASCAL VOC), die Objektklassifizierung (beschriftete Kacheln) und auf Super-Resolution-Daten Anwendung.

Oftmals ist der Wert der Größenanpassung halb so groß wie der Wert der Schnipselgröße. Wenn der Wert der Größenanpassung kleiner ist als der Wert der Schnipselgröße, werden mit dem Wert der Größenanpassung Pixelblöcke für das Training erstellt.

String
Gewichtungs-Initialisierungsschema
(optional)

Gibt das Schema an, in dem die Gewichtungen für den Layer initialisiert werden.

Damit ein Modell mit multispektralen Daten trainiert werden kann, müssen in dem Modell die verschiedenen verfügbaren Bandtypen berücksichtigt werden. Dies erfolgt durch erneute Initialisierung des ersten Layers in dem Modell.

Dieser Parameter findet nur dann Anwendung, wenn in dem Modell multispektrale Bilddaten verwendet werden.

  • ZufälligFür Nicht-RGB-Bänder werden zufällige Gewichtungen initialisiert, während für RGB-Bänder vortrainierte Gewichtungen beibehalten werden. Dies ist die Standardeinstellung.
  • Rotes BandGewichtungen, die dem roten Band aus dem Layer des vortrainierten Modells entsprechen, werden für Nicht-RGB-Bänder geklont, während für RGB-Bänder vortrainierte Gewichtungen beibehalten werden.
  • Alle zufälligZufällige Gewichtungen werden sowohl für RGB-Bänder als auch für Nicht-RGB-Bänder initialisiert. Diese Option findet nur auf multispektrale Bilddaten Anwendung.
String
Kennwert überwachen
(optional)

Gibt den Kennwert an, der bei Kontrollpunkten und frühzeitigem Beenden überwacht wird.

  • ValidierungsverlustDer Validierungsverlust wird überwacht. Wenn sich der Validierungsverlust nicht mehr signifikant verändert, wird das Modell beendet. Dies ist die Standardeinstellung.
  • Average PrecisionEs wird der gewichtete Mittelwert der Precision an jedem Schwellenwert überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
  • GenauigkeitEs wird das Verhältnis zwischen der Anzahl der richtigen Vorhersagen und der Gesamtzahl der Vorhersagen überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
  • F-MaßEs wird die Kombination des Precision-Score und des Recall-Score eines Modells überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
  • MIoUEs wird der Durchschnitt aus dem IoU-Wert (Intersection over Union) der segmentierten Objekte im Verhältnis zu allen Bildern des Test-Datasets überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
  • StückelnDie Modell-Performance wird mithilfe des Kennwerts "Stückeln" überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Dieser Wert kann in einem Bereich zwischen 0 und 1 liegen. Der Wert "1" entspricht einer perfekten Pixelübereinstimmung zwischen den Validierungsdaten und den Trainingsdaten.
  • PrecisionEs wird die Precision überwacht, mit der die Genauigkeit des Modells bei der Klassifizierung einer Stichprobe als "positiv" gemessen wird. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Die Precision ist das Verhältnis zwischen der Anzahl der richtig klassifizierten positiven Stichproben und der Gesamtzahl der (richtig oder falsch) klassifizierten Stichproben.
  • RecallEs wird der Recall überwacht, der die Fähigkeit des Modells zur Erkennung positiver Stichproben misst. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Je höher der Recall, umso mehr positive Stichproben werden erkannt. Der Recall-Wert ist das Verhältnis zwischen der Anzahl der richtig als positiv klassifizierten positiven Stichproben und der Gesamtzahl der positiven Stichproben.
  • Corpus BleuDer Corpus-Bleu-Score wird überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Mit diesem Score wird die Genauigkeit mehrerer Sätze, wie z. B. in einem Absatz oder einem Dokument berechnet.
  • Mehrfachbeschriftung F-betaEs wird das gewichtete harmonische Mittel zwischen Precision und Recall überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Dies wird häufig als F-beta-Score bezeichnet.
String

Abgeleitete Ausgabe

BeschriftungErläuterungDatentyp
Ausgabemodell

Die trainierte Ausgabe-Modelldatei.

File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze}, {augmentation}, {augmentation_parameters}, {chip_size}, {resize_to}, {weight_init_scheme}, {monitor})
NameErläuterungDatentyp
in_folder
[in_folder,...]

Die Ordner mit den Bildschnipseln, Beschriftungen und Statistiken, die zum Trainieren des Modells benötigt werden. Dies ist die Ausgabe des Werkzeugs Trainingsdaten für Deep Learning exportieren.

Wenn die folgenden Bedingungen erfüllt sind, werden mehrere Eingabeordner unterstützt:

  • Das Metadatenformat muss "Klassifizierte Kacheln", "Beschriftende Kacheln", "Kacheln mit mehreren Beschriftungen", "PASCAL Visual Object Classes" oder "RCNN-Masken" sein.
  • Alle Trainingsdaten müssen im selben Metadatenformat vorliegen.
  • Alle Trainingsdaten müssen dieselbe Anzahl an Bändern aufweisen.
  • Alle Trainingsdaten müssen dieselbe Kachelgröße aufweisen.

Folder
out_folder

Der Speicherort des Ausgabeordners, in dem das trainierte Modell gespeichert wird.

Folder
max_epochs
(optional)

Die maximale Anzahl von Epochen, für die das Modell trainiert wird. Eine maximale Epoche von eins bedeutet, dass das Dataset einmal vorwärts und einmal rückwärts durch das neuronale Netz geleitet wird. Der Standardwert ist 20.

Long
model_type
(optional)

Gibt den Modelltyp an, der zum Trainieren des Deep-Learning-Modells verwendet wird.

  • BDCN_EDGEDETECTORDie Architektur "Bi-Directional Cascade Network" (BDCN) wird zum Trainieren des Modells verwendet. BDCN Edge Detector wird für die Pixelklassifizierung eingesetzt. Dieser Ansatz ist sinnvoll zur Verbesserung der Kantenerkennung für Objekte in unterschiedlichen Maßstäben.
  • CHANGEDETECTORDie Architektur "Change Detector" wird zum Trainieren des Modells verwendet. Change Detector wird für die Pixelklassifizierung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, bei dem unter Verwendung von zwei räumlich-zeitlichen Bildern ein klassifiziertes Raster der Änderung erstellt wird. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Klassifizierte Kacheln" verwendet.
  • CONNECTNETDie Architektur "ConnectNet" wird zum Trainieren des Modells verwendet. ConnectNet wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Extraktion von Straßennetzen aus Satellitenbildern.
  • CYCLEGANDie Architektur "CycleGAN" wird zum Trainieren des Modells verwendet. CycleGAN wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern eines Typs Bilder eines anderen Typs generiert werden. Dies ist der einzige Ansatz, bei dem die zu trainierenden Bilder nicht überlappen müssen. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das CycleGAN-Metadatenformat verwendet.
  • DEEPLABDie Architektur "DeepLabV3" wird zum Trainieren des Modells verwendet. DeepLab wird für die Pixelklassifizierung verwendet.
  • DEEPSORTDie Architektur "Deep Sort" wird zum Trainieren des Modells verwendet. Deep Sort wird für die Objekterkennung in Videos verwendet. Das Modell wird mit Videobildern trainiert und erkennt die Klassen und umgebenden Rechtecke der Objekte in den einzelnen Bildern. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Imagenet-Metadatenformat verwendet. Während Siam Mask bei der Nachverfolgung eines Objekts hilfreich ist, eignet sich Deep Sort für das Trainieren eines Modells zur Nachverfolgung mehrerer Objekte.
  • DETREGDie Architektur "DETReg" wird zum Trainieren des Modells verwendet. DETReg wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird "Pascal Visual Object Classes" verwendet. Dieser Modelltyp ist GPU-intensiv. Er erfordert eine dedizierte GPU mit mindestens 16 GB Speicher, damit er ordnungsgemäß ausgeführt wird.
  • FASTERRCNNDie Architektur "FasterRCNN" wird zum Trainieren des Modells verwendet. FasterRCNN wird für die Objekterkennung eingesetzt.
  • FEATURE_CLASSIFIERDie Feature Classifier-Architektur wird zum Trainieren des Modells verwendet. Feature Classifier wird zur Objekt- oder Bildklassifizierung verwendet.
  • HED_EDGEDETECTORDie Architektur "Holistically-Nested Edge Detection" (HED) wird zum Trainieren des Modells verwendet. HED Edge Detector wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Kanten- und Objektgrenzenerkennung.
  • IMAGECAPTIONERDie Architektur "Image Captioner" wird zum Trainieren des Modells verwendet. Image Captioner wird für die Bild-zu-Text-Übersetzung verwendet. Mit diesem Ansatz wird ein Modell erstellt, das Bildunterschriften für Bilder generiert.
  • MASKRCNNDie Architektur "MaskRCNN" wird zum Trainieren des Modells verwendet. MaskRCNN wird für die Objekterkennung eingesetzt. Dieser Ansatz wird für die Instanzsegmentierung verwendet, d. h. zur genauen Abgrenzung von Objekten in einem Bild. Dieser Modelltyp kann zur Erkennung von Gebäudegrundrissen verwendet werden. Er verwendet das MaskRCNN-Metadatenformat für die Trainingsdaten als Eingabe. Klassenwerte für Eingabe-Trainingsdaten müssen bei 1 beginnen. Dieser Modelltyp kann nur mit einer CUDA-aktivierten GPU trainiert werden.
  • MAXDEEPLABDie Architektur "MaX-DeepLab" wird zum Trainieren des Modells verwendet. "MaX-DeepLab" wird für die panoptische Segmentierung verwendet. Bei diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern und Features Modellobjekte generiert werden. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Panoptische Segmentierung" verwendet.
  • MMDETECTIONDie Architektur "MMDetection" wird zum Trainieren des Modells verwendet. MMDetection wird für die Objekterkennung eingesetzt. Unterstützte Metadatenformate sind PASCAL Visual Object Classes-Rechtecke und KITTI-Rechtecke.
  • MMSEGMENTATIONDie Architektur "MMSegmentation" wird zum Trainieren des Modells verwendet. MMSegmentation wird für die Pixelklassifizierung verwendet. Als Metadatenformat werden klassifizierte Kacheln unterstützt.
  • MULTITASK_ROADEXTRACTORDie Architektur "Multi Task Road Extractor" wird zum Trainieren des Modells verwendet. Multi Task Road Extractor wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Extraktion von Straßennetzen aus Satellitenbildern.
  • PIX2PIXDie Architektur "Pix2Pix" wird zum Trainieren des Modells verwendet. Pix2Pix wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern eines Typs Bilder eines anderen Typs generiert werden. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Export-Kacheln" verwendet.
  • PIX2PIXHDDie Architektur "Pix2PixHD" wird zum Trainieren des Modells verwendet. Pix2PixHD wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem aus Bildern eines Typs Bilder eines anderen Typs generiert werden. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Export-Kacheln" verwendet.
  • PSETAEDie Pixel-Set Encoders and Temporal Self-Attention-(PSETAE-)Architektur wird zum Trainieren des Modells für die Klassifizierung von Zeitserien verwendet. PSETAE wird für die Pixelklassifizierung verwendet. Die für diese Methode verwendeten vorläufigen Daten sind multidimensionale Daten.
  • PSPNETDie Architektur "Pyramid Scene Parsing Network (PSPNET)" wird zum Trainieren des Modells verwendet. PSPNET wird für die Pixelklassifizierung verwendet.
  • RETINANETDie Architektur "RetinaNet" wird zum Trainieren des Modells verwendet. RetinaNet wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Pascal Visual Object Classes-Metadatenformat verwendet.
  • SAMLORADas Segment Anything Modell (SAM) mit Low Rank Adaption (LoRA) wird zum Trainieren des Modells verwendet. Dieser Modelltyp verwendet das Segment Anything Modell (SAM) als Grundlagenmodell und wird für eine spezifische Aufgabe mit verhältnismäßig niedrigen Berechnungsanforderungen und einem kleineren Dataset optimiert.
  • SIAMMASKDie Architektur "Siam Mask" wird zum Trainieren des Modells verwendet. Siam Mask wird für die Objekterkennung in Videos verwendet. Das Modell wird mit Videobildern trainiert und erkennt die Klassen und umgebenden Rechtecke der Objekte in den einzelnen Bildern. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das MaskRCNN-Metadatenformat verwendet.
  • SSDDie Architektur "Single Shot Detector (SSD)" wird zum Trainieren des Modells verwendet. SSD wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Pascal Visual Object Classes-Metadatenformat verwendet.
  • SUPERRESOLUTIONDie Architektur "Super-Resolution" wird zum Trainieren des Modells verwendet. Super-Resolution wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, mit dem die Auflösung erhöht und die Bildqualität verbessert wird. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Export-Kacheln" verwendet.
  • UNETDie Architektur "U-Net" wird zum Trainieren des Modells verwendet. U-Net wird für die Pixelklassifizierung verwendet.
  • YOLOV3Die Architektur "YOLOv3" wird zum Trainieren des Modells verwendet. Für die Objekterkennung wird YOLOv3 verwendet.
String
batch_size
(optional)

Die Anzahl der Trainingstichproben, die für das Training gleichzeitig bearbeitet werden müssen.

Durch größere Batches kann die Leistung des Werkzeugs erhöht werden. Aber größere Batches belegen mehr Arbeitsspeicher.

Wenn nicht genügend GPU-Speicher für die festgelegte Batch-Größe zur Verfügung steht, versucht das Werkzeug, eine optimale Batch-Größe zu schätzen und zu verwenden. Wird die Fehlermeldung "Nicht genügend Arbeitsspeicher" angezeigt, verwenden Sie kleinere Batches.

Long
arguments
[arguments,...]
(optional)

Mit den Informationen aus dem Parameter model_type werden die Standardwerte für diesen Parameter festgelegt. Diese Argumente variieren je nach Modellarchitektur. Nachfolgend werden die Modellargumente beschrieben, die für Modelle unterstützt werden, die in ArcGIS trainiert werden. Vortrainierte ArcGIS-Modelle und benutzerdefinierte Deep-Learning-Modelle enthalten ggf. zusätzliche von dem Werkzeug unterstützte Argumente.

Weitere Informationen zu den Argumenten, die für einen Modelltyp verfügbar sind, finden Sie unter Deep-Learning-Argumente.

  • attention_type: Gibt den Modultyp an. Die Moduloptionen sind PAM (Pyramid Attention Module) oder BAM (Basic Attention Module). Die Standardeinstellung ist PAM.
  • attn_res: Aufmerksamkeitszahl in Residualblöcken. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 16. Dieses Argument wird nur unterstützt, wenn der Parameter backbone_model den Wert SR3 hat.
  • channel_mults: Optionale Tiefenmultiplikatoren für nachfolgende Auflösungen in U-Net. Der Standard ist 1, 2, 4, 4, 8, 8. Dieses Argument wird nur unterstützt, wenn der Parameter backbone_model den Wert SR3 hat.
  • CLASS_BALANCING: Gibt an, ob der Kreuzentropie-Verlust umgekehrt proportional zur Pixelhäufigkeit pro Klasse ausgeglichen wird. Die Standardeinstellung ist False.
  • decode_params: Ein Wörterbuch, das steuert, wie Image Captioner ausgeführt wird. Der Standardwert lautet {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}. Das Argument decode_params setzt sich aus den folgenden Parametern zusammen:
    • embed_size: Die Größe zum Einbetten. Der Standardwert ist 100 Layer im neuronalen Netzwerk.
    • hidden_size: Die Größe des ausgeblendeten Layers. Der Standardwert ist 100 Layer im neuronalen Netzwerk.
    • attention_size: Die Größe des Layers für temporäre Aufmerksamkeit. Der Standardwert ist 100 Layer im neuronalen Netzwerk.
    • teacher_forcing: Die Wahrscheinlichkeit des Erzwingens durch Teacher. Teacher Forcing ist eine Strategie für das Trainieren rekurrenter neuronaler Netzwerke. Dabei wird im Rahmen der Backpropagation statt der vorherigen Ausgabe die Modellausgabe aus einem vorherigen Zeitschritt als Eingabe verwendet. Der gültige Bereich liegt zwischen 0,0 und 1,0. Die Standardeinstellung ist 1.
    • dropout: Die Abbruchwahrscheinlichkeit. Der gültige Bereich liegt zwischen 0,0 und 1,0. Die Standardeinstellung ist 0,1.
    • pretrained_emb: Gibt an, ob die Einbettung von vortrainiertem Text verwendet werden soll. Bei True wird schnelle Texteinbettung verwendet. Bei False wird die vortrainierte Texteinbettung nicht verwendet. Die Standardeinstellung ist False.
  • dropout: Ein optionaler Gleitkommawert für den Abbruch. Die Standardeinstellung ist 0. Dieses Argument wird nur unterstützt, wenn der Parameter backbone_model den Wert SR3 hat.
  • FOCAL_LOSS: Gibt an, ob Fokusverlust verwendet wird. Die Standardeinstellung ist False.
  • gaussian_thresh: Der Gauß'sche Schwellenwert, mit dem die erforderliche Straßenbreite festgelegt wird. Der gültige Bereich liegt zwischen 0,0 und 1,0. Der Standardwert ist 0,76.
  • grids: Die Anzahl der Gitternetze, in die das Bild für die Verarbeitung aufgeteilt wird. Das Festlegen dieses Arguments auf "4" bedeutet beispielsweise, dass das Bild in 4 x 4 oder 16 Gitterzellen aufgeteilt wird. Wenn kein Wert angegeben wird, wird der optimale Gitternetzwert auf der Grundlage der Eingabe-Bilddaten berechnet.
  • IGNORE_CLASSES: Die Liste der Klassenwerte, bei denen das Modell keinen Verlust verzeichnen wird.
  • inner_channel: Der Wert von "inner_channel" ist die Dimension des ersten U-Net-Layers. Dies ist ein optionaler ganzzahliger Wert. Die Standardeinstellung ist 64. Dieses Argument wird nur unterstützt, wenn der Parameter backbone_model den Wert SR3 hat.
  • linear_start: Ein optionaler ganzzahliger Wert zum Planen des Starts. Der Standardwert ist 1e-02. Dieses Argument wird nur unterstützt, wenn der Parameter backbone_model den Wert SR3 hat.
  • linear_end: Ein optionaler ganzzahliger Wert zum Planen des Endes. Der Standardwert ist 1e-06. Dieses Argument wird nur unterstützt, wenn der Parameter backbone_model den Wert SR3 hat.
  • MIXUP: Gibt an, ob Zu- und Abnahme des Mixups verwendet werden. Die Standardeinstellung ist False.
  • model: Das Backbone-Modell, das zum Trainieren des Modells verwendet wird. Die verfügbaren Kennwerte sind abhängig vom Parameterwert model_type. Die Standardeinstellung für MMDETECTION ist cascade_rcnn. Die Standardeinstellung für MMSegmentation ist deeplabv3.
  • model_weight: Gibt an, ob die Gewichtungen des vorab trainierten Modells verwendet werden sollen. Die Standardeinstellung ist False. Der Wert kann auch ein Pfad zu einer Konfigurationsdatei mit den Gewichtungen eines Modells aus dem Repository "MMDetection" oder dem Repository "MMSegmentation" sein.
  • monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Die verfügbaren Kennwerte sind abhängig vom Parameterwert model_type. Die Standardeinstellung ist valid_loss.
  • mtl_model: Gibt den Architekturtyp an, der zum Erstellen des Modells verwendet werden soll. Die Optionen sind linknet oder hourglass für linknet-basierte bzw. sanduhrbasierte neuronale Architekturen. Die Standardeinstellung ist hourglass.
  • n_timestep: Ein optionaler Wert für die Anzahl an Diffusionszeitschritten. Der Standardwert ist 1000. Dieses Argument wird nur unterstützt, wenn der Parameter backbone_model den Wert SR3 hat.
  • norm_groups: Die Anzahl der Gruppen für die Gruppennormalisierung. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 32. Dieses Argument wird nur unterstützt, wenn der Parameter backbone_model den Wert SR3 hat.
  • orient_bin_size: Die Abschnittsgröße für Ausrichtungswinkel. Die Standardeinstellung ist 20.
  • orient_theta: Die Breite der Ausrichtungsmaske. Der Standardwert ist 8.
  • PYRAMID_SIZES: Die Anzahl und Größe der Faltungs-Layer, die auf die verschiedenen Unterregionen anzuwenden sind. Die Standardeinstellung ist [1,2,3,6]. Dieses Argument gilt speziell für das PSPNET-Modell.
  • ratios: Die Liste der für die Ankerboxen zu verwendenden Seitenverhältnisse. Bei der Objekterkennung stellt eine Ankerbox die ideale Position, Form und Größe des vorhergesagten Objekts dar. Das Festlegen dieses Arguments auf [1,0,1,0], [1,0, 0,5] bedeutet beispielsweise, dass die Ankerbox ein Quadrat (1:1) oder ein Rechteck ist, bei dem die horizontale Seite halb so groß ist wie die vertikale Seite (1:0,5). Die Standardeinstellung für RETINANET ist [0,5,1,2]. Die Standardeinstellung für SSD ist [1,0, 1,0].
  • res_blocks: Die Anzahl der Residualblöcke. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 3. Dieses Argument wird nur unterstützt, wenn der Parameter backbone_model den Wert SR3 hat.
  • SCALES: Die Anzahl der Maßstabsebenen, die jede Zelle hoch- oder herunterskaliert wird. Die Standardeinstellung ist [1, 0,8, 0,63].
  • schedule: Optionale Festlegung des zu verwendenden Zeitplans. Verfügbare Optionen sind linear, warmup10, warmup50, const, jsd und cosine. Die Standardeinstellung ist linear. Dieses Argument wird nur unterstützt, wenn der Parameter backbone_model den Wert SR3 hat.
  • USE_UNET: Gibt an, ob der U-Net-Decoder zum Wiederherstellen von Daten verwendet wird, nachdem das Pyramiden-Pooling abgeschlossen ist. Die Standardeinstellung ist True. Dieses Argument gilt speziell für das PSPNET-Modell.
  • zooms: Die Anzahl der Zoomstufen, die jede Zelle hoch- oder herunterskaliert wird. Das Festlegen des Arguments auf 1 bedeutet, dass alle Gitterzellen die gleiche Größe oder Zoomstufe beibehalten. Eine Zoomstufe von 2 bedeutet, dass alle Gitterzellen zwei Mal so groß werden (um 100 Prozent vergrößert). Die Bereitstellung einer Liste von Zoomstufen bedeutet, dass alle Gitterzellen mit allen Zahlen in der Liste skaliert werden. Die Standardeinstellung ist 1.
Value Table
learning_rate
(optional)

Die Rate, mit der vorhandene Informationen während des gesamten Trainingsprozesses durch neu erworbene Informationen überschrieben werden. Ist kein Wert angegeben, wird die optimale Lernrate während des Trainingsprozesses aus der Lernkurve extrahiert.

Double
backbone_model
(optional)

Gibt das vorkonfigurierte neuronale Netzwerk an, das als Architektur für das Training des neuen Modells verwendet werden soll. Diese Methode wird als Transfer Learning bezeichnet.

  • DENSENET121Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 121 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
  • DENSENET161Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 161 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
  • DENSENET169Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 169 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
  • DENSENET201Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 201 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
  • MOBILENET_V2Das vorkonfigurierte Modell wird auf der ImageNet-Datenbank trainiert und enthält 54 Layer. Es ist für das Edge-Geräte-Computing vorgesehen, da es weniger Speicher benötigt.
  • RESNET18Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 18 Layer enthält.
  • RESNET34Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 34 Layer enthält. Dies ist die Standardeinstellung.
  • RESNET50Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 50 Layer enthält.
  • RESNET101Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 101 Layer enthält.
  • RESNET152Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 152 Layer enthält.
  • VGG11Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 11 Layer umfasst.
  • VGG11_BNDas vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 11 Layer.
  • VGG13Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 13 Layer umfasst.
  • VGG13_BNDas vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 13 Layer.
  • VGG16Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 16 Layer umfasst.
  • VGG16_BNDas vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 16 Layer.
  • VGG19Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 19 Layer umfasst.
  • VGG19_BNDas vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 19 Layer.
  • DARKNET53Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder und 53 Layer enthält.
  • REID_V1Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das für die Objektverfolgung verwendet wird.
  • REID_V2Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das für die Objektverfolgung verwendet wird.
  • RESNEXT50Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das 50 Layer enthält. Es handelt sich um ein homogenes neuronales Netzwerk, das die Anzahl der vom konventionellen ResNet benötigten Hyperparameter reduziert.
  • WIDE_RESNET50Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das 50 Layer enthält. Es hat dieselbe Architektur wie ResNet, jedoch mit weiteren Kanälen.
  • SR3Das vorkonfigurierte Modell verwendet das Modell Super Resolution via Repeated Refinement (SR3). SR3 passt probabilistische Modelle der Entrauschungsdiffusion an die bedingte Bilderzeugung an und führt eine Super-Resolution mittels eines stochastischen Entrauschungsvorgangs durch. Weitere Informationen finden Sie unter Image Super-Resolution via Iterative Refinement.
  • VIT_BDas vorkonfigurierte Segment Anything Modell (SAM) wird mit einer Basisgröße des neuronalen Netzwerks verwendet. Dies ist die kleinste Größe. Weitere Informationen finden Sie unter Segment Anything.
  • VIT_LDas vorkonfigurierte Segment Anything Modell (SAM) wird mit einer großen Größe des neuronalen Netzwerks verwendet. Weitere Informationen finden Sie unter Segment Anything.
  • VIT_HDas vorkonfigurierte Segment Anything Modell (SAM) wird mit einer sehr großen Größe des neuronalen Netzwerks verwendet. Dies ist die größte Größe. Weitere Informationen finden Sie unter Segment Anything.

Darüber hinaus können unterstützte neuronale Faltungsnetzwerke der PyTorch Image Models (timm) mit "timm" als Präfix angegeben werden, z. B. timm:resnet31, timm:inception_v4, timm:efficientnet_b3 usw.

String
pretrained_model
(optional)

Ein vortrainiertes Modell, das zum Finetuning des neuen Modells verwendet wird. Die Eingabe ist eine Esri Modelldefinitionsdatei (.emd) oder eine Deep-Learning-Paketdatei (.dlpk).

Für ein vortrainiertes Modell mit ähnlichen Klassen kann ein Finetuning durchgeführt werden, um es auf das neue Modell abzustimmen. Das vortrainierte Modell muss mit dem gleichen Modelltyp und dem gleichen Backbone-Modell trainiert worden sein, das für das Training des neuen Modells verwendet wird.

File
validation_percentage
(optional)

Der Prozentsatz der Trainingsgebiete, die für die Überprüfung des Modells verwendet werden sollen. Der Standardwert ist 10.

Double
stop_training
(optional)

Gibt an, ob ein frühzeitiges Beenden implementiert wird.

  • STOP_TRAININGFrühzeitiges Beenden wird implementiert, und das Modelltraining wird beendet, wenn sich das Modell nicht mehr verbessert, und zwar unabhängig vom angegebenen Parameterwert max_epochs. Dies ist die Standardeinstellung.
  • CONTINUE_TRAININGFrühzeitiges Beenden wird nicht implementiert, und das Modelltraining wird fortgesetzt, bis der Parameterwert max_epochs erreicht wurde.
Boolean
freeze
(optional)

Gibt an, ob die Backbone-Layer im vorab trainierten Modell fixiert werden sollen, sodass die Gewichtungen und Verzerrungen wie ursprünglich vorgesehen beibehalten werden.

  • FREEZE_MODELDie Backbone-Layer werden fixiert, und die vordefinierten Gewichtungen und Verzerrungen werden im Parameter backbone_model nicht geändert. Dies ist die Standardeinstellung.
  • UNFREEZE_MODELDie Backbone-Layer werden nicht fixiert, und die Gewichtungen und Verzerrungen des Parameters backbone_model können geändert werden, um sie an die Trainingsgebiete anzupassen. Die Verarbeitung dauert zwar länger, führt aber in der Regel zu besseren Ergebnissen.
Boolean
augmentation
(optional)

Gibt den verwendeten Datenerweiterungstyp an.

Datenerweiterung ist ein Verfahren, bei dem das Training-Dataset künstlich vergrößert wird, indem mithilfe vorhandener Daten modifizierte Kopien eines Datasets erstellt werden.

  • DEFAULTEs werden die standardmäßigen Datenerweiterungsverfahren und -werte verwendet.Die verwendeten standardmäßigen Datenerweiterungsverfahren sind crop, dihedral_affine, brightness, contrast und zoom. Diese Standardwerte funktionieren bei Satellitenbildern in der Regel gut.
  • NONEEs wird keine Datenerweiterung eingesetzt.
  • CUSTOMDatenerweiterungswerte werden mithilfe des Parameters augmentation_parameters angegeben.
  • FILEMithilfe der Datei transforms.json, die sich im selben Ordner befindet wie die Trainingsdaten, werden fastai-Transformationen für die Datenerweiterung von Trainings- und Validierungs-Datasets festgelegt.Weitere Informationen zu den verschiedenen Transformationen finden Sie auf der fastai-Website unter vision transforms.
String
augmentation_parameters
[augmentation_parameters,...]
(optional)

Gibt den Wert für jede Transformation im Erweiterungsparameter an.

  • rotate: Das Bild wird nach dem Zufallsprinzip (in Grad) nach einer Wahrscheinlichkeit (p) gedreht. Falls die Gradzahlen als Bereich angegeben sind (a,b) wird ein Wert einheitlich von a nach b zugewiesen. Der Standardwert ist 30,0; 0,5.
  • brightness: Die Helligkeit des Bildes wird nach dem Zufallsprinzip je nach Änderungswert mit einer Wahrscheinlichkeit (p) angepasst. Durch eine Änderung von "0" wird das Bild so hell wie möglich, und durch eine Änderung von "1" wird das Bild so hell wie möglich. Bei einer Änderung von 0,5 wird die Helligkeit nicht angepasst. Falls die Änderung ein Bereich ist (a,b), wird durch die Erweiterung einheitlich ein Wert von a nach b zugewiesen. Der Standardwert ist (0,4,0,6); 1,0.
  • contrast: Der Kontrast des Bildes wird nach dem Zufallsprinzip je nach Skalenwert mit einer Wahrscheinlichkeit (p) angepasst. Bei einer Skala von "0" wird das Bild in Graustufen transformiert, und bei einer Skala über "1" wird das Bild in ein Bild mit Super-Kontrast transformiert. Bei einer Skala von "1" wird der Kontrast nicht angepasst. Falls die Skala ein Bereich ist (a,b), wird durch die Erweiterung einheitlich ein Wert von a nach b zugewiesen. Der Standardwert ist (0,75, 1,5); 1,0.
  • zoom: Das Bild wird nach dem Zufallsprinzip je nach Skalenwert vergrößert. Der Zoom-Wert hat die Form scale(a,b); p. Der Standardwert ist (1,0, 1,2); 1,0, wobei p für die Wahrscheinlichkeit steht. Nur bei einer Skala von über 1,0 wird das Bild vergrößert. Falls die Skala ein Bereich ist (a,b), wird einheitlich ein Wert von a nach b zugewiesen.
  • crop: Das Bild wird nach dem Zufallsprinzip zugeschnitten. Der Zuschnittswert hat die Form size;p;row_pct;col_pct, wobei p für die Wahrscheinlichkeit steht. Die Position wird durch (col_pct, row_pct), angegeben, wobei col_pct und row_pct zwischen 0 und 1 normalisiert werden. Falls col_pct oder row_pct ein Bereich ist (a,b), wird einheitlich ein Wert von a nach b zugewiesen. Der Standardwert ist chip_size;1,0; (0, 1); (0, 1), wobei 224 die Standardschnipselgröße ist.

Value Table
chip_size
(optional)

Die Größe des Bildes, das zum Trainieren des Modells verwendet wird. Bilder werden auf die angegebene Schnipselgröße zugeschnitten. Wenn die Bildgröße geringer ist als der Parameterwert, wird die Bildgröße verwendet.

Die Standardschnipselgröße entspricht der Kachelgröße der Trainingsdaten. Wenn die X- und Y-Kachelgrößen nicht gleich sind, wird der größere Wert verwendet.

Long
resize_to
(optional)

Passt die Größe der Bildschnipsel an. Nachdem die Größe eines Schnipsels angepasst wurde, werden Pixelblöcke auf die Schnipselgröße zugeschnitten und für das Training verwendet. Dieser Parameter findet nur auf die Objekterkennung (PASCAL VOC), die Objektklassifizierung (beschriftete Kacheln) und auf Super-Resolution-Daten Anwendung.

Oftmals ist der Wert der Größenanpassung halb so groß wie der Wert der Schnipselgröße. Wenn der Wert der Größenanpassung kleiner ist als der Wert der Schnipselgröße, werden mit dem Wert der Größenanpassung Pixelblöcke für das Training erstellt.

String
weight_init_scheme
(optional)

Gibt das Schema an, in dem die Gewichtungen für den Layer initialisiert werden.

Damit ein Modell mit multispektralen Daten trainiert werden kann, müssen in dem Modell die verschiedenen verfügbaren Bandtypen berücksichtigt werden. Dies erfolgt durch erneute Initialisierung des ersten Layers in dem Modell.

  • RANDOMFür Nicht-RGB-Bänder werden zufällige Gewichtungen initialisiert, während für RGB-Bänder vortrainierte Gewichtungen beibehalten werden. Dies ist die Standardeinstellung.
  • RED_BANDGewichtungen, die dem roten Band aus dem Layer des vortrainierten Modells entsprechen, werden für Nicht-RGB-Bänder geklont, während für RGB-Bänder vortrainierte Gewichtungen beibehalten werden.
  • ALL_RANDOMZufällige Gewichtungen werden sowohl für RGB-Bänder als auch für Nicht-RGB-Bänder initialisiert. Diese Option findet nur auf multispektrale Bilddaten Anwendung.

Dieser Parameter findet nur dann Anwendung, wenn in dem Modell multispektrale Bilddaten verwendet werden.

String
monitor
(optional)

Gibt den Kennwert an, der bei Kontrollpunkten und frühzeitigem Beenden überwacht wird.

  • VALID_LOSSDer Validierungsverlust wird überwacht. Wenn sich der Validierungsverlust nicht mehr signifikant verändert, wird das Modell beendet. Dies ist die Standardeinstellung.
  • AVERAGE_PRECISIONEs wird der gewichtete Mittelwert der Precision an jedem Schwellenwert überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
  • ACCURACYEs wird das Verhältnis zwischen der Anzahl der richtigen Vorhersagen und der Gesamtzahl der Vorhersagen überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
  • F1_SCOREEs wird die Kombination des Precision-Score und des Recall-Score eines Modells überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
  • MIOUEs wird der Durchschnitt aus dem IoU-Wert (Intersection over Union) der segmentierten Objekte im Verhältnis zu allen Bildern des Test-Datasets überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
  • DICEDie Modell-Performance wird mithilfe des Kennwerts "Stückeln" überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Dieser Wert kann in einem Bereich zwischen 0 und 1 liegen. Der Wert "1" entspricht einer perfekten Pixelübereinstimmung zwischen den Validierungsdaten und den Trainingsdaten.
  • PRECISIONEs wird die Precision überwacht, mit der die Genauigkeit des Modells bei der Klassifizierung einer Stichprobe als "positiv" gemessen wird. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Die Precision ist das Verhältnis zwischen der Anzahl der richtig klassifizierten positiven Stichproben und der Gesamtzahl der (richtig oder falsch) klassifizierten Stichproben.
  • RECALLEs wird der Recall überwacht, der die Fähigkeit des Modells zur Erkennung positiver Stichproben misst. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Je höher der Recall, umso mehr positive Stichproben werden erkannt. Der Recall-Wert ist das Verhältnis zwischen der Anzahl der richtig als positiv klassifizierten positiven Stichproben und der Gesamtzahl der positiven Stichproben.
  • CORPUS_BLEUDer Corpus-Bleu-Score wird überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Mit diesem Score wird die Genauigkeit mehrerer Sätze, wie z. B. in einem Absatz oder einem Dokument berechnet.
  • MULTI_LABEL_FBETAEs wird das gewichtete harmonische Mittel zwischen Precision und Recall überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Dies wird häufig als F-beta-Score bezeichnet.
String

Abgeleitete Ausgabe

NameErläuterungDatentyp
out_model_file

Die trainierte Ausgabe-Modelldatei.

File

Codebeispiel

TrainDeepLearningModel: Beispiel 1 (Python-Fenster)

In diesem Beispiel wird ein Baumklassifizierungsmodell mit dem U-Netz-Ansatz trainiert.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
# Execute 
TrainDeepLearningModel(r"C:\DeepLearning\TrainingData\Roads_FC", 
     r"C:\DeepLearning\Models\Fire", 40, "UNET", 16, "# #", None, 
     "RESNET34", None, 10, "STOP_TRAINING", "FREEZE_MODEL")
TrainDeepLearningModel: Beispiel 2 (eigenständiges Skript)

In diesem Beispiel wird ein Objekterkennungsmodell mit dem SSD-Ansatz trainiert.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
#Define input parameters
in_folder = "C:\\DeepLearning\\TrainingData\\Cars" 
out_folder = "C:\\Models\\Cars"
max_epochs = 100
model_type = "SSD"
batch_size = 2
arg = "grids '[4, 2, 1]';zooms '[0.7, 1.0, 1.3]';ratios '[[1, 1], [1, 0.5], [0.5, 1]]'"
learning_rate = 0.003
backbone_model = "RESNET34" 
pretrained_model = "C:\\Models\\Pretrained\\vehicles.emd"
validation_percent = 10
stop_training = "STOP_TRAINING"
freeze = "FREEZE_MODEL"


# Execute
TrainDeepLearningModel(in_folder, out_folder, max_epochs, model_type, 
     batch_size, arg, learning_rate, backbone_model, pretrained_model, 
     validation_percent, stop_training, freeze)

Lizenzinformationen

  • Basic: Erfordert Image Analyst
  • Standard: Erfordert Image Analyst
  • Advanced: Erfordert Image Analyst

Verwandte Themen