Modellargumente (optional) | Die Funktionsargumente werden in der Python-Raster-Funktionsklasse definiert. Hier geben Sie zusätzliche Deep-Learning-Parameter und Argumente für Experimente und Verfeinerungen wie den Konfidenzschwellenwert zur Anpassung der Empfindlichkeit an. Die Namen der Argumente werden durch Lesen des Python-Moduls aufgefüllt. Wenn Sie Single Shot Detector (Objekterkennung) als Parameterwert Modelltyp wählen, wird der Parameter Modellargumente mit folgenden Argumenten befüllt: - grids: Die Anzahl der Gitternetze, in die das Bild für die Verarbeitung aufgeteilt wird. Das Festlegen des Arguments auf 4 bedeutet, dass das Bild in 4 x 4 bzw. 16 Gitterzellen aufgeteilt wird. Wenn kein Wert angegeben wird, wird der optimale Gitternetzwert auf der Grundlage der Eingabe-Bilddaten berechnet.
- zooms: Die Anzahl der Zoomstufen, die jede Zelle hoch- oder herunterskaliert wird. Das Festlegen des Arguments auf 1 bedeutet, dass alle Gitterzellen die gleiche Größe oder Zoomstufe beibehalten. Eine Zoomstufe von 2 bedeutet, dass alle Gitterzellen zwei Mal so groß werden (um 100 Prozent vergrößert). Die Bereitstellung einer Liste von Zoomstufen bedeutet, dass alle Gitterzellen mit allen Zahlen in der Liste skaliert werden. Der Standardwert ist 1,0.
- ratios: Die Liste der für die Ankerboxen zu verwendenden Seitenverhältnisse. Bei der Objekterkennung stellt eine Ankerbox die ideale Position, Form und Größe des vorhergesagten Objekts dar. Das Festlegen dieses Arguments auf [1,0,1,0], [1,0, 0,5] bedeutet, die Ankerbox ist ein Quadrat (1:1) oder ein Rechteck, bei dem die horizontale Seite halb so groß wie die vertikale Seite ist (1:0,5). Die Standardeinstellung ist [1,0, 1,0].
- monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Verfügbare Kennwerte sind valid_loss und average_precision. Die Standardeinstellung ist valid_loss.
Wenn Sie ein Pixelklassifizierungsmodell wie Pyramid Scene Parsing Network (Pixelklassifizierung), U-Net (Pixelklassifizierung) oder DeepLabv3 (Pixelklassifizierung) als Wert für den Parameter Modelltyp auswählen, wird der Parameter Modellargumente mit folgenden Argumenten ausgefüllt: - use_net: Gibt an, ob der U-Net-Decoder zum Wiederherstellen von Daten verwendet wird, nachdem das Pyramiden-Pooling abgeschlossen ist. Der Standardwert ist true. Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell.
- pyramid_sizes: Die Anzahl und Größe der Faltungs-Layer, die auf die verschiedenen Unterregionen anzuwenden sind. Die Standardeinstellung ist [1,2,3,6]. Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell.
- mixup: Gibt an, ob Zu- und Abnahme des Mixups verwendet werden. Die Standardeinstellung ist False.
- class_balancing: Gibt an, ob der Kreuzentropie-Verlust umgekehrt proportional zur Pixelhäufigkeit pro Klasse ausgeglichen wird. Die Standardeinstellung ist False.
- focal_loss: Gibt an, ob Fokusverlust verwendet wird. Die Standardeinstellung ist False.
- ignore_classes: Enthält die Liste der Klassenwerte, bei denen das Modell keinen Verlust verzeichnen wird.
- monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Verfügbare Kennwerte sind valid_loss und accuracy. Die Standardeinstellung ist valid_loss.
Wenn Sie RetinaNet (Objekterkennung) als Parameterwert für Modelltyp wählen, wird der Parameter Modellargumente mit den folgenden Argumenten befüllt: - scales: Die Anzahl der Maßstabsebenen, die jede Zelle hoch- oder herunterskaliert wird. Die Standardeinstellung ist [1, 0,8, 0,63].
- ratios: Das Seitenverhältnis der Ankerbox. Die Standardeinstellung ist 0,5,1,2.
- monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Verfügbare Kennwerte sind valid_loss und average_precision. Die Standardeinstellung ist valid_loss.
Wenn Sie Multi Task Road Extractor (Pixelklassifizierung) oder ConnectNet (Pixelklassifizierung) als Parameterwert Modelltyp wählen, wird der Parameter Modellargumente mit folgenden Argumenten befüllt: - gaussian_thresh: Legt den Gauß'schen Schwellenwert zur Festlegung der erforderlichen Straßenbreite fest. Der gültige Bereich liegt zwischen 0,0 und 1,0. Der Standardwert ist 0,76.
- orient_bin_size: Legt die Abschnittsgröße für Ausrichtungswinkel fest. Die Standardeinstellung ist 20.
- orient_theta: Legt die Breite der Ausrichtungsmaske fest. Der Standardwert ist 8.
- mtl_model: Legt den Architekturtyp fest, der zum Erstellen des Modells verwendet wird. Gültige Auswahloptionen sind linknet oder hourglass für auf LinkNet bzw. auf Hourglass basierende neuronale Architekturen. Die Standardeinstellung ist hourglass.
- monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Verfügbare Kennwerte sind valid_loss, accuracy, miou und dice. Die Standardeinstellung ist valid_loss.
Wenn Sie Image Captioner (Bild-zu-Bild-Übersetzung) als Parameterwert für Modelltyp wählen, wird der Parameter Modellargumente mit den folgenden Argumenten befüllt: - decode_params: Ein Wörterbuch, das steuert, wie Image Captioner ausgeführt wird. Der Standardwert ist {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.
- chip_size: Legt die Bildgröße zum Trainieren des Modells fest. Bilder werden auf die angegebene Schnipselgröße zugeschnitten. Wenn die Bildgröße kleiner als die Schnipselgröße ist, wird die Bildgröße verwendet. Die Standardgröße beträgt 224 Pixel.
- monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Verfügbare Kennwerte sind valid_loss, accuracy, corpus_bleu und multi_label_fbeta. Die Standardeinstellung ist valid_loss.
Das Argument decode_params besteht aus den folgenden sechs Parametern:- embed_size: Legt die Einbettungsgröße fest. Der Standardwert ist 100 Layer im neuronalen Netzwerk.
- hidden_size: Legt die Größe für ausgeblendete Layer fest. Der Standardwert ist 100 Layer im neuronalen Netzwerk.
- attention_size: Legt die Größe für Attention-Zwischen-Layer fest. Der Standardwert ist 100 Layer im neuronalen Netzwerk.
- teacher_forcing: Legt die Wahrscheinlichkeit für Teacher Forcing fest. Teacher Forcing ist eine Strategie für das Trainieren rekurrenter neuronaler Netzwerke. Dabei wird im Rahmen der Backpropagation statt der vorherigen Ausgabe die Modellausgabe aus einem vorherigen Zeitschritt als Eingabe verwendet. Der gültige Bereich liegt zwischen 0,0 und 1,0. Die Standardeinstellung ist 1.
- dropout: Legt die Dropout-Wahrscheinlichkeit fest. Der gültige Bereich liegt zwischen 0,0 und 1,0. Die Standardeinstellung ist 0,01.
- pretrained_emb: Legt das Flag für vortrainierte Einbettungen fest. Bei True wird schnelle Texteinbettung verwendet. Bei False wird die vortrainierte Texteinbettung nicht verwendet. Die Standardeinstellung ist "False".
Wenn Sie Change Detector (Pixelklassifizierung) als Parameterwert für Modelltyp wählen, wird der Parameter Modellargumente mit dem folgenden Argument befüllt: - attention_type: Gibt den Modultyp an. Zur Auswahl stehen die Module PAM (Pyramid Attention Module) oder BAM (Basic Attention Module). Die Standardeinstellung ist PAM.
- monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Verfügbare Kennwerte sind valid_loss, precision, recall und f1. Die Standardeinstellung ist valid_loss.
Wenn Sie MMDetection (Objekterkennung) als Parameterwert für Modelltyp wählen, wird der Parameter Modellargumente mit den folgenden Argumenten befüllt: - model: Das Backbone-Modell, das zum Trainieren des Modells verwendet wird. Die verfügbaren Optionen sind atss, carafe, cascade_rcnn, cascade_rpn, dcn, detectors, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl und vfnet. Die Standardeinstellung ist cascade_rcnn.
- model_weight: Wählen Sie aus, ob die Gewichtungen des vortrainierten Modells verwendet werden sollen. Die Standardeinstellung ist false. Der Wert kann auch ein Pfad zu einer Konfigurationsdatei mit den Gewichtungen eines Modells aus dem Repository "MMDetection" sein.
Wenn Sie MMSegmentation (Pixelklassifizierung) als Parameterwert für Modelltyp wählen, wird der Parameter Modellargumente mit den folgenden Argumenten befüllt: - model: Das Backbone-Modell, das zum Trainieren des Modells verwendet wird. Die verfügbaren Optionen sind ann, apcnet, ccnet, cgnet, danet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, encnet, fastscnn, fcn, gcnet, hrnet, mobilenet_v2, mobilenet_v3, nonlocal_net, ocrnet, ocrnet_base, pointrend, psanet, pspnet, resnest, sem_fpn, unet und upernet. Die Standardeinstellung ist deeplabv3.
- model_weight: Wählen Sie aus, ob die Gewichtungen des vortrainierten Modells verwendet werden sollen. Die Standardeinstellung ist false. Der Wert kann auch ein Pfad zu einer Konfigurationsdatei mit den Gewichtungen eines Modells aus dem Repository "MMSegmentation" sein.
Alle Modelltypen unterstützen das Argument "chip_size", bei dem es sich um die Bildschnipselgröße der Trainingsgebiete handelt. Die Bildschnipselgröße wird aus der .emd-Datei in dem Ordner extrahiert, der im Parameter Eingabe-Trainingsdaten angegeben ist. | Value Table |
Backbone-Modell (optional) | Gibt das vorkonfigurierte neuronale Netzwerk an, das als Architektur für das Training des neuen Modells verwendet werden soll. Diese Methode wird als Transfer Learning bezeichnet. - DenseNet-121—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 121 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
- DenseNet-161—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 161 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
- DenseNet-169—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 169 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
- DenseNet-201—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes dichtes Netzwerk, das mehr als 1 Million Bilder und 201 Layer enthält. Im Gegensatz zur RESNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
- MobileNet-Version 2—Dieses vorkonfigurierte Modell wird auf der Imagenet-Datenbank trainiert und enthält 54 Layer. Es ist auf Edgegeräte-Computing ausgerichtet, da es weniger Speicher benötigt.
- ResNet -18—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 18 Layer enthält.
- ResNet -34—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 34 Layer enthält. Dies ist die Standardeinstellung.
- ResNet -50—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 50 Layer enthält.
- ResNet -101—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 101 Layer enthält.
- ResNet -152—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes Residualnetzwerk, das mehr als 1 Million Bilder und 152 Layer enthält.
- VGG-11—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 11 Layer umfasst.
- VGG-11 mit Batch-Normalisierung—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 11 Layer.
- VGG-13—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 13 Layer umfasst.
- VGG-13 mit Batch-Normalisierung—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 13 Layer.
- VGG-16—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 16 Layer umfasst.
- VGG-16 mit Batch-Normalisierung—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 16 Layer.
- VGG-19—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 19 Layer umfasst.
- VGG-19 mit Batch-Normalisierung—Dieses vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem Imagenet-Dataset trainiert und enthält 19 Layer.
- DarkNet-53—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder und 53 Layer enthält.
- Reid_v1—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset für das Objekt-Tracking trainiertes neuronales Faltungsnetzwerk.
- Reid_v2—Das vorkonfigurierte Modell ist ein auf dem Imagenet-Dataset für das Objekt-Tracking trainiertes neuronales Faltungsnetzwerk.
| String |