Mit der Image Analyst-Lizenz verfügbar.
Argumente sind eine der zahlreichen Möglichkeiten, mit denen gesteuert werden kann, wie Deep-Learning-Modelle trainiert und verwendet werden. In diesem Thema sind in der ersten Tabelle die unterstützten Modellargumente für das Trainieren von Deep-Learning-Modellen aufgeführt. Die zweite Tabelle enthält die Argumente, mit denen gesteuert werden kann, wie Deep-Learning-Modelle für die Inferenzierung verwendet werden.
Trainingsargumente
Das Werkzeug Deep-Learning-Modell trainieren enthält Argumente zum Trainieren von Deep-Learning-Modellen. Diese Argumente variieren je nach Modellarchitektur. Zum Trainieren eines Modells können Sie die Werte dieser Argumente ändern. Die Argumente lauten wie folgt:
- attention_type: Gibt den Modultyp an. Die Standardeinstellung ist PAM.
- attn_res: Aufmerksamkeitszahl in Residualblöcken. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 16. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
- backend: Steuert das Backend-Framework, das für dieses Modell verwendet werden soll. Zur Verwendung von TensorFlow ändern Sie den Prozessortyp in CPU. Die Standardeinstellung ist pytorch.
- bias: Verzerrung für SSD-Head (Single Shot Detector). Der Standardwert ist -0,4.
- box_batch_size_per_image: Die Anzahl der Vorschläge, die während des Trainings der Klassifizierung als Stichprobe genommen werden. Der Standardwert ist 512.
- box_bg_iou_thresh: Die maximale Intersection of Union (IoU) zwischen den Vorschlägen und dem Überprüfungsfeld (Ground Truth, GT), damit diese während des Trainings des Klassifikationskopfes als negativ angesehen werden können. Die Standardeinstellung ist 0,5.
- box_detections_per_img: Die maximale Anzahl an Erkennungen pro Bild; für alle Klassen. Die Standardeinstellung ist 100.
- box_fg_iou_thresh: Die minimale IoU zwischen den Vorschlägen und dem Überprüfungsfeld (GT), damit diese während des Trainings des Klassifikationskopfes als positiv angesehen werden können. Die Standardeinstellung ist 0,5.
- box_nms_thresh: Der NMS-Schwellenwert (Non Maximum Suppression) für den Vorhersagekopf. Wird während der Inferenzierung verwendet. Die Standardeinstellung ist 0,5.
- box_positive_fraction: Der Anteil der positiven Vorschläge in einem minimalen Batch während des Trainings des Klassifikationskopfes. Der Standardwert ist 0,25.
- box_score_thresh: Der Schwellenwert für den Klassifizierungswert, der erreicht werden muss, damit während der Inferenzierung Vorschläge zurückgegeben werden. Der Standardwert ist 0,05.
- channel_mults: Optionale Tiefenmultiplikatoren für nachfolgende Auflösungen in U-Net. Der Standard ist 1, 2, 4, 4, 8, 8. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
- channels_of_interest: Eine Liste der relevanten Spektralbänder (Kanäle). Hierdurch werden Bänder aus Rastern multitemporaler Zeitserien auf Grundlage dieser Liste herausgefiltert. Wenn ein Dataset etwa die Bänder 0–4 enthält, für das Training aber nur die Bänder 0, 1 und 2 verwendet werden sollen, lautet die Liste [0,1,2].
- chip_size: Die Größe des Bildes, das zum Trainieren des Modells verwendet wird. Bilder werden auf die angegebene Schnipselgröße zugeschnitten.
- class_balancing: Gibt an, ob der Kreuzentropie-Verlust umgekehrt proportional zur Pixelhäufigkeit pro Klasse ausgeglichen wird. Die Standardeinstellung ist "False".
- d_k: Die Dimension der Schlüssel- und Abfragevektoren. Der Standardwert ist 32.
- decode_params: Ein Wörterbuch, das steuert, wie Image Captioner ausgeführt wird. Es besteht aus den folgenden Parametern: embed_size, hidden_size, attention_size, teacher_forcing, dropout und pretrained_emb. teacher_forcing ist die Wahrscheinlichkeit für Teacher Forcing. Teacher Forcing ist eine Strategie für das Trainieren rekurrenter neuronaler Netzwerke. Dabei wird im Rahmen der Backpropagation statt der vorherigen Ausgabe die Modellausgabe aus einem vorherigen Zeitschritt als Eingabe verwendet. pretrained_emb gibt an, ob die Einbettung von vortrainiertem Text verwendet werden soll. Bei True wird schnelle Texteinbettung verwendet. Bei False wird die vortrainierte Texteinbettung nicht verwendet.
- depth: Die Tiefe des Modells. Der Standardwert ist 17.
- dice_loss_average: Geben Sie an, ob Mikro- oder Makro-Mittelwertberechnung verwendet werden soll. Bei einem Makrodurchschnitt wird der Kennwert unabhängig für jede Klasse berechnet, und dann wird der Durchschnitt gebildet. So werden alle Klassen gleich behandelt. Bei einem Mikrodurchschnitt werden die Beiträge aller Klassen aggregiert, um den durchschnittlichen Kennwert zu berechnen. In einem Klassifizierungssystem mit mehreren Klassen ist der Mikrodurchschnitt vorzuziehen, wenn Sie ein Klassenungleichgewicht vermuten, bei dem eine Klasse viel mehr Stichproben bereitstellt als andere Klassen. Die Standardeinstellung ist micro.
- dice_loss_fraction: Wird verwendet, um die Gewichtung des Standardverlustes (oder Fokusverlustes) im Vergleich zum Würfelverlust im Gesamtverlust anzupassen, um das Training zu steuern. Die Standardeinstellung ist 0. Wird focal_loss auf true gesetzt, wird anstelle des Standardverlustes der Fokusverlust verwendet. Wird dice_loss_fraction auf 0 gesetzt, wird der Standardverlust (oder Fokusverlust) als Gesamtverlust verwendet, um das Training zu steuern. Wenn "dice_loss fraction" größer als 0 ist, wird beim Training eine Formel verwendet, die den Gesamtverlust zum Steuern des Trainings angibt:
=(1 – dice_loss_fraction)*default_loss + dice_loss_fraction*dice_loss
- downsample_factor: Der Faktor zum Reduzieren der Bilder. Die Standardeinstellung ist 4.
- drop: Die Abbruchwahrscheinlichkeit. Erhöhen Sie den Wert, um die Überanpassung zu reduzieren. Der Standardwert ist 0,3.
- dropout: Die Abbruchwahrscheinlichkeit. Erhöhen Sie den Wert, um die Überanpassung zu reduzieren. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
- embed_dim: Die Dimension von Einbettungen. Der Standardwert ist 768.
- feat_loss: Gibt an, ob der Verlust des Diskriminator-Feature-Abgleichs verwendet wird. Der Standardwert ist "True".
- focal_loss: Gibt an, ob Fokusverlust verwendet wird. Die Standardeinstellung ist "False".
- gaussian_thresh: Der Gauß'sche Schwellenwert, mit dem die erforderliche Straßenbreite festgelegt wird. Der gültige Bereich liegt zwischen 0,0 und 1,0. Der Standardwert ist 0,76.
- gen_blocks: Die Anzahl der ResNet-Blöcke, die im Generator verwendet werden sollen. Der Standardwert ist 9.
- gen_network: Wählen Sie das Modell aus, das für den Generator verwendet werden soll. Verwenden Sie global, wenn der Computer nur wenig GPU-Speicher hat. Die Standardeinstellung ist local.
- grids: Die Anzahl der Gitternetze, in die das Bild für die Verarbeitung aufgeteilt wird. Das Festlegen dieses Arguments auf "4" bedeutet beispielsweise, dass das Bild in 4 x 4 oder 16 Gitterzellen aufgeteilt wird. Wenn kein Wert angegeben wird, wird der optimale Gitternetzwert auf der Grundlage der Eingabe-Bilddaten berechnet.
- ignore_classes: Die Liste der Klassenwerte, bei denen das Modell keinen Verlust verzeichnen wird.
- inner_channel: Die Dimension des ersten U-Net-Layers. Dies ist ein optionaler ganzzahliger Wert. Die Standardeinstellung ist 64. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
- keep_dilation: Geben Sie an, ob keep_dilation verwendet werden soll. Wurde "True" festgelegt und wird die pointrend-Architektur verwendet, kann dies die Genauigkeit zu Lasten des Speicherbedarfs verbessern. Die Standardeinstellung ist "False".
- lambda_feat: Die Gewichtung für den Verlust des Feature-Abgleichs. Die Standardeinstellung ist 10.
- lambda_l1: Die Gewichtung für den Verlust des Feature-Abgleichs. Die Standardeinstellung ist 100. Diese Option wird für 3-Band-Bilddaten nicht unterstützt.
- linear_end: Ein optionaler ganzzahliger Wert zum Planen des Endes. Der Standardwert ist 1e-06. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
- linear_start: Ein optionaler ganzzahliger Wert zum Planen des Starts. Der Standardwert ist 1e-02. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
- lsgan: Gibt an, ob die mittlere quadratische Abweichung im Training verwendet wird. Bei "False" wird stattdessen die binäre Kreuzentropie verwendet. Der Standardwert ist "True".
- location_loss_factor: Legt die Gewichtung des Verlustes des umgebenden Feldes fest. Dieser Faktor passt den Fokus des Models an die Position des umgebenden Rechtecks an. Wenn "Keine" festgelegt wird, erhalten die Position und der Klassifizierungsverlust die gleiche Gewichtung.
- min_points: Die Anzahl der Pixel in den einzelnen maskierten Trainingsgebieten. Dieser Wert muss ein Vielfaches von 64 sein.
- mixup: Legen Sie fest, ob mixup verwendet wird. Bei Angabe von "True" werden neue Trainigsbilder erstellt, indem Bilder von Trainingssätzen kombiniert werden. Die Standardeinstellung ist "False".
- mlp_ratio: Das Verhältnis von Multilayer-Perpceptronen (MLP). Die Standardeinstellung ist 4.
- mlp1: Die Dimensionen weiterer Feature-Räume von MLP1. Die Standardeinstellung ist 32,64.
- mlp2: Die Dimensionen weiterer Feature-Räume von MLP2. Die Standardeinstellung ist 128,128.
- mlp4: Die Dimensionen von Decoder-MLP. Die Standardeinstellung ist 64,32.
- model: Das Backbone-Modell, das zum Trainieren des Modells verwendet wird. Die verfügbaren Backbones sind abhängig vom angegebenen Parameterwert Modelltyp. Dieses Argument wird nur für die Modelltypen MMDetection und MMSegmentation unterstützt. Der Standardwert für MMDetection ist "cascade_rcnn". Der Standardwert für MMSegmentation ist "mask2former".
- model_weight: Gibt an, ob die Gewichtungen des vorab trainierten Modells verwendet werden sollen. Die Standardeinstellung ist "False". Der Wert kann auch ein Pfad zu einer Konfigurationsdatei mit den Gewichtungen eines Modells aus dem Repository "MMDetection" oder dem Repository "MMSegmentation" sein.
- monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Die verfügbaren Kennwerte sind abhängig vom Parameterwert Modelltyp. Die Standardeinstellung ist valid_loss.
- mtl_model: Gibt den Architekturtyp an, der zum Erstellen des Modells verwendet werden soll. Die Optionen sind linknet oder hourglass für linknet-basierte bzw. sanduhrbasierte neuronale Architekturen. Die Standardeinstellung ist hourglass.
- n_blocks_global: Die Anzahl der Residualblöcke im globalen Generatornetzwerk. Der Standardwert ist 9.
- n_blocks_local: Die Anzahl der Residualblöcke im globalen Enhancer-Netzwerk. Der Standardwert ist 3.
- n_downsample_global: Die Anzahl der Reduzierungs-Layer im globalen Generatornetzwerk.
- n_dscr: Die Anzahl der zu verwendenden Diskriminatoren. Die Standardeinstellung ist 2.
- n_dscr_filters: Die Anzahl der Diskriminatorfilter im ersten Faltungs-Layer. Die Standardeinstellung ist 64.
- n_gen_filters: Die Anzahl der Generationenfilter im ersten Faltungs-Layer. Die Standardeinstellung ist 64.
- n_head: Die Anzahl der Attention-Heads. Die Standardeinstellung ist 4.
- n_layers_dscr: Die Anzahl der Layer für das in Pix2PixHD verwendete Diskriminatornetzwerk. Der Standardwert ist 3.
- n_local_enhancers: Die Anzahl der lokalen Enhancer, die verwendet werden sollen. Die Standardeinstellung ist 1.
- n_masks: Gibt die maximale Anzahl der Klassenbeschriftungen und Instanzen an, die ein Bild enthalten kann. Der Standardwert ist 30.
- n_timestep: Ein optionaler Wert für die Anzahl an Diffusionszeitschritten. Der Standardwert ist 1000. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
- norm: Gibt an, ob die Instanznormalisierung oder Batch-Normalisierung verwendet wird. Die Standardeinstellung ist instance.
- norm_groups: Die Anzahl der Gruppen für die Gruppennormalisierung. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 32. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
- num_heads: Die Anzahl der Attention-Heads. Der Standardwert ist 12.
- orient_bin_size: Die Abschnittsgröße für Ausrichtungswinkel. Die Standardeinstellung ist 20.
- orient_theta: Die Breite der Ausrichtungsmaske. Der Standardwert ist 8.
- oversample: Gibt an, ob Oversampling eingesetzt werden soll. Bei Angabe von "True" wird beim Training für unausgewogene Klassen des Datasets Oversampling verwendet. Diese Option wird für Datasets mit mehreren Beschriftungen nicht unterstützt. Die Standardeinstellung ist "False".
- patch_size: Die Mustergröße für die Generierung von Mustereinbettungen. Der Standardwert ist 16.
- perceptual_loss: Gibt an, ob perzeptueller Verlust im Training verwendet werden soll. Die Standardeinstellung ist "False".
- pointrend: Gibt an, ob die PointRend-Architektur auf dem Segmentierungskopf verwendet werden soll. Weitere Informationen zur PointRend-Architektur finden Sie in der PDF-Datei zu PointRend. Die Standardeinstellung ist "False".
- pooling: Die zu verwendende Pooling-Strategie für die Pixeleinbettung. Der Standardwert ist mean
- pyramid_sizes: Die Anzahl und Größe der Faltungs-Layer, die auf die verschiedenen Unterregionen anzuwenden sind. Die Standardeinstellung ist [1,2,3,6]. Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell.
- qkv_bias: Gibt an, ob QK-Vektor-Verzerrung im Training verwendet werden soll. Die Standardeinstellung ist "False".
- ratios: Die Liste der für die Ankerboxen zu verwendenden Seitenverhältnisse. Bei der Objekterkennung stellt eine Ankerbox die ideale Position, Form und Größe des vorhergesagten Objekts dar. Das Festlegen dieses Arguments auf [1,0,1,0], [1,0, 0,5] bedeutet beispielsweise, dass die Ankerbox ein Quadrat (1:1) oder ein Rechteck ist, bei dem die horizontale Seite halb so groß ist wie die vertikale Seite (1:0,5). Die Standardeinstellung für RetinaNet ist [0,5,1,2]. Die Standardeinstellung für Single Shot Detector ist [1,0, 1,0].
- res_blocks: Die Anzahl der Residualblöcke. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 3. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
- rpn_batch_size_per_image: Die Anzahl der Anker, die während des Trainings des RPN zur Berechnung des Verlustes als Stichprobe genommen werden. Der Standardwert ist 256.
- rpn_bg_iou_thresh: Die maximale IoU zwischen dem Anker und dem Überprüfungsfeld (GT), damit diese während des Trainings des RPN als negativ angesehen werden können. Der Standardwert ist 0,3.
- rpn_fg_iou_thresh: Die minimale IoU zwischen dem Anker und dem Überprüfungsfeld (GT), damit diese während des Trainings des RPN als positiv angesehen werden können. Der Standardwert ist 0,7.
- rpn_nms_thresh: Der NMS-Schwellenwert, der für die Nachbearbeitung der RPN-Vorschläge verwendet wird. Der Standardwert ist 0,7.
- rpn_positive_fraction: Der Anteil der positiven Anker in einem minimalen Batch während des Trainings des RPN. Die Standardeinstellung ist 0,5.
- rpn_post_nms_top_n_test: Die Anzahl der Vorschläge, die nach Anwendung von NMS während des Testens beibehalten werden sollen. Der Standardwert ist 1000.
- rpn_post_nms_top_n_train: Die Anzahl der Vorschläge, die nach Anwendung von NMS während des Trainings beibehalten werden sollen. Der Standardwert ist 2000.
- rpn_pre_nms_top_n_test: Die Anzahl der Vorschläge, die vor Anwendung von NMS während des Testens beibehalten werden sollen. Der Standardwert ist 1000.
- rpn_pre_nms_top_n_train: Die Anzahl der Vorschläge, die vor Anwendung von NMS während des Trainings beibehalten werden sollen. Der Standardwert ist 2000.
- scales: Die Anzahl der Maßstabsebenen, die jede Zelle hoch- oder herunterskaliert wird. Die Standardeinstellung ist [1, 0,8, 0,63].
- schedule: Ein optionales Argument zum Festlegen des zu verwendenden Zeitplans. Die Optionen sind linear, warmup10, warmup50, const, jsd und cosine. Der Standardwert ist linear. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
- T: Der Zeitraum, der für die Positionscodierung verwendet werden soll. Der Standardwert ist 1000.
- timesteps_of_interest: Die Liste der relevanten Zeitschritte. Hiermit werden multitemporale Zeitserien auf der Grundlage der angegebenen Liste von Zeitschritten gefiltert. Enthält das Dataset etwa die Zeitschritte 0, 1, 2 und 3 und werden nur die Zeitschritte 0, 1 und 2 für das Training verwendet, würde dieser Parameter auf [0,1,2]; the rest of the time-steps will be filtered out. gesetzt.
- use_net: Gibt an, ob der U-Net-Decoder zum Wiederherstellen von Daten verwendet wird, nachdem das Pyramiden-Pooling abgeschlossen ist. Der Standardwert ist "True". Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell.
- vgg_loss: Geben Sie an, ob der Verlust des VGG-Feature-Abgleichs verwendet wird. Diese Option wird nur für 3-Band-Bilddaten unterstützt. Der Standardwert ist "True".
- zooms: Die Anzahl der Zoomstufen, die jede Zelle hoch- oder herunterskaliert wird. Das Festlegen des Arguments auf 1 bedeutet, dass alle Gitterzellen die gleiche Größe oder Zoomstufe beibehalten. Eine Zoomstufe von 2 bedeutet, dass alle Gitterzellen zwei Mal so groß werden (um 100 Prozent vergrößert). Die Bereitstellung einer Liste von Zoomstufen bedeutet, dass alle Gitterzellen mit allen Zahlen in der Liste skaliert werden. Die Standardeinstellung ist 1.
Modelltyp | Argument | Gültige Werte |
---|---|---|
Change Detector (Pixelklassifizierung) | attention_type | PAM (Pyramid Attention Module) oder BAM (Basic Attention Module). Die Standardeinstellung ist PAM. |
chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. | |
monitor | valid_loss, precision, recall und f1. | |
ConnectNet (Pixelklassifizierung) | chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. |
gaussian_thresh | 0,0 bis 1,0. Der Standardwert ist 0,76. | |
monitor | valid_loss, accuracy, miou und dice. | |
mtl_model | linknet oder hourglass. | |
orient_bin_size | Eine positive Zahl. Die Standardeinstellung ist 20. | |
orient_theta | Eine positive Zahl. Der Standardwert ist 8. | |
CycleGAN (Bild-zu-Bild-Übersetzung) | gen_blocks | Eine positive ganze Zahl. Der Standardwert ist 9. |
lsgan | true oder false. Die Standardeinstellung ist true. | |
DeepLabv (Pixelklassifizierung) | chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. |
class_balancing | true oder false. | |
dice_loss_average | micro oder macro. Die Standardeinstellung ist micro. | |
dice_loss_fraction | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0. | |
focal_loss | true oder false. | |
ignore_classes | Gültige Klassenwerte. | |
keep_dilation | true oder false. Die Standardeinstellung ist false. | |
mixup | true oder false. | |
monitor | valid_loss und accuracy. | |
pointrend | true oder false. Die Standardeinstellung ist false. | |
FasterRCNN (Objekterkennung) | box_batch_size_per_image | Positive Ganzzahlen. Der Standardwert ist 512. |
box_bg_iou_thresh | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5. | |
box_detections_per_img | Positive Ganzzahlen. Die Standardeinstellung ist 100. | |
box_fg_iou_thresh | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5. | |
box_nms_thresh | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5. | |
box_positive_fraction | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,25. | |
box_score_thresh | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,05. | |
rpn_batch_size_per_image | Positive Ganzzahlen. Der Standardwert ist 256. | |
rpn_bg_iou_thresh | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,3. | |
rpn_fg_iou_thresh | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7. | |
rpn_nms_thresh | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7. | |
rpn_positive_fraction | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5. | |
rpn_post_nms_top_n_test | Positive Ganzzahlen. Der Standardwert ist 1000. | |
rpn_post_nms_top_n_train | Positive Ganzzahlen. Der Standardwert ist 2000. | |
rpn_pre_nms_top_n_test | Positive Ganzzahlen. Der Standardwert ist 1000. | |
rpn_pre_nms_top_n_train | Positive Ganzzahlen. Der Standardwert ist 2000. | |
Feature Classifier (Objektklassifizierung) | backend | pytorch oder tensorflow. Die Standardeinstellung ist pytorch. |
mixup | true oder false. Die Standardeinstellung ist false. | |
oversample | true oder false. Die Standardeinstellung ist false. | |
Image Captioner (Bild-zu-Bild-Übersetzung) | chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. |
Das Argument decode_params besteht aus den folgenden Parametern:
| Die Standardeinstellung ist {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}. | |
monitor | valid_loss, accuracy, corpus_bleu und multi_label_fbeta. | |
MaskRCNN (Objekterkennung) | box_batch_size_per_image | Positive Ganzzahlen. Der Standardwert ist 512. |
box_bg_iou_thresh | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5. | |
box_detections_per_img | Positive Ganzzahlen. Die Standardeinstellung ist 100. | |
box_fg_iou_thresh | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5. | |
box_nms_thresh | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5. | |
box_positive_fraction | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,25. | |
box_score_thresh | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,05. | |
rpn_batch_size_per_image | Positive Ganzzahlen. Der Standardwert ist 256. | |
rpn_bg_iou_thresh | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,3. | |
rpn_fg_iou_thresh | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7. | |
rpn_nms_thresh | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7. | |
rpn_positive_fraction | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5. | |
rpn_post_nms_top_n_test | Positive Ganzzahlen. Der Standardwert ist 1000. | |
rpn_post_nms_top_n_train | Positive Ganzzahlen. Der Standardwert ist 2000. | |
rpn_pre_nms_top_n_test | Positive Ganzzahlen. Der Standardwert ist 1000. | |
rpn_pre_nms_top_n_train | Positive Ganzzahlen. Der Standardwert ist 2000. | |
MaXDeepLab (panoptische Segmentierung) | n_masks | Positive Ganzzahlen. Der Standardwert ist 30. |
MMDetection (Objekterkennung) | chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. |
model | atss, carafe, cascade_rcnn, cascade_rpn, dcn, deeplabv3, detectors, dino, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl und vfnet. Die Standardeinstellung ist deeplabv3. | |
model_weight | true oder false. | |
MMSegmentation (Pixelklassifizierung) | chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. |
model | ann, apcnet, ccnet, cgnet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, fastscnn, fcn, gcnet, hrnet, mask2former, mobilenet_v2, nonlocal_net, ocrnet, prithvi100m, psanet, pspnet, resnest, sem_fpn, unet und upernet. Die Standardeinstellung ist mask2former. | |
model_weight | true oder false. | |
Multi Task Road Extractor (Pixelklassifizierung) | chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. |
gaussian_thresh | 0,0 bis 1,0. Der Standardwert ist 0,76. | |
monitor | valid_loss, accuracy, miou und dice. | |
mtl_model | linknet oder hourglass. | |
orient_bin_size | Eine positive Zahl. Die Standardeinstellung ist 20. | |
orient_theta | Eine positive Zahl. Der Standardwert ist 8. | |
Pix2Pix (Bild-zu-Bild-Übersetzung) | perceptual_loss | true oder false. Die Standardeinstellung ist false. |
Pix2PixHD (Bild-zu-Bild-Übersetzung) | gen_network | local oder global. Die Standardeinstellung ist local. |
feat_loss | true oder false. Die Standardeinstellung ist true. | |
lambda_feat | Positive ganzzahlige Werte. Die Standardeinstellung ist 10. | |
lambda_l1 | Positive ganzzahlige Werte. Die Standardeinstellung ist 100. | |
lsgan | true oder false. Die Standardeinstellung ist true. | |
n_blocks_global | Positive ganzzahlige Werte. Der Standardwert ist 9. | |
n_blocks_local | Positive ganzzahlige Werte. Der Standardwert ist 3. | |
n_downsample_global | Positive ganzzahlige Werte. Die Standardeinstellung ist 4. | |
n_dscr | Positive ganzzahlige Werte. Die Standardeinstellung ist 2. | |
n_dscr_filters | Positive ganzzahlige Werte. Die Standardeinstellung ist 64. | |
n_gen_filters | Positive ganzzahlige Werte. Die Standardeinstellung ist 64. | |
n_layers_dscr | Positive ganzzahlige Werte. Der Standardwert ist 3. | |
n_local_enhancers | Positive ganzzahlige Werte. Die Standardeinstellung ist 1. | |
norm | instance oder batch. Die Standardeinstellung ist instance. | |
vgg_loss | true oder false. Die Standardeinstellung ist true. | |
PSETAE (Pixelklassifizierung) | channels_of_interest | Liste der Bandnummern (positive Ganzzahlen). |
d_k | Positive ganzzahlige Werte. Der Standardwert ist 32. | |
dropout | Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,2. | |
min_points | Ganzzahlige Vielfache von 64. | |
mlp1 | Liste positiver Ganzzahlen. Die Standardeinstellung ist 32, 64. | |
mlp2 | Liste positiver Ganzzahlen. Die Standardeinstellung ist 128, 128. | |
mlp4 | Liste positiver Ganzzahlen. Die Standardeinstellung ist 64, 32. | |
n_head | Positive ganzzahlige Werte. Die Standardeinstellung ist 4. | |
pooling | mean, std, max oder min. | |
T | Positive ganzzahlige Werte. Der Standardwert ist 1000. | |
timesteps_of_interest | Liste positiver Ganzzahlen. | |
Pyramid Scene Parsing Network (Pixelklassifizierung) | chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. |
class_balancing | true oder false. | |
dice_loss_average | micro oder macro. Die Standardeinstellung ist micro. | |
dice_loss_fraction | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0. | |
focal_loss | true oder false. | |
ignore_classes | Gültige Klassenwerte. | |
keep_dilation | true oder false. Die Standardeinstellung ist false. | |
monitor | valid_loss oder accuracy. | |
mixup | true oder false. | |
pointrend | true oder false. Die Standardeinstellung ist false. | |
pyramid_sizes | [Faltungs-Layer 1, Faltungs-Layer 2, ... , Faltungs-Layer n] | |
use_net | true oder false. | |
RetinaNet (Objekterkennung) | chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. |
monitor | valid_loss oder average_precision. | |
ratios | Verhältniswert 1, Verhältniswert 2, Verhältniswert 3. Die Standardeinstellung ist 0.5,1,2. | |
scales | [Maßstabswert 1, Maßstabswert 2, Maßstabswert 3] Die Standardeinstellung ist [1, 0.8, 0.63]. | |
SAMLoRA (Pixelklassifizierung) | class_balancing | true oder false. |
ignore_classes | Gültige Klassenwerte. | |
Single Shot Detector (Objekterkennung) | backend | pytorch oder tensorflow. Die Standardeinstellung ist pytorch. |
bias | Gleitkommawert. Der Standardwert ist -0,4. | |
chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. Der Standardwert ist 0,3. | |
drop | Gleitkommawert zwischen 0 und 1. | |
focal_loss | true oder false. Die Standardeinstellung ist false. | |
grids | Ganzzahlige Werte größer als 0. | |
location_loss_factor | Gleitkommawert zwischen 0 und 1. | |
monitor | valid_loss oder average_precision. | |
ratios | [horizontaler Wert, vertikaler Wert] | |
zooms | Der Zoomwert, wobei 1,0 der normale Zoomwert ist. | |
Super-Resolution für SR3-Backbone (Bild-zu-Bild-Übersetzung) | attn_res | Ganze Zahlen größer als 0. Der Standardwert ist 16. |
channel_mults | Ganzzahlige Multiplikatorgruppen. Der Standardwert beträgt [1, 2, 4, 4, 8, 8]. | |
downsample_factor | Positiver ganzzahliger Wert. Die Standardeinstellung ist 4. | |
dropout | Gleitkommawert. Die Standardeinstellung ist 0. | |
inner_channel | Ganzzahliger Wert größer als 0. Die Standardeinstellung ist 64. | |
linear_start | Ganzzahliger Zeitwert. Der Standardwert ist 1e-02. | |
linear_end | Ganzzahliger Zeitwert. Der Standardwert ist 1e-06. | |
n_timestep | Ganzzahliger Wert größer als 0. Der Standardwert ist 1000. | |
norm_groups | Ganzzahliger Wert größer als 0. Der Standardwert ist 32. | |
res_blocks | Ganzzahliger Wert größer als 0. Der Standardwert ist 3. | |
schedule | linear, warmup10, warmup50, const, jsd oder cosine. Die Standardeinstellung ist linear. | |
Super-Resolution für SR3_UViT-Backbone (Bild-zu-Bild-Übersetzung) | depth | Positiver ganzzahliger Punktwert. Der Standardwert ist 17. |
embed_dim | Positiver ganzzahliger Punktwert. Der Standardwert ist 768. | |
mlp_ratio | Positiver Gleitkommawert. Der Standardwert ist 4,0. | |
num_heads | Positiver ganzzahliger Punktwert. Der Standardwert ist 12. | |
patch_size | Positiver ganzzahliger Punktwert. Der Standardwert ist 16. | |
qkv_bias | true oder false. Die Standardeinstellung ist false. | |
U-Net (Pixelklassifizierung) | chip_size | Ganze Zahlen zwischen 0 und der Bildgröße. |
class_balancing | true oder false. | |
dice_loss_average | micro oder macro. Die Standardeinstellung ist micro. | |
dice_loss_fraction | Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0. | |
focal_loss | true oder false. | |
ignore_classes | Gültige Klassenwerte. | |
monitor | valid_loss oder accuracy. | |
mixup | true oder false. |
Inferenzierungsargumente
Mit den folgenden Argumenten kann gesteuert werden, wie Deep-Learning-Modelle für die Inferenzierung trainiert werden. Die Informationen aus dem Parameter Modelldefinition werden zum Füllen des Parameters Argumente in den Inferenzwerkzeugen verwendet. Diese Argumente variieren je nach Modellarchitektur. Vortrainierte ArcGIS-Modelle und benutzerdefinierte Deep-Learning-Modelle enthalten ggf. zusätzliche von dem Werkzeug unterstützte Argumente.
Argument | Inferenztyp | Gültige Werte | |
---|---|---|---|
batch_size | Die Anzahl der in den einzelnen Schritten der Modellinferenz verarbeiteten Kacheln. Dieser Wert hängt vom Speicher der Grafikkarte ab. Das Argument ist für alle Modellarchitekturen verfügbar. | Objekte klassifizieren Pixel klassifizieren Änderung erkennen Objekte erkennen | Ganzzahlige Werte größer als 0; in der Regel eine ganze Zahl, die eine Potenz von 2n ist. |
direction | Das Bild wird von einer Domäne in eine andere übertragen. Weitere Informationen zu diesem Argument finden Sie unter How CycleGAN works. Das Argument ist nur für die Architektur CycleGAN verfügbar. | Pixel klassifizieren | Die verfügbaren Optionen lauten AtoB und BtoA. |
exclude_pad_detections | \Wenn "True" ausgewählt ist, werden potenziell gekürzte Erkennungen in der Nähe der Kanten im aufgefüllten Bereich von Bildschnipseln gefiltert. Das Argument ist nur für SSD, RetinaNet, YOLOv3, DETReg, MMDetection und Faster RCNN verfügbar. | Objekte erkennen | true oder false. |
merge_policy | Die Richtlinie für das Zusammenführen erweiterter Vorhersagen. Dies gilt nur bei Verwendung von Test-Time-Augmentation. Beim Werkzeug Pixel mit Deep Learning klassifizieren ist das Argument für die Architekturen MultiTaskRoadExtractor und ConnectNet verfügbar. Wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind auch die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar. Beim Werkzeug Objekte mit Deep Learning erkennen ist das Argument nur für MaskRCNN verfügbar. | Pixel klassifizieren Objekte erkennen | Die verfügbaren Optionen sind mean, max und min. |
nms_overlap | Die maximale Überlappungsrate für zwei überlappende Features, die als Verhältnis von Schnittfläche zu Vereinigungsfläche definiert ist. Das Argument ist für alle Modellarchitekturen verfügbar. | Objekte erkennen | Ein Gleitkommawert von 0,0 bis 1,0. Die Standardeinstellung ist 0,1. |
output_classified_raster | Der Pfad zum Ausgabe-Raster. Das Argument ist nur für MaXDeepLab verfügbar. | Objekte erkennen | Der Dateipfad und -name für das klassifizierte Ausgabe-Raster. |
padding | Die Anzahl von Pixeln am Rahmen von Bildkacheln, aus denen Vorhersagen für benachbarte Kacheln verschmolzen werden. Um die Ausgabe zu glätten und gleichzeitig Artefakte zu reduzieren, erhöhen Sie den Wert. Der Maximalwert für Padding ist die Hälfte des Wertes für die Kachelgröße. Das Argument ist für alle Modellarchitekturen verfügbar. | Pixel klassifizieren Änderung erkennen Objekte erkennen | Ganzzahlige Werte größer als 0 und kleiner als die Hälfte des Wertes der Kachelgröße. |
predict_background | Wenn "true" festgelegt ist, wird auch die Hintergrundklasse klassifiziert. Das Argument ist für UNET, PSPNET, DeepLab und MMSegmentation verfügbar. | Pixel klassifizieren | true oder false. |
return_probability_raster | Wenn "true" festgelegt ist, wird ein Wahrscheinlichkeits-Raster ausgegeben. Ein Wahrscheinlichkeits-Raster ist ein Raster, dessen Pixel die Wahrscheinlichkeit angeben, mit der eine untersuchte Variable über oder unter einem bestimmten Schwellenwert liegt. Wenn ArcGISLearnVersion 1.8.4 oder höher in der .emd-Datei des Modells vorhanden ist, sind die Architekturen MultiTaskRoadExtractor und ConnectNet verfügbar. Bei ArcGISLearnVersion 1.8.4 oder höher und wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind auch die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar. | Pixel klassifizieren | true oder false. |
score_threshold | Über diesem Konfidenzwert liegende Vorhersagen sind im Ergebnis enthalten. Das Argument ist für alle Modellarchitekturen verfügbar. | Objekte klassifizieren | 0 bis 1,0 |
test_time_augmentation | Führt beim Erstellen von Vorhersagen Test-Time-Augmentation durch. Wenn "True" festgelegt ist, werden Vorhersagen für gekippte und gedrehte Varianten des Eingabebilds in der endgültigen Ausgabe zusammengeführt. Das Argument ist für die meisten Modellarchitekturen verfügbar. | Objekte klassifizieren Pixel klassifizieren | true oder false. |
threshold | Vorhersagen, deren Konfidenzwert höher als dieser Schwellenwert ist, sind im Ergebnis enthalten. Beim Werkzeug Pixel mit Deep Learning klassifizieren sind die Architekturen MultiTaskRoadExtractor und ConnectNet verfügbar, wenn ArcGISLearnVersion 1.8.4 oder höher in der .emd-Datei des Modells vorhanden ist. Bei ArcGISLearnVersion 1.8.4 oder höher und wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind auch die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar. Beim Werkzeug Objekte mit Deep Learning erkennen ist das Argument für alle Modellarchitekturen verfügbar. | Pixel klassifizieren Objekte erkennen | 0 bis 1,0. |
thinning | Dünnt die vorhergesagten Kanten aus bzw. skelettiert diese. Wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar. | Pixel klassifizieren | true oder false. |
tile_size | tile_size: Die Breite und Höhe der Bildkacheln, in die die Bilddaten für Vorhersagen unterteilt werden Beim Werkzeug Pixel mit Deep Learning klassifizieren ist das Argument nur für die Architektur CycleGAN verfügbar. Beim Werkzeug Objekte mit Deep Learning erkennen ist das Argument nur für MaskRCNN verfügbar. | Pixel klassifizieren Objekte erkennen | Ganzzahlige Werte größer als 0 und kleiner als die Bildgröße. |