Deep-Learning-Argumente

Mit der Image Analyst-Lizenz verfügbar.

Argumente sind eine der zahlreichen Möglichkeiten, mit denen gesteuert werden kann, wie Deep-Learning-Modelle trainiert und verwendet werden. In diesem Thema sind in der ersten Tabelle die unterstützten Modellargumente für das Trainieren von Deep-Learning-Modellen aufgeführt. Die zweite Tabelle enthält die Argumente, mit denen gesteuert werden kann, wie Deep-Learning-Modelle für die Inferenzierung verwendet werden.

Trainingsargumente

Das Werkzeug Deep-Learning-Modell trainieren enthält Argumente zum Trainieren von Deep-Learning-Modellen. Diese Argumente variieren je nach Modellarchitektur. Zum Trainieren eines Modells können Sie die Werte dieser Argumente ändern. Die Argumente lauten wie folgt:

  • attention_type: Gibt den Modultyp an. Die Standardeinstellung ist PAM.
  • attn_res: Aufmerksamkeitszahl in Residualblöcken. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 16. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • backend: Steuert das Backend-Framework, das für dieses Modell verwendet werden soll. Zur Verwendung von TensorFlow ändern Sie den Prozessortyp in CPU. Die Standardeinstellung ist pytorch.
  • bias: Verzerrung für SSD-Head (Single Shot Detector). Der Standardwert ist -0,4.
  • box_batch_size_per_image: Die Anzahl der Vorschläge, die während des Trainings der Klassifizierung als Stichprobe genommen werden. Der Standardwert ist 512.
  • box_bg_iou_thresh: Die maximale Intersection of Union (IoU) zwischen den Vorschlägen und dem Überprüfungsfeld (Ground Truth, GT), damit diese während des Trainings des Klassifikationskopfes als negativ angesehen werden können. Die Standardeinstellung ist 0,5.
  • box_detections_per_img: Die maximale Anzahl an Erkennungen pro Bild; für alle Klassen. Die Standardeinstellung ist 100.
  • box_fg_iou_thresh: Die minimale IoU zwischen den Vorschlägen und dem Überprüfungsfeld (GT), damit diese während des Trainings des Klassifikationskopfes als positiv angesehen werden können. Die Standardeinstellung ist 0,5.
  • box_nms_thresh: Der NMS-Schwellenwert (Non Maximum Suppression) für den Vorhersagekopf. Wird während der Inferenzierung verwendet. Die Standardeinstellung ist 0,5.
  • box_positive_fraction: Der Anteil der positiven Vorschläge in einem minimalen Batch während des Trainings des Klassifikationskopfes. Der Standardwert ist 0,25.
  • box_score_thresh: Der Schwellenwert für den Klassifizierungswert, der erreicht werden muss, damit während der Inferenzierung Vorschläge zurückgegeben werden. Der Standardwert ist 0,05.
  • channel_mults: Optionale Tiefenmultiplikatoren für nachfolgende Auflösungen in U-Net. Der Standard ist 1, 2, 4, 4, 8, 8. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • channels_of_interest: Eine Liste der relevanten Spektralbänder (Kanäle). Hierdurch werden Bänder aus Rastern multitemporaler Zeitserien auf Grundlage dieser Liste herausgefiltert. Wenn ein Dataset etwa die Bänder 0–4 enthält, für das Training aber nur die Bänder 0, 1 und 2 verwendet werden sollen, lautet die Liste [0,1,2].
  • chip_size: Die Größe des Bildes, das zum Trainieren des Modells verwendet wird. Bilder werden auf die angegebene Schnipselgröße zugeschnitten.
  • class_balancing: Gibt an, ob der Kreuzentropie-Verlust umgekehrt proportional zur Pixelhäufigkeit pro Klasse ausgeglichen wird. Die Standardeinstellung ist "False".
  • d_k: Die Dimension der Schlüssel- und Abfragevektoren. Der Standardwert ist 32.
  • decode_params: Ein Wörterbuch, das steuert, wie Image Captioner ausgeführt wird. Es besteht aus den folgenden Parametern: embed_size, hidden_size, attention_size, teacher_forcing, dropout und pretrained_emb. teacher_forcing ist die Wahrscheinlichkeit für Teacher Forcing. Teacher Forcing ist eine Strategie für das Trainieren rekurrenter neuronaler Netzwerke. Dabei wird im Rahmen der Backpropagation statt der vorherigen Ausgabe die Modellausgabe aus einem vorherigen Zeitschritt als Eingabe verwendet. pretrained_emb gibt an, ob die Einbettung von vortrainiertem Text verwendet werden soll. Bei True wird schnelle Texteinbettung verwendet. Bei False wird die vortrainierte Texteinbettung nicht verwendet.
  • depth: Die Tiefe des Modells. Der Standardwert ist 17.
  • dice_loss_average: Geben Sie an, ob Mikro- oder Makro-Mittelwertberechnung verwendet werden soll. Bei einem Makrodurchschnitt wird der Kennwert unabhängig für jede Klasse berechnet, und dann wird der Durchschnitt gebildet. So werden alle Klassen gleich behandelt. Bei einem Mikrodurchschnitt werden die Beiträge aller Klassen aggregiert, um den durchschnittlichen Kennwert zu berechnen. In einem Klassifizierungssystem mit mehreren Klassen ist der Mikrodurchschnitt vorzuziehen, wenn Sie ein Klassenungleichgewicht vermuten, bei dem eine Klasse viel mehr Stichproben bereitstellt als andere Klassen. Die Standardeinstellung ist micro.
  • dice_loss_fraction: Wird verwendet, um die Gewichtung des Standardverlustes (oder Fokusverlustes) im Vergleich zum Würfelverlust im Gesamtverlust anzupassen, um das Training zu steuern. Die Standardeinstellung ist 0. Wird focal_loss auf true gesetzt, wird anstelle des Standardverlustes der Fokusverlust verwendet. Wird dice_loss_fraction auf 0 gesetzt, wird der Standardverlust (oder Fokusverlust) als Gesamtverlust verwendet, um das Training zu steuern. Wenn "dice_loss fraction" größer als 0 ist, wird beim Training eine Formel verwendet, die den Gesamtverlust zum Steuern des Trainings angibt:
    =(1 – dice_loss_fraction)*default_loss + dice_loss_fraction*dice_loss
  • downsample_factor: Der Faktor zum Reduzieren der Bilder. Die Standardeinstellung ist 4.
  • drop: Die Abbruchwahrscheinlichkeit. Erhöhen Sie den Wert, um die Überanpassung zu reduzieren. Der Standardwert ist 0,3.
  • dropout: Die Abbruchwahrscheinlichkeit. Erhöhen Sie den Wert, um die Überanpassung zu reduzieren. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • embed_dim: Die Dimension von Einbettungen. Der Standardwert ist 768.
  • feat_loss: Gibt an, ob der Verlust des Diskriminator-Feature-Abgleichs verwendet wird. Der Standardwert ist "True".
  • focal_loss: Gibt an, ob Fokusverlust verwendet wird. Die Standardeinstellung ist "False".
  • gaussian_thresh: Der Gauß'sche Schwellenwert, mit dem die erforderliche Straßenbreite festgelegt wird. Der gültige Bereich liegt zwischen 0,0 und 1,0. Der Standardwert ist 0,76.
  • gen_blocks: Die Anzahl der ResNet-Blöcke, die im Generator verwendet werden sollen. Der Standardwert ist 9.
  • gen_network: Wählen Sie das Modell aus, das für den Generator verwendet werden soll. Verwenden Sie global, wenn der Computer nur wenig GPU-Speicher hat. Die Standardeinstellung ist local.
  • grids: Die Anzahl der Gitternetze, in die das Bild für die Verarbeitung aufgeteilt wird. Das Festlegen dieses Arguments auf "4" bedeutet beispielsweise, dass das Bild in 4 x 4 oder 16 Gitterzellen aufgeteilt wird. Wenn kein Wert angegeben wird, wird der optimale Gitternetzwert auf der Grundlage der Eingabe-Bilddaten berechnet.
  • ignore_classes: Die Liste der Klassenwerte, bei denen das Modell keinen Verlust verzeichnen wird.
  • inner_channel: Die Dimension des ersten U-Net-Layers. Dies ist ein optionaler ganzzahliger Wert. Die Standardeinstellung ist 64. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • keep_dilation: Geben Sie an, ob keep_dilation verwendet werden soll. Wurde "True" festgelegt und wird die pointrend-Architektur verwendet, kann dies die Genauigkeit zu Lasten des Speicherbedarfs verbessern. Die Standardeinstellung ist "False".
  • lambda_feat: Die Gewichtung für den Verlust des Feature-Abgleichs. Die Standardeinstellung ist 10.
  • lambda_l1: Die Gewichtung für den Verlust des Feature-Abgleichs. Die Standardeinstellung ist 100. Diese Option wird für 3-Band-Bilddaten nicht unterstützt.
  • linear_end: Ein optionaler ganzzahliger Wert zum Planen des Endes. Der Standardwert ist 1e-06. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • linear_start: Ein optionaler ganzzahliger Wert zum Planen des Starts. Der Standardwert ist 1e-02. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • lsgan: Gibt an, ob die mittlere quadratische Abweichung im Training verwendet wird. Bei "False" wird stattdessen die binäre Kreuzentropie verwendet. Der Standardwert ist "True".
  • location_loss_factor: Legt die Gewichtung des Verlustes des umgebenden Feldes fest. Dieser Faktor passt den Fokus des Models an die Position des umgebenden Rechtecks an. Wenn "Keine" festgelegt wird, erhalten die Position und der Klassifizierungsverlust die gleiche Gewichtung.
  • min_points: Die Anzahl der Pixel in den einzelnen maskierten Trainingsgebieten. Dieser Wert muss ein Vielfaches von 64 sein.
  • mixup: Legen Sie fest, ob mixup verwendet wird. Bei Angabe von "True" werden neue Trainigsbilder erstellt, indem Bilder von Trainingssätzen kombiniert werden. Die Standardeinstellung ist "False".
  • mlp_ratio: Das Verhältnis von Multilayer-Perpceptronen (MLP). Die Standardeinstellung ist 4.
  • mlp1: Die Dimensionen weiterer Feature-Räume von MLP1. Die Standardeinstellung ist 32,64.
  • mlp2: Die Dimensionen weiterer Feature-Räume von MLP2. Die Standardeinstellung ist 128,128.
  • mlp4: Die Dimensionen von Decoder-MLP. Die Standardeinstellung ist 64,32.
  • model: Das Backbone-Modell, das zum Trainieren des Modells verwendet wird. Die verfügbaren Backbones sind abhängig vom angegebenen Parameterwert Modelltyp. Dieses Argument wird nur für die Modelltypen MMDetection und MMSegmentation unterstützt. Der Standardwert für MMDetection ist "cascade_rcnn". Der Standardwert für MMSegmentation ist "mask2former".
  • model_weight: Gibt an, ob die Gewichtungen des vorab trainierten Modells verwendet werden sollen. Die Standardeinstellung ist "False". Der Wert kann auch ein Pfad zu einer Konfigurationsdatei mit den Gewichtungen eines Modells aus dem Repository "MMDetection" oder dem Repository "MMSegmentation" sein.
  • monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Die verfügbaren Kennwerte sind abhängig vom Parameterwert Modelltyp. Die Standardeinstellung ist valid_loss.
  • mtl_model: Gibt den Architekturtyp an, der zum Erstellen des Modells verwendet werden soll. Die Optionen sind linknet oder hourglass für linknet-basierte bzw. sanduhrbasierte neuronale Architekturen. Die Standardeinstellung ist hourglass.
  • n_blocks_global: Die Anzahl der Residualblöcke im globalen Generatornetzwerk. Der Standardwert ist 9.
  • n_blocks_local: Die Anzahl der Residualblöcke im globalen Enhancer-Netzwerk. Der Standardwert ist 3.
  • n_downsample_global: Die Anzahl der Reduzierungs-Layer im globalen Generatornetzwerk.
  • n_dscr: Die Anzahl der zu verwendenden Diskriminatoren. Die Standardeinstellung ist 2.
  • n_dscr_filters: Die Anzahl der Diskriminatorfilter im ersten Faltungs-Layer. Die Standardeinstellung ist 64.
  • n_gen_filters: Die Anzahl der Generationenfilter im ersten Faltungs-Layer. Die Standardeinstellung ist 64.
  • n_head: Die Anzahl der Attention-Heads. Die Standardeinstellung ist 4.
  • n_layers_dscr: Die Anzahl der Layer für das in Pix2PixHD verwendete Diskriminatornetzwerk. Der Standardwert ist 3.
  • n_local_enhancers: Die Anzahl der lokalen Enhancer, die verwendet werden sollen. Die Standardeinstellung ist 1.
  • n_masks: Gibt die maximale Anzahl der Klassenbeschriftungen und Instanzen an, die ein Bild enthalten kann. Der Standardwert ist 30.
  • n_timestep: Ein optionaler Wert für die Anzahl an Diffusionszeitschritten. Der Standardwert ist 1000. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • norm: Gibt an, ob die Instanznormalisierung oder Batch-Normalisierung verwendet wird. Die Standardeinstellung ist instance.
  • norm_groups: Die Anzahl der Gruppen für die Gruppennormalisierung. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 32. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • num_heads: Die Anzahl der Attention-Heads. Der Standardwert ist 12.
  • orient_bin_size: Die Abschnittsgröße für Ausrichtungswinkel. Die Standardeinstellung ist 20.
  • orient_theta: Die Breite der Ausrichtungsmaske. Der Standardwert ist 8.
  • oversample: Gibt an, ob Oversampling eingesetzt werden soll. Bei Angabe von "True" wird beim Training für unausgewogene Klassen des Datasets Oversampling verwendet. Diese Option wird für Datasets mit mehreren Beschriftungen nicht unterstützt. Die Standardeinstellung ist "False".
  • patch_size: Die Mustergröße für die Generierung von Mustereinbettungen. Der Standardwert ist 16.
  • perceptual_loss: Gibt an, ob perzeptueller Verlust im Training verwendet werden soll. Die Standardeinstellung ist "False".
  • pointrend: Gibt an, ob die PointRend-Architektur auf dem Segmentierungskopf verwendet werden soll. Weitere Informationen zur PointRend-Architektur finden Sie in der PDF-Datei zu PointRend. Die Standardeinstellung ist "False".
  • pooling: Die zu verwendende Pooling-Strategie für die Pixeleinbettung. Der Standardwert ist mean
  • pyramid_sizes: Die Anzahl und Größe der Faltungs-Layer, die auf die verschiedenen Unterregionen anzuwenden sind. Die Standardeinstellung ist [1,2,3,6]. Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell.
  • qkv_bias: Gibt an, ob QK-Vektor-Verzerrung im Training verwendet werden soll. Die Standardeinstellung ist "False".
  • ratios: Die Liste der für die Ankerboxen zu verwendenden Seitenverhältnisse. Bei der Objekterkennung stellt eine Ankerbox die ideale Position, Form und Größe des vorhergesagten Objekts dar. Das Festlegen dieses Arguments auf [1,0,1,0], [1,0, 0,5] bedeutet beispielsweise, dass die Ankerbox ein Quadrat (1:1) oder ein Rechteck ist, bei dem die horizontale Seite halb so groß ist wie die vertikale Seite (1:0,5). Die Standardeinstellung für RetinaNet ist [0,5,1,2]. Die Standardeinstellung für Single Shot Detector ist [1,0, 1,0].
  • res_blocks: Die Anzahl der Residualblöcke. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 3. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • rpn_batch_size_per_image: Die Anzahl der Anker, die während des Trainings des RPN zur Berechnung des Verlustes als Stichprobe genommen werden. Der Standardwert ist 256.
  • rpn_bg_iou_thresh: Die maximale IoU zwischen dem Anker und dem Überprüfungsfeld (GT), damit diese während des Trainings des RPN als negativ angesehen werden können. Der Standardwert ist 0,3.
  • rpn_fg_iou_thresh: Die minimale IoU zwischen dem Anker und dem Überprüfungsfeld (GT), damit diese während des Trainings des RPN als positiv angesehen werden können. Der Standardwert ist 0,7.
  • rpn_nms_thresh: Der NMS-Schwellenwert, der für die Nachbearbeitung der RPN-Vorschläge verwendet wird. Der Standardwert ist 0,7.
  • rpn_positive_fraction: Der Anteil der positiven Anker in einem minimalen Batch während des Trainings des RPN. Die Standardeinstellung ist 0,5.
  • rpn_post_nms_top_n_test: Die Anzahl der Vorschläge, die nach Anwendung von NMS während des Testens beibehalten werden sollen. Der Standardwert ist 1000.
  • rpn_post_nms_top_n_train: Die Anzahl der Vorschläge, die nach Anwendung von NMS während des Trainings beibehalten werden sollen. Der Standardwert ist 2000.
  • rpn_pre_nms_top_n_test: Die Anzahl der Vorschläge, die vor Anwendung von NMS während des Testens beibehalten werden sollen. Der Standardwert ist 1000.
  • rpn_pre_nms_top_n_train: Die Anzahl der Vorschläge, die vor Anwendung von NMS während des Trainings beibehalten werden sollen. Der Standardwert ist 2000.
  • scales: Die Anzahl der Maßstabsebenen, die jede Zelle hoch- oder herunterskaliert wird. Die Standardeinstellung ist [1, 0,8, 0,63].
  • schedule: Ein optionales Argument zum Festlegen des zu verwendenden Zeitplans. Die Optionen sind linear, warmup10, warmup50, const, jsd und cosine. Der Standardwert ist linear. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
  • T: Der Zeitraum, der für die Positionscodierung verwendet werden soll. Der Standardwert ist 1000.
  • timesteps_of_interest: Die Liste der relevanten Zeitschritte. Hiermit werden multitemporale Zeitserien auf der Grundlage der angegebenen Liste von Zeitschritten gefiltert. Enthält das Dataset etwa die Zeitschritte 0, 1, 2 und 3 und werden nur die Zeitschritte 0, 1 und 2 für das Training verwendet, würde dieser Parameter auf [0,1,2]; the rest of the time-steps will be filtered out. gesetzt.
  • use_net: Gibt an, ob der U-Net-Decoder zum Wiederherstellen von Daten verwendet wird, nachdem das Pyramiden-Pooling abgeschlossen ist. Der Standardwert ist "True". Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell.
  • vgg_loss: Geben Sie an, ob der Verlust des VGG-Feature-Abgleichs verwendet wird. Diese Option wird nur für 3-Band-Bilddaten unterstützt. Der Standardwert ist "True".
  • zooms: Die Anzahl der Zoomstufen, die jede Zelle hoch- oder herunterskaliert wird. Das Festlegen des Arguments auf 1 bedeutet, dass alle Gitterzellen die gleiche Größe oder Zoomstufe beibehalten. Eine Zoomstufe von 2 bedeutet, dass alle Gitterzellen zwei Mal so groß werden (um 100 Prozent vergrößert). Die Bereitstellung einer Liste von Zoomstufen bedeutet, dass alle Gitterzellen mit allen Zahlen in der Liste skaliert werden. Die Standardeinstellung ist 1.

ModelltypArgumentGültige Werte

Change Detector

(Pixelklassifizierung)

attention_type

PAM (Pyramid Attention Module) oder BAM (Basic Attention Module). Die Standardeinstellung ist PAM.

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße.

monitor

valid_loss, precision, recall und f1.

ConnectNet

(Pixelklassifizierung)

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße.

gaussian_thresh

0,0 bis 1,0. Der Standardwert ist 0,76.

monitor

valid_loss, accuracy, miou und dice.

mtl_model

linknet oder hourglass.

orient_bin_size

Eine positive Zahl. Die Standardeinstellung ist 20.

orient_theta

Eine positive Zahl. Der Standardwert ist 8.

CycleGAN

(Bild-zu-Bild-Übersetzung)

gen_blocks

Eine positive ganze Zahl. Der Standardwert ist 9.

lsgan

true oder false. Die Standardeinstellung ist true.

DeepLabv

(Pixelklassifizierung)

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße.

class_balancing

true oder false.

dice_loss_average

micro oder macro. Die Standardeinstellung ist micro.

dice_loss_fraction

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0.

focal_loss

true oder false.

ignore_classes

Gültige Klassenwerte.

keep_dilation

true oder false. Die Standardeinstellung ist false.

mixup

true oder false.

monitor

valid_loss und accuracy.

pointrend

true oder false. Die Standardeinstellung ist false.

FasterRCNN

(Objekterkennung)

box_batch_size_per_image

Positive Ganzzahlen. Der Standardwert ist 512.

box_bg_iou_thresh

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.

box_detections_per_img

Positive Ganzzahlen. Die Standardeinstellung ist 100.

box_fg_iou_thresh

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.

box_nms_thresh

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.

box_positive_fraction

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,25.

box_score_thresh

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,05.

rpn_batch_size_per_image

Positive Ganzzahlen. Der Standardwert ist 256.

rpn_bg_iou_thresh

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,3.

rpn_fg_iou_thresh

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7.

rpn_nms_thresh

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7.

rpn_positive_fraction

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.

rpn_post_nms_top_n_test

Positive Ganzzahlen. Der Standardwert ist 1000.

rpn_post_nms_top_n_train

Positive Ganzzahlen. Der Standardwert ist 2000.

rpn_pre_nms_top_n_test

Positive Ganzzahlen. Der Standardwert ist 1000.

rpn_pre_nms_top_n_train

Positive Ganzzahlen. Der Standardwert ist 2000.

Feature Classifier

(Objektklassifizierung)

backend

pytorch oder tensorflow. Die Standardeinstellung ist pytorch.

mixup

true oder false. Die Standardeinstellung ist false.

oversample

true oder false. Die Standardeinstellung ist false.

Image Captioner

(Bild-zu-Bild-Übersetzung)

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße.

Das Argument decode_params besteht aus den folgenden Parametern:

  • embed_size
  • hidden_size
  • attention_size
  • teacher_forcing
  • dropout
  • pretrained_emb

Die Standardeinstellung ist {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.

monitor

valid_loss, accuracy, corpus_bleu und multi_label_fbeta.

MaskRCNN

(Objekterkennung)

box_batch_size_per_image

Positive Ganzzahlen. Der Standardwert ist 512.

box_bg_iou_thresh

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.

box_detections_per_img

Positive Ganzzahlen. Die Standardeinstellung ist 100.

box_fg_iou_thresh

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.

box_nms_thresh

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.

box_positive_fraction

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,25.

box_score_thresh

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,05.

rpn_batch_size_per_image

Positive Ganzzahlen. Der Standardwert ist 256.

rpn_bg_iou_thresh

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,3.

rpn_fg_iou_thresh

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7.

rpn_nms_thresh

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7.

rpn_positive_fraction

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.

rpn_post_nms_top_n_test

Positive Ganzzahlen. Der Standardwert ist 1000.

rpn_post_nms_top_n_train

Positive Ganzzahlen. Der Standardwert ist 2000.

rpn_pre_nms_top_n_test

Positive Ganzzahlen. Der Standardwert ist 1000.

rpn_pre_nms_top_n_train

Positive Ganzzahlen. Der Standardwert ist 2000.

MaXDeepLab

(panoptische Segmentierung)

n_masks

Positive Ganzzahlen. Der Standardwert ist 30.

MMDetection

(Objekterkennung)

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße.

model

atss, carafe, cascade_rcnn, cascade_rpn, dcn, deeplabv3, detectors, dino, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl und vfnet.

Die Standardeinstellung ist deeplabv3.

model_weight

true oder false.

MMSegmentation

(Pixelklassifizierung)

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße.

model

ann, apcnet, ccnet, cgnet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, fastscnn, fcn, gcnet, hrnet, mask2former, mobilenet_v2, nonlocal_net, ocrnet, prithvi100m, psanet, pspnet, resnest, sem_fpn, unet und upernet.

Die Standardeinstellung ist mask2former.

model_weight

true oder false.

Multi Task Road Extractor

(Pixelklassifizierung)

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße.

gaussian_thresh

0,0 bis 1,0. Der Standardwert ist 0,76.

monitor

valid_loss, accuracy, miou und dice.

mtl_model

linknet oder hourglass.

orient_bin_size

Eine positive Zahl. Die Standardeinstellung ist 20.

orient_theta

Eine positive Zahl. Der Standardwert ist 8.

Pix2Pix

(Bild-zu-Bild-Übersetzung)

perceptual_loss

true oder false. Die Standardeinstellung ist false.

Pix2PixHD

(Bild-zu-Bild-Übersetzung)

gen_network

local oder global. Die Standardeinstellung ist local.

feat_loss

true oder false. Die Standardeinstellung ist true.

lambda_feat

Positive ganzzahlige Werte. Die Standardeinstellung ist 10.

lambda_l1

Positive ganzzahlige Werte. Die Standardeinstellung ist 100.

lsgan

true oder false. Die Standardeinstellung ist true.

n_blocks_global

Positive ganzzahlige Werte. Der Standardwert ist 9.

n_blocks_local

Positive ganzzahlige Werte. Der Standardwert ist 3.

n_downsample_global

Positive ganzzahlige Werte. Die Standardeinstellung ist 4.

n_dscr

Positive ganzzahlige Werte. Die Standardeinstellung ist 2.

n_dscr_filters

Positive ganzzahlige Werte. Die Standardeinstellung ist 64.

n_gen_filters

Positive ganzzahlige Werte. Die Standardeinstellung ist 64.

n_layers_dscr

Positive ganzzahlige Werte. Der Standardwert ist 3.

n_local_enhancers

Positive ganzzahlige Werte. Die Standardeinstellung ist 1.

norm

instance oder batch. Die Standardeinstellung ist instance.

vgg_loss

true oder false. Die Standardeinstellung ist true.

PSETAE

(Pixelklassifizierung)

channels_of_interest

Liste der Bandnummern (positive Ganzzahlen).

d_k

Positive ganzzahlige Werte. Der Standardwert ist 32.

dropout

Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,2.

min_points

Ganzzahlige Vielfache von 64.

mlp1

Liste positiver Ganzzahlen. Die Standardeinstellung ist 32, 64.

mlp2

Liste positiver Ganzzahlen. Die Standardeinstellung ist 128, 128.

mlp4

Liste positiver Ganzzahlen. Die Standardeinstellung ist 64, 32.

n_head

Positive ganzzahlige Werte. Die Standardeinstellung ist 4.

pooling

mean, std, max oder min.

T

Positive ganzzahlige Werte. Der Standardwert ist 1000.

timesteps_of_interest

Liste positiver Ganzzahlen.

Pyramid Scene Parsing Network

(Pixelklassifizierung)

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße.

class_balancing

true oder false.

dice_loss_average

micro oder macro. Die Standardeinstellung ist micro.

dice_loss_fraction

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0.

focal_loss

true oder false.

ignore_classes

Gültige Klassenwerte.

keep_dilation

true oder false. Die Standardeinstellung ist false.

monitor

valid_loss oder accuracy.

mixup

true oder false.

pointrend

true oder false. Die Standardeinstellung ist false.

pyramid_sizes

[Faltungs-Layer 1, Faltungs-Layer 2, ... , Faltungs-Layer n]

use_net

true oder false.

RetinaNet

(Objekterkennung)

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße.

monitor

valid_loss oder average_precision.

ratios

Verhältniswert 1, Verhältniswert 2, Verhältniswert 3.

Die Standardeinstellung ist 0.5,1,2.

scales

[Maßstabswert 1, Maßstabswert 2, Maßstabswert 3]

Die Standardeinstellung ist [1, 0.8, 0.63].

SAMLoRA

(Pixelklassifizierung)

class_balancing

true oder false.

ignore_classes

Gültige Klassenwerte.

Single Shot Detector

(Objekterkennung)

backend

pytorch oder tensorflow. Die Standardeinstellung ist pytorch.

bias

Gleitkommawert. Der Standardwert ist -0,4.

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße. Der Standardwert ist 0,3.

drop

Gleitkommawert zwischen 0 und 1.

focal_loss

true oder false. Die Standardeinstellung ist false.

grids

Ganzzahlige Werte größer als 0.

location_loss_factor

Gleitkommawert zwischen 0 und 1.

monitor

valid_loss oder average_precision.

ratios

[horizontaler Wert, vertikaler Wert]

zooms

Der Zoomwert, wobei 1,0 der normale Zoomwert ist.

Super-Resolution für SR3-Backbone

(Bild-zu-Bild-Übersetzung)

attn_res

Ganze Zahlen größer als 0. Der Standardwert ist 16.

channel_mults

Ganzzahlige Multiplikatorgruppen. Der Standardwert beträgt [1, 2, 4, 4, 8, 8].

downsample_factor

Positiver ganzzahliger Wert. Die Standardeinstellung ist 4.

dropout

Gleitkommawert. Die Standardeinstellung ist 0.

inner_channel

Ganzzahliger Wert größer als 0. Die Standardeinstellung ist 64.

linear_start

Ganzzahliger Zeitwert. Der Standardwert ist 1e-02.

linear_end

Ganzzahliger Zeitwert. Der Standardwert ist 1e-06.

n_timestep 

Ganzzahliger Wert größer als 0. Der Standardwert ist 1000.

norm_groups

Ganzzahliger Wert größer als 0. Der Standardwert ist 32.

res_blocks

Ganzzahliger Wert größer als 0. Der Standardwert ist 3.

schedule 

linear, warmup10, warmup50, const, jsd oder cosine.

Die Standardeinstellung ist linear.

Super-Resolution für SR3_UViT-Backbone

(Bild-zu-Bild-Übersetzung)

depth

Positiver ganzzahliger Punktwert. Der Standardwert ist 17.

embed_dim

Positiver ganzzahliger Punktwert. Der Standardwert ist 768.

mlp_ratio

Positiver Gleitkommawert. Der Standardwert ist 4,0.

num_heads

Positiver ganzzahliger Punktwert. Der Standardwert ist 12.

patch_size

Positiver ganzzahliger Punktwert. Der Standardwert ist 16.

qkv_bias

true oder false. Die Standardeinstellung ist false.

U-Net

(Pixelklassifizierung)

chip_size

Ganze Zahlen zwischen 0 und der Bildgröße.

class_balancing

true oder false.

dice_loss_average

micro oder macro. Die Standardeinstellung ist micro.

dice_loss_fraction

Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0.

focal_loss

true oder false.

ignore_classes

Gültige Klassenwerte.

monitor

valid_loss oder accuracy.

mixup

true oder false.

Inferenzierungsargumente

Mit den folgenden Argumenten kann gesteuert werden, wie Deep-Learning-Modelle für die Inferenzierung trainiert werden. Die Informationen aus dem Parameter Modelldefinition werden zum Füllen des Parameters Argumente in den Inferenzwerkzeugen verwendet. Diese Argumente variieren je nach Modellarchitektur. Vortrainierte ArcGIS-Modelle und benutzerdefinierte Deep-Learning-Modelle enthalten ggf. zusätzliche von dem Werkzeug unterstützte Argumente.

ArgumentInferenztypGültige Werte

batch_size

Die Anzahl der in den einzelnen Schritten der Modellinferenz verarbeiteten Kacheln. Dieser Wert hängt vom Speicher der Grafikkarte ab. Das Argument ist für alle Modellarchitekturen verfügbar.

Objekte klassifizieren

Pixel klassifizieren

Änderung erkennen

Objekte erkennen

Ganzzahlige Werte größer als 0; in der Regel eine ganze Zahl, die eine Potenz von 2n ist.

direction

Das Bild wird von einer Domäne in eine andere übertragen. Weitere Informationen zu diesem Argument finden Sie unter How CycleGAN works.

Das Argument ist nur für die Architektur CycleGAN verfügbar.

Pixel klassifizieren

Die verfügbaren Optionen lauten AtoB und BtoA.

exclude_pad_detections

\Wenn "True" ausgewählt ist, werden potenziell gekürzte Erkennungen in der Nähe der Kanten im aufgefüllten Bereich von Bildschnipseln gefiltert.

Das Argument ist nur für SSD, RetinaNet, YOLOv3, DETReg, MMDetection und Faster RCNN verfügbar.

Objekte erkennen

true oder false.

merge_policy

Die Richtlinie für das Zusammenführen erweiterter Vorhersagen. Dies gilt nur bei Verwendung von Test-Time-Augmentation.

Beim Werkzeug Pixel mit Deep Learning klassifizieren ist das Argument für die Architekturen MultiTaskRoadExtractor und ConnectNet verfügbar. Wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind auch die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar.

Beim Werkzeug Objekte mit Deep Learning erkennen ist das Argument nur für MaskRCNN verfügbar.

Pixel klassifizieren

Objekte erkennen

Die verfügbaren Optionen sind mean, max und min.

nms_overlap

Die maximale Überlappungsrate für zwei überlappende Features, die als Verhältnis von Schnittfläche zu Vereinigungsfläche definiert ist. Das Argument ist für alle Modellarchitekturen verfügbar.

Objekte erkennen

Ein Gleitkommawert von 0,0 bis 1,0. Die Standardeinstellung ist 0,1.

output_classified_raster

Der Pfad zum Ausgabe-Raster. Das Argument ist nur für MaXDeepLab verfügbar.

Objekte erkennen

Der Dateipfad und -name für das klassifizierte Ausgabe-Raster.

padding

Die Anzahl von Pixeln am Rahmen von Bildkacheln, aus denen Vorhersagen für benachbarte Kacheln verschmolzen werden. Um die Ausgabe zu glätten und gleichzeitig Artefakte zu reduzieren, erhöhen Sie den Wert. Der Maximalwert für Padding ist die Hälfte des Wertes für die Kachelgröße. Das Argument ist für alle Modellarchitekturen verfügbar.

Pixel klassifizieren

Änderung erkennen

Objekte erkennen

Ganzzahlige Werte größer als 0 und kleiner als die Hälfte des Wertes der Kachelgröße.

predict_background

Wenn "true" festgelegt ist, wird auch die Hintergrundklasse klassifiziert. Das Argument ist für UNET, PSPNET, DeepLab und MMSegmentation verfügbar.

Pixel klassifizieren

true oder false.

return_probability_raster

Wenn "true" festgelegt ist, wird ein Wahrscheinlichkeits-Raster ausgegeben. Ein Wahrscheinlichkeits-Raster ist ein Raster, dessen Pixel die Wahrscheinlichkeit angeben, mit der eine untersuchte Variable über oder unter einem bestimmten Schwellenwert liegt.

Wenn ArcGISLearnVersion 1.8.4 oder höher in der .emd-Datei des Modells vorhanden ist, sind die Architekturen MultiTaskRoadExtractor und ConnectNet verfügbar. Bei ArcGISLearnVersion 1.8.4 oder höher und wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind auch die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar.

Pixel klassifizieren

true oder false.

score_threshold

Über diesem Konfidenzwert liegende Vorhersagen sind im Ergebnis enthalten. Das Argument ist für alle Modellarchitekturen verfügbar.

Objekte klassifizieren

0 bis 1,0

test_time_augmentation

Führt beim Erstellen von Vorhersagen Test-Time-Augmentation durch. Wenn "True" festgelegt ist, werden Vorhersagen für gekippte und gedrehte Varianten des Eingabebilds in der endgültigen Ausgabe zusammengeführt. Das Argument ist für die meisten Modellarchitekturen verfügbar.

Objekte klassifizieren

Pixel klassifizieren

true oder false.

threshold

Vorhersagen, deren Konfidenzwert höher als dieser Schwellenwert ist, sind im Ergebnis enthalten.

Beim Werkzeug Pixel mit Deep Learning klassifizieren sind die Architekturen MultiTaskRoadExtractor und ConnectNet verfügbar, wenn ArcGISLearnVersion 1.8.4 oder höher in der .emd-Datei des Modells vorhanden ist. Bei ArcGISLearnVersion 1.8.4 oder höher und wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind auch die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar.

Beim Werkzeug Objekte mit Deep Learning erkennen ist das Argument für alle Modellarchitekturen verfügbar.

Pixel klassifizieren

Objekte erkennen

0 bis 1,0.

thinning

Dünnt die vorhergesagten Kanten aus bzw. skelettiert diese.

Wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar.

Pixel klassifizieren

true oder false.

tile_size

tile_size: Die Breite und Höhe der Bildkacheln, in die die Bilddaten für Vorhersagen unterteilt werden

Beim Werkzeug Pixel mit Deep Learning klassifizieren ist das Argument nur für die Architektur CycleGAN verfügbar.

Beim Werkzeug Objekte mit Deep Learning erkennen ist das Argument nur für MaskRCNN verfügbar.

Pixel klassifizieren

Objekte erkennen

Ganzzahlige Werte größer als 0 und kleiner als die Bildgröße.

Verwandte Themen