Deep-Learning-Argumente—ArcGIS Pro

Mit der Image Analyst-Lizenz verfügbar.

Argumente sind eine der zahlreichen Möglichkeiten, mit denen gesteuert werden kann, wie Deep-Learning-Modelle trainiert und verwendet werden. In diesem Thema sind in der ersten Tabelle die unterstützten Modellargumente für das Trainieren von Deep-Learning-Modellen aufgeführt. Die zweite Tabelle enthält die Argumente, mit denen gesteuert werden kann, wie Deep-Learning-Modelle für die Inferenzierung verwendet werden.

Trainingsargumente

Das Werkzeug Deep-Learning-Modell trainieren enthält Argumente zum Trainieren von Deep-Learning-Modellen. Diese Argumente variieren je nach Modellarchitektur. Zum Trainieren eines Modells können Sie die Werte dieser Argumente ändern. Die Argumente lauten wie folgt:

attention_type: Gibt den Modultyp an. Die Standardeinstellung ist PAM.
attn_res: Aufmerksamkeitszahl in Residualblöcken. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 16. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
backend: Steuert das Backend-Framework, das für dieses Modell verwendet werden soll. Zur Verwendung von TensorFlow ändern Sie den Prozessortyp in CPU. Die Standardeinstellung ist pytorch.
bias: Verzerrung für SSD-Head (Single Shot Detector). Der Standardwert ist -0,4.
box_batch_size_per_image: Die Anzahl der Vorschläge, die während des Trainings der Klassifizierung als Stichprobe genommen werden. Der Standardwert ist 512.
box_bg_iou_thresh: Die maximale Intersection of Union (IoU) zwischen den Vorschlägen und dem Überprüfungsfeld (Ground Truth, GT), damit diese während des Trainings des Klassifikationskopfes als negativ angesehen werden können. Die Standardeinstellung ist 0,5.
box_detections_per_img: Die maximale Anzahl an Erkennungen pro Bild; für alle Klassen. Die Standardeinstellung ist 100.
box_fg_iou_thresh: Die minimale IoU zwischen den Vorschlägen und dem Überprüfungsfeld (GT), damit diese während des Trainings des Klassifikationskopfes als positiv angesehen werden können. Die Standardeinstellung ist 0,5.
box_nms_thresh: Der NMS-Schwellenwert (Non Maximum Suppression) für den Vorhersagekopf. Wird während der Inferenzierung verwendet. Die Standardeinstellung ist 0,5.
box_positive_fraction: Der Anteil der positiven Vorschläge in einem minimalen Batch während des Trainings des Klassifikationskopfes. Der Standardwert ist 0,25.
box_score_thresh: Der Schwellenwert für den Klassifizierungswert, der erreicht werden muss, damit während der Inferenzierung Vorschläge zurückgegeben werden. Der Standardwert ist 0,05.
channel_mults: Optionale Tiefenmultiplikatoren für nachfolgende Auflösungen in U-Net. Der Standard ist 1, 2, 4, 4, 8, 8. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
channels_of_interest: Eine Liste der relevanten Spektralbänder (Kanäle). Hierdurch werden Bänder aus Rastern multitemporaler Zeitserien auf Grundlage dieser Liste herausgefiltert. Wenn ein Dataset etwa die Bänder 0–4 enthält, für das Training aber nur die Bänder 0, 1 und 2 verwendet werden sollen, lautet die Liste [0,1,2].
chip_size: Die Größe des Bildes, das zum Trainieren des Modells verwendet wird. Bilder werden auf die angegebene Schnipselgröße zugeschnitten.
class_balancing: Gibt an, ob der Kreuzentropie-Verlust umgekehrt proportional zur Pixelhäufigkeit pro Klasse ausgeglichen wird. Die Standardeinstellung ist "False".
d_k: Die Dimension der Schlüssel- und Abfragevektoren. Der Standardwert ist 32.
decode_params: Ein Wörterbuch, das steuert, wie Image Captioner ausgeführt wird. Es besteht aus den folgenden Parametern: embed_size, hidden_size, attention_size, teacher_forcing, dropout und pretrained_emb. teacher_forcing ist die Wahrscheinlichkeit für Teacher Forcing. Teacher Forcing ist eine Strategie für das Trainieren rekurrenter neuronaler Netzwerke. Dabei wird im Rahmen der Backpropagation statt der vorherigen Ausgabe die Modellausgabe aus einem vorherigen Zeitschritt als Eingabe verwendet. pretrained_emb gibt an, ob die Einbettung von vortrainiertem Text verwendet werden soll. Bei True wird schnelle Texteinbettung verwendet. Bei False wird die vortrainierte Texteinbettung nicht verwendet.
depth: Die Tiefe des Modells. Der Standardwert ist 17.
dice_loss_average: Geben Sie an, ob Mikro- oder Makro-Mittelwertberechnung verwendet werden soll. Bei einem Makrodurchschnitt wird der Kennwert unabhängig für jede Klasse berechnet, und dann wird der Durchschnitt gebildet. So werden alle Klassen gleich behandelt. Bei einem Mikrodurchschnitt werden die Beiträge aller Klassen aggregiert, um den durchschnittlichen Kennwert zu berechnen. In einem Klassifizierungssystem mit mehreren Klassen ist der Mikrodurchschnitt vorzuziehen, wenn Sie ein Klassenungleichgewicht vermuten, bei dem eine Klasse viel mehr Stichproben bereitstellt als andere Klassen. Die Standardeinstellung ist micro.
dice_loss_fraction: Wird verwendet, um die Gewichtung des Standardverlustes (oder Fokusverlustes) im Vergleich zum Würfelverlust im Gesamtverlust anzupassen, um das Training zu steuern. Die Standardeinstellung ist 0. Wird focal_loss auf true gesetzt, wird anstelle des Standardverlustes der Fokusverlust verwendet. Wird dice_loss_fraction auf 0 gesetzt, wird der Standardverlust (oder Fokusverlust) als Gesamtverlust verwendet, um das Training zu steuern. Wenn "dice_loss fraction" größer als 0 ist, wird beim Training eine Formel verwendet, die den Gesamtverlust zum Steuern des Trainings angibt:
```
=(1 – dice_loss_fraction)*default_loss + dice_loss_fraction*dice_loss
```
downsample_factor: Der Faktor zum Reduzieren der Bilder. Die Standardeinstellung ist 4.
drop: Die Abbruchwahrscheinlichkeit. Erhöhen Sie den Wert, um die Überanpassung zu reduzieren. Der Standardwert ist 0,3.
dropout: Die Abbruchwahrscheinlichkeit. Erhöhen Sie den Wert, um die Überanpassung zu reduzieren. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
embed_dim: Die Dimension von Einbettungen. Der Standardwert ist 768.
feat_loss: Gibt an, ob der Verlust des Diskriminator-Feature-Abgleichs verwendet wird. Der Standardwert ist "True".
focal_loss: Gibt an, ob Fokusverlust verwendet wird. Die Standardeinstellung ist "False".
gaussian_thresh: Der Gauß'sche Schwellenwert, mit dem die erforderliche Straßenbreite festgelegt wird. Der gültige Bereich liegt zwischen 0,0 und 1,0. Der Standardwert ist 0,76.
gen_blocks: Die Anzahl der ResNet-Blöcke, die im Generator verwendet werden sollen. Der Standardwert ist 9.
gen_network: Wählen Sie das Modell aus, das für den Generator verwendet werden soll. Verwenden Sie global, wenn der Computer nur wenig GPU-Speicher hat. Die Standardeinstellung ist local.
grids: Die Anzahl der Gitternetze, in die das Bild für die Verarbeitung aufgeteilt wird. Das Festlegen dieses Arguments auf "4" bedeutet beispielsweise, dass das Bild in 4 x 4 oder 16 Gitterzellen aufgeteilt wird. Wenn kein Wert angegeben wird, wird der optimale Gitternetzwert auf der Grundlage der Eingabe-Bilddaten berechnet.
ignore_classes: Die Liste der Klassenwerte, bei denen das Modell keinen Verlust verzeichnen wird.
inner_channel: Die Dimension des ersten U-Net-Layers. Dies ist ein optionaler ganzzahliger Wert. Die Standardeinstellung ist 64. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
keep_dilation: Geben Sie an, ob keep_dilation verwendet werden soll. Wurde "True" festgelegt und wird die pointrend-Architektur verwendet, kann dies die Genauigkeit zu Lasten des Speicherbedarfs verbessern. Die Standardeinstellung ist "False".
lambda_feat: Die Gewichtung für den Verlust des Feature-Abgleichs. Die Standardeinstellung ist 10.
lambda_l1: Die Gewichtung für den Verlust des Feature-Abgleichs. Die Standardeinstellung ist 100. Diese Option wird für 3-Band-Bilddaten nicht unterstützt.
linear_end: Ein optionaler ganzzahliger Wert zum Planen des Endes. Der Standardwert ist 1e-06. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
linear_start: Ein optionaler ganzzahliger Wert zum Planen des Starts. Der Standardwert ist 1e-02. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
lsgan: Gibt an, ob die mittlere quadratische Abweichung im Training verwendet wird. Bei "False" wird stattdessen die binäre Kreuzentropie verwendet. Der Standardwert ist "True".
location_loss_factor: Legt die Gewichtung des Verlustes des umgebenden Feldes fest. Dieser Faktor passt den Fokus des Models an die Position des umgebenden Rechtecks an. Wenn "Keine" festgelegt wird, erhalten die Position und der Klassifizierungsverlust die gleiche Gewichtung.
min_points: Die Anzahl der Pixel in den einzelnen maskierten Trainingsgebieten. Dieser Wert muss ein Vielfaches von 64 sein.
mixup: Legen Sie fest, ob mixup verwendet wird. Bei Angabe von "True" werden neue Trainigsbilder erstellt, indem Bilder von Trainingssätzen kombiniert werden. Die Standardeinstellung ist "False".
mlp_ratio: Das Verhältnis von Multilayer-Perpceptronen (MLP). Die Standardeinstellung ist 4.
mlp1: Die Dimensionen weiterer Feature-Räume von MLP1. Die Standardeinstellung ist 32,64.
mlp2: Die Dimensionen weiterer Feature-Räume von MLP2. Die Standardeinstellung ist 128,128.
mlp4: Die Dimensionen von Decoder-MLP. Die Standardeinstellung ist 64,32.
model: Das Backbone-Modell, das zum Trainieren des Modells verwendet wird. Die verfügbaren Backbones sind abhängig vom angegebenen Parameterwert Modelltyp. Dieses Argument wird nur für die Modelltypen MMDetection und MMSegmentation unterstützt. Der Standardwert für MMDetection ist "cascade_rcnn". Der Standardwert für MMSegmentation ist "mask2former".
model_weight: Gibt an, ob die Gewichtungen des vorab trainierten Modells verwendet werden sollen. Die Standardeinstellung ist "False". Der Wert kann auch ein Pfad zu einer Konfigurationsdatei mit den Gewichtungen eines Modells aus dem Repository "MMDetection" oder dem Repository "MMSegmentation" sein.
monitor: Gibt an, welcher Kennwert bei Kontrollpunkten und frühzeitigem Beenden überwacht werden soll. Die verfügbaren Kennwerte sind abhängig vom Parameterwert Modelltyp. Die Standardeinstellung ist valid_loss.
mtl_model: Gibt den Architekturtyp an, der zum Erstellen des Modells verwendet werden soll. Die Optionen sind linknet oder hourglass für linknet-basierte bzw. sanduhrbasierte neuronale Architekturen. Die Standardeinstellung ist hourglass.
n_blocks_global: Die Anzahl der Residualblöcke im globalen Generatornetzwerk. Der Standardwert ist 9.
n_blocks_local: Die Anzahl der Residualblöcke im globalen Enhancer-Netzwerk. Der Standardwert ist 3.
n_downsample_global: Die Anzahl der Reduzierungs-Layer im globalen Generatornetzwerk.
n_dscr: Die Anzahl der zu verwendenden Diskriminatoren. Die Standardeinstellung ist 2.
n_dscr_filters: Die Anzahl der Diskriminatorfilter im ersten Faltungs-Layer. Die Standardeinstellung ist 64.
n_gen_filters: Die Anzahl der Generationenfilter im ersten Faltungs-Layer. Die Standardeinstellung ist 64.
n_head: Die Anzahl der Attention-Heads. Die Standardeinstellung ist 4.
n_layers_dscr: Die Anzahl der Layer für das in Pix2PixHD verwendete Diskriminatornetzwerk. Der Standardwert ist 3.
n_local_enhancers: Die Anzahl der lokalen Enhancer, die verwendet werden sollen. Die Standardeinstellung ist 1.
n_masks: Gibt die maximale Anzahl der Klassenbeschriftungen und Instanzen an, die ein Bild enthalten kann. Der Standardwert ist 30.
n_timestep: Ein optionaler Wert für die Anzahl an Diffusionszeitschritten. Der Standardwert ist 1000. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
norm: Gibt an, ob die Instanznormalisierung oder Batch-Normalisierung verwendet wird. Die Standardeinstellung ist instance.
norm_groups: Die Anzahl der Gruppen für die Gruppennormalisierung. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 32. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
num_heads: Die Anzahl der Attention-Heads. Der Standardwert ist 12.
orient_bin_size: Die Abschnittsgröße für Ausrichtungswinkel. Die Standardeinstellung ist 20.
orient_theta: Die Breite der Ausrichtungsmaske. Der Standardwert ist 8.
oversample: Gibt an, ob Oversampling eingesetzt werden soll. Bei Angabe von "True" wird beim Training für unausgewogene Klassen des Datasets Oversampling verwendet. Diese Option wird für Datasets mit mehreren Beschriftungen nicht unterstützt. Die Standardeinstellung ist "False".
patch_size: Die Mustergröße für die Generierung von Mustereinbettungen. Der Standardwert ist 16.
perceptual_loss: Gibt an, ob perzeptueller Verlust im Training verwendet werden soll. Die Standardeinstellung ist "False".
pointrend: Gibt an, ob die PointRend-Architektur auf dem Segmentierungskopf verwendet werden soll. Weitere Informationen zur PointRend-Architektur finden Sie in der PDF-Datei zu PointRend. Die Standardeinstellung ist "False".
pooling: Die zu verwendende Pooling-Strategie für die Pixeleinbettung. Der Standardwert ist mean
pyramid_sizes: Die Anzahl und Größe der Faltungs-Layer, die auf die verschiedenen Unterregionen anzuwenden sind. Die Standardeinstellung ist [1,2,3,6]. Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell.
qkv_bias: Gibt an, ob QK-Vektor-Verzerrung im Training verwendet werden soll. Die Standardeinstellung ist "False".
ratios: Die Liste der für die Ankerboxen zu verwendenden Seitenverhältnisse. Bei der Objekterkennung stellt eine Ankerbox die ideale Position, Form und Größe des vorhergesagten Objekts dar. Das Festlegen dieses Arguments auf [1,0,1,0], [1,0, 0,5] bedeutet beispielsweise, dass die Ankerbox ein Quadrat (1:1) oder ein Rechteck ist, bei dem die horizontale Seite halb so groß ist wie die vertikale Seite (1:0,5). Die Standardeinstellung für RetinaNet ist [0,5,1,2]. Die Standardeinstellung für Single Shot Detector ist [1,0, 1,0].
res_blocks: Die Anzahl der Residualblöcke. Dies ist ein optionaler ganzzahliger Wert. Der Standardwert ist 3. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
rpn_batch_size_per_image: Die Anzahl der Anker, die während des Trainings des RPN zur Berechnung des Verlustes als Stichprobe genommen werden. Der Standardwert ist 256.
rpn_bg_iou_thresh: Die maximale IoU zwischen dem Anker und dem Überprüfungsfeld (GT), damit diese während des Trainings des RPN als negativ angesehen werden können. Der Standardwert ist 0,3.
rpn_fg_iou_thresh: Die minimale IoU zwischen dem Anker und dem Überprüfungsfeld (GT), damit diese während des Trainings des RPN als positiv angesehen werden können. Der Standardwert ist 0,7.
rpn_nms_thresh: Der NMS-Schwellenwert, der für die Nachbearbeitung der RPN-Vorschläge verwendet wird. Der Standardwert ist 0,7.
rpn_positive_fraction: Der Anteil der positiven Anker in einem minimalen Batch während des Trainings des RPN. Die Standardeinstellung ist 0,5.
rpn_post_nms_top_n_test: Die Anzahl der Vorschläge, die nach Anwendung von NMS während des Testens beibehalten werden sollen. Der Standardwert ist 1000.
rpn_post_nms_top_n_train: Die Anzahl der Vorschläge, die nach Anwendung von NMS während des Trainings beibehalten werden sollen. Der Standardwert ist 2000.
rpn_pre_nms_top_n_test: Die Anzahl der Vorschläge, die vor Anwendung von NMS während des Testens beibehalten werden sollen. Der Standardwert ist 1000.
rpn_pre_nms_top_n_train: Die Anzahl der Vorschläge, die vor Anwendung von NMS während des Trainings beibehalten werden sollen. Der Standardwert ist 2000.
scales: Die Anzahl der Maßstabsebenen, die jede Zelle hoch- oder herunterskaliert wird. Die Standardeinstellung ist [1, 0,8, 0,63].
schedule: Ein optionales Argument zum Festlegen des zu verwendenden Zeitplans. Die Optionen sind linear, warmup10, warmup50, const, jsd und cosine. Der Standardwert ist linear. Dieses Argument wird nur unterstützt, wenn der Parameter Backbone-Modell den Wert SR3 hat.
T: Der Zeitraum, der für die Positionscodierung verwendet werden soll. Der Standardwert ist 1000.
timesteps_of_interest: Die Liste der relevanten Zeitschritte. Hiermit werden multitemporale Zeitserien auf der Grundlage der angegebenen Liste von Zeitschritten gefiltert. Enthält das Dataset etwa die Zeitschritte 0, 1, 2 und 3 und werden nur die Zeitschritte 0, 1 und 2 für das Training verwendet, würde dieser Parameter auf [0,1,2]; the rest of the time-steps will be filtered out. gesetzt.
use_net: Gibt an, ob der U-Net-Decoder zum Wiederherstellen von Daten verwendet wird, nachdem das Pyramiden-Pooling abgeschlossen ist. Der Standardwert ist "True". Dieses Argument gilt speziell für das Pyramid Scene Parsing Network-Modell.
vgg_loss: Geben Sie an, ob der Verlust des VGG-Feature-Abgleichs verwendet wird. Diese Option wird nur für 3-Band-Bilddaten unterstützt. Der Standardwert ist "True".
zooms: Die Anzahl der Zoomstufen, die jede Zelle hoch- oder herunterskaliert wird. Das Festlegen des Arguments auf 1 bedeutet, dass alle Gitterzellen die gleiche Größe oder Zoomstufe beibehalten. Eine Zoomstufe von 2 bedeutet, dass alle Gitterzellen zwei Mal so groß werden (um 100 Prozent vergrößert). Die Bereitstellung einer Liste von Zoomstufen bedeutet, dass alle Gitterzellen mit allen Zahlen in der Liste skaliert werden. Die Standardeinstellung ist 1.


Modelltyp	Argument	Gültige Werte
Change Detector (Pixelklassifizierung)	attention_type	PAM (Pyramid Attention Module) oder BAM (Basic Attention Module). Die Standardeinstellung ist PAM.
	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße.
	monitor	valid_loss, precision, recall und f1.
ConnectNet (Pixelklassifizierung)	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße.
	gaussian_thresh	0,0 bis 1,0. Der Standardwert ist 0,76.
	monitor	valid_loss, accuracy, miou und dice.
	mtl_model	linknet oder hourglass.
	orient_bin_size	Eine positive Zahl. Die Standardeinstellung ist 20.
	orient_theta	Eine positive Zahl. Der Standardwert ist 8.
CycleGAN (Bild-zu-Bild-Übersetzung)	gen_blocks	Eine positive ganze Zahl. Der Standardwert ist 9.
CycleGAN (Bild-zu-Bild-Übersetzung)	lsgan	true oder false. Die Standardeinstellung ist true.
DeepLabv (Pixelklassifizierung)	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße.
	class_balancing	true oder false.
	dice_loss_average	micro oder macro. Die Standardeinstellung ist micro.
	dice_loss_fraction	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0.
	focal_loss	true oder false.
	ignore_classes	Gültige Klassenwerte.
	keep_dilation	true oder false. Die Standardeinstellung ist false.
	mixup	true oder false.
	monitor	valid_loss und accuracy.
	pointrend	true oder false. Die Standardeinstellung ist false.
FasterRCNN (Objekterkennung)	box_batch_size_per_image	Positive Ganzzahlen. Der Standardwert ist 512.
	box_bg_iou_thresh	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.
	box_detections_per_img	Positive Ganzzahlen. Die Standardeinstellung ist 100.
	box_fg_iou_thresh	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.
	box_nms_thresh	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.
	box_positive_fraction	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,25.
	box_score_thresh	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,05.
	rpn_batch_size_per_image	Positive Ganzzahlen. Der Standardwert ist 256.
	rpn_bg_iou_thresh	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,3.
	rpn_fg_iou_thresh	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7.
	rpn_nms_thresh	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7.
	rpn_positive_fraction	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.
	rpn_post_nms_top_n_test	Positive Ganzzahlen. Der Standardwert ist 1000.
	rpn_post_nms_top_n_train	Positive Ganzzahlen. Der Standardwert ist 2000.
	rpn_pre_nms_top_n_test	Positive Ganzzahlen. Der Standardwert ist 1000.
	rpn_pre_nms_top_n_train	Positive Ganzzahlen. Der Standardwert ist 2000.
Feature Classifier (Objektklassifizierung)	backend	pytorch oder tensorflow. Die Standardeinstellung ist pytorch.
	mixup	true oder false. Die Standardeinstellung ist false.
	oversample	true oder false. Die Standardeinstellung ist false.
Image Captioner (Bild-zu-Bild-Übersetzung)	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße.
	Das Argument decode_params besteht aus den folgenden Parametern: embed_size hidden_size attention_size teacher_forcing dropout pretrained_emb	Die Standardeinstellung ist {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.
	monitor	valid_loss, accuracy, corpus_bleu und multi_label_fbeta.
MaskRCNN (Objekterkennung)	box_batch_size_per_image	Positive Ganzzahlen. Der Standardwert ist 512.
	box_bg_iou_thresh	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.
	box_detections_per_img	Positive Ganzzahlen. Die Standardeinstellung ist 100.
	box_fg_iou_thresh	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.
	box_nms_thresh	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.
	box_positive_fraction	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,25.
	box_score_thresh	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,05.
	rpn_batch_size_per_image	Positive Ganzzahlen. Der Standardwert ist 256.
	rpn_bg_iou_thresh	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,3.
	rpn_fg_iou_thresh	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7.
	rpn_nms_thresh	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,7.
	rpn_positive_fraction	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0,5.
	rpn_post_nms_top_n_test	Positive Ganzzahlen. Der Standardwert ist 1000.
	rpn_post_nms_top_n_train	Positive Ganzzahlen. Der Standardwert ist 2000.
	rpn_pre_nms_top_n_test	Positive Ganzzahlen. Der Standardwert ist 1000.
	rpn_pre_nms_top_n_train	Positive Ganzzahlen. Der Standardwert ist 2000.
MaXDeepLab (panoptische Segmentierung)	n_masks	Positive Ganzzahlen. Der Standardwert ist 30.
MMDetection (Objekterkennung)	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße.
	model	atss, carafe, cascade_rcnn, cascade_rpn, dcn, deeplabv3, detectors, dino, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl und vfnet. Die Standardeinstellung ist deeplabv3.
	model_weight	true oder false.
MMSegmentation (Pixelklassifizierung)	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße.
	model	ann, apcnet, ccnet, cgnet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, fastscnn, fcn, gcnet, hrnet, mask2former, mobilenet_v2, nonlocal_net, ocrnet, prithvi100m, psanet, pspnet, resnest, sem_fpn, unet und upernet. Die Standardeinstellung ist mask2former.
	model_weight	true oder false.
Multi Task Road Extractor (Pixelklassifizierung)	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße.
	gaussian_thresh	0,0 bis 1,0. Der Standardwert ist 0,76.
	monitor	valid_loss, accuracy, miou und dice.
	mtl_model	linknet oder hourglass.
	orient_bin_size	Eine positive Zahl. Die Standardeinstellung ist 20.
	orient_theta	Eine positive Zahl. Der Standardwert ist 8.
Pix2Pix (Bild-zu-Bild-Übersetzung)	perceptual_loss	true oder false. Die Standardeinstellung ist false.
Pix2PixHD (Bild-zu-Bild-Übersetzung)	gen_network	local oder global. Die Standardeinstellung ist local.
	feat_loss	true oder false. Die Standardeinstellung ist true.
	lambda_feat	Positive ganzzahlige Werte. Die Standardeinstellung ist 10.
	lambda_l1	Positive ganzzahlige Werte. Die Standardeinstellung ist 100.
	lsgan	true oder false. Die Standardeinstellung ist true.
	n_blocks_global	Positive ganzzahlige Werte. Der Standardwert ist 9.
	n_blocks_local	Positive ganzzahlige Werte. Der Standardwert ist 3.
	n_downsample_global	Positive ganzzahlige Werte. Die Standardeinstellung ist 4.
	n_dscr	Positive ganzzahlige Werte. Die Standardeinstellung ist 2.
	n_dscr_filters	Positive ganzzahlige Werte. Die Standardeinstellung ist 64.
	n_gen_filters	Positive ganzzahlige Werte. Die Standardeinstellung ist 64.
	n_layers_dscr	Positive ganzzahlige Werte. Der Standardwert ist 3.
	n_local_enhancers	Positive ganzzahlige Werte. Die Standardeinstellung ist 1.
	norm	instance oder batch. Die Standardeinstellung ist instance.
	vgg_loss	true oder false. Die Standardeinstellung ist true.
PSETAE (Pixelklassifizierung)	channels_of_interest	Liste der Bandnummern (positive Ganzzahlen).
	d_k	Positive ganzzahlige Werte. Der Standardwert ist 32.
	dropout	Gleitkommawert zwischen 0 und 1. Der Standardwert ist 0,2.
	min_points	Ganzzahlige Vielfache von 64.
	mlp1	Liste positiver Ganzzahlen. Die Standardeinstellung ist 32, 64.
	mlp2	Liste positiver Ganzzahlen. Die Standardeinstellung ist 128, 128.
	mlp4	Liste positiver Ganzzahlen. Die Standardeinstellung ist 64, 32.
	n_head	Positive ganzzahlige Werte. Die Standardeinstellung ist 4.
	pooling	mean, std, max oder min.
	T	Positive ganzzahlige Werte. Der Standardwert ist 1000.
	timesteps_of_interest	Liste positiver Ganzzahlen.
Pyramid Scene Parsing Network (Pixelklassifizierung)	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße.
	class_balancing	true oder false.
	dice_loss_average	micro oder macro. Die Standardeinstellung ist micro.
	dice_loss_fraction	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0.
	focal_loss	true oder false.
	ignore_classes	Gültige Klassenwerte.
	keep_dilation	true oder false. Die Standardeinstellung ist false.
	monitor	valid_loss oder accuracy.
	mixup	true oder false.
	pointrend	true oder false. Die Standardeinstellung ist false.
	pyramid_sizes	[Faltungs-Layer 1, Faltungs-Layer 2, ... , Faltungs-Layer n]
	use_net	true oder false.
RetinaNet (Objekterkennung)	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße.
	monitor	valid_loss oder average_precision.
	ratios	Verhältniswert 1, Verhältniswert 2, Verhältniswert 3. Die Standardeinstellung ist 0.5,1,2.
	scales	[Maßstabswert 1, Maßstabswert 2, Maßstabswert 3] Die Standardeinstellung ist [1, 0.8, 0.63].
SAMLoRA (Pixelklassifizierung)	class_balancing	true oder false.
SAMLoRA (Pixelklassifizierung)	ignore_classes	Gültige Klassenwerte.
Single Shot Detector (Objekterkennung)	backend	pytorch oder tensorflow. Die Standardeinstellung ist pytorch.
	bias	Gleitkommawert. Der Standardwert ist -0,4.
	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße. Der Standardwert ist 0,3.
	drop	Gleitkommawert zwischen 0 und 1.
	focal_loss	true oder false. Die Standardeinstellung ist false.
	grids	Ganzzahlige Werte größer als 0.
	location_loss_factor	Gleitkommawert zwischen 0 und 1.
	monitor	valid_loss oder average_precision.
	ratios	[horizontaler Wert, vertikaler Wert]
	zooms	Der Zoomwert, wobei 1,0 der normale Zoomwert ist.
Super-Resolution für SR3-Backbone (Bild-zu-Bild-Übersetzung)	attn_res	Ganze Zahlen größer als 0. Der Standardwert ist 16.
	channel_mults	Ganzzahlige Multiplikatorgruppen. Der Standardwert beträgt [1, 2, 4, 4, 8, 8].
	downsample_factor	Positiver ganzzahliger Wert. Die Standardeinstellung ist 4.
	dropout	Gleitkommawert. Die Standardeinstellung ist 0.
	inner_channel	Ganzzahliger Wert größer als 0. Die Standardeinstellung ist 64.
	linear_start	Ganzzahliger Zeitwert. Der Standardwert ist 1e-02.
	linear_end	Ganzzahliger Zeitwert. Der Standardwert ist 1e-06.
	n_timestep	Ganzzahliger Wert größer als 0. Der Standardwert ist 1000.
	norm_groups	Ganzzahliger Wert größer als 0. Der Standardwert ist 32.
	res_blocks	Ganzzahliger Wert größer als 0. Der Standardwert ist 3.
	schedule	linear, warmup10, warmup50, const, jsd oder cosine. Die Standardeinstellung ist linear.
Super-Resolution für SR3_UViT-Backbone (Bild-zu-Bild-Übersetzung)	depth	Positiver ganzzahliger Punktwert. Der Standardwert ist 17.
	embed_dim	Positiver ganzzahliger Punktwert. Der Standardwert ist 768.
	mlp_ratio	Positiver Gleitkommawert. Der Standardwert ist 4,0.
	num_heads	Positiver ganzzahliger Punktwert. Der Standardwert ist 12.
	patch_size	Positiver ganzzahliger Punktwert. Der Standardwert ist 16.
	qkv_bias	true oder false. Die Standardeinstellung ist false.
U-Net (Pixelklassifizierung)	chip_size	Ganze Zahlen zwischen 0 und der Bildgröße.
	class_balancing	true oder false.
	dice_loss_average	micro oder macro. Die Standardeinstellung ist micro.
	dice_loss_fraction	Gleitkommawert zwischen 0 und 1. Die Standardeinstellung ist 0.
	focal_loss	true oder false.
	ignore_classes	Gültige Klassenwerte.
	monitor	valid_loss oder accuracy.
	mixup	true oder false.

Inferenzierungsargumente

Mit den folgenden Argumenten kann gesteuert werden, wie Deep-Learning-Modelle für die Inferenzierung trainiert werden. Die Informationen aus dem Parameter Modelldefinition werden zum Füllen des Parameters Argumente in den Inferenzwerkzeugen verwendet. Diese Argumente variieren je nach Modellarchitektur. Vortrainierte ArcGIS-Modelle und benutzerdefinierte Deep-Learning-Modelle enthalten ggf. zusätzliche von dem Werkzeug unterstützte Argumente.


Argument		Inferenztyp	Gültige Werte
batch_size	Die Anzahl der in den einzelnen Schritten der Modellinferenz verarbeiteten Kacheln. Dieser Wert hängt vom Speicher der Grafikkarte ab. Das Argument ist für alle Modellarchitekturen verfügbar.	Objekte klassifizieren Pixel klassifizieren Änderung erkennen Objekte erkennen	Ganzzahlige Werte größer als 0; in der Regel eine ganze Zahl, die eine Potenz von 2ⁿ ist.
direction	Das Bild wird von einer Domäne in eine andere übertragen. Weitere Informationen zu diesem Argument finden Sie unter How CycleGAN works. Das Argument ist nur für die Architektur CycleGAN verfügbar.	Pixel klassifizieren	Die verfügbaren Optionen lauten AtoB und BtoA.
exclude_pad_detections	\Wenn "True" ausgewählt ist, werden potenziell gekürzte Erkennungen in der Nähe der Kanten im aufgefüllten Bereich von Bildschnipseln gefiltert. Das Argument ist nur für SSD, RetinaNet, YOLOv3, DETReg, MMDetection und Faster RCNN verfügbar.	Objekte erkennen	true oder false.
merge_policy	Die Richtlinie für das Zusammenführen erweiterter Vorhersagen. Dies gilt nur bei Verwendung von Test-Time-Augmentation. Beim Werkzeug Pixel mit Deep Learning klassifizieren ist das Argument für die Architekturen MultiTaskRoadExtractor und ConnectNet verfügbar. Wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind auch die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar. Beim Werkzeug Objekte mit Deep Learning erkennen ist das Argument nur für MaskRCNN verfügbar.	Pixel klassifizieren Objekte erkennen	Die verfügbaren Optionen sind mean, max und min.
nms_overlap	Die maximale Überlappungsrate für zwei überlappende Features, die als Verhältnis von Schnittfläche zu Vereinigungsfläche definiert ist. Das Argument ist für alle Modellarchitekturen verfügbar.	Objekte erkennen	Ein Gleitkommawert von 0,0 bis 1,0. Die Standardeinstellung ist 0,1.
output_classified_raster	Der Pfad zum Ausgabe-Raster. Das Argument ist nur für MaXDeepLab verfügbar.	Objekte erkennen	Der Dateipfad und -name für das klassifizierte Ausgabe-Raster.
padding	Die Anzahl von Pixeln am Rahmen von Bildkacheln, aus denen Vorhersagen für benachbarte Kacheln verschmolzen werden. Um die Ausgabe zu glätten und gleichzeitig Artefakte zu reduzieren, erhöhen Sie den Wert. Der Maximalwert für Padding ist die Hälfte des Wertes für die Kachelgröße. Das Argument ist für alle Modellarchitekturen verfügbar.	Pixel klassifizieren Änderung erkennen Objekte erkennen	Ganzzahlige Werte größer als 0 und kleiner als die Hälfte des Wertes der Kachelgröße.
predict_background	Wenn "true" festgelegt ist, wird auch die Hintergrundklasse klassifiziert. Das Argument ist für UNET, PSPNET, DeepLab und MMSegmentation verfügbar.	Pixel klassifizieren	true oder false.
return_probability_raster	Wenn "true" festgelegt ist, wird ein Wahrscheinlichkeits-Raster ausgegeben. Ein Wahrscheinlichkeits-Raster ist ein Raster, dessen Pixel die Wahrscheinlichkeit angeben, mit der eine untersuchte Variable über oder unter einem bestimmten Schwellenwert liegt. Wenn ArcGISLearnVersion 1.8.4 oder höher in der .emd-Datei des Modells vorhanden ist, sind die Architekturen MultiTaskRoadExtractor und ConnectNet verfügbar. Bei ArcGISLearnVersion 1.8.4 oder höher und wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind auch die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar.	Pixel klassifizieren	true oder false.
score_threshold	Über diesem Konfidenzwert liegende Vorhersagen sind im Ergebnis enthalten. Das Argument ist für alle Modellarchitekturen verfügbar.	Objekte klassifizieren	0 bis 1,0
test_time_augmentation	Führt beim Erstellen von Vorhersagen Test-Time-Augmentation durch. Wenn "True" festgelegt ist, werden Vorhersagen für gekippte und gedrehte Varianten des Eingabebilds in der endgültigen Ausgabe zusammengeführt. Das Argument ist für die meisten Modellarchitekturen verfügbar.	Objekte klassifizieren Pixel klassifizieren	true oder false.
threshold	Vorhersagen, deren Konfidenzwert höher als dieser Schwellenwert ist, sind im Ergebnis enthalten. Beim Werkzeug Pixel mit Deep Learning klassifizieren sind die Architekturen MultiTaskRoadExtractor und ConnectNet verfügbar, wenn ArcGISLearnVersion 1.8.4 oder höher in der .emd-Datei des Modells vorhanden ist. Bei ArcGISLearnVersion 1.8.4 oder höher und wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind auch die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar. Beim Werkzeug Objekte mit Deep Learning erkennen ist das Argument für alle Modellarchitekturen verfügbar.	Pixel klassifizieren Objekte erkennen	0 bis 1,0.
thinning	Dünnt die vorhergesagten Kanten aus bzw. skelettiert diese. Wenn IsEdgeDetection in der .emd-Datei des Modells vorhanden ist, sind die Architekturen BDCNEdgeDetector, HEDEdgeDetector und MMSegmentation verfügbar.	Pixel klassifizieren	true oder false.
tile_size	tile_size: Die Breite und Höhe der Bildkacheln, in die die Bilddaten für Vorhersagen unterteilt werden Beim Werkzeug Pixel mit Deep Learning klassifizieren ist das Argument nur für die Architektur CycleGAN verfügbar. Beim Werkzeug Objekte mit Deep Learning erkennen ist das Argument nur für MaskRCNN verfügbar.	Pixel klassifizieren Objekte erkennen	Ganzzahlige Werte größer als 0 und kleiner als die Bildgröße.

Trainingsargumente

Inferenzierungsargumente

Verwandte Themen

In diesem Thema