Forest-basierte und geboostete Klassifizierung und Regression (Spatial Statistics)

Zusammenfassung

Erstellt Modelle und generiert Vorhersagen, wobei eine von zwei Methoden für überwachtes maschinelles Lernen zum Einsatz kommt: eine Adaption des "Random Forest"-Algorithmus, der von Leo Breiman und Adele Cutler entwickelt wurde, oder der XGBoost-Algorithmus (Extreme Gradient Boosting) von Tianqi Chen und Carlos Guestrin. Vorhersagen können sowohl für Kategorievariablen (Klassifizierung) als auch für kontinuierliche Variablen (Regression) getroffen werden. Erklärende Variablen können Felder in der Attributtabelle der Trainings-Features, Raster-Datasets und Entfernungs-Features sein, die verwendet werden, um Nachbarschaftswerte als zusätzliche Werte zu berechnen. Abgesehen von der Validierung der Modell-Performance auf Grundlage der Trainingsdaten können Vorhersagen für Features oder ein Vorhersage-Raster getroffen werden.

Weitere Informationen zur Funktionsweise von Forest-basierter und geboosteter Klassifizierung und Regression

Abbildung

Abbildung des Werkzeugs "Forest-basierte und geboostete Klassifizierung und Regression"

Verwendung

  • Dieses Werkzeug unterstützt zwei Modelltypen: das Forest-basierte und das Gradient-Boosting-Modell. Beide Modelltypen nutzen Hunderte von Bäumen, die als Sammlung von Entscheidungsbäumen bezeichnet werden, um ein Modell für die Vorhersage zu generieren.

    • Forest-basiert: Erstellt ein Modell unter Verwendung einer Bagging-Technik, bei der jeder Entscheidungsbaum parallel mithilfe eines zufällig generierten Teils der ursprünglichen (Trainings-)Daten erstellt wird. Jede Baumstruktur generiert eine eigene Vorhersage und hat eine Stimme bei Ergebnisabstimmung. Das Forest-basierte Modell berücksichtigt die Stimmen aller Entscheidungsbäume, um das Ergebnis einer unbekannten Stichprobe vorherzusagen oder zu klassifizieren. Dies ist wichtig, da bei einzelnen Bäumen Probleme durch eine Überanpassung eines Modells entstehen können; die Kombination mehrerer Baumstrukturen in einem Forest löst jedoch dieses Problem der Überanpassung. Dieses Modell erfordert weniger Parameter und ist intuitiver.
    • Gradient Boosting: Erstellt ein Modell unter Verwendung einer Boosting-Technik, bei der jeder Entscheidungsbaum sequenziell unter Verwendung der ursprünglichen (Trainings-)Daten erstellt wird. In jedem nachfolgenden Baum werden die Fehler der vorherigen Bäume korrigiert, sodass das Modell mehrere schwache Learner zu einem starken Vorhersagemodell kombiniert. Das Gradient-Boosting-Modell beinhaltet die Normalisierung sowie eine Early-Stopping-Technik, mit der eine Überanpassung verhindert werden kann. Dieses Modell bietet mehr Kontrolle über die Hyperparameter und ist komplexer.
  • Dieses Werkzeug kann in drei Operationsmodi verwendet werden: "Trainieren", "Features vorhersagen" und "Raster vorhersagen". Im Parameter Vorhersagetyp kann die Option Nur trainieren verwendet werden, um beim Erkunden unterschiedlicher erklärender Variablen und Werkzeugeinstellungen die Performance verschiedener Modelle zu evaluieren. Wenn Sie ein gutes Modell gefunden haben, verwenden Sie die Option Features vorhersagen oder Raster vorhersagen.

  • Dieses Werkzeug ist datenabhängig und eignet sich am besten für große Datasets. Für ein optimales Ergebnis sollte es mit mindestens mehreren hundert Features trainiert werden. Für kleine Datasets ist dieses Werkzeug nicht geeignet.

  • Bei dem Wert des Parameters Eingabe-Trainings-Features kann es sich um Punkte oder Polygone handeln. Dieses Werkzeug funktioniert nicht mit Multipart-Daten.

  • Um Raster als erklärende Variablen zu verwenden oder eine Vorhersage für den Wert einer Ausgabe-Vorhersageoberfläche zu treffen, ist eine Erweiterung "ArcGIS Spatial Analyst"-Lizenz erforderlich.

  • Dieses Werkzeug erzeugt die folgenden optionalen Ausgaben:

    • Trainierte Ausgabe-Features: Eine Feature-Class, die alle im Modell verwendeten Werte für die Eingabe-Trainings-Features und die erklärenden Variablen enthält. Die erklärenden Variablen enthalten alle verwendeten Eingabefelder, berechneten Entfernungen und extrahierten oder berechneten Raster-Werte. Darüber hinaus enthält die Feature-Class Vorhersagen für jedes Feature in den Werten der Eingabe-Trainings-Features. Hierzu zählen die Features, die zum Trainieren und Validieren des Modells verwendet wurden. Wenn die vorherzusagende Variable nicht kategorial ist, enthält die Feature-Class das Residuum und das Standard-Residuum für jede Vorhersage. Ist die vorherzusagende Variable kategorial, enthält die Feature-Class ein Correctly Classified-Feld, das angibt, ob das Modell alle Vorhersagen korrekt klassifiziert hat. Verwenden Sie die Felder Residual und Standard Residual oder das Feld Correctly Classified, um die Performance des erstellten Modells zu bewerten.
    • Trainierte Ausgabe-Modelldatei: Eine wiederverwendbare Datei, die die Ergebnisse des trainierten Modells enthält. Die Datei kann im Werkzeug Mit Modelldatei für räumliche Statistiken vorhersagen verwendet werden, um neue Features vorherzusagen.
    • Vorhergesagte Ausgabe-Features: Eine Feature-Class, die den vom Modell vorhergesagten Wert für jedes Feature enthält. Diese Option ist nur verfügbar, wenn für den Parameter Vorhersagetyp der Wert Features vorhersagen angegeben wurde.
    • Vorhergesagte Ausgabe-Oberfläche: Ein Ausgabe-Raster, das die Vorhersageergebnisse enthält. Diese Ausgabe ist nur verfügbar, wenn für den Parameter Vorhersagetyp der Wert Raster vorhersagen angegeben wurde.
    • Ausgabetabelle zur Variablenbedeutung: Eine Tabelle, in der die Bedeutung jeder erklärenden Variablen (Felder, Entfernungs-Features und Raster) beschrieben wird.
    • Ausgabetabelle zur Parameteroptimierung: Eine Tabelle, in der die Parametereinstellungen und objektiven Werte für jeden Optimierungstestlauf enthalten sind. Diese Ausgabe ist nur verfügbar, wenn der Parameter Parameter optimieren aktiviert ist.
    • Ausgabetabelle für Klassifizierungs-Performance (Konfusionsmatrix): Eine Tabelle, in der die Performance des Modells für die Validierungsdaten zusammengefasst wird. Die Spalten der Matrix repräsentieren die vom Modell vorhergesagten Kategorien, während die Zeilen die tatsächlichen Kategorien darstellen. Anhand der Tabelle können Sie die Performance des Modells für die Validierungsdaten evaluieren. Diese Ausgabe ist nur verfügbar, wenn der Parameter Als kategorial behandeln aktiviert ist.
  • Dieses Werkzeug erstellt Meldungen, die Ihnen helfen, die Performance des erstellten Modells besser zu verstehen. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Über den Geoverarbeitungsverlauf können Sie auch auf die Meldungen für eine vorherige Ausführung dieses Werkzeugs zugreifen. Die Meldungen enthalten folgende Informationen:

    • Informationen zu den Modelleigenschaften
    • Out-of-Bag-Fehler des Modells
    • Trainingsdiagnose
    • Validierungsdiagnose
    • Diagnose der erklärenden Variable
    • Variablenbedeutung: Wenn für den Parameter Ausgabetabelle zur Variablenbedeutung ein Wert angegeben wurde, geben die Geoverarbeitungsmeldungen die 20 Variablen mit der höchsten Bedeutung zurück. Ist der Wert für den Parameter Anzahl der ausgeführten Validierungen größer als 1, gibt es mehr als einen Wertesatz zur Variablenbedeutung. Jede Ausführung verfügt über einen Wertesatz zur Variablenbedeutung, sodass die Geoverarbeitungsmeldungen den mit der Ausführung verknüpften Wertesatz zur Variablenbedeutung mit einem R-Squared-Wert oder einer Accuracy zurückgeben, der bzw. die dem R-Squared-Medianwert oder dem Medianwert für die Accuracy am nächsten kommt.

  • Dieses Werkzeug fügt im Bereich Inhalt folgende optionale Diagramme hinzu.

    • Vorhersage-Performance: Ein gestapeltes Balkendiagramm, mit dem Sie evaluieren können, wie gut das Modell zu den Daten passt. Die Kategorien auf der X-Achse wurden von dem Modell für den Wert Eingabe-Trainings-Features vorhergesagt. Hierzu zählen die Features, die zum Trainieren und Validieren des Modells verwendet wurden. Die Farben repräsentieren die tatsächlichen Kategorien der Eingabe-Trainings-Features. Dieses Diagramm wird nur erzeugt, wenn es sich bei der vorherzusagenden Variablen um eine kategoriale Variable handelt, das Kontrollkästchen Variable als kategorial behandeln aktiviert ist und der Parameter Trainierte Ausgabe-Features angegeben wurde.
    • Konfusionsmatrix: Ein Matrix-Heat-Diagramm. Die X-Achse repräsentiert die vorhergesagte Kategorie der Features für den Wert Eingabe-Trainings-Features, während die Y-Achse die tatsächliche Kategorie darstellt. Die diagonalen Zellen zeigen an, wie oft das Modell eine Kategorie richtig vorhergesagt hat. Eine höhere Anzahl in den diagonalen Zellen gibt an, dass das Modell gut funktioniert hat. Dieses Diagramm wird nur erzeugt, wenn die vorherzusagende Variable kategorial ist und der Parameter Variable als kategorial behandeln aktiviert wurde.
    • Zusammenfassung der Variablenbedeutung oder Verteilung der Variablenbedeutung: Ein Balkendiagramm, das die Bedeutung der einzelnen erklärenden Variablen für das Modell anzeigt. Wenn der Wert für Anzahl der ausgeführten Validierungen größer als 1 ist, handelt es sich bei dem Diagramm um ein Box-Plot, das die Verteilung der Bedeutungswerte für jede erklärende Variable anzeigt. Dieses Diagramm wird erzeugt, wenn Sie einen Wert für den Parameter Ausgabetabelle zur Variablenbedeutung angeben.
    • Validierungs-Performance: Ein gestapeltes Balkendiagramm, mit dem Sie die Performance des Modells für die Validierungsdaten evaluieren können. Die tatsächlichen Kategorien der Features in den Validierungsdaten befinden sich auf der X-Achse. Die Farbe repräsentiert die vorhergesagte Kategorie der Features in den Validierungsdaten. Dieses Diagramm wird nur erzeugt, wenn es sich bei der vorherzusagenden Variablen um eine kategoriale Variable handelt, das Kontrollkästchen Variable als kategorial behandeln aktiviert ist und ein Wert für den Parameter Ausgabetabelle für Klassifizierungs-Performance (Konfusionsmatrix) angegeben wurde.
    • Validierungs-R2-Wert oder Validierungs-Accuracy: Ein Histogramm, das die Verteilung von R2- oder Accuracy-Werten zeigt. Die Verteilung von R2- oder Accuracy-Werten ist auf die Zufälligkeit zurückzuführen, die mit der Erstellung des Modells eingeführt wird. Mithilfe dieses Diagramms können Sie die Stabilität der Modell-Performance in unterschiedlichen Ausführungen des Modells evaluieren. Dieses Diagramm wird nur erzeugt, wenn ein Wert für den Parameter Ausgabetabelle der Validierung angegeben wurde und der Wert für Anzahl der ausgeführten Validierungen größer als 1 ist.
  • Erklärende Variablen können aus Feldern stammen, aus Entfernungs-Features berechnet oder aus Rastern extrahiert werden. Sie können eine beliebige Kombination dieser erklärenden Variablentypen verwenden, mindestens ein Typ ist jedoch erforderlich. Die verwendeten erklärenden Variablen (aus Feldern, Entfernungs-Features oder Rastern) sollten eine Vielzahl von Werten enthalten. Wenn es sich bei der erklärenden Variablen um eine kategoriale Variable handelt, muss das Kontrollkästchen Kategorial aktiviert werden. Für Variablen des Typs "String" wird das Kontrollkästchen Kategorial automatisch aktiviert. Erklärende Kategorievariablen dürfen höchstens 60 Einzelwerte enthalten, eine geringere Anzahl von Kategorien führt jedoch zu einer besseren Performance des Modells. Je mehr Kategorien eine Variable bei einer bestimmten Datengröße enthält, desto eher dominiert sie das Modell, sodass die Vorhersageergebnisse an Effektivität verlieren.

  • Entfernungs-Features dienen der automatischen Erstellung erklärender Variablen, die eine Entfernung zwischen den Werten für bereitgestellte Features und Eingabe-Trainings-Features darstellen. Entfernungen werden von jedem Feature des Wertes für Eingabe-Trainings-Features zum nächsten Wert für Erklärende Trainings-Entfernungs-Features berechnet. Wenn es sich bei den Eingabewerten für Erklärende Trainings-Entfernungs-Features um Polygone oder Linien handelt, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet. Allerdings werden Entfernungen bei Polygonen und Linien anders berechnet. Weitere Informationen hierzu finden Sie unter So wird die Entfernung mit Proximity-Werkzeugen berechnet.

  • Wenn es sich bei den Werten für Eingabe-Trainings-Features um Punkte handelt und Sie den Parameter Erklärende Trainings-Raster verwenden, führt das Werkzeug einen Drilldown durch, um erklärende Variablen an den einzelnen Punktpositionen zu extrahieren. Bei Multiband-Rastern wird nur das erste Band verwendet.

  • Im Bereich Inhalt können zwar mehrere Layer den gleichen Namen aufweisen, aber das Werkzeug akzeptiert keine erklärenden Entfernungs- und keine erklärenden Raster-Layer mit dem gleichen Namen. Um dieses Problem zu vermeiden, vergewissern Sie sich, dass jeder Layer über einen eindeutigen Namen verfügt, oder entfernen Sie doppelte Layer-Namen in den Dropdown-Listen.

  • Wenn es sich bei den Werten von Eingabe-Trainings-Features um Polygone handelt, der Wert des Parameters Vorherzusagende Variable kategorial ist und Sie die Werte von Erklärende Trainings-Raster exklusiv verwenden, ist der Parameter Polygone für Training in Raster-Auflösung konvertieren verfügbar. Wenn Sie diesen Parameter aktivieren, wird das Polygon am Schwerpunkt aller Raster-Zellen, deren Schwerpunkt innerhalb des Polygons liegt, in Punkte unterteilt. Anschließend werden die Raster-Werte an den einzelnen Punktpositionen extrahiert und zum Trainieren des Modells verwendet. Für numerische Variablen wird eine bilineare Stichprobenmethode verwendet, für kategoriale Variablen die nächstgelegene Methode. Die Standard-Zellengröße der konvertierten Polygone entspricht der maximalen Zellengröße der Eingabe-Raster. Dies können Sie jedoch über die Umgebungseinstellung "Zellengröße" ändern. Ist der Parameter nicht aktiviert, wird ein Raster-Wert für jedes Polygon im Modell verwendet. Jedem Polygon wird für kontinuierliche Raster der Durchschnittswert und für Kategorie-Raster die Mehrheit zugewiesen.

    Polygone werden in Raster-Auflösung konvertiert (links) oder ihnen wird ein Durchschnittswert zugewiesen (rechts).

  • Die Daten, die für die einzelnen erklärenden Variablen verwendet werden, müssen Variationen aufweisen. Wenn eine Fehlermeldung angezeigt wird, aus der hervorgeht, dass eines der angegebenen Felder oder Raster keine Variationen aufweist, können Sie versuchen, das Werkzeug erneut auszuführen und die betreffende Variable als kategorial zu markieren. Wenn 95 Prozent der Features über denselben Wert für eine bestimmte Variable verfügen, wird das Fehlen von Variationen für diese Variable gekennzeichnet.

  • Der Parameter Spärliche Kategorien ausgleichen kann verwendet werden, wenn die Variation in den Kategorien nicht ausgeglichen ist. Beispiel: Wenn einige Kategorien in dem Dataset hunderte Male vorkommen, andere dagegen deutlich seltener, wird durch Aktivieren dieses Parameters sichergestellt, dass jede Kategorie in jeder Baumstruktur vertreten ist, um ausgeglichene Modelle zu erstellen. Dieser Parameter wird nur unterstützt, wenn für den Parameter Modelltyp der Wert Forest-basiert angegeben wurde.

  • Beim Abgleich von erklärenden Variablen müssen die Felder Prediction und Training den gleichen Typ haben (ein Double-Feld in Training muss mit einem Double-Feld in Prediction abgeglichen werden).

  • Forest-basierte und geboostete Modelle extrapolieren nicht; es ist mit ihnen lediglich möglich, einen Wert, für den das Modell trainiert wurde, zu klassifizieren und vorherzusagen. Bei der Vorhersage eines Wertes, der auf erklärenden Variablen basiert, die wesentlich höher oder niedriger sind als der Bereich des ursprünglichen Trainings-Datasets, entspricht der geschätzte Wert des Modells in etwa dem höchsten oder niedrigsten Wert im ursprünglichen Dataset. Die Performance des Werkzeugs kann eingeschränkt sein, wenn man versucht, Vorhersagen mit erklärenden Variablen zu treffen, die außerhalb des Bereichs der erklärenden Variablen liegen, die zum Trainieren des Modells verwendet werden.

  • Das Werkzeug kann nicht erfolgreich ausgeführt werden, wenn die erklärenden Variablen für die Vorhersage Kategorien enthalten, die in den Trainings-Features nicht vorhanden sind. Ebenso schlägt das Werkzeug fehl, wenn die Validierungsdaten Kategorien enthalten, die in den Trainings-Features nicht vorhanden sind.

  • Um Mosaik-Datasets als erklärende Variablen zu verwenden, führen Sie zunächst das Werkzeug Mosaik-Layer erstellen aus, und kopieren Sie den vollständigen Pfad zum Layer in das Werkzeug. Sie können auch das Werkzeug Mosaik-Layer erstellen und das Werkzeug Raster-Layer erstellen nutzen, um die Verarbeitungsvorlage für das Mosaik-Dataset anzupassen.

  • Der Standardwert für den Parameter Anzahl der Baumstrukturen ist 100. Beim Forest-basierten Modell führt eine Erhöhung der Anzahl von Bäumen im Modell zu einer genaueren Modellvorhersage; für die Berechnung des Modells wird jedoch mehr Zeit benötigt.

  • Wenn für den Parameter Modelltyp der Wert Forest-basiert festgelegt und der Parameter Unsicherheit berechnen aktiviert wurde, berechnet das Werkzeug für jeden vorhergesagten Wert des Wertes für Vorherzusagende Variable ein Vorhersageintervall von 90 Prozent. Wenn für den Parameter Vorhersagetyp der Wert Nur trainieren oder Features vorhersagen festgelegt wurde, werden dem Wert für Trainierte Ausgabe-Features oder dem Wert für Vorhergesagte Ausgabe-Features zwei Felder hinzugefügt. Diese Felder enden auf _P05 und _P95 und stellen die untere Grenze und die obere Grenze des Vorhersageintervalls dar. Bei neuen Beobachtungen können Sie mit einem Konfidenzniveau von 90 Prozent vorhersagen, dass der Wert der Beobachtung innerhalb des Intervalls liegt, sofern die erklärenden Variablen identisch sind. Wenn für den Parameter Vorhersagetyp der Wert Raster vorhersagen festgelegt wurde, werden im Bereich Inhalt zwei zusätzliche Raster hinzugefügt, die die untere Grenze und die obere Grenze des Vorhersageintervalls darstellen.

  • Aus Performance-Gründen ist der Parameter Erklärende Trainings-Entfernungs-Features nicht verfügbar, wenn für den Parameter Vorhersagetyp der Wert Raster vorhersagen festgelegt wurde. Um Entfernungen zu Features als erklärende Variablen einzuschließen, müssen Sie Entfernungsraster mit dem Werkzeug Entfernungsakkumulation berechnen und die Entfernungsraster im Parameter Erklärende Trainings-Raster einschließen.

  • Dieses Werkzeug unterstützt für Vorhersagen die Parallelverarbeitung und nutzt standardmäßig 50 Prozent der verfügbaren Prozessoren. Die Anzahl der Prozessoren kann mit der Umgebung Faktor für parallele Verarbeitung erhöht oder verringert werden.

  • Weitere Informationen zur Funktionsweise dieses Werkzeugs und zu den Ausgabemeldungen und -diagrammen finden Sie unter Verwendung von Forest-basierter Klassifizierung und -Regression.

    Referenzliste:

    • Breiman, Leo. Out-Of-Bag Estimation. 1996.
    • Breiman, L. (1996). Bagging predictors. Machine learning, 24(2), 123-140.
    • Breiman, Leo. "Random Forests". Machine Learning. 45 (1), 5-32. DOI: 10.1023/A:1010933404324. 2001.
    • Breiman, L., J.H. Friedman, R.A. Olshen, C.J. Stone. Classification and regression trees. New York: Routledge. Kapitel 4. 2017.
    • Chen, T. und Guestrin, C. (2016). "XGBoost: A Scalable Tree Boosting System". In Proceedings of the 22nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 785-794.
    • Dietterich, T. G. (Juni 2000). Ensemble methods in machine learning. In International workshop on multiple classifier systems (S. 1-15). Springer, Berlin, Heidelberg.
    • Gini, C. (1912). Variabilità e mutabilità. Nachgedruckt in: Memorie di metodologica statistica (Hrsg. Pizetti E, Salvemini, T). Rom: Libreria Eredi Virgilio Veschi.
    • Grömping, U. (2009). Variable importance assessment in regression: linear regression versus random forest. The American Statistician, 63(4), 308-319.
    • Ho, T. K. (August 1995). Random decision forests. In Document analysis and recognition, 1995., proceedings of the third international conference on Document Analysis and Recognition. (Band 1, S. 278-282). IEEE.
    • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Band 112). New York: Springer.
    • LeBlanc, M., & Tibshirani, R. (1996). Combining estimates in regression and classification. Journal of the American Statistical Association, 91(436), 1641-1650.
    • Loh, W. Y., & Shih, Y. S. (1997). Split selection methods for classification trees. Statistica sinica, 815-840.
    • Meinshausen, Nicolai. "Quantile regression forests". Journal of Machine Learning Research 7. Juni (2006): 983-999.
    • Nadeau, C., & Bengio, Y. (2000). Inference for the generalization error. In Advances in neural information processing systems (S. 307-313).
    • Strobl, C., Boulesteix, A. L., Kneib, T., Augustin, T., & Zeileis, A. (2008). Conditional variable importance for random forests. BMC bioinformatics, 9(1), 307.
    • Zhou, Z. H. (2012). Ensemble methods: foundations and algorithms. CRC Press.

Parameter

BeschriftungErläuterungDatentyp
Vorhersagetyp

Gibt den zu verwendenden Operationsmodus an. Das Werkzeug kann ausgeführt werden, um ein Modell ausschließlich für die Bewertung der Performance zu trainieren, Features vorherzusagen oder eine vorhergesagte Oberfläche zu erstellen.

  • Nur trainierenEin Modell wird trainiert, es werden jedoch keine Vorhersagen generiert. Prüfen Sie die Genauigkeit (Accuracy) des Modells mit dieser Option, bevor Sie Vorhersagen generieren. Mit dieser Option werden Modelldiagnosen im Meldungsfenster und ein Diagramm der Variablenbedeutung ausgegeben. Dies ist die Standardeinstellung.
  • Features vorhersagenEs werden Vorhersagen oder Klassifizierungen für Features generiert. Sowohl für die Trainings-Features als auch für die vorherzusagenden Features müssen erklärende Variablen angegeben werden. Die Ausgaben dieser Option sind eine Feature-Class, eine Modelldiagnose im Meldungsfenster und optional eine Tabelle und ein Diagramm der Variablenbedeutung.
  • Raster vorhersagenFür den Bereich, in dem sich die erklärenden Raster überschneiden, wird ein Vorhersage-Raster generiert. Erklärende Raster müssen sowohl für die Trainings-Fläche als auch für die vorherzusagenden Flächen angegeben werden. Die Ausgaben dieser Option sind eine vorhergesagte Oberfläche, eine Modelldiagnose im Meldungsfenster und optional eine Tabelle und ein Diagramm der Variablenbedeutung.
String
Eingabe-Trainings-Features

Die Feature-Class mit dem Parameterwert für Vorherzusagende Variable und optional den erklärenden Trainings-Variablen aus Feldern.

Feature Layer
Vorherzusagende Variable
(optional)

Die Variable aus dem Parameterwert Eingabe-Trainings-Features, die die Werte zum Trainieren des Modells enthält. Dieses Feld enthält bekannte (Trainings-)Werte der Variablen, mit denen eine Vorhersage an unbekannten Positionen getroffen wird.

Field
Variable als kategorial behandeln
(optional)

Gibt an, ob es sich bei dem Wert für Vorherzusagende Variable um eine Kategorievariable handelt.

  • Aktiviert: Der Wert für Vorherzusagende Variable ist eine kategoriale Variable, und es wird eine Klassifizierung durchgeführt.
  • Deaktiviert: Der Wert für Vorherzusagende Variable ist eine kontinuierliche Variable, und es wird eine Regression durchgeführt. Dies ist die Standardeinstellung.
Boolean
Erklärende Trainingsvariablen
(optional)

Eine Liste der Felder, die erklärende Variablen darstellen und die Vorhersage des Wertes oder der Kategorie des Wertes für Vorherzusagende Variable unterstützen. Aktivieren Sie das Kontrollkästchen Kategorial für alle Variablen, die Klassen oder Kategorien darstellen (z. B. Landbedeckung oder Anwesenheit oder Abwesenheit).

Value Table
Erklärende Trainings-Entfernungs-Features
(optional)

Der Feature-Layer, der die erklärenden Trainings-Entfernungs-Features enthält. Erklärende Variablen werden automatisch durch Berechnung einer Entfernung zwischen den bereitgestellten Features und Werten von Eingabe-Trainings-Features erstellt. Entfernungen werden von den einzelnen Features des Wertes für Eingabe-Trainings-Features zu den nächsten Werten für Erklärende Trainings-Entfernungs-Features berechnet. Wenn es sich bei den Eingabewerten für Erklärende Trainings-Entfernungs-Features um Polygone oder Linien handelt, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet.

Feature Layer
Erklärende Trainings-Raster
(optional)

Die aus Rastern extrahierten erklärenden Trainingsvariablen. Erklärende Trainingsvariablen werden automatisch durch Extrahieren von Raster-Zellenwerten erstellt. Der Wert der Raster-Zelle wird für jedes Feature in dem Parameter Eingabe-Trainings-Features an der genauen Position extrahiert. Beim Extrahieren des Raster-Werts für kontinuierliche Raster wird bilineares Resampling verwendet. Beim Extrahieren eines Raster-Werts aus Kategorie-Rastern wird ein Nächster-Nachbar-Resampling durchgeführt. Aktivieren Sie das Kontrollkästchen Kategorie für alle Raster, die Klassen oder Kategorien darstellen, z. B. Landbedeckung oder Anwesenheit oder Abwesenheit.

Value Table
Eingabe-Vorhersage-Features
(optional)

Eine Feature-Class, die die Positionen darstellt, an denen Vorhersagen getroffen werden. Diese Feature-Class muss auch erklärende Variablen enthalten, die als Felder bereitgestellt wurden und den von den Trainingsdaten verwendeten Feldern entsprechen.

Feature Layer
Vorhergesagte Ausgabe-Features
(optional)

Die Ausgabe-Feature-Class mit den Vorhersageergebnissen.

Feature Class
Vorhergesagte Ausgabe-Oberfläche
(optional)

Das Ausgabe-Raster mit den Vorhersageergebnissen. Die Standard-Zellengröße entspricht der maximalen Zellengröße der Raster-Eingaben. Um eine andere Zellengröße festzulegen, verwenden Sie die Umgebungseinstellung Zellengröße.

Raster Dataset
Erklärende Variablen abgleichen
(optional)

Eine Liste der angegebenen Werte für Erklärende Variablen aus den Eingabe-Trainings-Features rechts und den ihnen entsprechenden Feldern aus den Eingabe-Vorhersage-Features links.

Value Table
Entfernungs-Features abgleichen
(optional)

Eine Liste der angegebenen Werte für Erklärende Entfernungs-Features für den Parameter Eingabe-Trainings-Features rechts und den entsprechenden Feature-Sets aus dem Parameter Eingabe-Vorhersage-Features links.

Für Erklärende Entfernungs-Features können Werte angegeben werden, die eher für den Parameter Eingabe-Vorhersage-Features geeignet sind, wenn sich die für das Training verwendeten Features auf ein anderes Untersuchungsgebiet oder einen anderen Zeitraum beziehen.

Value Table
Erklärende Raster abgleichen
(optional)

Eine Liste der angegebenen Werte für Erklärende Raster für den Parameter Eingabe-Trainings-Features rechts und den entsprechenden Rastern aus dem Parameter Eingabe-Vorhersage-Features oder dem Parameter Vorhersageoberfläche, der erstellt werden soll, links.

Werte für Erklärende Raster, die angemessener für den Parameter Eingabe-Vorhersage-Features sind, können angegeben werden, wenn sich die für das Training verwendeten Features auf ein anderes Untersuchungsgebiet oder einen anderen Zeitraum beziehen.

Value Table
Trainierte Ausgabe-Features
(optional)

Die für das Training verwendeten erklärenden Variablen (einschließlich Stichproben-Raster-Werte und Entfernungsberechnungen) sowie das beobachtete Feld Vorherzusagende Variable und die zugehörigen Vorhersagen, mit denen die Performance des trainierten Modells weiter geprüft werden kann.

Feature Class
Ausgabetabelle zur Variablenbedeutung
(optional)

Die Tabelle, die Informationen zur Bedeutung aller im Modell verwendeten erklärenden Variablen enthält. Zu den erklärenden Variablen zählen Felder, Entfernungs-Feature und Raster, die für die Erstellung des Modells verwendet werden.

Wenn für den Parameter Modelltyp der Wert Gradient Boosting festgelegt wurde, wird die Bedeutung durch Gain, Gewichtung und Abdeckung gemessen, und die Tabelle enthält die entsprechenden Felder. Die Ausgabe enthält ein Balkendiagramm, wenn der Parameter Anzahl der ausgeführten Validierungen 1 entspricht, bzw. ein Box-Plot, wenn der Wert größer als 1 ist. Dieses stellt die Bedeutung der erklärenden Variablen dar.

Table
Polygone für Training in Raster-Auflösung konvertieren
(optional)

Gibt an, wie Polygone beim Trainieren des Modells behandelt werden, wenn es sich bei den Werten für Eingabe-Trainings-Features um Polygone mit einem kategorialen Wert für Vorherzusagende Variable handelt und nur Werte für Erklärende Trainings-Raster angegeben wurden.

  • Aktiviert: Das Polygon wird in alle Raster-Zellen mit Schwerpunkt innerhalb des Polygons geteilt. Anschließend werden die Raster-Werte an den einzelnen Schwerpunkten extrahiert und zum Trainieren des Modells verwendet. Das Modell wird nicht länger am Polygon trainiert, sondern an den für die einzelnen Zellenschwerpunkte extrahierten Raster-Werten. Dies ist die Standardeinstellung.

    In Raster-Zellen geteiltes Polygon

  • Deaktiviert: Jedem Polygon wird der Durchschnittswert der zugrunde liegenden kontinuierlichen Raster und die Mehrheit für zugrunde liegende kategoriale Raster zugewiesen.

    Polygonwert als Durchschnittswert oder Mehrheit zugewiesen

Boolean
Anzahl der Baumstrukturen
(optional)

Die Anzahl der Bäume, die in Forest-basierten und Gradient-Boosting-Modellen erstellt werden. Die Standardeinstellung ist 100.

Wenn für den Parameter Modelltyp der Wert Forest-basiert angegeben wurde, führt eine größere Anzahl von Bäumen i. A. zu einer genaueren Modellvorhersage; für die Berechnung des Modells wird jedoch mehr Zeit benötigt. Wenn für den Parameter Modelltyp der Wert Gradient Boosting angegeben wurde, führt eine größere Anzahl von Bäumen u. U. zu einer genaueren Modellvorhersage; es besteht jedoch das Risiko einer Überanpassung der Trainingsdaten. Um eine Überanpassung der Daten zu vermeiden, geben Sie Werte für die Parameter Maximale Baumstrukturtiefe, L2-Normalisierung (Lambda), Minimale Verlustreduzierung für Verzweigungen (Gamma) und Lernrate (Eta) an.

Long
Minimale Blattgröße
(optional)

Die minimale Anzahl der Beobachtungen, die mindestens erforderlich sind, um ein Blatt (also den Endpunkt einer Baumstruktur, der keine weiteren Verzweigungen hat) beizubehalten. Das Standardminimum ist 5 für die Regression und 1 für die Klassifizierung. Bei sehr großen Daten führt eine Erhöhung dieser Zahlen zu einer Erhöhung der Laufzeit des Werkzeugs.

Long
Maximale Baumstrukturtiefe
(optional)

Die maximale Anzahl von Verzweigungen entlang einer Baumstruktur. Je größer die maximale Tiefe, desto mehr Verzweigungen werden erstellt. Dadurch steigt das Risiko einer Überanpassung des Modells. Wenn für den Parameter Modelltyp der Wert Forest-basiert angegeben wurde, ist die Standardeinstellung datengesteuert und abhängig von der Anzahl der erstellten Bäume und berücksichtigten Variablen. Wenn für den Parameter Modelltyp der Wert Gradient Boosting angegeben wurde, lautet der Standardwert 6.

Long
Pro Baumstruktur verfügbare Daten (%)
(optional)

Der Prozentsatz der Werte von Eingabe-Trainings-Features, die für jeden Entscheidungsbaum verwendet werden sollen. Die Standardeinstellung liegt bei 100 Prozent der Daten. Stichproben für jede Baumstruktur werden nach dem Zufallsprinzip aus zwei Dritteln der angegebenen Daten entnommen.

Alle Entscheidungsbäume im Wald werden mithilfe einer zufälligen Stichprobe oder einer zufälligen Teilmenge (etwa zwei Drittel) der verfügbaren Trainingsdaten erstellt. Durch die Verwendung eines niedrigeren Prozentsatzes der Eingabedaten für die einzelnen Entscheidungsbäume wird die Laufzeit des Werkzeugs bei sehr großen Datasets reduziert.

Long
Anzahl der nach dem Zufallsprinzip erfassten Variablen
(optional)

Die Anzahl der erklärenden Variablen, die zum Erstellen der einzelnen Entscheidungsbäume verwendet werden sollen.

Alle Entscheidungsbäume in den Forest-basierten und Gradient-Boosting-Modellen werden mithilfe einer zufälligen Teilmenge der angegebenen erklärenden Variablen erstellt. Durch eine Erhöhung der Anzahl der in den einzelnen Entscheidungsbäumen verwendeten Variablen steigt die Wahrscheinlichkeit einer Überanpassung des Modells, vor allem dann, wenn dominante Variablen vorhanden sind. Standardmäßig wird die Quadratwurzel aus der Gesamtzahl der erklärenden Variablen (Felder, Entfernungen und Raster) gezogen, wenn der Wert für Vorherzusagende Variable kategorial ist. Ist der Wert für Vorherzusagende Variable numerisch, wird die Gesamtzahl der erklärenden Variablen (Felder, Entfernungen und Raster zusammengenommen) durch 3 geteilt.

Long
% der Trainingsdaten für die Validierung ausgeschlossen
(optional)

Der Prozentsatz (zwischen 10 und 50 Prozent) der Werte von Eingabe-Trainings-Features, die als Test-Dataset für die Validierung reserviert werden sollen. Das Modell wird ohne diese zufällige Teilmenge der Daten trainiert, und die vom Modell vorhergesagten Werte für diese Features werden mit den beobachteten Werten verglichen. Der Standardwert ist 10 Prozent.

Double
Ausgabetabelle für Klassifizierungs-Performance (Konfusionsmatrix)
(optional)

Eine Konfusionsmatrix, in der die Performance des für die Validierungsdaten erstellten Modells zusammengefasst wird. Die Matrix vergleicht die vom Modell vorhergesagten Kategorien für die Validierungsdaten mit den tatsächlichen Kategorien. Diese Tabelle kann verwendet werden, um zusätzliche Diagnosen zu berechnen, die nicht in den Ausgabemeldungen enthalten sind. Dieser Parameter ist verfügbar, wenn der Wert für Vorherzusagende Variable kategorial ist und der Parameter Als kategorial behandeln aktiviert wurde.

Table
Ausgabetabelle der Validierung
(optional)

Eine Tabelle, die den R2-Wert für jedes Modell enthält, wenn der Wert für Vorherzusagende Variable nicht kategorial ist. Ist der Wert kategorial, wird die Accuracy für jedes Modell angezeigt. Diese Tabelle enthält ein Balkendiagramm mit der Verteilung der Accuracy- bzw. der R2-Werte. Mit dieser Verteilung können Sie die Stabilität des Modells bewerten. Dieser Parameter ist verfügbar, wenn der Wert für Anzahl der ausgeführten Validierungen größer als 2 ist.

Table
Spärliche Kategorien ausgleichen
(optional)

Gibt an, ob jede Kategorie im Trainings-Dataset ungeachtet ihrer Häufigkeit in jeder Baumstruktur dargestellt werden soll. Dieser Parameter ist verfügbar, wenn für den Parameter Modelltyp der Wert Forest-basiert eingegeben wurde.

  • Aktiviert: Jede Baumstruktur enthält jede Kategorie, die im Trainings-Dataset vertreten ist.
  • Deaktiviert: Jede Baumstruktur wird basierend auf einer zufälligen Stichprobe der Kategorien im Trainings-Dataset erstellt. Dies ist die Standardeinstellung.

Boolean
Anzahl der ausgeführten Validierungen
(optional)

Die Anzahl der Iterationen des Werkzeugs.

Die Verteilung der R-Squared-Werte (kontinuierlich) oder Accuracy-Werte (kategorial) für alle Modelle kann mithilfe des Parameters Ausgabetabelle der Validierung angezeigt werden. Wenn für den Parameter Vorhersagetyp der Wert Raster vorhersagen oder Features vorhersagen festgelegt wurde, wird das Modell mit dem R-Squared-Medianwert bzw. Accuracy-Medianwert für die Vorhersage verwendet. Die Verwendung des Medianwerts trägt dazu bei, die Stabilität der Vorhersagen sicherzustellen.

Long
Unsicherheit berechnen
(optional)

Gibt an, ob beim Trainieren oder beim Vorhersagen von Features oder Rastern die Vorhersageunsicherheit berechnet wird.

Dieser Parameter ist verfügbar, wenn für den Parameter Modelltyp der Wert Forest-basiert angegeben wurde.

  • Aktiviert: Es wird ein Vorhersageunsicherheitsintervall berechnet.
  • Deaktiviert: Es wird keine Unsicherheit berechnet. Dies ist die Standardeinstellung.
Boolean
Trainierte Ausgabe-Modelldatei
(optional)

Eine Ausgabe-Modelldatei, in der das trainierte Modell, das später für Vorhersagen wiederverwendet werden kann, gespeichert werden soll.

File
Modelltyp
(optional)

Gibt die Methode für die Erstellung des Modells an.

  • Forest-basiertEin Modell wird mithilfe einer Adaption des "Random Forest"-Algorithmus erstellt. Für das Modell werden die Stimmen von Hunderten von Entscheidungsbäumen verwendet. Jeder Entscheidungsbaum wird anhand einer zufällig generierten Teilmenge der ursprünglichen Daten und Variablen erstellt.
  • Gradient BoostingEin Modell wird mithilfe des XGBoost-Algorithmus (Extreme Gradient Boosting) erstellt. Das Modell erstellt eine Sequenz mit Hunderten von Bäumen, wobei jeder nachfolgende Baum die Fehler der vorherigen Bäume korrigiert.
String
L2-Normalisierung (Lambda)
(optional)

Ein Normalisierungsausdruck, der die Sensitivität des Modells gegenüber einzelnen Features reduziert. Eine Erhöhung dieses Wertes bewirkt, dass das Modell konservativer wird, und verhindert eine Überanpassung der Trainingsdaten. Wenn der Wert 0 ist, entspricht das Modell dem traditionellen Gradient-Boosting-Modell. Die Standardeinstellung ist 1.

Dieser Parameter ist verfügbar, wenn für den Parameter Modelltyp der Wert Gradient Boosting angegeben wurde.

Double
Minimale Verlustreduzierung für Verzweigungen (Gamma)
(optional)

Ein Schwellenwert für die minimale Verlustreduzierung, die erforderlich ist, um Bäume zu teilen.

Potenzielle Verzweigungen werden im Hinblick auf ihre Verlustreduzierung evaluiert. Übersteigt die Verlustreduzierung einer potenziellen Verzweigungen diesen Schwellenwert, wird die Verzweigung durchgeführt. Durch höhere Schwellenwerte kann eine Überanpassung vermieden werden. Das Ergebnis sind konservativere Modelle mit weniger Partitionen. Die Standardeinstellung ist 0.

Dieser Parameter ist verfügbar, wenn für den Parameter Modelltyp der Wert Gradient Boosting angegeben wurde.

Double
Lernrate (Eta)
(optional)

Ein Wert, der den Beitrag der einzelnen Bäume zur endgültigen Vorhersage reduziert. Der Wert sollte größer als 0 und kleiner als oder gleich 1 sein. Eine niedrigere Lernrate verhindert eine Überanpassung des Modells, verlängert jedoch möglicherweise die Berechnungszeit. Der Standardwert ist 0,3.

Dieser Parameter ist verfügbar, wenn für den Parameter Modelltyp der Wert Gradient Boosting angegeben wurde.

Double
Maximale Anzahl von Abschnitten zum Suchen von Verzweigungen
(optional)

Die Anzahl der Abschnitte, in die die Trainingsdaten geteilt werden, um den besten Verzweigungspunkt zu finden. Der Wert darf nicht 1 sein. Der Standardwert ist 0, was der Verwendung eines Greedy-Algorithmus entspricht. Ein Greedy-Algorithmus erstellt bei jedem Datenpunkt eine potenzielle Verzweigung. Es ist nicht empfehlenswert, zu wenige Abschnitte für die Suche bereitzustellen, da sich dies negativ auf die Vorhersage-Performance des Modells auswirkt.

Dieser Parameter ist verfügbar, wenn für den Parameter Modelltyp der Wert Gradient Boosting angegeben wurde.

Long
Parameter optimieren
(optional)

Gibt an, ob eine Optimierungsmethode verwendet wird, um den Hyperparametersatz zu ermitteln, der eine optimale Modell-Performance erzielt.

  • Aktiviert: Es wird eine Optimierungsmethode verwendet, um den Hyperparametersatz zu ermitteln.
  • Deaktiviert: Es wird keine Optimierungsmethode verwendet. Dies ist die Standardeinstellung.

Boolean
Optimierungsmethode
(optional)

Gibt die Optimierungsmethode an, mit der Suchpunkte ausgewählt und getestet werden, um den optimalen Hyperparametersatz zu ermitteln. Suchpunkte sind Kombinationen von Hyperparametern innerhalb des Suchraums, der mittels des Parameters Modellparametereinstellung angegeben wurde. Diese Option ist verfügbar, wenn der Parameter Optimierungsparameter aktiviert ist.

  • Zufällige Suche (Schnell)Ein Algorithmus für stratifizierte Zufallsstichproben wird verwendet, um die Suchpunkte innerhalb des Suchraums auszuwählen. Dies ist die Standardeinstellung.
  • Zufällige Suche (Zuverlässig)Ein Algorithmus für stratifizierte Zufallsstichproben wird verwendet, um die Suchpunkte auszuwählen. Jede Suche wird zehnmal mit jeweils einem anderen Zufallsursprung durchgeführt. Das Ergebnis jeder Suche ist der Medianwert der besten Ausführung, der durch den Parameterwert Ziel optimieren (Objective) bestimmt wird. Diese Option ist verfügbar, wenn für den Parameter Modelltyp der Wert Forest-basiert angegeben wurde.
  • RastersucheJeder Suchpunkt innerhalb des Suchraums wird ausgewählt.
String
Ziel optimieren (Objective)
(optional)

Gibt die Objective-Funktion oder den Wert an, der minimiert oder maximiert werden soll, um den optimalen Hyperparametersatz zu ermitteln.

  • R-SquaredDie Optimierungsmethode maximiert den R2-Wert, um den optimalen Hyperparametersatz zu ermitteln. Diese Option ist nur verfügbar, wenn es sich bei der vorherzusagenden Variablen nicht um eine kategoriale Variable handelt. Dies ist die Standardeinstellung, wenn die vorherzusagende Variable nicht kategorial ist.
  • Root Mean Square Error (RMSE)Die Optimierungsmethode minimiert die mittlere quadratische Abweichung, um den optimalen Hyperparametersatz zu ermitteln. Diese Option ist nur verfügbar, wenn es sich bei der vorherzusagenden Variablen nicht um eine kategoriale Variable handelt.
  • GenauigkeitDie Optimierungsmethode maximiert die Accuracy, um das optimale Modell zu ermitteln. Diese Option ist nur verfügbar, wenn es sich bei der vorherzusagenden Variablen um eine kategoriale Variable handelt. Dies ist die Standardeinstellung, wenn die vorherzusagende Variable kategorial ist.
  • Matthews-Korrelationskoeffizient (MCC)Die Optimierungsmethode maximiert den Matthews-Korrelationskoeffizienten, um den optimalen Hyperparametersatz zu ermitteln. Diese Option ist nur verfügbar, wenn es sich bei der vorherzusagenden Variablen um eine kategoriale Variable handelt.
  • F-MaßDie Optimierungsmethode maximiert das F1-Maß, um den optimalen Hyperparametersatz zu ermitteln. Diese Option ist nur verfügbar, wenn es sich bei der vorherzusagenden Variablen um eine kategoriale Variable handelt.
String
Anzahl der Ausführungen für Parametersets
(optional)

Die Anzahl der Suchpunkte innerhalb des durch den Parameter Modellparametereinstellung angegebenen Suchraums, die getestet werden sollen. Dieser Parameter ist verfügbar, wenn für den Parameter Optimierungsmethode der Wert Zufällige Suche (Schnell) oder Zufällige Suche (Zuverlässig) festgelegt wurde.

Long
Modellparametereinstellung
(optional)

Eine Liste der Hyperparameter und deren Suchräumen. Passen Sie den Suchraum für jeden Hyperparameter an, indem Sie eine untere Grenze, eine obere Grenze und ein Intervall festlegen. Die untere Grenze und die obere Grenze geben den Bereich der zulässigen Werte für den Hyperparameter an.

Im Folgenden wird der Bereich der gültigen Werte für jeden Hyperparameter aufgeführt:

  • Anzahl der Baumstrukturen (number_of_trees): Ein ganzzahliger Wert, der größer als 1 ist.
  • Maximale Baumstrukturtiefe (maximum_depth): Ein Ganzzahlwert, der größer als oder gleich 0 ist.
  • Minimale Blattgröße (minimum_leaf_size): Ein Ganzzahlwert, der größer als 1 ist.
  • Pro Baum verfügbare Daten (%) (sample_size): Ein Ganzzahlwert, der größer als 0 und kleiner als oder gleich 100 ist.
  • Anzahl der nach dem Zufallsprinzip erfassten Variablen (random_variables): Ein Ganzzahlwert, der kleiner oder gleich der Anzahl der erklärenden Variablen ist. Dazu gehören die erklärenden Variablen aus Feldern, Entfernungs-Features und Rastern.
  • Lernrate (Eta) (eta): Ein Gleitkommazahlwert, der größer als 0 und kleiner als oder gleich 1 ist.
  • L2-Normalisierung (Lambda) (reg_lambda): Ein Gleitkommazahlwert, der größer als oder gleich 0 ist.
  • Minimale Verlustreduzierung für Verzweigungen (Gamma) (gamma): Ein Gleitkommazahlwert, der größer als oder gleich 0 ist.
  • Maximale Anzahl von Abschnitten zum Suchen von Verzweigungen (max_bins): Ein Ganzzahlwert der größer als 1 oder gleich dem Wert 0 ist. Ein Wert von 0 bedeutet, dass das Modell bei jedem Datenpunkt eine potenzielle Verzweigung erstellt.

Value Table
Ausgabetabelle zur Parameteroptimierung
(optional)

Eine Tabelle, in der die Parametereinstellungen und objektiven Werte für jeden Optimierungstestlauf enthalten sind. Die Ausgabe enthält ein Diagramm mit allen Testläufen und ihren objektiven Werten. Diese Option ist verfügbar, wenn Parameter optimieren aktiviert ist.

Table
Alle Vorhersagewahrscheinlichkeiten einbeziehen
(optional)

Gibt für vorherzusagende kategoriale Variablen an, ob die Wahrscheinlichkeit jeder Kategorie der kategorialen Variablen oder nur die Wahrscheinlichkeit der Kategorie des Datensatzes vorhergesagt wird. Wenn z. B. eine kategoriale Variable die Kategorien A, B und C aufweist und der erste Datensatz von Kategorie B ist, geben Sie mit diesem Parameter an, ob die Wahrscheinlichkeit für die Kategorien A, B und C oder nur die Wahrscheinlichkeit der Kategorie B für den Datensatz vorhergesagt wird.

  • Aktiviert: Die Wahrscheinlichkeiten für alle Kategorien der kategorialen Variablen werden vorhergesagt und in die trainierten und vorhergesagten Ausgabe-Features einbezogen.
  • Deaktiviert: Es wird nur die Wahrscheinlichkeit für die Kategorie des Datensatzes vorhergesagt und in die trainierten und vorhergesagten Ausgabe-Features einbezogen. Dies ist die Standardeinstellung.
Boolean

Abgeleitete Ausgabe

BeschriftungErläuterungDatentyp
Ausgabe-Unsicherheits-Raster-Layer

Wenn Sie den Parameter Unsicherheit berechnen aktivieren, berechnet das Werkzeug für jeden vorhergesagten Wert des Parameters Vorherzusagende Variable ein Vorhersageintervall von 90 Prozent.

Raster Layer

arcpy.stats.Forest(prediction_type, in_features, {variable_predict}, {treat_variable_as_categorical}, {explanatory_variables}, {distance_features}, {explanatory_rasters}, {features_to_predict}, {output_features}, {output_raster}, {explanatory_variable_matching}, {explanatory_distance_matching}, {explanatory_rasters_matching}, {output_trained_features}, {output_importance_table}, {use_raster_values}, {number_of_trees}, {minimum_leaf_size}, {maximum_depth}, {sample_size}, {random_variables}, {percentage_for_training}, {output_classification_table}, {output_validation_table}, {compensate_sparse_categories}, {number_validation_runs}, {calculate_uncertainty}, {output_trained_model}, {model_type}, {reg_lambda}, {gamma}, {eta}, {max_bins}, {optimize}, {optimize_algorithm}, {optimize_target}, {num_search}, {model_param_setting}, {output_param_tuning_table}, {include_probabilities})
NameErläuterungDatentyp
prediction_type

Gibt den zu verwendenden Operationsmodus an. Das Werkzeug kann ausgeführt werden, um ein Modell ausschließlich für die Bewertung der Performance zu trainieren, Features vorherzusagen oder eine vorhergesagte Oberfläche zu erstellen.

  • TRAINEin Modell wird trainiert, es werden jedoch keine Vorhersagen generiert. Prüfen Sie die Genauigkeit (Accuracy) des Modells mit dieser Option, bevor Sie Vorhersagen generieren. Mit dieser Option werden Modelldiagnosen im Meldungsfenster und ein Diagramm der Variablenbedeutung ausgegeben. Dies ist die Standardeinstellung.
  • PREDICT_FEATURESEs werden Vorhersagen oder Klassifizierungen für Features generiert. Sowohl für die Trainings-Features als auch für die vorherzusagenden Features müssen erklärende Variablen angegeben werden. Die Ausgaben dieser Option sind eine Feature-Class, eine Modelldiagnose im Meldungsfenster und optional eine Tabelle und ein Diagramm der Variablenbedeutung.
  • PREDICT_RASTERFür den Bereich, in dem sich die erklärenden Raster überschneiden, wird ein Vorhersage-Raster generiert. Erklärende Raster müssen sowohl für die Trainings-Fläche als auch für die vorherzusagenden Flächen angegeben werden. Die Ausgaben dieser Option sind eine vorhergesagte Oberfläche, eine Modelldiagnose im Meldungsfenster und optional eine Tabelle und ein Diagramm der Variablenbedeutung.
String
in_features

Die Feature-Class mit dem Parameterwert variable_predict und optional den erklärenden Trainings-Variablen aus Feldern.

Feature Layer
variable_predict
(optional)

Die Variable aus dem Parameterwert in_features, die die Werte zum Trainieren des Modells enthält. Dieses Feld enthält bekannte (Trainings-)Werte der Variablen, mit denen eine Vorhersage an unbekannten Positionen getroffen wird.

Field
treat_variable_as_categorical
(optional)
  • CATEGORICALDer Wert für variable_predict ist eine kategoriale Variable, und es wird eine Klassifizierung durchgeführt.
  • NUMERICDer Wert für variable_predict ist eine kontinuierliche Variable, und es wird eine Regression durchgeführt. Hierbei handelt es sich um die Standardeinstellung.
Boolean
explanatory_variables
[[Variable, Categorical],...]
(optional)

Eine Liste der Felder, die erklärende Variablen darstellen und die Vorhersage des Wertes oder der Kategorie des Wertes variable_predict unterstützen. Verwenden Sie den Parameter treat_variable_as_categorical für alle Variablen, die Klassen oder Kategorien darstellen (z. B. Landbedeckung oder Anwesenheit oder Abwesenheit). Geben Sie die Variable als CATEGORICAL an, wenn diese Klassen oder Kategorien wie Landbedeckung bzw. Anwesenheit oder Abwesenheit darstellt. Wenn es sich um eine kontinuierliche Variable handelt, geben Sie NUMERIC an.

Value Table
distance_features
[distance_features,...]
(optional)

Die erklärenden Trainings-Entfernungs-Features. Erklärende Variablen werden automatisch durch Berechnung einer Entfernung zwischen den bereitgestellten Features und Werten von in_features erstellt. Entfernungen werden von den einzelnen Features des Wertes für in_features zu den nächsten Werten für distance_features berechnet. Wenn es sich bei distance_features der Eingabe um Polygone oder Linien handelt, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet.

Feature Layer
explanatory_rasters
[[Variable, Categorical],...]
(optional)

Die aus Rastern extrahierten erklärenden Trainingsvariablen. Erklärende Trainingsvariablen werden automatisch durch Extrahieren von Raster-Zellenwerten erstellt. Der Wert der Raster-Zelle wird für jedes Feature in dem Parameter in_features an der genauen Position extrahiert. Beim Extrahieren des Raster-Werts wird bilineares Raster-Resampling verwendet, es sei denn, "Kategorial" wurde angegeben. In diesem Fall wird das Nächster-Nachbar-Resampling verwendet. Geben Sie das Raster als CATEGORICAL an, wenn dieses Klassen oder Kategorien wie Landbedeckung bzw. Anwesenheit oder Abwesenheit darstellt. Wenn es sich um ein kontinuierliches Raster handelt, geben Sie NUMERIC an.

Value Table
features_to_predict
(optional)

Eine Feature-Class, die die Positionen darstellt, an denen Vorhersagen getroffen werden. Diese Feature-Class muss auch erklärende Variablen enthalten, die als Felder bereitgestellt wurden und den von den Trainingsdaten verwendeten Feldern entsprechen.

Feature Layer
output_features
(optional)

Die Ausgabe-Feature-Class mit den Vorhersageergebnissen.

Feature Class
output_raster
(optional)

Das Ausgabe-Raster mit den Vorhersageergebnissen. Die Standard-Zellengröße entspricht der maximalen Zellengröße der Raster-Eingaben. Um eine andere Zellengröße festzulegen, verwenden Sie die Umgebungseinstellung Zellengröße.

Raster Dataset
explanatory_variable_matching
[[Prediction, Training],...]
(optional)

Eine Liste der angegebenen Werte für explanatory_variables aus dem Parameter in_features rechts und den entsprechenden Feldern aus dem Parameter features_to_predict links, z. B. [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]].

Value Table
explanatory_distance_matching
[[Prediction, Training],...]
(optional)

Eine Liste der angegebenen Werte für distance_features für den Parameter in_features rechts und den entsprechenden Feature-Sets aus dem Parameter features_to_predict links.

Für explanatory_distance_features können Werte angegeben werden, die eher für den Parameter features_to_predict geeignet sind, wenn sich die für das Training verwendeten Features auf ein anderes Untersuchungsgebiet oder einen anderen Zeitraum beziehen.

Value Table
explanatory_rasters_matching
[[Prediction, Training],...]
(optional)

Eine Liste der angegebenen Werte für explanatory_rasters für den Parameter in_features rechts und den entsprechenden Rastern aus dem Parameter features_to_predict oder dem Parameter output_raster, der erstellt werden soll, links.

Die Werte für explanatory_rasters, die angemessener für den Parameter features_to_predict sind, können angegeben werden, wenn sich die für das Training verwendeten Features auf ein anderes Untersuchungsgebiet oder einen anderen Zeitraum beziehen.

Value Table
output_trained_features
(optional)

Die für das Training verwendeten erklärenden Variablen (einschließlich Stichproben-Raster-Werte und Entfernungsberechnungen) sowie das beobachtete Feld variable_predict und die zugehörigen Vorhersagen, mit denen die Performance des trainierten Modells weiter geprüft werden kann.

Feature Class
output_importance_table
(optional)

Die Tabelle, die Informationen zur Bedeutung jeder erklärenden Variablen (Felder, Entfernungs-Features und Raster) enthält, die beim Erstellen des Modells verwendet wurde.

Table
use_raster_values
(optional)

Gibt an, wie Polygone beim Trainieren des Modells behandelt werden, wenn es sich bei den Werten für in_features um Polygone mit einem kategorialen Wert für variable_predict handelt und nur Werte für explanatory_rasters angegeben wurden.

  • TRUEDas Polygon wird in alle Raster-Zellen mit Schwerpunkt innerhalb des Polygons geteilt. Anschließend werden die Raster-Werte an den einzelnen Schwerpunkten extrahiert und zum Trainieren des Modells verwendet. Das Modell wird nicht länger am Polygon trainiert, sondern an den für die einzelnen Zellenschwerpunkte extrahierten Raster-Werten. Dies ist die Standardeinstellung.
  • FALSEJedem Polygon wird der Durchschnittswert der zugrunde liegenden kontinuierlichen Raster und die Mehrheit für zugrunde liegende Kategorie-Raster zugewiesen.
Boolean
number_of_trees
(optional)

Die Anzahl der Bäume, die in Forest-basierten und Gradient-Boosting-Modellen erstellt werden. Die Standardeinstellung ist 100.

Wenn für den Parameter model_type der Wert FOREST-BASED angegeben wurde, führt eine größere Anzahl von Bäumen i. A. zu einer genaueren Modellvorhersage; für die Berechnung des Modells wird jedoch mehr Zeit benötigt. Wenn für den Parameter model_type der Wert GRADIENT_BOOSTED angegeben wurde, führt eine größere Anzahl von Bäumen u. U. zu einer genaueren Modellvorhersage; es besteht jedoch das Risiko einer Überanpassung der Trainingsdaten. Um eine Überanpassung der Daten zu vermeiden, geben Sie Werte für die Parameter maximum_depth, reg_lambda, gamma und eta an.

Long
minimum_leaf_size
(optional)

Die minimale Anzahl der Beobachtungen, die mindestens erforderlich sind, um ein Blatt (also den Endpunkt einer Baumstruktur, der keine weiteren Verzweigungen hat) beizubehalten. Das Standardminimum ist 5 für die Regression und 1 für die Klassifizierung. Bei sehr großen Daten führt eine Erhöhung dieser Zahlen zu einer Erhöhung der Laufzeit des Werkzeugs.

Long
maximum_depth
(optional)

Die maximale Anzahl von Verzweigungen entlang einer Baumstruktur. Je größer die maximale Tiefe, desto mehr Verzweigungen werden erstellt. Dadurch steigt das Risiko einer Überanpassung des Modells. Wenn für den Parameter model_type der Wert FOREST-BASED angegeben wurde, ist die Standardeinstellung datengesteuert und abhängig von der Anzahl der erstellten Bäume und berücksichtigten Variablen. Wenn für den Parameter model_type der Wert GRADIENT_BOOSTED angegeben wurde, lautet der Standardwert 6.

Long
sample_size
(optional)

Der Prozentsatz der Werte von in_features, die für jeden Entscheidungsbaum verwendet werden sollen. Die Standardeinstellung liegt bei 100 Prozent der Daten. Stichproben für jede Baumstruktur werden nach dem Zufallsprinzip aus zwei Dritteln der angegebenen Daten entnommen.

Alle Entscheidungsbäume im Wald werden mithilfe einer zufälligen Stichprobe oder einer zufälligen Teilmenge (etwa zwei Drittel) der verfügbaren Trainingsdaten erstellt. Durch die Verwendung eines niedrigeren Prozentsatzes der Eingabedaten für die einzelnen Entscheidungsbäume wird die Laufzeit des Werkzeugs bei sehr großen Datasets reduziert.

Long
random_variables
(optional)

Die Anzahl der erklärenden Variablen, die zum Erstellen der einzelnen Entscheidungsbäume verwendet werden sollen.

Alle Entscheidungsbäume im Forest werden mithilfe einer zufälligen Teilmenge der angegebenen erklärenden Variablen erstellt. Durch eine Erhöhung der Anzahl der in den einzelnen Entscheidungsbäumen verwendeten Variablen steigt die Wahrscheinlichkeit einer Überanpassung des Modells, vor allem dann, wenn dominante Variablen vorhanden sind. Eine gängige Praxis besteht darin, die Quadratwurzel aus der Gesamtzahl der erklärenden Variablen (Felder, Entfernungen und Raster) zu ziehen, wenn der Wert für variable_predict kategorial ist, bzw. die Gesamtzahl der erklärenden Variablen (Felder, Entfernungen und Raster zusammengenommen) durch 3 zu teilen, wenn der Wert für variable_predict numerisch ist.

Long
percentage_for_training
(optional)

Der Prozentsatz (zwischen 10 und 50 Prozent) der Werte von in_features, die als Test-Dataset für die Validierung reserviert werden sollen. Das Modell wird ohne diese zufällige Teilmenge der Daten trainiert, und die beobachteten Werte für diese Features werden mit dem vorhergesagten Wert verglichen. Der Standardwert ist 10 Prozent.

Double
output_classification_table
(optional)

Eine Konfusionsmatrix, in der die Performance des für die Validierungsdaten erstellten Modells zusammengefasst wird. Die Matrix vergleicht die vom Modell vorhergesagten Kategorien für die Validierungsdaten mit den tatsächlichen Kategorien. Diese Tabelle kann verwendet werden, um zusätzliche Diagnosen zu berechnen, die nicht in den Ausgabemeldungen enthalten sind. Dieser Parameter ist verfügbar, wenn der Wert für variable_predict kategorial ist und für den Parameter treat_variable_as_categorical der Wert CATEGORICAL angegeben wurde.

Table
output_validation_table
(optional)

Eine Tabelle, die den R2-Wert für jedes Modell enthält, wenn der Wert für variable_predict nicht kategorial ist. Ist der Wert kategorial, wird die Accuracy für jedes Modell angezeigt. Diese Tabelle enthält ein Balkendiagramm mit der Verteilung der Accuracy- bzw. der R2-Werte. Mit dieser Verteilung können Sie die Stabilität des Modells bewerten. Dieser Parameter ist verfügbar, wenn der Wert für number_validation_runs größer als 2 ist.

Table
compensate_sparse_categories
(optional)

Gibt an, ob jede Kategorie im Trainings-Dataset ungeachtet ihrer Häufigkeit in jeder Baumstruktur dargestellt werden soll. Dieser Parameter ist verfügbar, wenn für den Parameter model_type der Wert FOREST-BASED eingegeben wurde.

  • TRUEJede Baumstruktur enthält jede Kategorie, die im Trainings-Dataset vertreten ist.
  • FALSEJede Baumstruktur wird basierend auf einer zufälligen Stichprobe der Kategorien im Trainings-Dataset erstellt. Dies ist die Standardeinstellung.
Boolean
number_validation_runs
(optional)

Die Anzahl der Iterationen des Werkzeugs.

Die Verteilung der R-Squared-Werte- bzw. Accuracy-Werte für alle Modelle kann mithilfe des Parameters output_validation_table angezeigt werden. Wenn für den Parameter prediction_type der Wert PREDICT_RASTER oder PREDICT_FEATURES festgelegt wurde, wird das Modell mit dem höchsten R-Squared- bzw. Accuracy-Medianwert für die Vorhersage verwendet. Die Verwendung des Medianwerts trägt dazu bei, die Stabilität der Vorhersagen sicherzustellen.

Long
calculate_uncertainty
(optional)

Gibt an, ob beim Trainieren oder beim Vorhersagen von Features oder Rastern die Vorhersageunsicherheit berechnet wird.

Dieser Parameter ist verfügbar, wenn für den Parameter model_type der Wert FOREST-BASED angegeben wurde.

  • TRUEEs wird ein Vorhersageunsicherheitsintervall berechnet.
  • FALSEEs wird keine Unsicherheit berechnet. Dies ist die Standardeinstellung.
Boolean
output_trained_model
(optional)

Eine Ausgabe-Modelldatei, in der das trainierte Modell, das später für Vorhersagen wiederverwendet werden kann, gespeichert werden soll.

File
model_type
(optional)

Gibt die Methode für die Erstellung des Modells an.

  • FOREST-BASEDEin Modell wird mithilfe einer Adaption des "Random Forest"-Algorithmus erstellt. Für das Modell werden die Stimmen von Hunderten von Entscheidungsbäumen verwendet. Jeder Entscheidungsbaum wird anhand einer zufällig generierten Teilmenge der ursprünglichen Daten und Variablen erstellt.
  • GRADIENT_BOOSTEDEin Modell wird mithilfe des XGBoost-Algorithmus (Extreme Gradient Boosting) erstellt. Das Modell erstellt eine Sequenz mit Hunderten von Bäumen, wobei jeder nachfolgende Baum die Fehler der vorherigen Bäume korrigiert.
String
reg_lambda
(optional)

Ein Normalisierungsausdruck, der die Sensitivität des Modells gegenüber einzelnen Features reduziert. Eine Erhöhung dieses Wertes bewirkt, dass das Modell konservativer wird, und verhindert eine Überanpassung der Trainingsdaten. Wenn der Wert 0 ist, entspricht das Modell dem traditionellen Gradient-Boosting-Modell. Die Standardeinstellung ist 1.

Dieser Parameter ist verfügbar, wenn für den Parameter model_type der Wert GRADIENT_BOOSTED angegeben wurde.

Double
gamma
(optional)

Ein Schwellenwert für die minimale Verlustreduzierung, die erforderlich ist, um Bäume zu teilen.

Potenzielle Verzweigungen werden im Hinblick auf ihre Verlustreduzierung evaluiert. Übersteigt die Verlustreduzierung einer potenziellen Verzweigungen diesen Schwellenwert, wird die Verzweigung durchgeführt. Durch höhere Schwellenwerte kann eine Überanpassung vermieden werden. Das Ergebnis sind konservativere Modelle mit weniger Partitionen. Die Standardeinstellung ist 0.

Dieser Parameter ist verfügbar, wenn für den Parameter model_type der Wert GRADIENT_BOOSTED angegeben wurde.

Double
eta
(optional)

Ein Wert, der den Beitrag der einzelnen Bäume zur endgültigen Vorhersage reduziert. Der Wert sollte größer als 0 und kleiner als oder gleich 1 sein. Eine niedrigere Lernrate verhindert eine Überanpassung des Modells, verlängert jedoch möglicherweise die Berechnungszeit. Der Standardwert ist 0,3.

Dieser Parameter ist verfügbar, wenn für den Parameter model_type der Wert GRADIENT_BOOSTED angegeben wurde.

Double
max_bins
(optional)

Die Anzahl der Abschnitte, in die die Trainingsdaten geteilt werden, um den besten Verzweigungspunkt zu finden. Der Wert darf nicht 1 sein. Der Standardwert ist 0, was der Verwendung eines Greedy-Algorithmus entspricht. Ein Greedy-Algorithmus erstellt bei jedem Datenpunkt eine potenzielle Verzweigung. Es ist nicht empfehlenswert, zu wenige Abschnitte für die Suche bereitzustellen, da sich dies negativ auf die Vorhersage-Performance des Modells auswirkt.

Dieser Parameter ist verfügbar, wenn für den Parameter model_type der Wert GRADIENT_BOOSTED angegeben wurde.

Long
optimize
(optional)

Gibt an, ob eine Optimierungsmethode verwendet wird, um den Hyperparametersatz zu ermitteln, der eine optimale Modell-Performance erzielt.

  • TRUEEs wird eine Optimierungsmethode verwendet, um den Hyperparametersatz zu ermitteln.
  • FALSEEs wird keine Optimierungsmethode verwendet. Dies ist die Standardeinstellung.
Boolean
optimize_algorithm
(optional)

Gibt die Optimierungsmethode an, mit der Suchpunkte ausgewählt und getestet werden, um den optimalen Hyperparametersatz zu ermitteln. Suchpunkte sind Kombinationen von Hyperparametern innerhalb des Suchraums, der durch den Parameters model_param_setting angegeben wurde. Diese Option ist verfügbar, wenn für den Parameter optimize der Wert TRUE angegeben wurde.

  • RANDOMEin Algorithmus für stratifizierte Zufallsstichproben wird verwendet, um die Suchpunkte innerhalb des Suchraums auszuwählen. Dies ist die Standardeinstellung.
  • RANDOM_ROBUSTEin Algorithmus für stratifizierte Zufallsstichproben wird verwendet, um die Suchpunkte auszuwählen. Jede Suche wird zehnmal mit jeweils einem anderen Zufallsursprung durchgeführt. Das Ergebnis jeder Suche ist der Medianwert der besten Ausführung, der durch den Parameterwert optimize_target bestimmt wird. Diese Option ist verfügbar, wenn für den Parameter model_type der Wert FOREST-BASED angegeben wurde.
  • GRIDJeder Suchpunkt innerhalb des Suchraums wird ausgewählt.
String
optimize_target
(optional)

Gibt die Objective-Funktion oder den Wert an, der minimiert oder maximiert werden soll, um den optimalen Hyperparametersatz zu ermitteln.

  • R2Die Optimierungsmethode maximiert den R2-Wert, um den optimalen Hyperparametersatz zu ermitteln. Diese Option ist nur verfügbar, wenn es sich bei der vorherzusagenden Variablen nicht um eine kategoriale Variable handelt. Dies ist die Standardeinstellung, wenn die vorherzusagende Variable nicht kategorial ist.
  • RMSEDie Optimierungsmethode minimiert die mittlere quadratische Abweichung, um den optimalen Hyperparametersatz zu ermitteln. Diese Option ist nur verfügbar, wenn es sich bei der vorherzusagenden Variablen nicht um eine kategoriale Variable handelt.
  • ACCURACYDie Optimierungsmethode maximiert die Accuracy, um das optimale Modell zu ermitteln. Diese Option ist nur verfügbar, wenn es sich bei der vorherzusagenden Variablen um eine kategoriale Variable handelt. Dies ist die Standardeinstellung, wenn die vorherzusagende Variable kategorial ist.
  • MCCDie Optimierungsmethode maximiert den Matthews-Korrelationskoeffizienten, um den optimalen Hyperparametersatz zu ermitteln. Diese Option ist nur verfügbar, wenn es sich bei der vorherzusagenden Variablen um eine kategoriale Variable handelt.
  • F1-SCOREDie Optimierungsmethode maximiert das F1-Maß, um den optimalen Hyperparametersatz zu ermitteln. Diese Option ist nur verfügbar, wenn es sich bei der vorherzusagenden Variablen um eine kategoriale Variable handelt.
String
num_search
(optional)

Die Anzahl der Suchpunkte innerhalb des durch den Parameter model_param_setting angegebenen Suchraums, die getestet werden sollen. Dieser Parameter ist verfügbar, wenn für den Parameter optimize_algorithm der Wert RANDOM oder RANDOM_ROBUST festgelegt wurde.

Long
model_param_setting
[model_param_setting,...]
(optional)

Eine Liste der Hyperparameter und deren Suchräumen. Passen Sie den Suchraum für jeden Hyperparameter an, indem Sie eine untere Grenze, eine obere Grenze und ein Intervall festlegen. Die untere Grenze und die obere Grenze geben den Bereich der zulässigen Werte für den Hyperparameter an.

Im Folgenden wird der Bereich der gültigen Werte für jeden Hyperparameter aufgeführt:

  • Anzahl der Baumstrukturen (number_of_trees): Ein ganzzahliger Wert, der größer als 1 ist.
  • Maximale Baumstrukturtiefe (maximum_depth): Ein Ganzzahlwert, der größer als oder gleich 0 ist.
  • Minimale Blattgröße (minimum_leaf_size): Ein Ganzzahlwert, der größer als 1 ist.
  • Pro Baum verfügbare Daten (%) (sample_size): Ein Ganzzahlwert, der größer als 0 und kleiner als oder gleich 100 ist.
  • Anzahl der nach dem Zufallsprinzip erfassten Variablen (random_variables): Ein Ganzzahlwert, der kleiner oder gleich der Anzahl der erklärenden Variablen ist. Dazu gehören die erklärenden Variablen aus Feldern, Entfernungs-Features und Rastern.
  • Lernrate (Eta) (eta): Ein Gleitkommazahlwert, der größer als 0 und kleiner als oder gleich 1 ist.
  • L2-Normalisierung (Lambda) (reg_lambda): Ein Gleitkommazahlwert, der größer als oder gleich 0 ist.
  • Minimale Verlustreduzierung für Verzweigungen (Gamma) (gamma): Ein Gleitkommazahlwert, der größer als oder gleich 0 ist.
  • Maximale Anzahl von Abschnitten zum Suchen von Verzweigungen (max_bins): Ein Ganzzahlwert der größer als 1 oder gleich dem Wert 0 ist. Ein Wert von 0 bedeutet, dass das Modell bei jedem Datenpunkt eine potenzielle Verzweigung erstellt.

Value Table
output_param_tuning_table
(optional)

Eine Tabelle, in der die Parametereinstellungen und objektiven Werte für jeden Optimierungstestlauf enthalten sind. Die Ausgabe enthält ein Diagramm mit allen Testläufen und ihren objektiven Werten. Diese Option ist nur verfügbar, wenn für optimize der Wert TRUE angegeben wurde.

Table
include_probabilities
(optional)

Gibt für vorherzusagende kategoriale Variablen an, ob die Wahrscheinlichkeit jeder Kategorie der kategorialen Variablen oder nur die Wahrscheinlichkeit der Kategorie des Datensatzes vorhergesagt wird. Wenn z. B. eine kategoriale Variable die Kategorien A, B und C aufweist und der erste Datensatz von Kategorie B ist, geben Sie mit diesem Parameter an, ob die Wahrscheinlichkeit für die Kategorien A, B und C oder nur die Wahrscheinlichkeit der Kategorie B vorhergesagt wird.

  • ALL_PROBABILITIESDie Wahrscheinlichkeiten für alle Kategorien der kategorialen Variablen werden vorhergesagt und in die trainierten und vorhergesagten Ausgabe-Features einbezogen.
  • HIGHEST_PROBABILITY_ONLYEs wird nur die Wahrscheinlichkeit für die Kategorie des Datensatzes vorhergesagt und in die trainierten und vorhergesagten Ausgabe-Features einbezogen. Dies ist die Standardeinstellung.
Boolean

Abgeleitete Ausgabe

NameErläuterungDatentyp
output_uncertainty_raster_layers

Wenn calculate_uncertainty auf TRUE festgelegt ist, berechnet das Werkzeug für jeden Wert des Parameters variable_predict ein Vorhersageintervall von 90 Prozent.

Raster Layer

Codebeispiel

Forest: Beispiel 1 (Python-Fenster)

Das folgende Python-Skript veranschaulicht, wie die Funktion Forest verwendet wird.

import arcpy
arcpy.env.workspace = r"c:\data"

# Forest-based model using only the training method and all data
# comes from a single polygon feature class. The tool excludes 10% of the 
# input features from training and uses these values to validate the model.

prediction_type = "TRAIN"
in_features = r"Boston_Vandalism.shp"
variable_predict = "VandCnt"
explanatory_variables = [["Educat", "false"], ["MedAge", "false"], 
    ["HHInc", "false"], ["Pop", "false"]]
output_trained_features = "TrainingFeatures.shp"
number_of_trees = 100
sample_size = 100
percentage_for_training = 10

arcpy.stats.Forest(prediction_type, in_features, variable_predict, None,
    explanatory_variables, None, None, None, None, None, None, None, None,
    output_trained_features, None, True, number_of_trees, None, None, sample_size, 
    None, percentage_for_training)
Forest: Beispiel 2 (eigenständiges Skript)

Das folgende Python-Skript veranschaulicht, wie die Funktion Forest zur Vorhersage von Features verwendet wird.

# Import system modules
import arcpy

# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True

# Set the work space to a gdb
arcpy.env.workspace = r"C:\Data\BostonCrimeDB.gdb"

# Forest-based model taking advantage of both distance features and 
# explanatory rasters. The training and prediction data has been manually
# split so the percentage to exclude parameter was set to 0. A variable importance
# table is created to help assess results and advanced options have been used
# to fine-tune the model.

prediction_type = "PREDICT_FEATURES"
in_features = r"Boston_Vandalism_Training"
variable_predict = "Vandalism_Count"
treat_variable_as_categorical = None
explanatory_variables = [["EduClass", "true"], ["MedianAge", "false"],
    ["HouseholdIncome", "false"], ["TotalPopulation", "false"]]
distance_features = r"Boston_Highways"
explanatory_rasters = r"LandUse true"
features_to_predict = r"Boston_Vandalism_Prediction"
output_features = r"Prediction_Output"
output_raster = None
explanatory_variable_matching = [["EduClass", "EduClass"], ["MedianAge", "MedianAge"], 
    ["HouseholdIncome", "HouseholdIncome"], ["TotalPopulation", "TotalPopulation"]]
explanatory_distance_matching = [["Boston_Highways", "Boston_Highways"]]
explanatory_rasters_matching = [["LandUse", "LandUse"]]
output_trained_features = r"Training_Output"
output_importance_table = r"Variable_Importance"
use_raster_values = True
number_of_trees = 100
minimum_leaf_size = 2
maximum_level = 5
sample_size = 100
random_sample = 3
percentage_for_training = 0

arcpy.stats.Forest(prediction_type, in_features, variable_predict,
    treat_variable_as_categorical, explanatory_variables, distance_features,
    explanatory_rasters, features_to_predict, output_features, output_raster,
    explanatory_variable_matching, explanatory_distance_matching, 
    explanatory_rasters_matching, output_trained_features, output_importance_table,
    use_raster_values, number_of_trees, minimum_leaf_size, maximum_level,
    sample_size, random_sample, percentage_for_training)
Forest: Beispiel 3 (eigenständiges Skript)

Das folgende Python-Skript veranschaulicht, wie die Funktion Forest zur Erstellung einer vorhergesagten Oberfläche verwendet wird.

# Import system modules
import arcpy

# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True

# Set the work space to a gdb
arcpy.env.workspace = r"C:\Data\Landsat.gdb"

# Using a forest-based model to classify a Landsat image. The TrainingPolygons feature 
# class was created manually and is used to train the model to 
# classify the remainder of the Landsat image.

prediction_type = "PREDICT_RASTER"
in_features = r"TrainingPolygons"
variable_predict = "LandClassName"
treat_variable_as_categorical = "CATEGORICAL" 
explanatory_variables = None
distance_features = None
explanatory_rasters = [["Band1", "false"], ["Band2", "false"], ["Band3", "false"]]
features_to_predict = None
output_features = None
output_raster = r"PredictionSurface"
explanatory_variable_matching = None
explanatory_distance_matching = None
explanatory_rasters_matching = [["Band1", "Band1"], ["Band2", "Band2"], ["Band3", "Band3"]]
output_trained_features = None
output_importance_table = None
use_raster_values = True
number_of_trees = 100
minimum_leaf_size = None
maximum_level = None
sample_size = 100
random_sample = None
percentage_for_training = 10

arcpy.stats.Forest(prediction_type, in_features, variable_predict,
    treat_variable_as_categorical, explanatory_variables, distance_features,
    explanatory_rasters, features_to_predict, output_features, output_raster,
    explanatory_variable_matching, explanatory_distance_matching, 
    explanatory_rasters_matching, output_trained_features, output_importance_table,
    use_raster_values, number_of_trees, minimum_leaf_size, maximum_level,
    sample_size, random_sample, percentage_for_training)

Umgebungen

Sonderfälle

Zufallszahlengenerator

Der verwendete Zufallsgeneratortyp ist stets Mersenne Twister.

Faktor für parallele Verarbeitung

Parallele Verarbeitung wird nur beim Treffen von Vorhersagen verwendet.

Lizenzinformationen

  • Basic: Begrenzt
  • Standard: Begrenzt
  • Advanced: Begrenzt

Verwandte Themen