Das Werkzeug Forest-basierte Klassifizierung und Regression trainiert ein Modell auf der Grundlage bekannter Werte, die als Teil eines Trainings-Datasets bereitgestellt werden. Anhand dieses Vorhersagemodells können dann unbekannte Werte in einem Vorhersage-Dataset, das mit den gleichen erklärenden Variablen verknüpft ist, vorhergesagt werden. Das Werkzeug erstellt Modelle und generiert Vorhersagen mithilfe einer Adaption des "Random Forest"-Algorithmus, einer Methode für überwachtes maschinelles Lernen von Leo Breiman. Das Werkzeug erstellt zahlreiche Entscheidungsbäume, die als Ensemble oder Wald bezeichnet und zur Vorhersage genutzt werden. Jeder Baum erstellt eine eigene Vorhersage und wird als Teil eines Wahlschemas zur Erstellung endgültiger Vorhersagen verwendet. Die endgültigen Vorhersagen basieren nicht auf einem einzelnen Baum, sondern vielmehr auf den gesamten Wald. Die Verwendung des gesamten Waldes anstelle eines einzelnen Baumes hilft, eine Überanpassung des Modells an das Trainings-Dataset zu vermeiden. Dasselbe gilt für die Verwendung einer zufälligen Teilmenge sowohl der Trainingsdaten als auch der erklärenden Variablen für jeden der Bäume, aus denen sich der Wald zusammensetzt.
Potenzielle Anwendungsbereiche
Das Werkzeug hat folgende potenzielle Anwendungsbereiche:
- Vorhandene Daten über das Vorkommen von Seegras sowie eine Reihe von erklärenden Umgebungsvariablen, die sowohl als Attribute als auch als Raster dargestellt werden, können neben den Entfernungen zu flussaufwärts liegenden Fabriken und großen Häfen Vorhersagen über das künftige Vorkommen von Seegras auf der Grundlage von Zukunftsprognosen für die gleichen erklärenden Umgebungsvariablen ermöglichen.
- Angenommen, Sie haben Daten zu Ernteerträgen in Hunderten von landwirtschaftlichen Betrieben im ganzen Land zusammen mit weiteren Attributen all dieser Betriebe (Anzahl der Mitarbeiter, Anbauflächen etc.) sowie eine Anzahl von Rastern, die die Neigung, Höhe, den Niederschlag und die Temperatur für die einzelnen Betrieben darstellen. Anhand der einzelnen Daten können Sie eine Reihe von Features zur Darstellung landwirtschaftlicher Betriebe bereitstellen, bei denen der Ernteertrag (im Gegensatz zu allen anderen Variablen) nicht vorliegt, um eine Vorhersage zum Ernteertrag zu machen.
- Wohnwerte können anhand der Preise von Häusern, die im laufenden Jahr verkauft wurden, vorhergesagt werden. Der Verkaufspreis der verkauften Häuser kann zusammen mit Informationen über die Anzahl der Schlafzimmer, die Entfernung zu den Schulen, die Nähe zu den Hauptverkehrsstraßen, das Durchschnittseinkommen und die Kriminalitätsrate verwendet werden, um die Verkaufspreise ähnlicher Häuser vorherzusagen.
- Landnutzungsarten können anhand von Trainingsdaten und einer Kombination aus Raster-Layern, darunter mehrere einzelne Bänder, und Produkten wie NDVI klassifiziert werden.
- Anhand von Informationen über die Bleiwerte im Blut von Kindern und die Steuerflurstücks-ID der jeweiligen Häuser kann, in Verbindung mit Attributen auf Flurstückebene wie dem Alter des Hauses, offiziellen Bevölkerungsdaten wie Einkommens- und Bildungsniveau und nationalen Datasets, die die toxische Freisetzung von Blei und Bleiverbindungen wiedergeben, das Risiko einer Bleiexposition für Parzellen ohne Daten zu Blutbleiwerten vorhergesagt werden. Diese Risikovorhersagen könnten für Maßnahmen und Aufklärungsprogramme in dem Gebiet genutzt werden.
Trainieren eines Modells
Der erste Schritt bei der Verwendung des Werkzeugs Forest-basierte Klassifizierung und Regression besteht im Trainieren eines Modells für die Vorhersage. Durch das Training wird ein Wald erstellt, der eine Beziehung zwischen erklärenden Variablen und dem Parameter Vorherzusagende Variable herstellt. Unabhängig davon, ob Sie sich für die Option Nur trainieren oder für das Trainieren und Vorhersagen entscheiden, beginnt das Werkzeug mit dem Erstellen eines Modells, das auf dem Parameter Vorherzusagende Variable und einer Kombination aus den Parametern Erklärende Trainingsvariablen, Erklärende Trainings-Entfernungs-Features (verfügbar mit einer Advanced-Lizenz) und Erklärende Trainings-Raster (verfügbar mit einer Spatial Analyst-Lizenz) basiert. Das Werkzeug wertet die Performance des erstellten Modells aus und stellt weitere Diagnosen bereit.
Standardmäßig werden 10 Prozent der Trainingsdaten zu Validierungszwecken vom Training ausgenommen. Nach dem Trainieren des Modells wird dieses zur Vorhersage der Werte für die Testdaten verwendet. Die vorhergesagten Werte werden dann mit den beobachteten Werten verglichen, um die Vorhersagegenauigkeit auf der Grundlage der Daten zu messen, die im Trainingsprozess nicht berücksichtigt wurden. Auch weitere Diagnosen zum Modell, darunter Eigenschaften des Waldes, Out-of-Bag-Fehler (OOB-Fehler) und eine Zusammenfassung der Variablenbedeutung, werden berücksichtigt. Diese Einstellungen werden im Folgenden ausführlicher beschrieben.
Das Modell kann zur Vorhersage einer kategorisierten Vorherzusagenden Variable (Klassifizierung) oder einer kontinuierlichen Vorherzusagenden Variable (Regression) verwendet werden. Wird die Option Variable als kategorisch behandeln aktiviert, basiert das erstellte Modell auf Klassifizierungsbäumen. Wird sie nicht aktiviert, wird davon ausgegangen, dass der Parameter Vorherzusagende Variable kontinuierlich ist, und das Modell wird auf Basis von Regressionsbäumen erstellt.
Erklärende Trainingsvariablen
Eine der häufigsten Formen erklärender Variablen, die zum Trainieren eines Forest-Modells verwendet werden, sind Felder im Trainings-Dataset, die auch den Parameter Vorherzusagende Variable enthalten. Diese Felder können kontinuierlich oder kategorisch sein. Unabhängig davon, ob Sie eine kontinuierliche Variable oder eine kategorische Variable vorhersagen möchten, können alle Erklärenden Trainingsvariablen kontinuierlich oder kategorisch sein. Wenn das trainierte Modell auch zur Vorhersage verwendet wird, müssen alle bereitgestellten Erklärenden Trainingsvariablen für das Trainings-Dataset und das Vorhersage-Dataset verfügbar sein.
Erklärende Trainings-Entfernungs-Features
Auch wenn Forest-basierte Klassifizierung und Regression kein Werkzeug für räumliches maschinelles Lernen darstellt, können Sie die räumlichen Möglichkeiten in Ihrer Analyse mithilfe von Entfernungs-Features nutzen. Bei der Modellierung der Performance einer Reihe von Einzelhandelsgeschäften könnte eine Variable, die die Entfernung zu Autobahnauffahrten oder zum nächsten Mitbewerber darstellt, für die Erstellung genauer Vorhersagen entscheidend sein. Ähnlich wäre bei der Modellierung der Luftqualität eine erklärende Variable zur Darstellung der Entfernung zu den größten Verschmutzungsquellen oder den Hauptverkehrsstraßen wichtig. Entfernungs-Features dienen zum automatischen Erstellen erklärender Variablen durch die Berechnung der Entfernung zwischen bereitgestellten Features und Eingabe-Trainings-Features. Entfernungen werden von den einzelnen erklärenden Trainings-Entfernungs-Features der Eingabe zu den nächsten Eingabe-Trainings-Features berechnet. Wenn die Erklärenden Trainings-Entfernungs-Features der Eingabe Polygone oder Linien sind, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet. Allerdings werden Entfernungen bei Polygonen und Linien anders berechnet. Weitere Informationen hierzu finden Sie unter So wird die Entfernung mit Proximity-Werkzeugen berechnet.
Erklärende Trainings-Raster
Erklärende Trainings-Raster können auch zum Trainieren des Modells verwendet werden, das Datenquellen wie Fernerkundungsdaten, DEMs, Modelle zur Bevölkerungsdichte oder Umweltmessungen bereithält. Der Parameter Erklärende Trainings-Raster ist nur mit einer Spatial-Analyst-Lizenz verfügbar. Wenn es sich bei Ihren Eingabe-Trainings-Features um Punkte handelt, führt das Werkzeug einen Drillvorgang durch, um erklärende Variablen an den einzelnen Punktpositionen zu extrahieren. Bei Multiband-Rastern wird nur das erste Band verwendet. Verwenden Sie für Mosaik-Datasets zunächst das Werkzeug Mosaik-Layer erstellen.
Diese Raster können kontinuierlich oder kategorisch sein. Unabhängig davon, ob Sie eine kontinuierliche Variable oder eine kategorische Variable vorhersagen möchten, können alle Erklärenden Trainings-Raster kontinuierlich oder kategorisch sein.
Wenn es sich bei Ihren Eingabe-Trainings-Features um Polygone handelt, die Vorherzusagende Variable kategorisch ist und Sie Erklärende Trainings-Raster verwenden, gibt es die Option Polygone für Training in Raster-Auflösung konvertieren. Ist diese Option aktiviert, wird das Polygon am Schwerpunkt aller Raster-Zellen, deren Schwerpunkt innerhalb des Polygons liegt, in Punkte unterteilt und als Punkt-Dataset behandelt. Anschließend werden die Raster-Werte an den einzelnen Punktpositionen extrahiert und zum Trainieren des Modells verwendet. Das Modell wird nicht länger am Polygon trainiert, sondern an den für die einzelnen Zellenschwerpunkten extrahierten Raster-Werten. Für numerische Variablen wird eine bilineare Stichprobenmethode verwendet, für kategorische Variablen die nächstgelegene Methode. Die Standard-Zellengröße der konvertierten Polygone entspricht der maximalen Zellengröße der Eingabe-Raster. Dies kann jedoch über die Umgebungseinstellung Zellengröße geändert werden. Ist die Option nicht aktiviert, wird ein Raster-Wert für jedes Polygon im Modell verwendet. Jedem Polygon wird für kontinuierliche Raster der Durchschnittswert und für kategorisierte Raster die Mehrheit zugewiesen.
Vorhersagen anhand eines Forest-basierten Modells
Es empfiehlt sich, mit der Option Nur trainieren zu beginnen, die Ergebnisse der Analyse zu evaluieren und die zu berücksichtigenden Variablen sowie die erweiterten Parameter nach Bedarf anzupassen. Sobald ein gutes Modell gefunden wurde, sollten Sie das Werkzeug erneut ausführen, um Features oder Raster vorherzusagen. Beim Übergang zur Vorhersage hat es sich bewährt, den Parameter % der Trainingsdaten für die Validierung ausgeschlossen in 0 % zu ändern, um alle verfügbaren Trainingsdaten in dem endgültigen für die Vorhersage verwendeten Modell zu berücksichtigen. Sie können Vorhersagen wie folgt treffen:
Vorhersagen im gleichen Untersuchungsgebiet
Bei der Vorhersage von Features im gleichen Untersuchungsgebiet muss jedes Vorhersage-Feature alle zugeordneten erklärenden Variablen (Felder) sowie überlappende Ausdehnungen mit den Erklärenden Trainings-Entfernungs-Features und Erklärenden Trainings-Rastern enthalten.
Bei Vorhersagen für ein Raster im gleichen Untersuchungsgebiet anhand der bereitgestellten Erklärenden Trainings-Raster handelt es sich bei der Vorhersage um die überlappende Ausdehnung aller erklärenden Raster.
Vorhersagen in einem anderen Untersuchungsgebiet
Bei der Vorhersage von Features in einem anderen Untersuchungsgebiet muss jedes Vorhersage-Feature alle zugeordneten Erklärungsvariablen (Felder) enthalten, und neue erklärende Entfernungs-Features und erklärende Raster müssen mit ihren entsprechenden Erklärenden Trainings-Entfernungs-Features und Rastern abgeglichen werden. Diese neuen Entfernungs-Features und Raster müssen für das neue Untersuchungsgebiet verfügbar sein und den Erklärenden Trainings-Entfernungs-Features und Erklärenden Trainings-Rastern entsprechen. Wird beispielsweise ein kategorisches Raster zum Trainieren des Modells verwendet, darf das entsprechende erklärende Vorhersage-Raster keine anderen Kategorien oder drastisch unterschiedlichen Wertebereiche haben.
Bei der Vorhersage für ein Raster in einem anderen Untersuchungsgebiet müssen neue erklärende Vorhersage-Raster bereitgestellt und mit den entsprechenden Erklärenden Trainings-Rastern abgeglichen werden. Das entsprechende erklärende Vorhersage-Raster darf keine anderen Kategorien oder drastisch unterschiedlichen Wertebereiche haben. Bei dem resultierenden Ausgabe-Vorhersage-Raster handelt es sich um die überlappende Ausdehnung aller bereitgestellten erklärenden Vorhersage-Raster.
Vorhersagen für einen anderen Zeitraum durch das Abgleichen der für das Training verwendeten erklärenden Variablen mit Variablen mit Zukunftsprognosen
Bei der Vorhersage für einen zukünftigen Zeitraum müssen alle projizierten erklärenden Vorhersage-Variablen (Felder, Entfernungs-Features und Raster) unabhängig davon, ob es sich um Vorhersagen für Features oder ein Raster handelt, mit den entsprechenden erklärenden Trainingsvariablen abgeglichen werden.
Vorhersagen für Features
Modelle, die mit einer beliebigen Kombination aus Erklärenden Trainingsvariablen, Erklärenden Trainings-Entfernungs-Features und Erklärenden Trainings-Rastern erstellt wurden, können für Vorhersagen von Punkten oder Polygonen im gleichen oder auch in einem anderen Untersuchungsgebiet verwendet werden. Die Vorhersage für Features erfordert es, dass für jedes Feature, für das eine Vorhersage getroffen wird, Werte für alle Felder, Entfernungs-Features und Raster bereitgestellt werden.
Stimmen die Feldnamen von Input Training Features und Input Prediction Features nicht überein, wird ein Parameter für den Variablenabgleich bereitgestellt. Beim Abgleich von erklärenden Variablen müssen die Felder Prediction und Training den gleichen Typ haben (ein doppeltes Feld in Training muss mit einem doppelten Feld in Prediction abgeglichen werden).
Um andere Entfernungs-Features oder Raster zu verwenden, als zum Trainieren des Modells verwendet wurden, weil Sie eine Vorhersage für einen anderen Untersuchungsbereich oder einen anderen Zeitraum treffen wollen, werden die Parameter Entfernungs-Features abgleichen und Erklärende Raster abgleichen bereitgestellt.
Vorhersagen für Raster
Bei Verwenden eines Modells, das nur mit Erklärende Trainings-Raster trainiert wurde, können Sie ein Raster im gleichen oder in einem anderen Untersuchungsgebiet vorhersagen. Um andere Vorhersage-Raster zu verwenden, als zum Trainieren des Modells verwendet wurden, weil Sie eine Vorhersage für einen anderen Untersuchungsbereich oder einen anderen Zeitraum treffen wollen, wird der Parameter Erklärende Raster abgleichen bereitgestellt. Sie können ein Ausgabe-Vorhersage-Raster mit einer Spatial-Analyst-Lizenz erstellen, indem Sie Raster vorhersagen als Vorhersagetyp auswählen.
Ausgeben von Meldungen und Diagnosen
Mit diesem Werkzeug werden auch Meldungen und Diagramme erstellt, mit denen Sie die Performance des Modells besser verstehen. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Sie können über den Geoverarbeitungsverlauf auch auf die Meldungen einer vorherigen Ausführung des Werkzeugs Forest-basierte Klassifizierung und Regression zugreifen. Die Meldungen enthalten Informationen zu den Modelleigenschaften, OOB-Fehlern, der Variablenbedeutung und Validierungsdiagnosen.
Die Tabelle mit den Modelleigenschaften enthält Informationen zu einer Reihe wichtiger Aspekte Ihres Forest-Modells, von denen einige über Parameter in Erweiterte Forest-Optionen ausgewählt werden und andere datenabhängig sind. Datenabhängige Random-Forest-Eigenschaften können wichtig sein, um zu wissen, wann die die Performance des Modells verbessert werden sollte. Der Bereich für Baumtiefe zeigt die minimale und die maximale Baumtiefe des Waldes (das Maximum ist als Parameter festgelegt, aber darunter ist jede Tiefe möglich). Die durchschnittliche Baumtiefe meldet die durchschnittliche Tiefe der Bäume im Wald. Wenn die maximale Tiefe auf 100 festgelegt wurde, Bereich und durchschnittliche Tiefe aber darauf hinweisen, dass meist eine viel geringere Tiefe verwendet wird, könnte die Performance des Modells durch einen niedrigeren Parameter für die maximale Tiefe verbessert werden, da dadurch die Wahrscheinlichkeit einer Überanpassung des Modells an die Trainingsdaten geringer wird. Die Option Anzahl der nach dem Zufallsprinzip erfassten Variablen meldet die Anzahl der nach dem Zufallsprinzip ausgewählten Variablen, die für jeden Baum im Wald verwendet werden. Jeder Baum hat eine andere Kombination aus Variablen, verwendet jedoch genau diese Anzahl. Die standardmäßig ausgewählte Anzahl basiert auf einer Kombination aus der Anzahl der Features und der Anzahl verfügbarer Variablen. Für die Regression ist dies ein Drittel der Gesamtzahl der erklärenden Variablen (einschließlich Features, Raster und Entfernungs-Features). Für die Klassifizierung ist dies die Quadratwurzel aus der Gesamtzahl an Variablen.
Zusätzlich zu den grundlegenden Eigenschaften des Waldes werden OOB-Fehler bereitgestellt, die bei der Bewertung der Genauigkeit des Modells helfen. Sowohl die mittlere quadratische Abweichung (Mean Squared Error, MSE) als auch der erläuterte Prozentsatz der Variation basieren auf der Fähigkeit des Modells zur genauen Vorhersage der Vorherzusagenden Variable basierend auf den beobachteten Werten im Trainings-Dataset. OOB ist ein Vorhersagefehler, der anhand der Daten berechnet wird, die zu dem Trainings-Dataset gehören, das von einer Teilmenge der Bäume im Wald nicht gesehen wird. Wenn Sie ein Modell anhand von 100 Prozent Ihrer Daten trainieren möchten, sind Sie bei der Bewertung der Genauigkeit Ihres Modells auf OOB angewiesen. Diese Fehler werden für die Hälfte der Anzahl an Bäumen und die Gesamtzahl der Bäume gemeldet und sollen die Entscheidung vereinfachen, ob eine Erhöhung der Anzahl an Bäumen die Performance des Modells verbessern würde. Wenn die Fehler und der erläuterte Prozentsatz der Variation für beide Baumanzahlen die gleichen Werte haben, ist dies ein Hinweis darauf, dass die Verwendung einer kleineren Anzahl an Bäumen minimale Auswirkungen auf die Performance des Modells hat. Es empfiehlt sich jedoch, so viele Bäume zu verwenden, wie Ihr Computer zulässt. Eine größere Anzahl an Bäumen im Wald führt zu stabileren Ergebnissen und einem Modell, das weniger anfällig ist für Rauschen in den Daten und im Referenzpunktschema.
Wenn der Wert Vorherzusagende Variable kategorisch ist (zu erkennen am Parameter Variable als kategorisch behandeln), erfolgt die Berechnung der OOB-Fehler basierend auf dem Prozentsatz der falschen Klassifizierungen für jede Kategorie bei den Bäumen, von denen eine Teilmenge der Bäume im Wald nicht gesehen wurde. Der Prozentsatz der falschen OOB-Klassifizierungen für jede Kategorie wird in den Geoverarbeitungsmeldungen ausgegeben. Der MSE der Klassifizierungen wird ebenfalls ausgegeben und kann als Gesamtanteil der falschen OOB-Klassifizierungen bei allen Kategorien interpretiert werden. Wenn Sie für den Parameter Anzahl der Bäume eine kleine Zahl verwenden, werden möglicherweise von allen Bäumen keine Trainingsdaten aus einer oder mehreren Kategorien gesehen. In diesem Fall ist der OOB-Fehler 100 %.
Ein weiterer wichtiger Faktor für die Performance des Modells sind die verwendeten erklärenden Variablen. Die Tabelle "Höchste Variablenbedeutung" enthält eine Liste der 20 höchsten Werte für die Variablenbedeutung. Die Bedeutung wird anhand der Gini-Koeffizienten berechnet, vorstellbar als Häufigkeit, mit der eine Variable für eine Teilung und die Folge dieser Teilung verantwortlich ist, geteilt durch die Anzahl der Bäume. Teilungen sind einzelne Entscheidungen innerhalb eines Entscheidungsbaums. Anhand der Variablenbedeutung kann ein einfacheres, ökonomischeres Modell erstellt werden, das als bedeutsam erkannte Variablen enthält.
Wenn die Option Ausgabe-Diagnose-Tabelle ausgewählt ist, wird ein optionales Balkendiagramm erstellt, das die Bedeutung der einzelnen Variablen des Modells anzeigt. Der Zugriff darauf erfolgt im Bereich Inhalt. Im Balkendiagramm werden die im Modell verwendeten Variablen auf der Y-Achse und ihre Bedeutung gemäß Gini-Koeffizient auf der X-Achse angezeigt.
Wenn für die Anzahl der ausgeführten Validierungen ein Wert angegeben wurde, wird anstelle eines Balkendiagramms ein Boxplot-Diagramm der Variablenbedeutung erstellt. Das Boxplot enthält die Verteilung der Werte für die Variablenbedeutung in allen Validierungen. Die Verteilung der Variablenbedeutung ist ein Indikator für die Stabilität des trainierten Forest-Modells. Wenn sich die Bedeutung einer Variablen im Laufe mehrerer Validierungen erheblich ändert (was durch ein langes Feld im Diagramm erkennbar ist), kann dies auf ein instabiles Random-Forest-Modell hinweisen. Ein instabiles Modell lässt sich häufig durch Erhöhung der Anzahl der Bäume optimieren, weil dann komplexere Beziehungen zwischen den Daten erfasst werden.
Die Variablenbedeutung bietet eine Möglichkeit der Diagnose, mit der Sie herausfinden können, welche Variablen die Modellergebnisse beeinflussen. Im Gegensatz zu R2 in Regressionsmodellen misst sie nicht die Qualität der Vorhersage des Modells. Als Best Practice empfiehlt sich die Verwendung aller Daten für das Training. Stellen Sie hierzu den Parameter % der Trainingsdaten für die Validierung ausgeschlossen auf 0 ein, und analysieren Sie das Boxplot der Variablenbedeutung. Ändern Sie als Nächstes weitere Parameter wie die Anzahl der Bäume oder die Maximale Baumtiefe, und analysieren Sie die Boxplots, bis Sie ein stabiles Modell erhalten. Wenn Sie in Bezug auf die Variablenbedeutung ein stabiles Modell trainiert haben, können Sie den Parameter % der Trainingsdaten für die Validierung ausgeschlossen erhöhen, um die Genauigkeit des Modells zu bestimmen. Analysieren Sie dazu die OOB-Fehler in den Diagnosemeldungen. Wenn das Modell eine stabile Variablenbedeutung und eine gewisse Genauigkeit aufweist, können Sie die Anzahl der ausgeführten Validierungen auf 1 setzen; Sie erhalten dann ein Diagramm mit einem Balken, der die endgültige Variablenbedeutung des Modells darstellt.
Eine weitere wichtige Methode zur Evaluierung der Performance des Modells besteht in der Verwendung des Modells für die Vorhersage von Features, die beim Training des Modells nicht berücksichtigt wurden. Standardmäßig umfasst dieses Test-Dataset 10 Prozent der Eingabe-Trainings-Features und kann mithilfe des Parameters % der Trainingsdaten für die Validierung ausgeschlossen gesteuert werden. Ein Nachteil von OOB besteht darin, dass eine Teilmenge des Waldes (Bäume, die kein bestimmtes Feature des Training-Datasets verwendet haben) und nicht der gesamte Wald verwendet wird. Durch das Ausschließen einiger Daten für die Validierung lassen sich Fehlerkennwerte für den gesamten Wald auswerten.
Bei der Vorhersage einer kontinuierlichen Variable wird der beobachtete Wert für die einzelnen Test-Features mit den Vorhersagen für diese Features auf der Grundlage des trainierten Modells verglichen und entsprechende R-Squared-, p- und Standardfehlerwerte gemeldet. Diese Diagnosen ändern sich mit jeder Ausführung des Trainingsprozesses, da die Auswahl des Test-Datasets nach dem Zufallsprinzip erfolgt. Um ein Modell zu erstellen, das sich nicht mit jeder Ausführung ändert, können Sie einen Ursprung in der Umgebungseinstellung Zufallszahlengenerator festlegen.
Bei der Vorhersage einer kategorischen Variable werden Empfindlichkeit und Genauigkeit im Meldungsfenster angezeigt. Diese Diagnosen werden anhand einer Konfusionsmatrix berechnet, die für jede Instanz verfolgt, ob die Interessenkategorie richtig oder falsch klassifiziert ist und wenn andere Kategorien als die Interessenkategorie falsch klassifiziert sind. Die Empfindlichkeit für die einzelnen Kategorien wird als Prozentsatz der Häufigkeit gemeldet, mit der Features mit der beobachteten Kategorie für diese Kategorie richtig vorhergesagt wurden. Wenn Sie beispielsweise "Land" und "Wasser" vorhersagen und "Land" eine Empfindlichkeit von 1,00 hat, wurde jedes Feature, das als "Land" gekennzeichnet worden sein sollte, richtig vorhergesagt. Wurde ein Wasser-Feature jedoch fälschlicherweise als "Land" gekennzeichnet, schlägt sich dies nicht in der Empfindlichkeitszahl für "Land" nieder. Es zeigt sich allerdings in der Empfindlichkeitszahl für "Wasser", da dies bedeutet, dass eines der Wasser-Features nicht richtig vorhergesagt wurde.
Die Genauigkeitsdiagnose berücksichtigt, wie gut Features einer bestimmten Kategorie vorhergesagt werden und wie häufig andere Kategorien fälschlicherweise als die Interessenkategorie kategorisiert wurden. Sie vermittelt einen Eindruck davon, wie häufig eine Kategorie innerhalb der Gesamtzahl an „Konfusionen“ für diese Kategorie richtig identifiziert wird. Bei der Klassifizierung einer Variablen mit nur zwei Klassen ist das Genauigkeitsmaß für beide Klassen gleich; die Empfindlichkeit kann jedoch unterschiedlich sein. Bei der Klassifizierung einer Variablen mit mehr als zwei Klassen können Empfindlichkeit und Genauigkeit bei beiden Klassen unterschiedlich sein.
Diese Diagnosen werden auch zum Vergleich vorhergesagter Werte mit beobachteten Werten für das Trainings-Dataset bereitgestellt. Mithilfe dieser Diagnosen können Sie sich einen Eindruck verschaffen, wie geeignet das Modell für die Trainingsdaten ist.
Mithilfe der erklärenden Bereichsdiagnose können Sie beurteilen, ob die für Training, Validierung und Vorhersage verwendeten Werte ausreichen, um ein zuverlässiges Modell zu erstellen und anderen Modelldiagnosen zu vertrauen. Die für das Training eines Random-Forest-Modells verwendeten Daten haben erheblichen Einfluss auf die Qualität der resultierenden Klassifizierung und Vorhersagen. Im Idealfall sollten die Trainingsdaten repräsentativ für die zu modellierenden Daten sein. Standardmäßig werden 10 Prozent der Trainingsdaten nach dem Zufallsprinzip ausgeschlossen, sodass sich ein Trainings- und ein Validierungs-Subset der Eingabe-Trainings-Features ergibt. Die Tabelle "Diagnose des Bereichs der erklärenden Variable" zeigt die Minimal- und die Maximalwerte für diese Subsets an. Wenn Features oder Raster vorhergesagt werden, werden außerdem die für die Vorhersage verwendeten Daten angezeigt.
Da Subsets nach dem Zufallsprinzip bestimmt werden, sind die Werte für die Variablen im Trainings-Subset möglicherweise nicht für alle Werte in den Eingabe-Trainings-Features repräsentativ. Für jede kontinuierliche erklärende Variable gibt die Spalte für den Trainingsanteil den Überlappungsprozentsatz zwischen den Werten des Trainings-Subsets und den Werten aller Features in den Eingabe-Trainings-Features an. Wenn Variable A aus den Eingabe-Trainings-Features z. B. die Werte 1 bis 100 und das Trainings-Subset die Werte 50 bis 100 aufweist, ist der Trainingsanteil für Variable A 0,50 bzw. 50 Prozent. Für Variable A sind 50 Prozent des Wertebereichs der Eingabe-Trainings-Features durch das Trainings-Subset abgedeckt. Deckt das Trainings-Subset für jede erklärende Variable im Modell keinen ausreichend großen Wertebereich der Eingabe-Trainings-Features ab, kann dies andere Modelldiagnosen verzerren. Eine ähnliche Berechnung wird durchgeführt, um die Validierungsanteil-Diagnose zu erstellen. Es ist wichtig, dass die Werte, die zum Validieren des Modells verwendet werden, einen möglichst großen Bereich der zum Trainieren des Modells verwendeten Werte abdecken. Wenn Variable B aus dem Trainings-Subset z. B. die Werte 1 bis 100 und das Validierungs-Subset die Werte 1 bis 10 aufweist, ist der Validierungsanteil für Variable B 0,10 bzw. 10 Prozent. Ein solch geringer Wertebereich könnte nur niedrige Werte oder nur hohe Werte enthalten und somit andere Diagnosen verzerren. Enthält das Validierungs-Subset nur niedrige Werte, würden andere Modelldiagnosen, z. B. die mittlere quadratische Abweichung (Mean Squared Error, MSE) oder der erläuterte Prozentsatz der Variation, lediglich melden, wie gut das Modell niedrige Werte vorhersagt, und nicht den gesamten Wertebereich der Eingabe-Trainings-Features berücksichtigen.
Besonders wichtig ist die Vorhersageanteil-Diagnose. Forest-basierte Modelle extrapolieren nicht, sie können nur den Wert klassifizieren oder vorhersagen, für den das Modell trainiert wurde. Der Vorhersageanteil ist der Überlappungsprozentsatz zwischen den Werten der Trainingsdaten und der Vorhersagedaten. Werte kleiner als Null geben an, dass Sie versuchen, einen Wert vorherzusagen, für den das Modell nicht trainiert wurde. Ein Wert von 1 gibt an, dass der Wertebereich im Trainings-Subset und der für die Vorhersage verwendete Wertebereich übereinstimmen. Ein Wert größer als 1 gibt an, dass der Wertebereich im Trainings-Subset größer ist als der Wertebereich, der für die Vorhersage verwendet wird.
Alle drei Anteildiagnosen sind nur gültig, wenn die Bereiche der Subsets übereinstimmen. Wenn das Validierungs-Subset für Variable C z. B. die Werte 1 bis 100 und das Trainings-Subset die Werte 90 bis 200 aufweist, würden sich die Werte um 10 Prozent überlappen, aber die Bereiche wären nicht lagegleich. In diesem Fall wird die Diagnose mit einem Sternchen gekennzeichnet, um anzugeben, dass es sich um nicht lagegleiche Bereiche handelt. Überprüfen Sie die Minimal- und Maximalwerte, um das Ausmaß und die Richtung der Nichtüberlappung zu ermitteln. Der Vorhersageanteil wird mit einem Pluszeichen (+) gekennzeichnet, wenn das Modell versucht, Vorhersagen außerhalb des Bereichs der Trainingsdaten zu treffen.
Es gibt keine absoluten Regeln hinsichtlich der zulässigen Werte für die Tabelle "Diagnose des Bereichs der erklärenden Variable". In Anbetracht der Einschränkungen Ihrer Trainingsdaten sollten der Trainings- und der Validierungsanteil so hoch wie möglich sein. Der Vorhersageanteil sollte nicht kleiner als 1 sein. Ist die Validierungsanteil-Diagnose sehr niedrig, sollten Sie eine Erhöhung des Wertes für den Parameter % der Trainingsdaten für die Validierung ausgeschlossen in Erwägung ziehen. Sie können das Modell auch mehrmals ausführen und dann den Lauf auswählen, der die Werte für die Bereichsdiagnose am besten ausgleicht. Der für jeden Lauf verwendete Zufallsursprung wird in den Meldungen angezeigt.
Außerdem werden von diesem Werkzeug Ausgaben erzeugt. Trainierte Ausgabe-Features enthalten alle im Modell verwendeten Eingabe-Trainings-Features und Erklärenden Trainingsvariablen. Zur Regression werden die trainierten Features basierend auf den standardisierten Residuen der Vorhersagen in der Karte gezeichnet. Für die Klassifizierung beruht die Symbolisierung der trainierten Features darauf, ob ein Feature richtig klassifiziert wurde. Wenn das Modell die bekannte Kategorie richtig vorhersagt, wird das Feature mit Korrekt klassifiziert beschriftet, andernfalls mit Falsch klassifiziert.
Die Felder der trainierten Features enthalten die extrahierten Raster-Werte für jede Variable Erklärende Trainings-Raster und berechnete Distanzwerte für jede Variable Erklärende Trainings-Entfernungs-Features. Diese neuen Felder können verwendet werden, um den Trainingsteil der Analyse erneut auszuführen, ohne jedes Mal die Raster-Werte zu extrahieren und Entfernungswerte zu berechnen. Trainierte Ausgabe-Features enthalten zudem Vorhersagen für alle Features, sowohl für die, die zum Training verwendet wurden, als auch für jene, die zum Testen ausgeschlossen wurden. Dies kann bei der Auswertung der Performance des Modells hilfreich sein. Das Feld trained_features in Trainierte Ausgabe-Features hat für alle Testdaten den Wert 0 (nicht beim Training verwendet) und für alle Trainingsdaten den Wert 1. Bei der Verwendung dieses Werkzeugs für Vorhersagen wird entweder eine neue Feature-Class mit den Werten für Vorhergesagte Ausgabe-Features oder ein neuer Wert für Vorhergesagte Ausgabe-Oberfläche erzeugt, wenn erklärende Raster angegeben werden.
Erweiterte Forest-Optionen
Die Stärke der Forest-basierten Methode besteht in der Erfassung der Gemeinsamkeiten schwacher Einflussvariablen (bzw. Bäume) und deren Kombination zu einer starken Einflussvariablen (dem Wald). Wird eine Beziehung dauerhaft durch einzelne Bäume erfasst, bedeutet dies, dass in den Daten eine starke Beziehung vorhanden ist, die auch bei einem nicht komplexen Modell erkennbar ist. Die Anpassung der Random Forest-Parameter kann dabei helfen, eine hohe Anzahl schwacher Einflussvariablen zu erstellen, die zu einem starken Modell führen. Schwache Einflussvariablen werden erstellt, indem Sie weniger Informationen in den einzelnen Bäumen verwenden. Dies können Sie durch eine beliebige Kombination aus einer kleinen Teilmenge der Features pro Baum, einer kleinen Anzahl von Variablen pro Baum und einer geringen Baumtiefe erreichen. Die Anzahl der Bäume bestimmt, wie viele schwache Einflussvariablen erstellt werden. Je schwächer die Einflussvariablen (Bäume), desto mehr Bäume benötigen Sie, um ein starkes Modell zu erstellen.
Das Werkzeug verfügt über die folgenden erweiterten Trainings- und Validierungsoptionen:
- Der Standardwert für Anzahl der Bäume ist 100. Die Erhöhung der Anzahl der Bäume im Forest-Modell führt im Allgemeinen zu einer genaueren Modellvorhersage, doch wird für die Berechnung des Modells mehr Zeit benötigt.
- Minimale Blattgröße ist die Anzahl an Beobachtungen, die mindestens erforderlich sind, um ein Blatt (also der Endpunkt an einem Baum, an dem es keine weiteren Verzweigungen gibt) beizubehalten. Das Standardminimum für die Regression ist 5, das für die Klassifizierung 1. Bei sehr umfangreichen Datasets führt eine Erhöhung dieser Zahlen zu einer Erhöhung der Laufzeit des Werkzeugs. Bei sehr kleinen Blattgrößen (nah am festgelegten Minimum) ist Ihr Wald anfällig für Datenrauschen. Um ein stabileres Modell zu erhalten, experimentieren Sie mit einer größeren Minimalen Blattgröße.
- Maximale Baumtiefe ist die maximale Anzahl an Teilungen entlang eines Baums. Je größer die maximale Tiefe, desto mehr Teilungen werden erstellt. Dadurch steigt das Risiko einer Überanpassung des Modells. Die Standardeinstellung ist datenabhängig und abhängig von der Anzahl der erstellten Bäume und der berücksichtigten Variablen. Beachten Sie, dass ein Knoten nicht geteilt werden kann, wenn er die Minimale Blattgröße erreicht hat. Sind sowohl Minimale Blattgröße als auch Maximale Baumtiefe festgelegt, hat der Wert für Minimale Blattgröße bei der Bestimmung der Baumtiefe Vorrang.
- Der Parameter Pro Baum verfügbare Daten (%) gibt den Prozentsatz an Eingabe-Trainings-Features an, die für die einzelnen Entscheidungsbäume verwendet werden. Die Standardeinstellung liegt bei 100 Prozent der Daten. Alle Entscheidungsbäume im Wald werden mithilfe einer zufälligen Teilmenge (etwa zwei Drittel) der verfügbaren Trainingsdaten erstellt. Durch die Verwendung eines niedrigeren Prozentsatzes der Eingabedaten für die einzelnen Entscheidungsbäume wird die Geschwindigkeit des Werkzeugs bei sehr großen Datasets beschleunigt.
- Der Parameter Anzahl der nach dem Zufallsprinzip erfassten Variablen gibt die Anzahl der erklärenden Variablen an, die zum Erstellen der einzelnen Entscheidungsbäume verwendet werden. Alle Entscheidungsbäume im Wald werden mithilfe einer zufälligen Teilmenge der erklärenden Variablen erstellt. Durch eine Erhöhung der Anzahl der in den einzelnen Entscheidungsbäumen verwendeten Variablen steigt die Wahrscheinlichkeit einer Überanpassung des Modells, vor allem dann, wenn mindestens eine dominante Variable vorhanden ist. Eine gängige Praxis (und die vom Werkzeug verwendete Standardeinstellung) besteht darin, die Quadratwurzel aus der Gesamtzahl der erklärenden Variablen (Felder, Entfernungs-Features und Raster) zu ziehen, wenn die Vorherzusagende Variable numerisch ist, oder die Gesamtzahl der erklärenden Variablen (Felder, Entfernungs-Features und Raster) durch 3 zu teilen, wenn die Vorherzusagende Variable kategorisch ist.
- Der Parameter % der Trainingsdaten für die Validierung ausgeschlossen gibt den Prozentsatz (zwischen 10 und 50 Prozent) der Eingabe-Trainings-Features an, die als das Test-Dataset für die Validierung reserviert sind. Das Modell wird ohne dieser zufällige Teilmenge der Daten trainiert, und die beobachteten Werte für diese Features werden mit den vorhergesagten Werten verglichen, um die Performance des Modells zu validieren. Der Standardwert ist 10 Prozent.
- Wenn Sie den Parameter Unsicherheit berechnen aktivieren, berechnet das Werkzeug für jeden Wert der Vorherzusagenden Variablen ein Vorhersageintervall von 90 Prozent. Wenn als Vorhersagetyp Nur trainieren oder Features vorhersagen eingestellt ist, werden unter Trainierte Ausgabe-Features oder Vorhergesagte Ausgabe-Features zwei zusätzliche Felder hinzugefügt. Diese Felder enden auf _P05 und _P95 und stellen die obere und untere Grenze der Vorhersageintervalls dar. Bei neuen Beobachtungen können Sie mit einem Konfidenzniveau von 90 Prozent vorhersagen, dass der Wert der Beobachtung innerhalb des Intervalls liegt, sofern die erklärenden Variablen identisch sind. Bei Verwendung der Option Raster vorhersagen werden zum Bereich Inhalt zwei Raster hinzugefügt, die obere und untere Grenze des Vorhersageintervalls darstellen. Das Vorhersageintervall wird mit Quantil-Regressions-Forests berechnet. In einem Quantil-Regressions-Forest werden nicht die vorhergesagten Werte aus der endgültigen Vorhersage des Forests beibehalten, sondern es werden die Werte aus den einzelnen Blättern des Forests gespeichert und für eine Verteilung der vorhergesagten Werte verwendet.
Best Practices
Folgende Methoden haben sich bei der Verwendung des Werkzeugs Forest-basierte Klassifizierung und Regression bewährt:
- Das Forest-Modell sollte an mindestens einigen hundert Features trainiert werden, um beste Ergebnisse zu erzielen, und ist für sehr kleine Datasets nicht geeignet.
- Die Performance des Werkzeugs kann eingeschränkt sein, wenn versucht wird, mit erklärenden Variablen Vorhersagen zu treffen, die außerhalb des Bereichs der erklärenden Variablen liegen, die zum Trainieren des Modells verwendet wurden. Forest-basierte Modelle extrapolieren nicht, sie können nur den Wertebereich klassifizieren oder vorhersagen, für den das Modell trainiert wurde. Bei der Vorhersage eines Wertes, der auf erklärenden Variablen basiert, die viel höher oder niedriger sind als der Bereich des ursprünglichen Trainings-Datasets, schätzt das Modell den Wert um den höchsten oder niedrigsten Wert im ursprünglichen Dataset.
- Um die Performance beim Extrahieren von Werten aus Erklärenden Trainings-Rastern und der Berechnung von Entfernungen mithilfe von Erklärenden Trainings-Entfernungs-Features zu verbessern, sollten Sie in Erwägung ziehen, das Modell anhand von 100 Prozent der Daten zu trainieren, ohne Daten für die Validierung auszuschließen. Entscheiden Sie sich zudem für die Erstellung von Trainierten Ausgabe-Features. Wenn Sie das Werkzeug das nächste Mal ausführen, verwenden Sie Trainierte Ausgabe-Features als Eingabe-Trainings-Features und alle extrahierten Werte und Entfernungen als Erklärende Trainingsvariablen, statt diese bei jedem Training des Modells zu extrahieren. Wenn Sie sich dazu entscheiden, setzen Sie Anzahl der Bäume, Maximale Baumtiefe und Anzahl der nach dem Zufallsprinzip erfassten Variablen auf 1, um einen sehr kleinen Dummy-Baum für die schnelle Vorbereitung Ihrer Daten für die Analyse zu erstellen.
- Obwohl der Standardwert des Parameters Anzahl der Bäume 100 beträgt, ist diese Zahl nicht datenabhängig. Die Anzahl der erforderlichen Bäume nimmt mit der Komplexität der Beziehungen zwischen den erklärenden Variablen, der Größe des Datasets und der Vorherzusagenden Variable sowie der Variation dieser Variablen zu.
- Erhöhen Sie die Anzahl der Bäume im Wert für den Wald, und verfolgen Sie die OOB- oder Klassifizierungsfehler. Sie sollten den Wert für die Anzahl der Bäume mindestens um das Dreifache auf mindestens 500 Bäume erhöhen, um die Performance des Modells bestmöglich auswerten zu können.
- Die Ausführungszeit des Werkzeugs ist stark abhängig von der Anzahl der pro Baum verwendeten Variablen. Bei Verwendung einer kleinen Anzahl von Variablen pro Baum sinkt die Wahrscheinlichkeit einer Überanpassung. Allerdings sollten Sie bei einer kleinen Anzahl von Variablen pro Baum viele Bäume verwenden, um die Performance des Modells zu verbessern.
- Um ein Modell zu erstellen, das sich nicht mit jeder Ausführung ändert, können Sie einen Ursprung in der Umgebungseinstellung Zufallszahlengenerator festlegen. Das Modell besitzt dann noch immer eine gewisse Zufälligkeit, doch ist diese Zufälligkeit zwischen den einzelnen Ausführungen konsistent.
Referenzen
Breiman, Leo. (1996). "Out-Of-Bag Estimation". Abstract.
Breiman, L. (1996). "Bagging predictors". Machine Learning 24 (2): 123-140.
Breiman, Leo. (2001). "Random Forests". Machine Learning 45 (1): 5–32. https://doi.org/10.1023/A:1010933404324.
Breiman, L., J.H. Friedman, R.A. Olshen und C.J. Stone. (2017). Classification and regression trees. New York: Routledge. Kapitel 4.
Dietterich, T. G. (2000, Juni). "Ensemble methods in machine learning". In International workshop on multiple classifier systems, 1–15. Springer, Berlin, Heidelberg.
Gini, C. (1912, 1955). Variabilità e mutabilità. Neuauflage in Memorie di metodologica statistica (Hrsg. E. Pizetti und T. Salvemini). Rom: Libreria Eredi Virgilio Veschi.
Grömping, U. (2009). "Variable importance assessment in regression: linear regression versus random forest." The American Statistician 63 (4): 308-319.
Ho, T. K. (1995, August). "Random decision forests". In Document analysis and recognition, 1995., proceedings of the third international conference on Document Analysis and Recognition Band 1: 278–282. IEEE.
James, G., Witten, D., Hastie, T. und Tibshirani, R. (2013). An introduction to statistical learning Vol. 112. New York: Springer.
LeBlanc, M. und Tibshirani, R. (1996). "Combining estimates in regression and classification". Journal of the American Statistical Association 91 (436): 1641-1650.
Loh, W. Y. und Shih, Y. S. (1997). "Split selection methods for classification trees". Statistica sinica, 815–840.
Meinshausen, Nicolai. "Quantile regression forests". Journal of Machine Learning Research 7. Juni (2006): 983-999.
Nadeau, C. und Bengio, Y. (2000). "Inference for the generalization error". In Advances in neural information processing systems, 307–313.
Strobl, C., Boulesteix, A. L., Kneib, T., Augustin, T. und Zeileis, A. (2008). "Conditional variable importance for random forests". BMC bioinformatics 9 (1): 307.
Zhou, Z. H. (2012). Ensemble methods: foundations and algorithms. CRC Press.