Das Werkzeug Vorhersagen mit Kreuzvalidierung auswerten führt die k-fache Kreuzvalidierung durch, um über mehrere Validierungen auszuwerten, wie gut ein Modell unbekannte Daten vorhersagt. Dieses Werkzeug teilt die Eingabe-Dataset in Gruppen auf, reserviert eine einzelne Gruppe als Testsatz, trainiert ein Modell an den verbleibenden Gruppen und berechnet Auswertungskennwerte, um auszuwerten, wie gut das Modell die Werte in der reservierten Gruppe vorhergesagt hat. Diesen Prozess wiederholt es dann für jede Gruppe. Wenn Sie ein Verständnis der Vorhersageleistung des Modells an unbekannten Daten in neuen räumlichen Regionen gewinnen möchten, können Gruppen nach dem Zufallsprinzip ausgewählt (K-fach nach Zufallsprinzip) oder räumlich gruppiert (K-fach räumlich) werden. Das Werkzeug enthält auch Optionen für den Datenausgleich, die beim Klassifizieren seltener Ereignisse helfen können. Dieses Werkzeug wird in Verbindung mit bestimmten Vorhersagewerkzeugen verwendet, wie zum Beispiel Forest-basierte und geboostete Klassifizierung und Regression, Generalisierte lineare Regression und Auf Vorhandensein beschränkte Vorhersage (MaxEnt). Es bietet eine Validierungsmethode zum Auswerten der Performance eines Modells, die den Methoden in den Vorhersagewerkzeugen überlegen ist.
K-fache Kreuzvalidierung
Das Werkzeug Vorhersagen mit Kreuzvalidierung auswerten wertet über mehrere Validierungen aus, wie gut ein Modell unbekannte Daten vorhersagt. Bei der K-fachen Kreuzvalidierung werden die Eingabe-Analyseergebnis-Features zuerst in eine bestimmte Anzahl von (k) Gruppen (Aufteilungen) derselben oder ähnlicher Größe geteilt. In einem Validierungslauf muss eine einzelne Gruppe als Testsatz reserviert werden, während das Modell an den verbleibenden Gruppen trainiert wird. Das Modell wird dann zur Vorhersage des Testsatzes verwendet, und es werden statistische Kennwerte generiert, um die Performance des Modells zu bewerten. Danach verwendet das Werkzeug jede einzelne Gruppe als Testsatz und führt einen Validierungslauf durch.
Bei der k-fachen Kreuzvalidierung wird der Validierungsprozess mehrere Male wiederholt und eine umfassendere Bewertung der Performance des Modells mit verschiedenen Testsätzen erstellt. Während die einfache Validierung mit einer einzelnen Teilung in Trainings- und Testdaten einfach und nützlich sein kann, liefert die k-fache Kreuzvalidierung mehr Informationen. Die Vorhersagewerkzeuge, wie zum Beispiel Forest-basierte und geboostete Klassifizierung und Regression und Generalisierte lineare Regression, ermöglichen einen Validierungsschritt. Die k-fache Kreuzvalidierung ist dem jedoch überlegen, da bei ihr die Daten wiederholt in verschiedene Trainings- und Testsätze geteilt werden. Dies ermöglicht eine zuverlässigere Schätzung der Performance des Modells beim Vorhersagen neuer Daten und hilft dabei, eine Überanpassung während des Trainings zu verhindern.
Gruppieren von Features
Bei der k-fachen Kreuzvalidierung werden die Analyse-Features in Gruppen geteilt. Der Parameter Gruppenanzahl steuert die Anzahl der Gruppen (k), die erstellt werden. Der Wert dieses Parameters kann im Bereich von 2 bis zur Anzahl der Features im Dataset liegen. Der Parameter Typ der Bewertungsmethode bestimmt, ob die Features in einer Gruppe nach dem Zufallsprinzip ausgewählt oder räumlich gruppiert werden. Beim Arbeiten mit kategorialen Variablen werden möglicherweise nicht alle Kategorieebenen gleich dargestellt. Einige Kategorien können selten sein, während andere Kategorien häufig vorkommen.
K-fach nach Zufallsprinzip
Bei der k-fachen Kreuzvalidierung nach dem Zufallsprinzip werden die Analyseergebnis-Features nach dem Zufallsprinzip in k Gruppen geteilt. Jede Gruppe enthält dieselbe oder eine ähnlich große Anzahl von Features.
K-fach räumlich
Die räumliche Option der k-fachen Kreuzvalidierung stellt sicher, dass die einzelnen Trainings- und Testgruppen räumlich voneinander getrennt sind. Die räumlichen Gruppen werden unter Verwendung der K-Means-Cluster-Bildung erstellt. Dabei werden anhand der Koordinaten jedes einzelnen Features k Gruppen erstellt, die räumlich getrennt (partitioniert) sind. Diese Gruppen enthalten jedoch möglicherweise nicht dieselbe Anzahl von Features in den einzelnen Validierungssätzen. Die räumliche k-fache Validierung ist eine Methode, die für das Verständnis der Vorhersageleistung des Modells an unbekannten Daten in neuen räumlichen Regionen hilfreich ist.
Leave-one-out-Kreuzvalidierung
Wenn die Anzahl der Gruppen der Anzahl der Eingabe-Features entspricht, dann wird die Leave-one-out-Kreuzvalidierung (Leave One Out Cross-Validation, LOOCV) durchgeführt. Betrachten wir ein Beispiel, bei dem die Ausgabe mit 100 Features, die bei einer Analyse mit dem Werkzeug Generalisierte lineare Regression generiert wurde, das Analyseergebnis-Feature ist und der Parameter Gruppenanzahl auf 100 festgelegt ist. In diesem Fall wird das Modell an 99 Features trainiert und dann an dem verbleibenden 1 Feature vorhergesagt und ausgewertet. Dieser Prozess wird 100 Male wiederholt. Der Vorteil von LOOCV besteht darin, dass diese Methode eine zuverlässige und unverzerrte Messung von Fehlerkennwerten, wie zum Beispiel MSE, RMSE und MAPE, ermöglicht. Sie sollte jedoch nicht zum Auswerten globaler Kennwerte wie R2 verwendet werden, da diese mit einer Stichprobengröße von 1 nicht berechnet werden können und damit für sehr kleine Datasets keine zuverlässigen Kennwerte darstellen.
Auswerten der Ergebnisse der k-fachen räumlichen Kreuzvalidierung
Die Auswertungskennwerte für die räumliche Kreuzvalidierung werden durch die ausgewählte Anzahl der Gruppen beeinflusst. Je kleiner der als Validierungssatz verwendete räumlich zusammenhängende Cluster ist, desto näher liegen die Bewertungskennwerte bei denen der Leave-one-out-Kreuzvalidierung. Bei einem kleineren räumlich zusammenhängenden Validierungssatz erfolgt wahrscheinlich weniger räumliche Extrapolation, da Nachbarn im Trainingssatz näher liegen. Andererseits neigen unabhängig von der ausgewählten Anzahl der Gruppen die Kennwerte der Kreuzvalidierung nach dem Zufallsprinzip dazu, stabil zu bleiben und in ähnlicher oder gleicher Größe wie die Kennwerte der Leave-one-out-Kreuzvalidierung zu sein. Deshalb muss die Anzahl der Gruppen, die für die Kreuzvalidierung ausgewählt werden, als entscheidender Parameter berücksichtigt werden. Wenn Sie zum Beispiel Ihr Modell an Daten von Countys in 49 von 50 Bundesstaaten in den Vereinigten Staaten trainieren und beabsichtigen, Vorhersagen im 50. Bundesstaat zu treffen, dann könnte 49 eine geeignete Anzahl an Gruppen sein. Mit diesem Ansatz wird sichergestellt, dass jede Aufteilung einen hypothetischen Bundesstaat repräsentiert. Dadurch wird es möglich, dass die endgültigen Kennwerte die Performance des Modells beim Generieren von Vorhersagen in einem neuen Bundesstaat genau widerspiegeln.
Vergleichen von Bewertungsmethoden verschiedener Typen
Im Allgemeinen neigen die Auswertungskennwerte für die räumliche Kreuzvalidierung dazu, schlechtere Auswertungsergebnisse im Vergleich zur Kreuzvalidierung nach dem Zufallsprinzip zu liefern. Während zum Beispiel die Kreuzvalidierung nach dem Zufallsprinzip eine durchschnittliche Genauigkeit von 90 Prozent über alle Aufteilungen hinweg erreichen könnte, wäre bei der räumlichen Kreuzvalidierung eine niedrigere durchschnittliche Genauigkeit von um die 70 Prozent möglich. Dieser Unterschied war wegen der Vorteile der Kreuzvalidierung nach dem Zufallsprinzip, die aus der räumlichen Autokorrelation resultieren, zu erwarten. In zufälligen Validierungssätzen haben Features häufig räumliche Nachbarn, die ihnen im entsprechenden Trainingssatz stark ähneln, insbesondere dann, wenn die Autokorrelation hoch ist. Bei räumlichen Validierungsteilmengen fehlt dagegen dieser Vorteil, was zu einem gewissen Maß an räumlicher Extrapolation führt. Hier werden Vorhersagen in einem neuen räumlichen Bereich generiert, an dem das Modell nicht trainiert worden ist. Durch die Verwendung der Kreuzvalidierung nach dem Zufallsprinzip zum Bewerten eines Modells wird das zugrunde liegende Modell nicht besser, selbst wenn die Kennwerte besser aussehen. Vielmehr wird überschätzt, wie das Modell in einem Szenario in der Realität, in dem neue Regionen verwendet werden, abschneiden wird.
Überprüfen der Ergebnisse der Kreuzvalidierung
Eine weit verbreitete falsche Auffassung über die Kreuzvalidierung und andere Verfahren zum Überprüfen von Modellen ist, dass sie dazu gedacht sind, zu bestimmen, ob das Modell für die Daten richtig ist. In Wahrheit sind Modelle nie richtig für Daten, die von der realen Welt erfasst werden, aber sie müssen auch nicht richtig sein, um verwertbare Informationen für die Entscheidungsfindung bieten zu können. Kreuzvalidierungsstatistiken sind ein Mittel zur Quantifizierung der Nützlichkeit eines Modells, aber keine Checkliste zur Bestimmung, ob ein Modell korrekt ist. Bei den vielen verfügbaren Statistiken (Einzelwerte, Summenstatistiken und Diagramme) ist es möglich, zu genau hinzuschauen und Probleme und Abweichungen von idealen Werten und Mustern zu finden. Modelle sind nie perfekt, da sie die Daten nie perfekt abbilden.
Beim Überprüfen der Ergebnisse der Kreuzvalidierung ist es wichtig, sich an die Ziele und Erwartungen Ihrer Analyse zu erinnern. Gehen wir zum Beispiel davon aus, dass Sie die Temperatur in Grad Celsius vorhersagen, um Empfehlungen für die öffentliche Gesundheit während einer Hitzewelle abzugeben. Wie sollten Sie in diesem Szenario einen Mean Error von 0,1 interpretieren? Buchstäblich bedeutet es, dass das Modell eine positive Verzerrung hat und dazu tendiert, Temperaturwerte zu hoch vorherzusehen. Die durchschnittliche Verzerrung liegt jedoch nur bei einem zehntel Grad und ist damit kaum groß genug, um für die Gesundheitspolitik von Bedeutung zu sein. Auf der anderen Seite bedeutet ein RMS-Fehler mit einem Wert von 10 Grad, dass die vorhergesagten Werte durchschnittlich um 10 Grad von den echten Temperaturen abweichen. Dieses Modell wäre vermutlich zu ungenau, um nützlich zu sein, da Unterschiede von 10 Grad zu sehr verschiedenen Empfehlungen im Gesundheitswesen führen würden.
Ausgaben
Das Werkzeug generiert Geoverarbeitungsmeldungen und zwei Ausgaben: Eine Feature-Class und eine Tabelle. Die Feature-Class erfasst das Training-Dataset und die Trainings- und Vorhersageergebnisse jedes Features im Training-Dataset. Die Tabelle erfasst die Auswertungskennwerte für jede Ausführung der Validierung. Das Werkzeug erstellt auch viele hilfreiche Geoverarbeitungsmeldungen, wie zum Beispiel die Tabelle "Durchschnittliche Diagnosestatistik aus Stichprobe".
Geoverarbeitungsmeldungen
Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Sie haben im Geoverarbeitungsverlauf auch Zugriff auf die Meldungen für eine vorherige Ausführung dieses Werkzeugs. Die Meldungen enthalten die Tabelle mit dem Titel "Durchschnittliche Diagnosestatistik aus Stichprobe".
Tabelle "Durchschnittliche Diagnosestatistik aus Stichprobe"
In der Tabelle "Durchschnittliche Diagnosestatistik aus Stichprobe" werden Analysediagnosen bereitgestellt.
Die Tabelle "Durchschnittliche Diagnosestatistik aus Stichprobe" enthält die folgenden Diagnosen:
- R-Squared: R-Squared ist ein Messwert für die Anpassungsgüte. Dies ist der Anteil der Varianz abhängiger Variablen, der durch das Regressionsmodell erklärt wird. Der Wert liegt in einem Bereich von 0,0 bis 1,0, wobei ein höherer Wert ein besseres Modell bedeutet. Im Gegensatz zum R-Squared-Wert für die Trainingsdaten kann der R-Squared-Wert aus der Stichprobe sinken, wenn zusätzliche erklärende Variablen einbezogen werden. Es kann deshalb effektiv sein, zu bestimmen, ob die Einbeziehung neuer erklärender Variablen wirksam ist. Wenn Gruppen weniger als drei Features enthalten, wird der R-Squared-Wert nicht berechnet.
- Adjusted R-Squared: Adjusted R-Squared ähnelt R-Squared. Diese Diagnose fügt jedoch einen Beiwert für die Einbeziehung zusätzlicher erklärender Variablen hinzu, um Modellen mit weniger erklärenden Variablen den Vorzug zu geben. Durch Berechnungen des angepassten R-Squared-Wertes werden der Zähler und der Nenner nach ihren Freiheitsgraden normalisiert. Indem Sie diese Anpassung vornehmen, geht jedoch die Interpretation des Werts als Anteil der erläuterten Varianz verloren. Dieser Kennwert wird nur für generalisierte lineare Regressionsmodelle berechnet. Wenn Gruppen weniger als drei Features enthalten, wird der angepasste R-Squared-Wert nicht berechnet.
- Root Mean Square Error (RMSE): RMSE ist die Wurzel der mittleren quadratischen Abweichung (Mean Squared Error, MSE) und entspricht der Quadratwurzel der gemittelten quadrierten Differenz zwischen den tatsächlichen Werten und den vorhergesagten Werten. Wie auch der MAE-Wert (Mean Absolute Error, mittlerer absoluter Fehler) stellt der RMSE-Wert den mittleren Modell-Vorhersagefehler in den Einheiten der Interessenvariable dar, jedoch ist der RMSE-Wert sensitiv gegenüber großen Fehlern und Ausreißern. Diese Statistik wird im Allgemeinen zur Messung der Vorhersagegenauigkeit verwendet. Der RMSE-Wert wird in den Einheiten der Interessenvariable angegeben, sodass der Wert nicht für verschiedene Modelle verglichen werden kann.
- Mean Absolute Error (MAE): MAE ist der Durchschnitt der absoluten Differenz zwischen den tatsächlichen Werten und den vorhergesagten Werten für den Parameter Interessenvariable. Der Wert 0 bedeutet, dass das Modell alle beobachteten Werte richtig vorhergesagt hat. MAE wird in den Einheiten der Interessenvariable angegeben, sodass der Wert nicht für verschiedene Modelle verglichen werden kann.
- Mean Absolute Percentage Error (MAPE): Der MAPE-Wert ähnelt dem MAE-Wert insofern als er die Differenz zwischen den ursprünglichen Werten und den vorhergesagten Werten darstellt. MAE stellt die Differenz in den ursprünglichen Einheiten dar, MAPE hingegen als Prozentsatz. MAPE ist somit ein relativer Fehler, wodurch er sich besser zum Vergleichen verschiedener Modelle eignet. Aufgrund der Berechnungsart kann MAPE nicht verwendet werden, wenn einer der ursprünglichen Werte 0 beträgt. Wenn die ursprünglichen Werte nahe 0 liegen, geht MAPE gegen unendlich und wird in der Tabelle als NULL angezeigt. Eine weitere Einschränkung, die es bei MAPE zu berücksichtigen gilt, ist seine Maßstabsabhängigkeit. Angenommen, es liegen zwei Fälle vor, wo die Differenz zwischen den tatsächlichen Werten und den vorhergesagten Werten identisch ist, dann hat der Fall, wo der tatsächliche Wert kleiner ist, einen größeren Beitrag am MAPE-Wert.
Zusätzliche Ausgaben
Dieses Werkzeug generiert auch eine Tabelle und eine Ausgabe-Feature-Class.
Ausgabetabelle
Die Ausgabetabelle der Validierung enthält die Diagnosen, die auch in den Geoverarbeitungsmeldungen enthalten sind: Adjusted R-Squared, R-Squared, Root Mean Square Error (RMSE), Mean Absolute Percentage Error (MAPE) und Mean Absolute Error (MAE). Die Tabelle zeigt die Statistiken für jede der k-fachen Validierungen.
Ausgabe-Features
Die Felder in den Ausgabe-Features enthalten Folgendes: Die im Modell verwendeten erklärenden Trainingsvariablen, die vorherzusagende Variable, den durchschnittlichen vorhergesagten Wert des Trainings, das durchschnittliche Residuum des Trainings, den vorhergesagten Wert aus der Stichprobe und das durchschnittliche Residuum aus der Stichprobe. Den durchschnittlichen vorhergesagten Wert des Trainings, das durchschnittliche Residuum des Trainings, den vorhergesagten Wert aus Stichprobe und das durchschnittliche Residuum aus Stichprobe können Sie verwenden, um auszuwerten, wie genau der Wert des Feldes vorhergesagt wurde.
Empfehlungen und Beschränkungen
Bei der Verwendung dieses Werkzeugs gelten die folgenden Empfehlungen und Beschränkungen:
- Verwenden Sie dieses Werkzeug bei Parameteroptimierung und Modelloptimierung. Zum Beispiel können Sie Parametereinstellungen im Werkzeug "Forest-basierte und geboostete Klassifizierung und Regression" angeben und das trainierte Modell bewerten, indem Sie das Ausgabe-Training-Dataset als Eingabe für das Werkzeug Vorhersagen mit Kreuzvalidierung auswerten verwenden. Mit dem Ergebnis der Kreuzvalidierung können Sie zum Werkzeug Forest-basierte und geboostete Klassifizierung und Regression zurückkehren, um bestimmte Parameter zu optimieren. Diese zwei Schritte können wiederholt werden, bis Sie die geeigneten Kennwerte Ihres Modells für die Kreuzvalidierung gefunden haben. Sie können das endgültige Modell unter Verwendung des vollständigen Training-Datasets oder ausgeglichenen Datasets vorbereiten und dann Vorhersagen für neue, unbekannte Daten generieren lassen.
- Berücksichtigen Sie, welcher Auswertungskennwert für Ihren Anwendungsfall am wichtigsten ist. Berücksichtigen Sie dabei folgende Aspekte:
- Für die Klassifizierung: Wenn Sie ein seltenes Ereignis, das sehr wichtig ist, vorhersagen möchten, dann können Sie die Empfindlichkeit dieser Kategorie optimieren. Wenn Sie viele Kategorien verwenden und das Modell die beste aller dieser Kategorien vorhersagen soll, dann sollten Sie MCC oder Gesamt-F1-Kennwerte in Betracht ziehen. Genauigkeit ist nicht immer der beste Kennwert, insbesondere dann, wenn seltene Kategorien beteiligt sind. Wenn zum 99 Prozent Ihrer Daten zur Kategorie A gehören und 1 Prozent Ihrer Daten zur Kategorie B, dann hätte ein Modell, das jedes Feature als Kategorie A vorhersagt, 99 Prozent Genauigkeit, aber 0 Prozent Empfindlichkeit für Kategorie B.
- Für die Regression: Wenn Sie an der Gesamtanpassung des Modells an die Daten interessiert sind, dann sollten Sie den R-Squared-Wert optimieren. Wenn Sie an bestimmten einzelnen Fehlern des Modells interessiert sind, dann sollten Sie MAPE oder MAE optimieren. Wenn Sie an bestimmten einzelnen Fehlern interessiert sind und extreme Fehler minimieren möchten, dann sollten Sie basierend auf RMSE optimieren.
- Die Hyperparameter, die optimale Kennwerte aus einer zufälligen Aufteilung liefern, sind möglicherweise nicht dieselben Hyperparameter, die die besten Kennwerte für eine räumliche Aufteilung bereitstellen. Wenn Ihr Ziel darin besteht, Vorhersagen für einen neuen räumlichen Bereich zu treffen, dann sollten Sie unter Verwendung von räumlichen Aufteilungen auswerten. Experimentieren Sie mit verschiedenen Modellen und ausgewählten Parametern, und geben Sie sie jeweils in das Werkzeug ein, um zu bestimmen, bei welcher Kombination sich die besten durchschnittlichen Kennwerte mit räumlicher Kreuzvalidierung ergeben.
- Wenn die Validierungs-Datasets weniger als drei Features enthalten, werden der R-Squared-Wert und der angepasste R-Squared-Wert nicht berechnet. Dies bedeutet, dass sie nicht berechnet werden, wenn die Anzahl der Gruppen größer als ein Drittel der Anzahl der Features ist.
- Wenn alle vorhergesagten Ausgaben denselben Wert haben, kann der Matthews-Korrelationskoeffizient (MCC, Matthews Correlation Coefficient) nicht berechnet werden.
- Beim Klassifizieren seltener Ereignisse kann der Datenausgleich dabei helfen, die Modellgenauigkeit zu verbessern.
Verwandte Themen
- Überblick über das Toolset "Modellierung von räumlichen Beziehungen"
- Vorbereiten von Daten für die Vorhersage
- Auswerten von Vorhersagen mit Kreuzvalidierung
- Forest-basierte und geboostete Klassifizierung und Regression
- Generalisierte lineare Regression
- Auf Vorhandensein beschränkte Vorhersage (MaxEnt)
- Funktionsweise der Vorbereitung von Daten für die Vorhersage