Vorhersagen mit Kreuzvalidierung auswerten (Spatial Statistics)—ArcGIS Pro

Zusammenfassung

Wertet mit Kreuzvalidierung die Performance eines Vorhersagemodells aus. Dieses Werkzeug generiert Validierungskennwerte für Modelle, die mit den Werkzeugen Forest-basierte und geboostete Klassifizierung und Regression, Generalisierte lineare Regression und Auf Vorhandensein beschränkte Vorhersage erstellt wurden. Dabei können Sie den Typ der Bewertungsmethode (zum Beispiel K-fach oder K-fach räumlich), die Anzahl der Gruppen und den Ausgleich seltener Ereignisse angeben, um eine zuverlässige und unvoreingenommene Bewertung von Modellen zu gewährleisten.

Weitere Informationen zur Funktionsweise des Werkzeugs "Vorhersagen mit Kreuzvalidierung auswerten"

Abbildung

Verwendung

Für den Parameter Typ der Bewertungsmethode gibt es zum Aufteilen von Features in Gruppen die folgenden Optionen:
- K-fach räumlich: Hierbei wird die räumliche Kreuzvalidierung verwendet, um zu bewerten, wie ein Modell die Features, die geographisch außerhalb des Untersuchungsgebietes der Trainingsdaten liegen, vorhersagen kann.
- K-fach nach Zufallsprinzip: Hierbei wird die Kreuzvalidierung nach dem Zufallsprinzip verwendet, um zu bewerten, wie ein Modell die Features, die geographisch innerhalb des Untersuchungsgebietes der Trainingsdaten liegen, vorhersagen kann.
Wenn Sie die Klassifizierung zum Vorhersagen seltener Ereignisse oder nicht ausgeglichener Kategorien verwenden, dann sollten Sie den Parameter Ausgleichstyp verwenden, um die Anzahl der Stichproben in jeder Kategorieebene auszugleichen. Testen Sie zuerst die verschiedenen Ausgleichsmethoden in diesem Werkzeug. Wählen Sie dann die Ausgleichsmethode aus, die die besten Ergebnisse geliefert hat, und führen Sie sie dann vor dem Generieren von Vorhersagen am vollständigen Training-Dataset mit dem Werkzeug Vorbereiten von Daten für die Vorhersage aus.
Die Kreuzvalidierung wird nicht zum Generieren eines einzelnen Modells oder einer einzelnen Modelldatei verwendet. Sie generiert Genauigkeitskennwerte, mit denen ermittelt werden kann, wie gut ein Modell mit seinen Parametern Daten vorhersagen kann, die ausgeschlossen waren, als das Modell trainiert wurde.
Dieses Werkzeug kann keine Analyse-Features verwenden, auf die zuvor im Werkzeug Vorbereiten von Daten für die Vorhersage ein Oversampling angewendet wurde, das heißt, die mit Oversampling nach dem Zufallsprinzip oder mit SMOTE ausgeglichen wurden. Daten, auf die ein Oversampling angewendet wurde, können wegen des Datenverlustes nicht als Validierungsdaten verwendet werden.
Berücksichtigt werden Parameter im ursprünglichen Vorhersagewerkzeug. Für Analyseergebnisse des Werkzeugs Forest-basierte und geboostete Klassifizierung und Regression werden die Validierungsdaten jedoch auf 0 festgelegt. Wenn der Parameter Parameter optimieren im Werkzeug Forest-basierte und geboostete Klassifizierung und Regression verwendet wurde, dann werden die optimalen Parameter aus dem ursprünglichen Werkzeug beim Ausführen der Kreuzvalidierung verwendet.
Dieses Werkzeug erstellt die folgenden Ausgaben:
- Ausgabe-Features: Erfasst das Training-Dataset und die Trainings- und Vorhersageergebnisse jedes Features im Training-Dataset.
- Ausgabetabelle der Validierung: Erfasst die Auswertungskennwerte für jede Ausführung der Validierung.
Das Werkzeug erstellt auch viele hilfreiche Geoverarbeitungsmeldungen, wie zum Beispiel die Tabelle "Durchschnittliche Diagnosestatistik aus Stichprobe".

Parameter

Beschriftung	Erläuterung	Datentyp
Analyseergebnis-Features	Die Feature-Class, in der die Ausgabeergebnisse des Trainings aus dem Werkzeug Forest-basierte und geboostete Klassifizierung und Regression, Generalisierte lineare Regression oder Auf Vorhandensein beschränkte Vorhersage enthalten sind. Die Ergebnisse des Vorhersagetrainings werden mit Kreuzvalidierung ausgewertet.	Feature Layer
Ausgabe-Features	Die Ausgabe-Features, in denen die ursprünglichen unabhängigen Variablen, die abhängige Variable und zusätzliche Felder mit einer Zusammenfassung der Ergebnisse der Kreuzvalidierung enthalten sind.	Feature Class
Ausgabetabelle der Validierung	Die Ausgabetabelle, in der die Auswertungskennwerte für jede Ausführung der Kreuzvalidierung enthalten sind.	Table
Analyse-Eingabe-Features	Die Eingabe-Features, die in der vorhersagenden Analyse, mit der die Analyseergebnis-Features erzeugt wurden, verwendet werden sollen.	Feature Layer
Typ der Bewertungsmethode (optional)	Gibt die Methode an, die zum Aufteilen des Wertes des Parameters Analyseergebnis-Features verwendet werden soll. K-fach nach Zufallsprinzip—Die Analyseergebnis-Features werden nach dem Zufallsprinzip in k Gruppen aufgeteilt. Danach enthält jede Gruppe dieselbe oder eine ähnlich große Anzahl von Features. Wenn Kategorien vorhergesagt werden (Klassifizierung), dann wird jede Kategorie in der abhängigen Variablen auch in jeder Trainingsgruppe vertreten sein. Dies ist die Standardeinstellung. K-fach räumlich—Die Analyseergebnis-Features werden unter Anwendung der K-Means-Cluster-Bildung auf die Schwerpunkte oder Punkte der Eingabe-Polygone räumlich in k Gruppen aufgeteilt. Wenn Kategorien vorhergesagt werden (Klassifizierung), dann wird jede Kategorie in der abhängigen Variablen auch in jeder Trainingsgruppe vertreten sein. Jede Gruppe ist von den anderen Gruppen räumlich getrennt.	String
Gruppenanzahl (optional)	Die Anzahl der Gruppen, in die der Wert des Parameters Analyseergebnis-Features aufgeteilt werden soll. Die Anzahl der Gruppen muss größer als 1 sein. Die Standardeinstellung ist 10.	Long
Ausgleichstyp (optional)	Gibt die Methode an, die zum Ausgleichen der Anzahl der Stichproben jeder Kategorie der abhängigen Variablen in der Trainingsgruppe verwendet werden soll. Dieser Parameter ist aktiv, wenn das ursprüngliche Modell eine kategoriale Variable vorhergesagt hat. Keine—Die Analyseergebnis-Features werden nicht ausgeglichen. Dies ist die Standardeinstellung. Undersampling nach Zufallsprinzip—In jeder Klasse, die nicht die Minderheitsklasse ist, werden nach dem Zufallsprinzip einzelne Features entfernt, bis die Anzahl der Features mit der Anzahl der Features in der Minderheitsklasse übereinstimmt. Undersampling nach Tomek—In jeder Klasse, die nicht die Minderheitsklasse ist, werden Features, die sich nah bei den Features in der Minderheitsklasse befinden, entfernt. Bei dieser Methode wird die Grenze zwischen den Klassen verbessert. Allerdings können die einzelnen Klassen Features in unterschiedlicher Anzahl enthalten. Undersampling mit k-Medoiden—In der Klasse, die nicht die Minderheitsklasse ist, werden Features, die für diese Klasse nicht repräsentativ sind, entfernt, bis die Anzahl der Features mit der Anzahl der Features in der Minderheitsklasse übereinstimmt. Oversampling nach Zufallsprinzip—In der Minderheitsklasse werden Features nach dem Zufallsprinzip dupliziert, bis die Anzahl der Features mit der Anzahl der Features in der Mehrheitsklasse übereinstimmt. SMOTE (Oversampling)—In der Minderheitsklasse werden durch Interpolation zwischen den Features synthetisch Features generiert, bis die Anzahl der Features mit der Anzahl der Features in der Mehrheitsklasse übereinstimmt.	String

arcpy.stats.CrossValidate(analysis_result_features, out_features, out_table, analysis_input_features, {evaluation_type}, {num_groups}, {balancing_type})

Name	Erläuterung	Datentyp
analysis_result_features	Die Feature-Class, in der die Ausgabeergebnisse des Trainings aus dem Werkzeug Forest-basierte und geboostete Klassifizierung und Regression, Generalisierte lineare Regression oder Auf Vorhandensein beschränkte Vorhersage enthalten sind. Die Ergebnisse des Vorhersagetrainings werden mit Kreuzvalidierung ausgewertet.	Feature Layer
out_features	Die Ausgabe-Features, in denen die ursprünglichen unabhängigen Variablen, die abhängige Variable und zusätzliche Felder mit einer Zusammenfassung der Ergebnisse der Kreuzvalidierung enthalten sind.	Feature Class
out_table	Die Ausgabetabelle, in der die Auswertungskennwerte für jede Ausführung der Kreuzvalidierung enthalten sind.	Table
analysis_input_features	Die Eingabe-Features, die in der vorhersagenden Analyse, mit der die Analyseergebnis-Features erzeugt wurden, verwendet werden sollen.	Feature Layer
evaluation_type (optional)	Gibt die Methode an, die zum Aufteilen des Wertes des Parameters analysis_result_features verwendet werden soll. RANDOM_KFOLD—Die Analyseergebnis-Features werden nach dem Zufallsprinzip in k Gruppen aufgeteilt. Danach enthält jede Gruppe dieselbe oder eine ähnlich große Anzahl von Features. Wenn Kategorien vorhergesagt werden (Klassifizierung), dann wird jede Kategorie in der abhängigen Variablen auch in jeder Trainingsgruppe vertreten sein. Dies ist die Standardeinstellung. SPATIAL_KFOLD—Die Analyseergebnis-Features werden unter Anwendung der K-Means-Cluster-Bildung auf die Schwerpunkte oder Punkte der Eingabe-Polygone räumlich in k Gruppen aufgeteilt. Wenn Kategorien vorhergesagt werden (Klassifizierung), dann wird jede Kategorie in der abhängigen Variablen auch in jeder Trainingsgruppe vertreten sein. Jede Gruppe ist von den anderen Gruppen räumlich getrennt.	String
num_groups (optional)	Die Anzahl der Gruppen, in die der Wert des Parameters analysis_result_features aufgeteilt werden soll. Die Anzahl der Gruppen muss größer als 1 sein. Die Standardeinstellung ist 10.	Long
balancing_type (optional)	Gibt die Methode an, die zum Ausgleichen der Anzahl der Stichproben jeder Kategorie der abhängigen Variablen in der Trainingsgruppe verwendet werden soll. Dieser Parameter ist aktiv, wenn das ursprüngliche Modell eine kategoriale Variable vorhergesagt hat. NONE—Die Analyseergebnis-Features werden nicht ausgeglichen. Dies ist die Standardeinstellung. RANDOM_UNDER—In jeder Klasse, die nicht die Minderheitsklasse ist, werden nach dem Zufallsprinzip einzelne Features entfernt, bis die Anzahl der Features mit der Anzahl der Features in der Minderheitsklasse übereinstimmt. TOMEK_UNDER—In jeder Klasse, die nicht die Minderheitsklasse ist, werden Features, die sich nah bei den Features in der Minderheitsklasse befinden, entfernt. Bei dieser Methode wird die Grenze zwischen den Klassen verbessert. Allerdings können die einzelnen Klassen Features in unterschiedlicher Anzahl enthalten. KMED_UNDER—In der Klasse, die nicht die Minderheitsklasse ist, werden Features, die für diese Klasse nicht repräsentativ sind, entfernt, bis die Anzahl der Features mit der Anzahl der Features in der Minderheitsklasse übereinstimmt. RANDOM_OVER—In der Minderheitsklasse werden Features nach dem Zufallsprinzip dupliziert, bis die Anzahl der Features mit der Anzahl der Features in der Mehrheitsklasse übereinstimmt. SMOTE_OVER—In der Minderheitsklasse werden durch Interpolation zwischen den Features synthetisch Features generiert, bis die Anzahl der Features mit der Anzahl der Features in der Mehrheitsklasse übereinstimmt.	String

Codebeispiel

CrossValidate: Beispiel 1 (Python-Fenster)

Das folgende Skript im Python-Fenster veranschaulicht, wie Sie die Funktion CrossValidate verwenden.

# Evaluate a predictive model with cross validation
import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"

arcpy.stats.CrossValidate(
    analysis_result_features=r"in_analysis_result_features",
    out_features=r"out_feature",
    out_table=r"out_table",
    analysis_input_features=r"analyis_in_feature",
    evaluation_type="RANDOM_KFOLD",
    num_groups=10,
    balancing_type="NONE"
)

CrossValidate: Beispiel 2 (eigenständiges Skript)

Das folgende eigenständige Skript veranschaulicht, wie die Funktion CrossValidate verwendet wird.

# Evaluate a predictive model with cross validation

import arcpy 

# Set the current workspace.
arcpy.env.workspace = r"c:\data\project_data.gdb"

# Run tool

arcpy.stats.CrossValidate(
    analysis_result_features=r"in_analysis_result_features",
    out_features=r"out_feature",
    out_table=r"out_table",
    analysis_input_features=r"analyis_in_feature",
    evaluation_type="RANDOM_KFOLD",
    num_groups=10,
    balancing_type="NONE"
)

Umgebungen

Zufallszahlengenerator, Ausgabe-Koordinatensystem, Faktor für parallele Verarbeitung

Lizenzinformationen

Basic: Begrenzt
Standard: Begrenzt
Advanced: Begrenzt