| Beschriftung | Erläuterung | Datentyp |
Eingabe-Features | Die Features, an denen das Teilen, Extrahieren und Ausgleichen durchgeführt werden soll. | Feature Class |
Ausgabe-Features | Die Ausgabe-Features, die als Trainings-Features in einem Modellwerkzeug verwendet werden sollen. | Feature Class |
Teilungstyp (optional) | Gibt die Methode an, die zum Aufteilen der Eingabe-Features in Trainings- und Testteilmengen verwendet werden soll.
| String |
Ausgabe-Testteilmengen-Features (optional) | Eine Testteilmenge des Wertes des Parameters Eingabe-Features, die als Test-Features verwendet werden kann. Dieser Parameter ist verfügbar, wenn der Parameter Teilungstyp auf Zufällige Teilung oder auf Räumliche Teilung festgelegt ist. | Feature Class |
Vorherzusagende Variable (optional) | Die Variable aus dem Wert des Parameters Eingabe-Features, die die Werte enthält, die zum Trainieren eines Modells verwendet werden sollen. Dieses Feld enthält bekannte (Trainings-)Werte der Variablen, mit denen eine Vorhersage an unbekannten Positionen getroffen wird. | Field |
Variable als kategorial behandeln (optional) | Gibt an, ob der Wert des Parameters Vorherzusagende Variable als kategoriale Variable behandelt wird.
| Boolean |
Erklärende Variablen (optional) | Eine Liste der Felder, die erklärende Variablen darstellen und die Vorhersage des Wertes oder der Kategorie des Wertes des Parameters Vorherzusagende Variable unterstützen. Aktivieren Sie das Kontrollkästchen Kategorial für alle Variablen, die Klassen oder Kategorien darstellen (z. B. Landbedeckung oder Anwesenheit oder Abwesenheit). | Value Table |
Erklärende Entfernungs-Features (optional) | Die erklärenden Trainings-Entfernungs-Features. Erklärende Variablen werden automatisch durch Berechnung einer Entfernung zwischen den bereitgestellten Features und den Werten des Parameters Eingabe-Features erstellt. Entfernungen werden von den einzelnen Features im Wert des Parameters Eingabe-Features zum nächsten Feature in diesem Parameter berechnet. Wenn die Werte dieses Parameters Polygone oder Linien sind, dann werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet. | Feature Layer |
Erklärende Raster (optional) | Die aus Rastern extrahierten erklärenden Trainingsvariablen. Erklärende Trainingsvariablen werden automatisch durch Extrahieren von Raster-Zellenwerten erstellt. Für jedes Feature im Wert des Parameters Eingabe-Features wird der Wert der Raster-Zelle an genau dieser Position extrahiert. Beim Extrahieren des Raster-Werts für kontinuierliche Raster wird bilineares Resampling verwendet. Beim Extrahieren eines Raster-Werts aus kategorialen Rastern wird ein Nächster-Nachbar-Resampling durchgeführt. Aktivieren Sie das Kontrollkästchen Kategorie für alle Raster, die Klassen oder Kategorien darstellen, z. B. Landbedeckung oder Anwesenheit oder Abwesenheit. | Value Table |
Polygone für Training in Raster-Auflösung konvertieren (optional) | Gibt an, wie Polygone behandelt werden sollen, wenn die Werte des Parameters Eingabe-Features Polygone mit einem kategorialen Wert für den Parameter Vorherzusagende Variable sind und nur Werte für den Parameter Erklärende Raster angegeben wurden.
| Boolean |
Prozentsatz der Daten als Testteilmenge (optional) | Der Prozentsatz der Eingabe-Features, die als Test- oder Validierungs-Dataset reserviert werden sollen. Die Standardeinstellung ist 10. | Double |
Ausgleichstyp (optional) | Gibt die Methode an, die zum Ausgleichen der unausgeglichenen Werte des Parameters Vorherzusagende Variable oder der räumlichen Verzerrung der Eingabe-Features verwendet werden soll. Die Ausgleichsmethode wird nur auf den Wert des Parameters Ausgabe-Features angewendet.
| String |
Minimale Entfernung zum nächsten Nachbarn (optional) | Die minimale Entfernung zwischen zwei beliebigen Punkten oder zwei beliebigen Punkten derselben Kategorie des Wertes des Parameters Vorherzusagende Variable, wenn die räumliche Ausdünnung angewendet wird. | Linear Unit |
Anzahl der Iterationen für die Ausdünnung (optional) | Die Anzahl der Iterationen, mit denen die optimale räumliche Ausdünnung erzielt werden soll. Dabei wird versucht, möglichst viele Features beizubehalten und dabei sicherzustellen, dass sich keine zwei Features innerhalb der Entfernung befinden, die im Wert des Parameters Minimale Entfernung zum nächsten Nachbarn angegeben ist. Die minimale Anzahl der Iterationen beträgt 1, und die maximale Anzahl beträgt 50. Die Standardeinstellung ist 10. | Long |
Kategoriale erklärende Variablen codieren (optional) | Gibt an, ob die kategorialen erklärenden Variablen codiert werden sollen.
| Boolean |
Alle Felder aus den Eingabe-Features anhängen (optional) | Gibt an, ob alle Felder aus den Eingabe-Features in die Ausgabe-Features kopiert werden sollen.
| Boolean |
Zusammenfassung
Optimiert Daten für Vorhersage-Workflows in den Werkzeugen Forest-basierte und geboostete Klassifizierung und Regression, Generalisierte lineare Regression und Auf Vorhandensein beschränkte Vorhersage und in anderen Modellen. Dies ermöglicht das Aufteilen von Features in Trainings- und Test-Datasets, das Extrahieren von Variablen aus Rastern und Entfernungs-Features, das Ausgleichen der Daten zur Verbesserung der Klassifizierungsgenauigkeit und das Durchführen einer räumlichen Ausdünnung an verzerrten räumlichen Daten.
Weitere Informationen zur Funktionsweise des Werkzeugs "Daten für die Vorhersage vorbereiten"
Abbildung

Verwendung
Nach dem Ausgleichen sollten die ausgeglichenen Trainingsdaten nur zum Trainieren von Vorhersagemodellen verwendet werden. Um Genauigkeitsverzerrungen und Datenverluste zu vermeiden, sollten Modelle nicht anhand von Daten, die ausgeglichen wurden, validiert werden.
Um Raster als erklärende Variablen verwenden zu können, ist die Erweiterung "ArcGIS Spatial Analyst" erforderlich.
Wenn Sie die Klassifizierung zum Vorhersagen seltener Ereignisse oder nicht ausgeglichener Kategorien verwenden, dann sollten Sie den Parameter Ausgleichstyp verwenden, um die Anzahl der Stichproben in jeder Kategorieebene auszugleichen. Mit Oversampling-Methoden kann die Anzahl der Features insgesamt erhöht werden. Mit Undersampling-Methoden kann dagegen die Anzahl der Features insgesamt verringert werden.
Wenn der Parameter Teilungstyp auf Zufällige Teilung oder auf Räumliche Teilung festgelegt ist, dann können die Ausgabe-Test-Features zum Auswerten der Modellgenauigkeit mit dem Werkzeug Mit Modelldatei für räumliche Statistiken vorhersagen verwendet werden. Stellen Sie sicher, dass beim Ausführen des ausgewählten Analysewerkzeugs die Ausgabe eine Modelldatei für räumliche Statistiken ist.
Wenn der Parameter Teilungstyp auf Zufällige Teilung oder auf Räumliche Teilung festgelegt ist, dann wird durch das Werkzeug sichergestellt, dass in den Ausgabe-Trainings-Features alle Kategorieebenen der vorherzusagenden Variable und aller erklärenden Variablen vorhanden sind. Im Test-Dataset muss nicht jede Kategorieebene vorhanden sein.
Parameter
arcpy.stats.PrepareData(in_features, out_features, {splitting_type}, {out_test_features}, {variable_predict}, {treat_variable_as_categorical}, {explanatory_variables}, {distance_features}, {explanatory_rasters}, {use_raster_values}, {percent}, {balancing_type}, {thinning_distance_band}, {number_of_iterations}, {encode_variables}, {append_all_fields})| Name | Erläuterung | Datentyp |
in_features | Die Features, an denen das Teilen, Extrahieren und Ausgleichen durchgeführt werden soll. | Feature Class |
out_features | Die Ausgabe-Features, die als Trainings-Features in einem Modellwerkzeug verwendet werden sollen. | Feature Class |
splitting_type (optional) | Gibt die Methode an, die zum Aufteilen der Eingabe-Features in Trainings- und Testteilmengen verwendet werden soll.
| String |
out_test_features (optional) | Eine Testteilmenge des Wertes des Parameters in_features, die als Test-Features verwendet werden kann. Dieser Parameter wird aktiviert, wenn der Parameter splitting_type auf RANDOM_SPLIT oder auf SPATIAL_SPLIT festgelegt ist. | Feature Class |
variable_predict (optional) | Die Variable aus dem Wert des Parameters in_features, die die Werte enthält, die zum Trainieren eines Modells verwendet werden sollen. Dieses Feld enthält bekannte (Trainings-)Werte der Variablen, mit denen eine Vorhersage an unbekannten Positionen getroffen wird. | Field |
treat_variable_as_categorical (optional) | Gibt an, ob der Wert des Parameters variable_predict als kategoriale Variable behandelt wird.
| Boolean |
explanatory_variables [explanatory_variables,...] (optional) | Eine Liste der Felder, die erklärende Variablen darstellen und die Vorhersage des Wertes oder der Kategorie des Wertes von variable_predict unterstützen. Verwenden Sie den Wert CATEGORICAL für eine Variable, die Klassen oder Kategorien darstellt (z. B. Landbedeckung oder Anwesenheit oder Abwesenheit). | Value Table |
distance_features [distance_features,...] (optional) | Die erklärenden Trainings-Entfernungs-Features. Erklärende Variablen werden automatisch durch Berechnung einer Entfernung zwischen den bereitgestellten Features und den Werten des Parameters in_features erstellt. Entfernungen werden von den einzelnen Features im Wert des Parameters in_features zum nächsten Feature in diesem Parameter berechnet. Wenn die Werte dieses Parameters Polygone oder Linien sind, dann werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet. | Feature Layer |
explanatory_rasters [explanatory_rasters,...] (optional) | Die aus Rastern extrahierten erklärenden Trainingsvariablen. Erklärende Trainingsvariablen werden automatisch durch Extrahieren von Raster-Zellenwerten erstellt. Für jedes Feature im Wert des Parameters in_features wird der Wert der Raster-Zelle an genau dieser Position extrahiert. Beim Extrahieren des Raster-Werts für kontinuierliche Raster wird bilineares Resampling verwendet. Beim Extrahieren eines Raster-Werts aus kategorialen Rastern wird ein Nächster-Nachbar-Resampling durchgeführt. Verwenden Sie den Wert CATEGORICAL für alle Raster, die Klassen oder Kategorien darstellen, z. B. Landbedeckung oder Anwesenheit oder Abwesenheit. | Value Table |
use_raster_values (optional) | Gibt an, wie Polygone behandelt werden sollen, wenn die Werte des Parameters in_features Polygone mit einem kategorialen Wert für den Parameter variable_predict sind und nur Werte für den Parameter explanatory_rasters angegeben wurden.
| Boolean |
percent (optional) | Der Prozentsatz der Eingabe-Features, die als Test- oder Validierungs-Dataset reserviert werden sollen. Die Standardeinstellung ist 10. | Double |
balancing_type (optional) | Gibt die Methode an, die zum Ausgleichen der unausgeglichenen Werte des Parameters variable_predict oder der räumlichen Verzerrung der Eingabe-Features verwendet werden soll. Die Ausgleichsmethode wird nur auf den Wert des Parameters out_features angewendet.
| String |
thinning_distance_band (optional) | Die minimale Entfernung zwischen zwei beliebigen Punkten oder zwei beliebigen Punkten derselben Kategorie des Wertes des Parameters variable_predict, wenn die räumliche Ausdünnung angewendet wird. | Linear Unit |
number_of_iterations (optional) | Die Anzahl der Iterationen, mit denen die optimale räumliche Ausdünnung erzielt werden soll. Dabei wird versucht, möglichst viele Features beizubehalten und dabei sicherzustellen, dass sich keine zwei Features innerhalb der Entfernung befinden, die im Wert des Parameters thinning_distance_band angegeben ist. Die minimale Anzahl der Iterationen beträgt 1, und die maximale Anzahl beträgt 50. Die Standardeinstellung ist 10. | Long |
encode_variables (optional) | Gibt an, ob die kategorialen erklärenden Variablen codiert werden sollen.
| Boolean |
append_all_fields (optional) | Gibt an, ob alle Felder aus den Eingabe-Features in die Ausgabe-Features kopiert werden sollen.
| Boolean |
Codebeispiel
Das folgende Skript im Python-Fenster veranschaulicht, wie die Funktion PrepareData verwendet wird.
# Prepare data for prediction.
import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.PrepareData(
in_features = r"in_feature_class",
out_features = r"out_feature_class",
splitting_type="RANDOM_SPLIT",
variable_predict=None,
treat_variable_as_categorical="NUMERIC"
)Das folgende eigenständige Skript veranschaulicht, wie die Funktion PrepareData verwendet wird.
# Prepare data for prediction.
import arcpy
# Set the current workspace.
arcpy.env.workspace = r"c:\data\project_data.gdb"
# Run tool
arcpy.stats.PrepareData(
in_features = r"in_feature_class",
out_features = r"out_feature_class",
splitting_type="RANDOM_SPLIT",
variable_predict=None,
treat_variable_as_categorical="NUMERIC"
)Lizenzinformationen
- Basic: Ja
- Standard: Ja
- Advanced: Ja
Verwandte Themen
- Überblick über das Toolset "Modellierung von räumlichen Beziehungen"
- Auswerten von Vorhersagen mit Kreuzvalidierung
- Forest-basierte und geboostete Klassifizierung und Regression
- Generalisierte lineare Regression
- Auf Vorhandensein beschränkte Vorhersage (MaxEnt)
- Funktionsweise der Auswertung von Vorhersagen mit Kreuzvalidierung
- Funktionsweise der Vorbereitung von Daten für die Vorhersage