Daten für die Vorhersage vorbereiten (Spatial Statistics)

Zusammenfassung

Optimiert Daten für Vorhersage-Workflows in den Werkzeugen Forest-basierte und geboostete Klassifizierung und Regression, Generalisierte lineare Regression und Auf Vorhandensein beschränkte Vorhersage und in anderen Modellen. Dies ermöglicht das Aufteilen von Features in Trainings- und Test-Datasets, das Extrahieren von Variablen aus Rastern und Entfernungs-Features, das Ausgleichen der Daten zur Verbesserung der Klassifizierungsgenauigkeit und das Durchführen einer räumlichen Ausdünnung an verzerrten räumlichen Daten.

Weitere Informationen zur Funktionsweise des Werkzeugs "Daten für die Vorhersage vorbereiten"

Abbildung

Abbildung des Werkzeugs "Daten für die Vorhersage vorbereiten"

Verwendung

  • Nach dem Ausgleichen sollten die ausgeglichenen Trainingsdaten nur zum Trainieren von Vorhersagemodellen verwendet werden. Um Genauigkeitsverzerrungen und Datenverluste zu vermeiden, sollten Modelle nicht anhand von Daten, die ausgeglichen wurden, validiert werden.

  • Um Raster als erklärende Variablen verwenden zu können, ist die Erweiterung "ArcGIS Spatial Analyst" erforderlich.

  • Wenn Sie die Klassifizierung zum Vorhersagen seltener Ereignisse oder nicht ausgeglichener Kategorien verwenden, dann sollten Sie den Parameter Ausgleichstyp verwenden, um die Anzahl der Stichproben in jeder Kategorieebene auszugleichen. Mit Oversampling-Methoden kann die Anzahl der Features insgesamt erhöht werden. Mit Undersampling-Methoden kann dagegen die Anzahl der Features insgesamt verringert werden.

  • Wenn der Parameter Teilungstyp auf Zufällige Teilung oder auf Räumliche Teilung festgelegt ist, dann können die Ausgabe-Test-Features zum Auswerten der Modellgenauigkeit mit dem Werkzeug Mit Modelldatei für räumliche Statistiken vorhersagen verwendet werden. Stellen Sie sicher, dass beim Ausführen des ausgewählten Analysewerkzeugs die Ausgabe eine Modelldatei für räumliche Statistiken ist.

  • Wenn der Parameter Teilungstyp auf Zufällige Teilung oder auf Räumliche Teilung festgelegt ist, dann wird durch das Werkzeug sichergestellt, dass in den Ausgabe-Trainings-Features alle Kategorieebenen der vorherzusagenden Variable und aller erklärenden Variablen vorhanden sind. Im Test-Dataset muss nicht jede Kategorieebene vorhanden sein.

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Features

Die Features, an denen das Teilen, Extrahieren und Ausgleichen durchgeführt werden soll.

Feature Class
Ausgabe-Features

Die Ausgabe-Features, die als Trainings-Features in einem Modellwerkzeug verwendet werden sollen.

Feature Class
Teilungstyp
(optional)

Gibt die Methode an, die zum Aufteilen der Eingabe-Features in Trainings- und Testteilmengen verwendet werden soll.

  • Zufällige TeilungDie Eingabe-Features werden nach dem Zufallsprinzip in Trainings- und Testteilmengen aufgeteilt. Dies ist die Standardeinstellung.
  • Räumliche TeilungDie Eingabe-Features werden räumlich in Trainings- und Testteilmengen aufgeteilt.
  • KeineDie Eingabe-Features werden nicht aufgeteilt.
String
Ausgabe-Testteilmengen-Features
(optional)

Eine Testteilmenge des Wertes des Parameters Eingabe-Features, die als Test-Features verwendet werden kann. Dieser Parameter ist verfügbar, wenn der Parameter Teilungstyp auf Zufällige Teilung oder auf Räumliche Teilung festgelegt ist.

Feature Class
Vorherzusagende Variable
(optional)

Die Variable aus dem Wert des Parameters Eingabe-Features, die die Werte enthält, die zum Trainieren eines Modells verwendet werden sollen. Dieses Feld enthält bekannte (Trainings-)Werte der Variablen, mit denen eine Vorhersage an unbekannten Positionen getroffen wird.

Field
Variable als kategorial behandeln
(optional)

Gibt an, ob der Wert des Parameters Vorherzusagende Variable als kategoriale Variable behandelt wird.

  • Aktiviert: Der Wert des Parameters Vorherzusagende Variable wird als kategoriale Variable behandelt.
  • Deaktiviert: Der Wert des Parameters Vorherzusagende Variable wird nicht als kategoriale Variable, sondern als kontinuierliche Variable behandelt. Dies ist die Standardeinstellung.

Boolean
Erklärende Variablen
(optional)

Eine Liste der Felder, die erklärende Variablen darstellen und die Vorhersage des Wertes oder der Kategorie des Wertes des Parameters Vorherzusagende Variable unterstützen. Aktivieren Sie das Kontrollkästchen Kategorial für alle Variablen, die Klassen oder Kategorien darstellen (z. B. Landbedeckung oder Anwesenheit oder Abwesenheit).

Value Table
Erklärende Entfernungs-Features
(optional)

Die erklärenden Trainings-Entfernungs-Features. Erklärende Variablen werden automatisch durch Berechnung einer Entfernung zwischen den bereitgestellten Features und den Werten des Parameters Eingabe-Features erstellt. Entfernungen werden von den einzelnen Features im Wert des Parameters Eingabe-Features zum nächsten Feature in diesem Parameter berechnet. Wenn die Werte dieses Parameters Polygone oder Linien sind, dann werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet.

Feature Layer
Erklärende Raster
(optional)

Die aus Rastern extrahierten erklärenden Trainingsvariablen. Erklärende Trainingsvariablen werden automatisch durch Extrahieren von Raster-Zellenwerten erstellt. Für jedes Feature im Wert des Parameters Eingabe-Features wird der Wert der Raster-Zelle an genau dieser Position extrahiert. Beim Extrahieren des Raster-Werts für kontinuierliche Raster wird bilineares Resampling verwendet. Beim Extrahieren eines Raster-Werts aus kategorialen Rastern wird ein Nächster-Nachbar-Resampling durchgeführt. Aktivieren Sie das Kontrollkästchen Kategorie für alle Raster, die Klassen oder Kategorien darstellen, z. B. Landbedeckung oder Anwesenheit oder Abwesenheit.

Value Table
Polygone für Training in Raster-Auflösung konvertieren
(optional)

Gibt an, wie Polygone behandelt werden sollen, wenn die Werte des Parameters Eingabe-Features Polygone mit einem kategorialen Wert für den Parameter Vorherzusagende Variable sind und nur Werte für den Parameter Erklärende Raster angegeben wurden.

  • Aktiviert: Die Polygone werden in alle Raster-Zellen mit Schwerpunkt innerhalb des Polygons geteilt. Anschließend werden die Raster-Werte an den einzelnen Schwerpunkten extrahiert und zum Trainieren des Modells verwendet. Das Modell wird nicht länger an den Polygonen trainiert, sondern an den für die einzelnen Zellenschwerpunkte extrahierten Raster-Werten. Dies ist die Standardeinstellung.
  • Deaktiviert: Jedem Polygon wird der Durchschnittswert der zugrunde liegenden kontinuierlichen Raster oder der Mehrheitswert für die zugrunde liegenden kategorisierten Raster zugewiesen.

Boolean
Prozentsatz der Daten als Testteilmenge
(optional)

Der Prozentsatz der Eingabe-Features, die als Test- oder Validierungs-Dataset reserviert werden sollen. Die Standardeinstellung ist 10.

Double
Ausgleichstyp
(optional)

Gibt die Methode an, die zum Ausgleichen der unausgeglichenen Werte des Parameters Vorherzusagende Variable oder der räumlichen Verzerrung der Eingabe-Features verwendet werden soll. Die Ausgleichsmethode wird nur auf den Wert des Parameters Ausgabe-Features angewendet.

  • KeineDie Eingabe-Features werden nicht ausgeglichen. Dies ist die Standardeinstellung.
  • Räumliche AusdünnungDie räumliche Verzerrung wird reduziert, indem Features entfernt werden und sichergestellt wird, dass die Entfernung zwischen den einzelnen Gruppen verbleibender Punkte mindestens dem Wert des Parameters Minimale Entfernung zum nächsten Nachbarn entspricht. Wenn der Wert des Parameters Vorherzusagende Variable eine kategoriale Variable ist, dann wird die räumliche Ausdünnung auf jede einzelne Klasse angewendet. Andernfalls wird die räumliche Ausdünnung auf alle Features im Wert des Parameters Ausgabe-Features angewendet.
  • Undersampling nach ZufallsprinzipIn jeder Klasse, die nicht die Minderheitsklasse ist, werden nach dem Zufallsprinzip einzelne Features entfernt, bis die Anzahl der Features mit der Anzahl der Features in der Minderheitsklasse übereinstimmt.
  • Undersampling nach TomekIn jeder Klasse, die nicht die Minderheitsklasse ist, werden Features, die sich nah bei den Features in der Minderheitsklasse befinden, entfernt. Bei dieser Methode wird die Grenze zwischen den Klassen verbessert. Allerdings können die einzelnen Klassen Features in unterschiedlicher Anzahl enthalten.
  • Undersampling mit k-MedoidenIn der Klasse, die nicht die Minderheitsklasse ist, werden Features, die für diese Klasse nicht repräsentativ sind, entfernt, bis die Anzahl der Features mit der Anzahl der Features in der Minderheitsklasse übereinstimmt.
  • Oversampling nach ZufallsprinzipIn der Minderheitsklasse werden Features nach dem Zufallsprinzip dupliziert, bis die Anzahl der Features mit der Anzahl der Features in der Mehrheitsklasse übereinstimmt.
  • SMOTE (Oversampling)In der Minderheitsklasse werden durch Interpolation zwischen den Features synthetisch Features generiert, bis die Anzahl der Features mit der Anzahl der Features in der Mehrheitsklasse übereinstimmt.
String
Minimale Entfernung zum nächsten Nachbarn
(optional)

Die minimale Entfernung zwischen zwei beliebigen Punkten oder zwei beliebigen Punkten derselben Kategorie des Wertes des Parameters Vorherzusagende Variable, wenn die räumliche Ausdünnung angewendet wird.

Linear Unit
Anzahl der Iterationen für die Ausdünnung
(optional)

Die Anzahl der Iterationen, mit denen die optimale räumliche Ausdünnung erzielt werden soll. Dabei wird versucht, möglichst viele Features beizubehalten und dabei sicherzustellen, dass sich keine zwei Features innerhalb der Entfernung befinden, die im Wert des Parameters Minimale Entfernung zum nächsten Nachbarn angegeben ist. Die minimale Anzahl der Iterationen beträgt 1, und die maximale Anzahl beträgt 50. Die Standardeinstellung ist 10.

Long
Kategoriale erklärende Variablen codieren
(optional)

Gibt an, ob die kategorialen erklärenden Variablen codiert werden sollen.

  • Aktiviert: Die kategorialen erklärenden Variablen werden codiert. Jeder Kategoriewert wird in ein neues Feld konvertiert und erhält den Wert 0 oder 1 zugewiesen. Der Wert 1 steht für das Vorhandensein, der Wert 0 für das Fehlen dieses Kategoriewertes.
  • Deaktiviert: Die kategorialen erklärenden Variablen werden nicht codiert. Dies ist die Standardeinstellung.

Boolean
Alle Felder aus den Eingabe-Features anhängen
(optional)

Gibt an, ob alle Felder aus den Eingabe-Features in die Ausgabe-Features kopiert werden sollen.

  • Deaktiviert: Nur die Eingabefelder werden in die Ausgabe-Features kopiert.
  • Aktiviert: Alle Felder der Eingabe-Features werden in die Ausgabe-Features kopiert. Dies ist die Standardeinstellung.

Boolean

arcpy.stats.PrepareData(in_features, out_features, {splitting_type}, {out_test_features}, {variable_predict}, {treat_variable_as_categorical}, {explanatory_variables}, {distance_features}, {explanatory_rasters}, {use_raster_values}, {percent}, {balancing_type}, {thinning_distance_band}, {number_of_iterations}, {encode_variables}, {append_all_fields})
NameErläuterungDatentyp
in_features

Die Features, an denen das Teilen, Extrahieren und Ausgleichen durchgeführt werden soll.

Feature Class
out_features

Die Ausgabe-Features, die als Trainings-Features in einem Modellwerkzeug verwendet werden sollen.

Feature Class
splitting_type
(optional)

Gibt die Methode an, die zum Aufteilen der Eingabe-Features in Trainings- und Testteilmengen verwendet werden soll.

  • RANDOM_SPLITDie Eingabe-Features werden nach dem Zufallsprinzip in Trainings- und Testteilmengen aufgeteilt. Dies ist die Standardeinstellung.
  • SPATIAL_SPLITDie Eingabe-Features werden räumlich in Trainings- und Testteilmengen aufgeteilt.
  • NONEDie Eingabe-Features werden nicht aufgeteilt.
String
out_test_features
(optional)

Eine Testteilmenge des Wertes des Parameters in_features, die als Test-Features verwendet werden kann. Dieser Parameter wird aktiviert, wenn der Parameter splitting_type auf RANDOM_SPLIT oder auf SPATIAL_SPLIT festgelegt ist.

Feature Class
variable_predict
(optional)

Die Variable aus dem Wert des Parameters in_features, die die Werte enthält, die zum Trainieren eines Modells verwendet werden sollen. Dieses Feld enthält bekannte (Trainings-)Werte der Variablen, mit denen eine Vorhersage an unbekannten Positionen getroffen wird.

Field
treat_variable_as_categorical
(optional)

Gibt an, ob der Wert des Parameters variable_predict als kategoriale Variable behandelt wird.

  • CATEGORICALDer Wert des Parameters variable_predict wird als kategoriale Variable behandelt.
  • NUMERICDer Wert des Parameters variable_predict wird nicht als kategoriale Variable, sondern als kontinuierliche Variable behandelt. Dies ist die Standardeinstellung.
Boolean
explanatory_variables
[explanatory_variables,...]
(optional)

Eine Liste der Felder, die erklärende Variablen darstellen und die Vorhersage des Wertes oder der Kategorie des Wertes von variable_predict unterstützen. Verwenden Sie den Wert CATEGORICAL für eine Variable, die Klassen oder Kategorien darstellt (z. B. Landbedeckung oder Anwesenheit oder Abwesenheit).

Value Table
distance_features
[distance_features,...]
(optional)

Die erklärenden Trainings-Entfernungs-Features. Erklärende Variablen werden automatisch durch Berechnung einer Entfernung zwischen den bereitgestellten Features und den Werten des Parameters in_features erstellt. Entfernungen werden von den einzelnen Features im Wert des Parameters in_features zum nächsten Feature in diesem Parameter berechnet. Wenn die Werte dieses Parameters Polygone oder Linien sind, dann werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet.

Feature Layer
explanatory_rasters
[explanatory_rasters,...]
(optional)

Die aus Rastern extrahierten erklärenden Trainingsvariablen. Erklärende Trainingsvariablen werden automatisch durch Extrahieren von Raster-Zellenwerten erstellt. Für jedes Feature im Wert des Parameters in_features wird der Wert der Raster-Zelle an genau dieser Position extrahiert. Beim Extrahieren des Raster-Werts für kontinuierliche Raster wird bilineares Resampling verwendet. Beim Extrahieren eines Raster-Werts aus kategorialen Rastern wird ein Nächster-Nachbar-Resampling durchgeführt. Verwenden Sie den Wert CATEGORICAL für alle Raster, die Klassen oder Kategorien darstellen, z. B. Landbedeckung oder Anwesenheit oder Abwesenheit.

Value Table
use_raster_values
(optional)

Gibt an, wie Polygone behandelt werden sollen, wenn die Werte des Parameters in_features Polygone mit einem kategorialen Wert für den Parameter variable_predict sind und nur Werte für den Parameter explanatory_rasters angegeben wurden.

  • SAMPLE_POLYGONDie Polygone werden in alle Raster-Zellen mit Schwerpunkt innerhalb des Polygons geteilt. Anschließend werden die Raster-Werte an den einzelnen Schwerpunkten extrahiert und zum Trainieren des Modells verwendet. Das Modell wird nicht länger an den Polygonen trainiert, sondern an den für die einzelnen Zellenschwerpunkte extrahierten Raster-Werten. Dies ist die Standardeinstellung.
  • NO_SAMPLE_POLYGONJedem Polygon wird der Durchschnittswert der zugrunde liegenden kontinuierlichen Raster oder der Mehrheitswert für die zugrunde liegenden kategorisierten Raster zugewiesen.
Boolean
percent
(optional)

Der Prozentsatz der Eingabe-Features, die als Test- oder Validierungs-Dataset reserviert werden sollen. Die Standardeinstellung ist 10.

Double
balancing_type
(optional)

Gibt die Methode an, die zum Ausgleichen der unausgeglichenen Werte des Parameters variable_predict oder der räumlichen Verzerrung der Eingabe-Features verwendet werden soll. Die Ausgleichsmethode wird nur auf den Wert des Parameters out_features angewendet.

  • NONEDie Eingabe-Features werden nicht ausgeglichen. Dies ist die Standardeinstellung.
  • SPATIAL_THINNINGDie räumliche Verzerrung wird reduziert, indem Features entfernt werden und sichergestellt wird, dass die Entfernung zwischen den einzelnen Gruppen verbleibender Punkte mindestens dem Wert des Parameters thinning_distance_band entspricht. Wenn der Wert des Parameters variable_predict eine kategoriale Variable ist, dann wird die räumliche Ausdünnung auf jede einzelne Klasse angewendet. Andernfalls wird die räumliche Ausdünnung auf alle Features im Wert des Parameters out_features angewendet.
  • RANDOM_UNDERIn jeder Klasse, die nicht die Minderheitsklasse ist, werden nach dem Zufallsprinzip einzelne Features entfernt, bis die Anzahl der Features mit der Anzahl der Features in der Minderheitsklasse übereinstimmt.
  • TOMEK_UNDERIn jeder Klasse, die nicht die Minderheitsklasse ist, werden Features, die sich nah bei den Features in der Minderheitsklasse befinden, entfernt. Bei dieser Methode wird die Grenze zwischen den Klassen verbessert. Allerdings können die einzelnen Klassen Features in unterschiedlicher Anzahl enthalten.
  • KMED_UNDERIn der Klasse, die nicht die Minderheitsklasse ist, werden Features, die für diese Klasse nicht repräsentativ sind, entfernt, bis die Anzahl der Features mit der Anzahl der Features in der Minderheitsklasse übereinstimmt.
  • RANDOM_OVERIn der Minderheitsklasse werden Features nach dem Zufallsprinzip dupliziert, bis die Anzahl der Features mit der Anzahl der Features in der Mehrheitsklasse übereinstimmt.
  • SMOTE_OVERIn der Minderheitsklasse werden durch Interpolation zwischen den Features synthetisch Features generiert, bis die Anzahl der Features mit der Anzahl der Features in der Mehrheitsklasse übereinstimmt.
String
thinning_distance_band
(optional)

Die minimale Entfernung zwischen zwei beliebigen Punkten oder zwei beliebigen Punkten derselben Kategorie des Wertes des Parameters variable_predict, wenn die räumliche Ausdünnung angewendet wird.

Linear Unit
number_of_iterations
(optional)

Die Anzahl der Iterationen, mit denen die optimale räumliche Ausdünnung erzielt werden soll. Dabei wird versucht, möglichst viele Features beizubehalten und dabei sicherzustellen, dass sich keine zwei Features innerhalb der Entfernung befinden, die im Wert des Parameters thinning_distance_band angegeben ist. Die minimale Anzahl der Iterationen beträgt 1, und die maximale Anzahl beträgt 50. Die Standardeinstellung ist 10.

Long
encode_variables
(optional)

Gibt an, ob die kategorialen erklärenden Variablen codiert werden sollen.

  • ENCODEDie kategorialen erklärenden Variablen werden codiert. Jeder Kategoriewert wird in ein neues Feld konvertiert und erhält den Wert 0 oder 1 zugewiesen. Der Wert 1 steht für das Vorhandensein, der Wert 0 für das Fehlen dieses Kategoriewertes.
  • NO_ENCODEDie kategorialen erklärenden Variablen werden nicht codiert. Dies ist die Standardeinstellung.
Boolean
append_all_fields
(optional)

Gibt an, ob alle Felder aus den Eingabe-Features in die Ausgabe-Features kopiert werden sollen.

  • NO_APPENDNur die Eingabefelder werden in die Ausgabe-Features kopiert.
  • APPENDAlle Felder der Eingabe-Features werden in die Ausgabe-Features kopiert. Dies ist die Standardeinstellung.
Boolean

Codebeispiel

PrepareData: Beispiel 1 (Python-Fenster)

Das folgende Skript im Python-Fenster veranschaulicht, wie die Funktion PrepareData verwendet wird.

# Prepare data for prediction.
import arcpy

arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.PrepareData(
    in_features = r"in_feature_class",
    out_features = r"out_feature_class",
    splitting_type="RANDOM_SPLIT",
    variable_predict=None,
    treat_variable_as_categorical="NUMERIC"   
)
PrepareData: Beispiel 2 (eigenständiges Skript)

Das folgende eigenständige Skript veranschaulicht, wie die Funktion PrepareData verwendet wird.

# Prepare data for prediction.
import arcpy

# Set the current workspace.
arcpy.env.workspace = r"c:\data\project_data.gdb"

# Run tool
arcpy.stats.PrepareData(
    in_features = r"in_feature_class",
    out_features = r"out_feature_class",
    splitting_type="RANDOM_SPLIT",
    variable_predict=None,
    treat_variable_as_categorical="NUMERIC"
)

Lizenzinformationen

  • Basic: Ja
  • Standard: Ja
  • Advanced: Ja

Verwandte Themen