Funktionsweise des Werkzeugs "Daten für die Vorhersage vorbereiten"—ArcGIS Pro

Das Werkzeug Daten für die Vorhersage vorbereiten erleichtert die Teilung von Eingabe-Features zum Erstellen von Vorhersagemodellen. Dieses Werkzeug extrahiert Informationen aus erklärenden Variablen, Entfernungs-Features und erklärenden Rastern, um die Teilung in Trainings- und Testdaten durchzuführen. Es ermöglicht auch ein Resampling der Originaldaten, um Ungleichgewichte in den Daten zu berücksichtigen. Das Ausgleichen der Daten ist eine hilfreiche Methode zum Verbessern der Performance eines Modells beim Vorhersagen seltener Ereignisse.

Die Aufgabe bei der Vorhersagemodellierung besteht darin, möglichst viele zugrunde liegende Muster zu erfassen und gleichzeitig sicherzustellen, dass das Model in Zukunft effektiv auf neue Daten verallgemeinert werden kann. Vorhersagemodelle stützen sich beim Lernen auf Eingabedaten. Diese Eingabedaten werden als Trainingsdaten bezeichnet. Beim Erstellen eines Modells und Trainieren dieses Modells an den Eingabedaten besteht das Ziel darin, eine allgemeine Anpassung zu erreichen, die die zugrunde liegenden Muster in den Trainingsdaten erfasst und gleichzeitig eine maximale Eignung für die Vorhersage bei unbekannten, neuen Daten gewährleistet. Das Ziel besteht nicht in der perfekten Replizierung der Trainingsdaten, da dies zu einer Überanpassung führen würde. Gleichzeitig soll vermieden werden, dass die Daten zu allgemein sind, da dies zu einer Unteranpassung und fehlenden wichtigen Mustern in den Daten führen würde.

Diagramme zur Veranschaulichung von Daten, die unter-, über- und gut angepasst sind

Beim Entwickeln eines Vorhersagemodells möchten wir sicherstellen, dass es bei unbekannten Daten gute Ergebnisse liefert (Daten, die nicht zum Trainieren des Modells verwendet wurden.) Um eine gute Anpassung zu erreichen, muss das Modell anhand reservierter Daten, bei denen die tatsächlichen Werte der vorhergesagten Variable bekannt sind, getestet werden, die Daten dürfen jedoch nicht zum Trainieren des Modells verwendet worden sein. Dies ermöglicht es uns, unter Verwendung verschiedener Kennwerte die Performance des Modells an unbekannten Daten zu beurteilen. Die reservierten Daten, die diese tatsächlichen Werte enthalten, werden im Allgemeinen als Testdaten oder Validierungsdaten bezeichnet. In der Regel werden die Testdaten vom Training-Dataset getrennt und speziell für die Modellevaluierung reserviert. Das Werkzeug Daten für die Vorhersage vorbereiten erleichtert den Prozess der Teilung von Eingabe-Features in Trainings- und Testdaten, um das Modelltraining zu verbessern.

Eine Darstellung einer Teilung in Trainings- und Testdaten

Teilen der Daten

Das Teilen der Daten in Teilmengen aus Trainings- und Testdaten wird beim Trainieren und Testen von Vorhersagemodellen empfohlen.

Der Parameter Teilungstyp bietet zwei Optionen zum Teilen der Daten:

Zufällige Teilung: Hiermit wird nach dem Zufallsprinzip eine Testteilmenge ausgewählt, die dadurch räumlich über das gesamte Untersuchungsgebiet verteilt ist.
Räumliche Teilung: Hiermit wird eine räumliche Testteilmenge erstellt, die räumlich zusammenhängend und von der Trainingsteilmenge getrennt ist. Die räumliche Teilung wird generiert, indem nach dem Zufallsprinzip ein Feature ausgewählt wird und dessen K nächste Nachbarn identifiziert werden. Der Vorteil der Verwendung einer räumlichen Testteilmenge besteht darin, dass die Testdaten ein zukünftiges Vorhersage-Dataset emulieren, das sich nicht in demselben Untersuchungsgebiet befindet wie die Trainingsdaten.

Datenverlust

Es ist wichtig, beim Auswählen Ihrer Trainingsdaten wohl überlegt vorzugehen. Der Grund dafür ist möglicher Datenverlust. Zu Datenverlust kommt es, wenn die Trainingsdaten Informationen enthalten, auf die das Modell bei zukünftigen Vorhersagen nicht zugreifen kann. Dies kann zu einer signifikanten Überschätzung der Vorhersagefähigkeiten des Modells führen. Wenn Sie beispielsweise ein Modell trainieren, das die Verspätungen von Fluggesellschaften am Nachmittag verwendet, um die Verspätungen von Fluggesellschaften am Morgen desselben Tages vorherzusagen, müssten Sie, wenn Sie eine Vorhersage für einen neuen Tag treffen möchten, bis zum Nachmittag warten, um Vorhersagen für den Morgen zu treffen, aber bis dahin wären die Verspätungen bereits eingetreten.

Datenverlust kann aber auch subtiler sein. Zum Beispiel weisen benachbarte Zählbezirke wegen der räumlichen Autokorrelation wahrscheinlich bestimmte Ähnlichkeiten auf. Wenn ein Modell an einem bestimmten Zählbezirk trainiert und danach an dessen Nachbarn getestet wird, dann wird es wahrscheinlich recht gute Ergebnisse liefern. Beim Treffen von Vorhersagen für Zählbezirke in einem anderen Bundesstaat könnte dieses Modell jedoch bedeutend schlechter abschneiden. Der Grund dafür liegt darin, dass die Trainingsdaten Informationen aus einem bestimmten Gebiet enthalten, ähnliche Informationen aus dem anderen Bundesstaat aber im Vorhersage-Dataset fehlen. Um dem Datenverlust wegen räumlicher Nähe entgegenzuwirken, sollten Sie den Parameter Teilungstyp auf Räumliche Teilung festlegen. Sie können mit dem Werkzeug Daten für die Vorhersage vorbereiten eine räumliche Teilung in Trainings- und Testdaten vor dem Training erstellen oder mit dem Werkzeug Vorhersagen mit Kreuzvalidierung auswerten verschiedene räumliche Teilungen auswerten.

Arbeiten mit unausgeglichenen Daten

Mit unausgeglichenen Daten ist ein Dataset gemeint, bei dem die Verteilung verzerrt ist oder vom Normalen abweicht. Im Kontext der Klassifizierung liegen unausgeglichene Daten dann vor, wenn eine bestimmte Klasse (die Minderheitsklasse) wesentlich weniger Features enthält als andere Klassen (die Klassen, die nicht die Minderheitsklasse sind). Dieses Ungleichgewicht kann zu beim effektiven Trainieren von Modellen für maschinelles Lernen zu Herausforderungen führen. Wenn zum Beispiel bei einem Problem der binären Klassifizierung, bei dem wir vorhersagen, ob es zu einem Waldbrand kommen wird, 99 Prozent der Features auf keinen Waldbrand hinweisen (Mehrheitsklasse) und nur 1 Prozent auf einen Waldbrand hinweisen (Minderheitsklasse), dann sind die Daten unausgeglichen. Diese Herausforderung manifestiert sich in den Ergebnissen des Modells als geringe Empfindlichkeit gegenüber seltenen Kategorien, was bedeutet, dass das Modell Schwierigkeiten hat, viele Features, die mit ihnen verknüpft sind, korrekt zu identifizieren. Wenn Sie zum Beispiel vorhersagen möchten, in welchen Countys eine seltene Krankheit auftreten wird, oder Personen identifizieren möchten, die Betrug begehen, dann wird das präzise Erkennen dieser seltenen Kategorien entscheidend, da dies häufig die wichtigsten Fälle sind, um die sich schnell gekümmert werden muss. Wenn das Model nicht in der Lage ist, die Muster in allen Klassen effektiv zu erlernen, dann könnte dies zu einer mangelhaften Verallgemeinerung (Generalisierung) auf neue Daten und zu einem weniger effektiven Modell führen.

In räumlichem Kontext könnten unausgeglichene Daten das Ergebnis der Stichprobenverzerrung sein. Dies kann zu Trainingsgebieten führen, die klare räumliche Cluster enthalten, die die Grundgesamtheit nicht richtig darstellen. Beispielsweise konzentrieren sich Datenerfassungs-Surveys häufig auf Gebiete in der Nähe von Straßen, Wegen und anderen leicht zugänglichen Orten, was zu Ungenauigkeiten im Modell und verzerrten Schlussfolgerungen führen kann. Um diese Probleme zu vermeiden, bietet dieses Werkzeug mehrere Ausgleichsmethoden zum Resampling der Daten:

Ausgleichsmethoden

Der Parameter Ausgleichstyp ermöglicht das Ausgleichen der unausgeglichenen Werte des Parameters Vorherzusagende Variable oder das Verringern der räumlichen Verzerrung der Werte des Parameters Eingabe-Features.

Hinweis:

Wenn der Parameter Teilungstyp auf Zufällige Teilung oder auf Räumliche Teilung festgelegt ist, dann wird die Ausgleichsmethode nur auf die Ausgabe-Features in den Trainingsdaten angewendet. Mit diesem Ansatz wird sichergestellt, dass die Test-Features bei der Validierung unverändert in ihrer ursprünglichen Form vorliegen, was dabei hilft, Probleme mit Datenverlusten zu vermeiden.

Um Sie beim Vorbereiten der Trainingsdaten zu unterstützen, bietet der Parameter Ausgleichstyp die folgenden Optionen:

Undersampling nach Zufallsprinzip: Das Undersampling nach dem Zufallsprinzip ist eine Methode, bei der unausgeglichene Daten ausgeglichen werden, indem in den Klassen, die nicht die Minderheitsklasse sind, nach dem Zufallsprinzip einzelne Features entfernt werden, bis die Anzahl der Features in allen Klassen gleich ist.
Die Features in Blau befinden sich in der Minderheitsklasse, und die Features in Orange befinden sich in der Klasse, die nicht die Minderheitsklasse ist. Wenn das Undersampling nach dem Zufallsprinzip auf die Daten angewendet wird, dann werden nach dem Zufallsprinzip die Features in Orange entfernt, damit die Anzahl der Features in Orange mit der Anzahl der Features in Blau übereinstimmt.
Undersampling nach Tomek: Das Undersampling nach Tomek-Link ist eine Methode, bei der unausgeglichene Daten ausgeglichen werden, indem in den Klassen, die nicht die Minderheitsklasse sind, einzelne Features, die sich nah bei der Minderheitsklasse im Attributraum befinden, entfernt werden. Der Zweck dieser Option besteht darin, die Trennung zwischen Klassen zu verbessern und eine klare Entscheidungsgrenze für ein baumbasiertes Modell, wie zum Beispiel Forest-basierte und geboostete Klassifizierung und Regression, zu definieren. Bei dieser Option ist nicht garantiert, dass die Anzahl der Features in allen Klassen gleich ist.
Die Features in Blau befinden sich in der Minderheitsklasse, und die Features in Orange befinden sich in der Klasse, die nicht die Minderheitsklasse ist. Im Variablenraum wird jedes Paar aus Features, die sich in verschiedenen Klassen befinden und nächste Nachbarn voneinander sind, als Tomek-Link bezeichnet. Wenn das Undersampling nach Tomek auf die Daten angewendet wird, dann entfernt das Werkzeug das Feature in Orange, wenn zwischen ihm und einem Feature in Blau ein Tomek-Link besteht.
Räumliche Ausdünnung: Die räumliche Ausdünnung ist eine Methode zum Verringern der Auswirkungen der Stichprobenverzerrung im Modell, indem dafür gesorgt wird, dass über einen festgelegten Mindestabstand eine ausreichende räumliche Trennung zwischen Features eingehalten wird.
Wenn eine kategoriale Variable als vorherzusagende Variable ausgewählt wird, dann wird die räumliche Ausdünnung unabhängig voneinander auf jede Gruppe angewendet, um in jeder Kategorie eine ausgeglichene Darstellung zu gewährleisten. Andernfalls wird sie ungeachtet der Attributwerte auf das gesamte Training-Dataset angewendet.
Alle Features, die innerhalb eines bestimmten Pufferabstands liegen, werden entfernt.
Undersampling mit k-Medoiden: Das Undersampling mit k-Medoiden ist eine Methode, bei der unausgeglichene Daten ausgeglichen werden, indem in der Klasse, die nicht die Minderheitsklasse ist, so viele repräsentative Features übrig gelassen werden, dass die Anzahl der Features in allen Klassen gleich ist. Wenn das Undersampling mit k-Medoiden auf die Daten angewendet wird, dann lässt das Werkzeug nur K Features übrig, die im Variablenraum der Klasse, die nicht die Minderheitsklasse ist, Medoiden sind. Um sicherzustellen, dass in jedem Cluster zuvor ein zentrales repräsentatives Feature vorhanden ist, sollten Sie k-Medoiden anstelle eines anderen Algorithmus für die Cluster-Bildung verwenden.
Weitere Informationen zu k-Medoiden
Die Zahl K ist gleich 4 und entspricht damit der Anzahl der Features in der Minderheitsklasse. Die Cluster werden in jeder Klasse der abhängigen Variablen erstellt, wobei die Cluster-Bildung auf den erklärenden Variablen basiert. Die verbleibenden Features in der Klasse, die nicht die Minderheitsklasse ist, stammen vom Medoid jedes Clusters.
Oversampling nach Zufallsprinzip: Das Oversampling nach dem Zufallsprinzip ist eine Methode, bei der unausgeglichene Daten ausgeglichen werden, indem in den Minderheitsklassen nach dem Zufallsprinzip ausgewählte Features dupliziert werden, bis die Anzahl der Features in allen Klassen gleich ist.
Die Features in Blau befinden sich in der Minderheitsklasse, und die Features in Orange befinden sich in der Klasse, die nicht die Minderheitsklasse ist. Wenn das Oversampling nach dem Zufallsprinzip auf die Daten angewendet wird, dann werden durch das Werkzeug nach dem Zufallsprinzip die Features in Blau ausgewählt und dupliziert, damit die Anzahl der Features in Blau mit der Anzahl der Features in Orange übereinstimmt. Die Variablen und die Geographie eines duplizierten Feature sind mit den Variablen und der Geographie des ursprünglichen Features identisch.
SMOTE-Oversampling: Das SMOTE-Oversampling (Synthetic Minority Over-sampling Technique) ist eine Methode, bei der unausgeglichene Daten ausgeglichen werden, indem in der Minderheitsklasse synthetisch Features generiert werden, bis die Anzahl der Features in allen Klassen gleich ist. Zuerst wird ein Feature in einer Minderheitsklasse ausgewählt. Anschließend wird ein Near-Feature derselben Minderheitsklasse im Attributraum ausgewählt. Und schließlich werden neue Attribute als Interpolation zwischen diesen zwei Features generiert. Die Geometrie des neuen synthetischen Features stimmt mit der Geometrie des ursprünglich ausgewählten Features überein.
Die Features in Blau befinden sich in der Minderheitsklasse, und die Features in Orange befinden sich in der Klasse, die nicht die Minderheitsklasse ist. Wenn das SMOTE-Oversampling auf die Daten angewendet wird, dann werden durch das Werkzeug synthetisch Features generiert, indem die Werte zwischen zwei nach dem Zufallsprinzip ausgewählten Features in der Minderheitsklasse im Attributraum interpoliert werden. Die Geographie eines synthetischen Features stimmt mit der Geographie des ursprünglich ausgewählten Features überein, während die Variablen vom ausgewählten Feature ausgehend interpoliert werden.

Eine Karte und ein Diagramm zur Veranschaulichung, wie sich das Oversampling auf die Verteilung der Klassen auswirkt

Hier ist ein Beispiel für das Oversampling dargestellt. Eine Karte und ein Diagramm der Verteilung der Kategorien im Training-Dataset zeigen den Zustand vor dem Oversampling (oben) und nach dem Oversampling (unten).

Ausgaben

Das Werkzeug generiert Geoverarbeitungsmeldungen und zwei Ausgaben: Eine Ausgabe-Feature-Class und optional eine Feature-Class für Ausgabe-Testteilmengen-Features.

Geoverarbeitungsmeldungen

Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Sie haben im Geoverarbeitungsverlauf auch Zugriff auf die Meldungen für eine vorherige Ausführung dieses Werkzeugs. Diese Meldung enthält die Tabellen Diagnose des Bereichs der abhängigen Variablen und Diagnose des Bereichs der erklärenden Variablen.

Die Tabelle Diagnose des Bereichs der abhängigen Variablen enthält die vorherzusagende Variable, während die Tabelle Diagnose des Bereichs der erklärenden Variablen alle angegebenen erklärenden Variablen enthält. Bei kontinuierlichen Variablen fasst die Tabelle den Minimal- und Maximalwert im Feld zusammen. Wenn eine Variable kategorial ist, listet die Tabelle jede Kategorie und den Prozentsatz der Features mit dieser Kategorie auf. Wenn der Parameter Teilungstyp auf Zufällige Teilung oder auf Räumliche Teilung festgelegt ist, enthält die Tabelle auch für die Test-Teilmengen-Features dieselben Diagnosen.

Zusätzliche Ausgaben

Dieses Werkzeug generiert eine Ausgabe-Feature-Class und optional eine Feature-Class für Ausgabe-Testteilmengen-Features.

Ausgabe-Features

Die Ausgabe-Features können in den Werkzeugen Forest-basierte und geboostete Klassifizierung und Regression, Generalisierte lineare Regression und Auf Vorhandensein beschränkte Vorhersage und in anderen Modellen als Training-Features verwendet werden. Die Felder in dieser Feature-Class enthalten alle erklärenden Variablen, alle erklärenden Entfernungs-Features und die vorherzusagende Variable. Wenn der Parameter Alle Felder aus den Eingabe-Features anhängen aktiviert ist, enthalten die Ausgabe-Features alle Felder aus den Eingabe-Features. Wenn der Parameter Die kategorialen erklärenden Variablen werden codiert aktiviert ist, wird für jede Kategorie in der kategorialen erklärenden Variable ein Feld erstellt. Jedes Feature hat einen Wert von 0 oder 1. Die 1 bedeutet, dass das Feature zu dieser Kategorie gehört, 0, dass es zu einer anderen Kategorie gehört. Wenn der Parameter Teilungstyp auf Kein festgelegt ist, enthalten die Ausgabe-Features alle Features aus den Eingabe-Features.

Ausgabe-Testteilmengen-Features

Die Ausgabe-Testteilmengen-Features sind eine Teilmenge der Eingabe-Features, die als Test-Features verwendet werden kann. Sie können beispielsweise die Ausgabe-Testteilmengen-Features verwenden, um die Modellgnauigkeit im Werkzeug Mit Modelldatei für räumliche Statistiken vorhersagen zu bewerten.

Ein Prozentsatz der Eingabe-Features wird für die Ausgabe-Testteilmengen-Features reserviert. Geben Sie den Prozentsatz mit dem Parameter Prozentsatz der Daten als Testteilmenge an. Die Felder in dieser Feature-Class enthalten alle erklärenden Variablen, alle erklärenden Entfernungs-Features und die vorherzusagende Variable. Wenn der Parameter Die kategorialen erklärenden Variablen werden codiert aktiviert ist, wird für jede Kategorie ein Feld erstellt. Jedes Feature hat einen Wert von 0 oder 1. Die 1 bedeutet, dass das Feature zu dieser Kategorie gehört, 0, dass es zu einer anderen Kategorie gehört.

Diese Feature-Class wird nur erstellt, wenn der Parameter Teilungstyp auf Zufällige Teilung oder auf Räumliche Teilung festgelegt ist.

Empfehlungen

Folgende Methoden haben sich bei der Verwendung dieses Werkzeugs bewährt:

Wenn kategoriale Variablen als Vorherzusagende Variable oder als Wert des Parameters Erklärende Variablen verwendet werden, dann ist es wichtig sicherzustellen, dass jede Kategorieebene in den Trainingsdaten vorhanden ist. Dies ist wichtig, da die Modelle vor dem Vorhersagen mit neuen Daten jede mögliche Kategorie erkennen und aus ihr lernen müssen. Wenn in den erklärenden Variablen in den Test- oder Validierungsdaten eine Kategorie vorhanden ist, die in den Trainingsdaten nicht vorhanden war, dann wird das Modell versagen. Wenn das Werkzeug nicht alle Kategorieebenen im Training-Dataset abrufen kann, dann schlägt es nach 30 Iterationsversuchen fehl.
Nachdem die Daten ausgeglichen wurden, sollten sie nicht als Validierungsdaten oder Testdaten verwendet werden, da sie der Verteilung dieser Daten in der Realität nicht mehr entsprechen. Daten, auf die das Oversampling angewendet wurde, sollten nie als Validierungsdaten zum Testen der Modell-Performance verwendet werden. Daten, auf die das Undersampling angewendet wurde, können verwendet werden. Davon von aber abgeraten. Aus diesem Grund werden die Trainings- und Test-Datasets vor dem Ausgleichen geteilt und nur das Trainings-Dataset wird ausgeglichen.
Beim Codieren von kategorialen Variablen werden binäre Variablen (Nullen und Einsen) für jede Kategorie erstellt und den Attributtabellen der Trainings- und Test-Ausgabe-Features hinzugefügt. Für jede Kategorie bedeutet 1, dass das Feature zu dieser Kategorie gehört, und 0, dass es zu einer anderen Kategorie gehört. Wenn ein lineares Modell, wie zum Beispiel die generalisierte lineare Regression, verwendet wird, dann müssen Sie mindestens eine dieser binären Variablen in den erklärenden Variablen weglassen, um eine perfekte Multikollinearität zu vermeiden.
Nachdem ein endgültiges Modell ausgewählt wurde (zum Beispiel Modelltyp fertig, Parameter ausgewählt, Variablen ausgewählt), dann können Sie ein endgültiges Modell unter Verwendung des vollständigen Datasets erneut trainieren. Wenn Sie Ihre Daten ursprünglich in Trainings- und Testdaten geteilt haben, dann können Sie diese Datasets neu kombinieren oder das Werkzeug Daten für die Vorhersage vorbereiten noch einmal mit der Einstellung des Parameters Teilungstyp auf Keine Teilung ausführen und dann die Auswahl des endgültigen Modells ausführen. Durch die Datei mit dem endgültigen Modell aus diesen Modellausführungen oder die getroffenen Vorhersagen wird die volle Ausdehnung der verfügbaren Daten zum Trainieren verwendet. Dieser Analyseschritt ist nicht erforderlich, wird aber durch viele Analysten trotzdem ausgeführt.
Beim Extrahieren von Daten aus Rastern sollte der Wert, der in einen Punkt extrahiert wurde, nicht exakt der Zelle im zugrunde liegenden Raster entsprechen. Das liegt daran, dass wir beim Extrahieren numerischer Werte aus Rastern in Punkte die bilineare Interpolation anwenden.

Referenzen

Bei der Implementierung des Werkzeugs wurden folgende Ressourcen verwendet:

Chawla, N., K. Bowyer, L. Hall & W. P. Kegelmeyer. 2002. “SMOTE: Synthetic Minority Over-sampling Technique”. Journal of Artificial Intelligence Research. 16: 321-357. https://doi.org/10.1613/jair.953.
Tomek, I. 1976. “Two Modifications of CNN”. IEEE Transactions on Systems, Man, and Cybernetics. 11: 769 – 772. https://doi.org/10.1109/TSMC.1976.4309452.
Wei-Chao L., T. Chih-Fong, H. Ya-Han, and J. Jing-Shang. 2017 “Clustering-based undersampling in class-imbalanced data”. Information Sciences. 409: 17-26. https://doi.org/10.1016/j.ins.2017.05.008.