Das Werkzeug Fehlende Werte ausfüllen ersetzt fehlende Werte (NULL-Werte) mit geschätzten Werten, um die Auswirkungen von NULL-Werten auf Folgeanalysen zu minimieren. Es gibt viele Gründe, warum Daten fehlen können. Dies kann zum Beispiel der Fall sein, weil ein Sensor vorübergehend ungültig ist, eine Messstelle nicht aufrufbar ist oder die Datenwerte absichtlich unterdrückt werden, um die Vertraulichkeit zu wahren. Wenn ein oder mehrere Werte für ein Feature fehlen, dann werden die meisten statistischen Verfahren standardmäßig das Feature aus der Analyse entfernen. Das Entfernen von Features auf diese Art kann der Grund für ein Ungleichgewicht sein oder kann die Richtigkeit der Ergebnisse beeinflussen, da die Analyse mit einem unvollständigen Dataset ausgeführt wurde. Anstatt wichtige Daten zu entfernen, die sich auf Ihre Analysen auswirken oder zu Lücken auf Ihrer Karte führen können, können die fehlenden Datenwerte mithilfe anderer Informationen aus dem Dataset oder anderen Datasets (z. B. ein Dataset oder größere Aggregationseinheiten) "ausgefüllt" werden. Für räumliche Daten können Sie Werte von benachbarten Features im Raum verwenden, um die fehlenden Werte zu schätzen. Für raumzeitliche Daten können Sie zeitliche Nachbarn verwenden, um die fehlenden Werte auszufüllen. Für nichträumliche Daten können Sie globale Statistiken des Feldes, in dem Werte fehlen, verwenden, um die fehlenden Werte auszufüllen. Das Schätzen und Ausfüllen von fehlenden Werten schützt alle bereits vorhandenen Werte und ersetzt die NULL-Werte basierend auf der gewählten Methode. Nachdem die fehlenden Werte ausgefüllt wurden, kann das Dataset als vollständiges Dataset analysiert werden.
Nehmen Sie zum Beispiel ein Dataset von den USA, bei dem allen 50 Staaten mehrere 100 Jahre umfassende Daten zu relativem Pro-Kopf-Einkommen zugeordnet wurden, wobei in Kalifornien ein Jahr an Daten (ein NULL-Wert) fehlt. Wenn Sie jetzt versuchen würden, einen Raum-Zeit-Würfel zu erstellen, dann würden alle Daten aus Kalifornien von der Analyse entfernt werden, und das nur weil ein einziger NULL-Wert im Dataset vorhanden ist. Alle anderen 99 Werte für Kalifornien würden nicht in der Analyse berücksichtigt werden, da die Zeitserie immer vollständig sein muss. Das Werkzeug Fehlende Werte ausfüllen trägt dazu bei, dass Sie den NULL-Wert mit einer guten Näherung zum fehlenden Wert ausfüllen können, und stellt sicher, dass Kalifornien bei Folgeanalysen berücksichtigt wird.
Interpretieren der Ergebnisse
Das Werkzeug wird ein neues Feld ausgeben, das ein vollständiges Set aus vorhandenen und unterstellten Werten sowie ein Feld, das angibt, welche Werte geschätzt wurden, umfasst. Das Werkzeug gibt außerdem Meldungen aus, die Informationen über den Prozentsatz der gesamten Datensätze, für die Werte unterstellt wurden, über die Verteilung der Daten vor und nach dem Ausfüllen der fehlenden Werte sowie über die Gesamtzahl und den Gesamtprozentsatz der ausgefüllten Werte bereitstellen.
Empfehlungen
Bei der Entscheidung, ob dieses Werkzeug für Ihre Daten geeignet ist und welche Parameter ausgewählt werden sollten, sind einige Punkte zu beachten.
- Stellen Sie sicher, dass Sie wissen, welche Werte fehlen. Der Platzhalter, der einen fehlenden Datenwert angibt, kann je nach Dataset variieren. In einer Geodatabase-Feature-Class werden fehlende Werte als <NULL> gespeichert und sind deshalb deutlich erkennbar. Shapefiles können jedoch keine NULL-Werte speichern. Werkzeuge oder andere Verfahren zur Erstellung von Shapefiles speichern oder interpretieren NULL-Werte möglicherweise als Wert 0. In manchen Fällen werden NULL-Werte in einer Shapefile auch als sehr große positive oder negative Zahl angegeben. Ein Tipp, um mehr über die fehlenden Datenwerte zu erfahren, ist, die Werte in dem jeweiligen Feld absteigend und anschließend aufsteigend zu sortieren. Werden NULL-Werte, Werte mit der Zahl 0 oder sehr große oder kleine Werte angezeigt, kann dies einen Hinweis darauf geben, welcher Platzhalter verwendet wurde, um einen fehlenden Wert anzugeben. Die Metadaten geben manchmal die Platzhalter für fehlende Daten an.
- Finden Sie heraus, wie viele Werte fehlen. Sie sollten nicht zu viele Werte ausfüllen. Es gibt zwar keine absolute Höchstzahl dafür, wie viele fehlende Werte Sie ausfüllen sollten, aber als gängige Richtlinie gilt maximal 5 Prozent der Werte im Dataset.
- Finden Sie heraus, wo sich die fehlenden Werte befinden. Ordnen Sie dem Attribut fehlende Daten zu und untersuchen Sie die räumlichen Muster. Finden Sie heraus, ob die fehlenden Daten geclustert sind oder sich am Rand oder im Kern Ihres Untersuchungsgebiets befinden. Prüfen Sie außerdem, ob die fehlenden Werte in Bereichen mit größtenteils hohen oder niedrigen Werten auftauchen. Jede dieser Situationen deutet auf ein Muster bei den Positionen oder Werten fehlender Daten hin; dies ist ein Hinweis darauf, dass keine Daten willkürlich fehlen. Das Ausfüllen fehlender Daten funktioniert am besten bei willkürlich fehlenden Daten.
- Prüfen Sie die Zahl und Prozentangabe der ausgefüllten Werte, um herauszufinden, ob noch Werte fehlen. Wenn ja, ändern Sie die zum Ausfüllen der Werte verwendete Methode, ändern Sie beispielsweise die Anzahl der Nachbarn oder die Größe der Nachbarschaft. Achten Sie darauf, dass Sie beim Ausfüllen fehlender Werte keine bereits ausgefüllten Werte verwenden. Diese Vorgehensweise wird nicht empfohlen, da Sie dadurch im Grunde Werte auf Grundlage von Schätzungen schätzen.
- Untersuchen Sie die Verteilung der Daten vor und nach dem Ausfüllen fehlender Werte, indem Sie die beschreibenden Statistiken vergleichen, z. B. den Mittelwert und die Standardabweichung, und das Histogramm untersuchen, um Verzerrungen und ein Ansteigen oder Abflachen der Kurve festzustellen. Die ideale Lösung ergibt Verteilungen von ähnlicher Form.
- Prüfen Sie, ob die zum Ausfüllen der Werte verwendete Methode lokal oder regional anwendbar ist. Unter Umständen stellen Sie fest, dass die Methode, die Sie zum Ausfüllen der Werte verwendet haben, in bestimmten Bereichen besser funktioniert als in anderen. Wenn Sie zum Beispiel mit dem Durchschnitt aus benachbarten Werten ausfüllen und der Bereich der Standardabweichung groß ist, sollten Sie die verwendete Methode variieren und beispielsweise einen anderen Nachbarschaftstyp oder eine andere Füllmethode wählen. Im Idealfall wäre die Standardabweichung bei allen ausgefüllten Werten in etwa gleich, was darauf hindeutet, dass sie alle in ähnlichem Maße von den zum Ausfüllen der Werte verwendeten Nachbarn abweichen.
- Denken Sie darüber nach, wie die Daten verwendet werden, sobald die Werte ausgefüllt wurden. Wenn die Daten einfach zugeordnet werden, um eine optisch ansprechende Visualisierung ohne Löcher zu schaffen, können kleinere Variationen bei den ausgefüllten Werten durch die Zuordnungsmethode maskiert werden. Zum Beispiel werden bei der Choropleth-Zuordnung Daten gewöhnlich in mehrere Klassen eingeteilt, damit Abweichungen innerhalb der Klassen nicht sofort sichtbar sind. Wenn die Daten zum Generieren offizieller Statistiken verwendet werden, müssen die Folgen des Ausfüllens fehlender Werte sorgfältig untersucht und klar verstanden werden.
- Teilen Sie Ihrer Zielgruppe mit, dass Sie fehlende Werte ausgefüllt haben. Wenn Sie einen Bericht schreiben, beschreiben Sie die Methode, die Sie zum Ausfüllen der fehlenden Werte verwendet haben, und geben Sie an, welche Vermutungen Sie bei Ihrer Wahl der Methode zum Ausfüllen der Werte angestellt haben (zum Beispiel um sicherzustellen, dass die ausgefüllten Werte nicht höher oder niedriger geschätzt wurden). Ziehen Sie beim Erstellen einer Karte in Erwägung, die Features, für die Werte ausgefüllt wurden, beispielsweise auf einer separaten Karte zu identifizieren. Kartographen haben auch Polygon-Features mithilfe von schraffierten oder gestrichelten Mustern bzw. eines eindeutigen Feature-Umrisses identifiziert. Seien Sie vorsichtig, wenn Sie diese Methoden verwenden, da sie die Polygonfüllung verwischen oder die Art, wie die Farbe der Füllung angezeigt wird, ändern können.
- Bei Verwendung der Füllmethode "Zeitlicher Trend" muss die Position mit auszufüllenden NULL-Werten mindestens zwei Zeiträume mit Werten am Anfang und mindestens zwei Zeiträume mit Werten am Ende der Zeitserie aufweisen, um ausgefüllt zu werden. Die Verwendung der Werte der ersten und letzten zwei Zeiträume reicht jedoch nicht immer aus. Wenn in den Zeitserien sehr viele aufeinanderfolgende Werte fehlen, dann sind die interpolierten Werte für weitere Analysen, zum Beispiel mit den Werkzeugen im Toolset Zeitserienvorhersage, möglicherweise nicht zuverlässig.
Auswählen einer Füllmethode
Beim Ausfüllen von fehlenden Werten müssen Sie eine Füllmethode auswählen. Zum Beispiel ob der Durchschnitts-, Minimal-, Maximal- oder Medianwert der benachbarten Werte verwendet werden soll. Wenn Sie die ausgefüllten Werte niedriger schätzen möchten, dann verwenden Sie den Minimalwert. Zum Beispiel wenn Sie die Anzahl der Studenten ausfüllen möchten, die kostenloses Mittagessen erhalten. Auf ähnliche Art und Weise verwenden Sie den Maximalwert, wenn Sie die fehlenden Werte nicht niedriger schätzen, beispielsweise beim Ausfüllen der Anzahl der Personen, die über höhere Bildungsabschlüsse verfügen. Verwenden Sie den Medianwert, wenn Sie lokal höhere oder niedrigere Ausreißerwerte erwarten, wie zum Beispiel bei Wohnwerten. Nutzen Sie den Durchschnittswert, wenn die Werte ihren Nachbarn ähnlich sind.
Außerdem müssen Sie entscheiden, wie der Satz der Nachbarn, der für die Berechnung der fehlenden Werte verwendet wird, festgelegt wird. Nachbarn können basierend auf einer Vielzahl von räumlichen Beziehungen, wie z. B. eine feste Anzahl an Nachbarn, basierend auf allen Nachbarn innerhalb einer festen Entfernung oder basierend auf Nachbarn, die zusammenhängend sind (teilen sich z. B. eine Grenze oder berühren sich an den Ecken) definiert werden.
Welche Füllmethode und welche Nachbarn zu verwenden sind, hängt davon ab, wie die ausgefüllten Daten letztendlich verwendet werden. Der Kartograph möchte möglicherweise Polygone, die fehlende Daten enthalten, ausfüllen, um eine optisch ansprechende Karte ohne Löcher zu erstellen. In diesem Fall wäre die Berechnung des Durchschnitts vieler räumlicher Nachbarn effektiv. Ein Immobilienanalyst, der fehlende Daten für den Wert eines Hauses ausfüllt, greift auf Nachbarn innerhalb einer festen Entfernung zurück und berechnet ihren Medianwert, um den Einfluss von Ausreißern zu vermeiden.
Bei der Auswahl der Kombination von Nachbarschaftstyp und Füllmethode sollten Sie darüber nachdenken, welche Umgebungs-Features die Features mit fehlenden Werten legitim beeinflussen und welche Füllmethode die Ergebnisse der Analyse am wenigsten verzerren. Stellen Sie sich beispielsweise einen lokalen Analysten der öffentlichen Gesundheit vor, der über Daten zu Bleivergiftung bei Kindern auf Census Block Group-Ebene verfügt, wobei einige der Block Groups fehlende Daten enthalten. Der Analyst greift u. U. auf benachbarte Block Groups zurück, die eine Grenze mit der Block Group mit den fehlenden Daten teilen und verwendet den Maximalwert der umliegenden Werte, um die fehlenden Daten auszufüllen. Auch die Verwendung von zusammenhängenden Block Groups kann gerechtfertigt werden, da sie wahrscheinlich Häuser des gleichen Baujahrs enthalten, und das Alter von Häusern ein bekannter Risikofaktor für Bleiexposition ist. Obwohl der Maximalwert der umliegenden Block Groups für das Ausfüllen der fehlenden Werte den wahren Wert der Bleivergiftung zu hoch einschätzen kann – in diesem Beispiel hinsichtlich der Gesundheit von Kindern –, ist es in diesem Fall besser, den Risikowert zu hoch als zu niedrig einzuschätzen.
Zusätzliche Quellen
Auf der Seite Spatial Statistics Resources finden Sie verschiedene Ressourcen, die Ihnen bei der Verwendung der Werkzeuge in den Toolboxes "Spatial Statistics" und "Space Time Pattern Mining" helfen, darunter:
- Praxisorientierte Lernprogramme
- Workshop-Videos und Präsentationen
- Schulungen und Webseminare
- Links zu Büchern, Artikeln und technischen Dokumentationen
- Beispielskripte und Case Studys