Was ist die Flächeninterpolation?

Mit der Geostatistical Analyst-Lizenz verfügbar.

In der GIS-Literatur wird unter Flächeninterpolation meist die Neuaggregation von Daten aus einem Satz von Polygonen (den Quellpolygonen) in einen anderen Satz von Polygonen (den Zielpolygonen) verstanden. So müssen Demografen häufig die Verwaltungseinheiten ihrer Daten herunter- oder hochskalieren. Wurde die Bevölkerung auf Landkreis-/County-Ebene gezählt, müssen die Demografen die Daten möglicherweise herunterskalieren, um die Bevölkerung der Zählblöcke vorherzusagen. Im Falle einer groß angelegten Neueinteilung der Wahlbezirke können auch Bevölkerungsprognosen für einen ganz neuen Satz an Polygonen erforderlich werden.

Die Flächeninterpolation in der ArcGIS-Erweiterung Geostatistical Analyst ist eine geostatistische Interpolationstechnik, bei der die Kriging-Theorie auf über Polygone gemittelte oder aggregierte Daten ausgedehnt wird. Vorhersagen und Standardfehler können für alle Punkte innerhalb und zwischen den Eingabe-Polygonen erstellt werden, und die Vorhersagen (zusammen mit den Standardfehlern) können dann wieder in einen neuen Satz von Polygonen neu aggregiert werden.

Andere Kriging-Methoden in Geostatistical Analyst erfordern Punktdaten, die kontinuierlich und gaußförmig sind, aber die Flächeninterpolation ermöglicht es, dass polygonale Daten diskret gezählt werden. Ein zweiter Satz von Polygonen kann ebenfalls als CoKriging-Variable verwendet werden. Diese sekundären Polygone können eine identische Geometrie wie die Polygone der primären Variable aufweisen oder völlig unterschiedlich sein.

Hinweis:

Andere Interpolationsmethoden in Geostatistical Analyst akzeptieren polygonale Eingaben, verknüpfen aber den Wert des Polygons mit seinem Schwerpunkt und behandeln ihn wie einen Punkt. In diesem Fall werden die Größen der Polygone nicht berücksichtigt, und die Methoden sind für Zählungsdaten ungeeignet.

Workflow zur Daten-Neuaggregation von Polygon in Polygon

Die Neuaggregation von Polygondaten (z. B. die Herunterskalierung von Bevölkerungszahlen) ist ein zweistufiger Prozess. Zunächst wird aus den Quellpolygonen eine geglättete vorhergesagte Oberfläche für einzelne Punkte erstellt (diese Fläche kann oft als Dichte- oder Risikooberfläche interpretiert werden), und anschließend wird die vorhergesagte Oberfläche wieder in die Zielpolygone aggregiert. Die Erstellung der vorhergesagten Oberfläche erfordert eine interaktive Variografie und muss daher mit dem Geostatistical Wizard erfolgen. Die Ausgabe des Geostatistical Wizard ist ein geostatistischer Layer mit Vorhersagen oder Standardfehlern der Vorhersage. Wenn eine Neuaggregation in neue Polygone nicht erforderlich ist, kann der Workflow hier beendet werden.

Sobald eine vorhergesagte Oberfläche erstellt wurde, kann die Aggregation mit dem Geoverarbeitungswerkzeug Flächeninterpolations-Layer in Polygone in einen anderen Satz von Polygonen durchgeführt werden. Die nachstehende Grafik zeigt den Workflow für die Vorhersage der Adipositasraten in den Zählblöcken von Los Angeles anhand der Adipositasraten in den Schulbezirken von Los Angeles.

Polygon-in-Polygon-Neuaggregation
Polygon-in-Polygon-Neuaggregation

Die mathematischen Details der Disaggregation und Neuaggregation finden sich in dem Dokument, auf das am Ende dieses Themas verwiesen wird.

Welche Datentypen können in einer Flächeninterpolation verwendet werden?

Bei der Flächeninterpolation werden drei verschiedene polygonale Dataset-Typen als Eingabe akzeptiert. Alle drei können vorhergesagte Oberflächen und Standardfehleroberflächen erzeugen, die dann neu in Zielpolygone aggregiert werden können. Die Interpretationen der vorhergesagten Oberflächen und der neu aggregierten Vorhersagen sind für jeden Datentyp unterschiedlich, wie unten beschrieben.

Durchschnittliche (Gauß'sche) Daten

Zum Schutz der Privatsphäre oder zur Verringerung des Aufwands werden kontinuierliche Punktmessungen manchmal über Flächenregionen gemittelt, und die ursprünglichen Punktdaten werden verworfen oder geheim gehalten. So können beispielsweise die durchschnittlichen Verschmutzungswerte für Countys/Landkreise gemeldet werden, aber die einzelnen Punktmessungen geheim gehalten werden. Wenn nicht bekannt ist, wo die Verschmutzung gemessen wurde, sind andere Kriging-Methoden nicht geeignet.

Die flächenhafte Interpolation für kontinuierliche Daten setzt voraus, dass die Daten gaußförmig sind und über definierte Polygone gemittelt werden. Ausgehend von den Polygonen und den durchschnittlichen Messwerten wird eine vorhergesagte Oberfläche (oder Standardfehleroberfläche) für den Wert der Gauß'schen Variablen an allen Punkten der Datendomäne erstellt.

Die Eingabeparameter lauten wie folgt:

  • Eingabe-Dataset: Geben Sie die Polygon-Features an.
  • Wertefeld: Geben Sie den Durchschnittswert für jedes Polygon des Quellen-Datasets an.

Bei der Gauß'schen Flächeninterpolation mit dem Geoverarbeitungswerkzeug Flächeninterpolations-Layer in Polygone wird der Durchschnittswert der Gauß'schen Variablen (mit Standardfehlern der Vorhersage) für die Zielpolygone vorhergesagt. Wird beispielsweise die Durchschnittstemperatur aller Landkreise/Countys einer Region für einen bestimmten Tag ermittelt, kann die Durchschnittstemperatur für die Städte innerhalb der Landkreise/Countys vorhergesagt werden.

Zählung nach "Verhältnis (Binomial-Modell)"

Eine typische Quelle für polygonale Daten ist eine Zufallsstichprobe aus der Grundgesamtheit eines Polygons, bei der die Anzahl der Individuen mit einem bestimmten Merkmal gezählt wird (dies wird als Binomialstichprobe bezeichnet). Der zu ermittelnde Wert ist der Anteil der Individuen in der Stichprobe, die das Merkmal aufweisen.

Ausgehend von der Anzahl der beprobten Individuen und der Anzahl der Individuen mit dem Merkmal für jedes Polygon ergibt die Flächeninterpolation von Binomialzählungen eine Risikovorhersageoberfläche (oder Standardfehleroberfläche) für alle Punkte in der Datendomäne. Das Risiko an den einzelnen Punkten gibt die Wahrscheinlichkeit wieder, dass ein an diesem Ort beprobtes Individuum das Merkmal aufweist.

Ein Unternehmen möchte zum Beispiel wissen, ob seine Kunden mit den Dienstleistungen des Unternehmens zufrieden sind. In diesem Fall besteht das relevante Merkmal darin, ob ein Kunde mit der Dienstleistung zufrieden ist. Die genauen Orte der in die Stichprobe einbezogenen Kunden sind möglicherweise nicht bekannt, das Unternehmen kennt möglicherweise nur die Region (z. B. Stadt oder Postleitzahl). Die Flächeninterpolation für binomiale Zählungen ergibt eine Karte, die die Orte mit hoher und niedriger Zufriedenheit für das Unternehmen zeigt. Das Unternehmen kann dann weitere Nachforschungen anstellen, um herauszufinden, warum Kunden an bestimmten Orten mit seinem Service zufriedener sind als Kunden an anderen Orten.

Um genaue Vorhersagen treffen zu können, müssen die Proben nach dem Zufallsprinzip genommen werden. Jedes Mitglied der Grundgesamtheit eines Polygons muss die gleiche Wahrscheinlichkeit aufweisen, für die Stichprobe ausgewählt zu werden. Wenn bestimmte Individuen bevorzugt würden, wären die Vorhersagen verzerrt.

Die Eingabeparameter lauten wie folgt:

  • Eingabe-Dataset: Geben Sie die Polygon-Features an.
  • Zählfeld: Füllen Sie das Feld mit der Anzahl der Individuen mit einem bestimmten Merkmal für jedes Polygon aus.
  • Feld mit Grundgesamtheit: Füllen Sie das Feld mit der Anzahl der Individuen aus, die für jedes Polygon beprobt wurden.

Bei der binomialen Flächeninterpolation mit dem Geoverarbeitungswerkzeug Flächeninterpolations-Layer in Polygone wird der Anteil der Individuen mit dem Merkmal für jedes angegebene Polygon vorhergesagt. Wenn zum Beispiel die Anzahl der Lungenkrebsfälle für jeden Landkreis/jedes County einer Region bekannt ist (sowie die dort gefährdete Bevölkerung), kann der Anteil der an Lungenkrebs erkrankten Personen für die Postleitzahlen innerhalb der Landkreise/Countys vorhergesagt werden. Um eine Schätzung der Anzahl der Lungenkrebsfälle für jede Postleitzahl zu erhalten, wird der vorhergesagte Anteil der Lungenkrebsfälle mit der Bevölkerung jeder Postleitzahl multipliziert. Werden die Standardfehler mit der Bevölkerung jeder Postleitzahl multipliziert, so ergibt dies den Standardfehler für die vorhergesagte Anzahl der Lungenkrebsfälle für jede Postleitzahl.

Zählung nach "Ereignis (Überdispersion bei Poisson-Modell)"

Eine weitere häufige Quelle für polygonale Daten ist die Zählung der Häufigkeit eines bestimmten Ereignisses in einem bestimmten Gebiet während eines bestimmten Zeitraums. So sammeln beispielsweise Walbeobachter ihre Daten, indem sie in bestimmten Ozeangebieten unterwegs sind und die Anzahl der Wale zählen, die sie dort sehen. In diesem Fall wäre das Ereignis die Sichtung eines Wals. Da davon ausgegangen wird, dass sich die Anzahl der beobachteten Wale proportional zur Beobachtungszeit der Walbeobachter verhält, muss die Zeit, die sie mit dem Zählen verbracht haben, nachgehalten werden. Bei jeder Expedition kennen die Walbeobachter das Beobachtungspolygon (das Gebiet, in dem sie beobachtet haben), die Anzahl der beobachteten Ereignisse (Anzahl der gesichteten Wale) und die Zeit, die sie mit der Beobachtung verbracht haben.

Die Flächeninterpolation von Ereigniszählungen ergibt eine Oberfläche, die das zugrunde liegende Risiko vorhersagt, dass an einem bestimmten Ort ein Ereignis auftritt. Ein höheres Risiko bedeutet, dass die Wahrscheinlichkeit größer ist, dass an diesem Ort ein Ereignis auftritt. Handelt es sich bei dem Ereignis um das Finden eines physischen Objekts (z. B. eines Wals), kann die vorhergesagte Oberfläche als Dichtekarte interpretiert werden.

Bei den meisten Anwendungsbeispielen ist die Beobachtungszeit für jedes Polygon gleich lang. So werden beispielsweise Kriminalitätsstatistiken häufig in Form von Zählungen für ein Jahr pro Polygon erstellt. Da eine konstante Beobachtungszeit üblich ist, geht die Software, wenn keine Beobachtungszeit angegeben wird, davon aus, dass die Zählungen für jedes Polygon mit der gleichen Zeiteinheit durchgeführt werden. Im Falle einer vollständigen Volkszählung (bei der jedes Ereignis beobachtet wird, wie z. B. eine Gesamtzählung der Bevölkerung) sollte davon ausgegangen werden, dass die Beobachtungszeit für jedes Polygon dieselbe ist.

Bei der Beobachtung ist es nicht notwendig, jedes einzelne Ereignis zu beobachten. Es ist lediglich erforderlich, dass die Anzahl der pro Zeiteinheit beobachteten Ereignisse proportional zur zugrunde liegenden Dichte der beobachteten Ereignisse ist. In der Praxis bedeutet dies, dass die Beobachtungsmethode für jedes Polygon in etwa gleich sein muss. Wenn zum Beispiel ein Walbeobachter einer Expedition besser in der Lage ist, Wale zu entdecken, als ein Walbeobachter einer anderen Expedition, werden die Vorhersagen verzerrt sein.

Die Eingabeparameter lauten wie folgt:

  • Eingabe-Dataset: Geben Sie die Polygon-Features an.
  • Zählfeld: Füllen Sie das Feld mit der Anzahl der Ereignisse aus, die für jedes Polygon beobachtet wurden.
  • Zeitfeld: Geben Sie optional die Zeit an, die für die Zählung pro Polygon benötigt wird. Wenn das Feld leer gelassen wird, geht die Software davon aus, dass alle Zählungen in der gleichen Zeiteinheit durchgeführt wurden.

Bei der Flächeninterpolation "Überdispersion bei Poisson-Modell" wird mit dem Geoverarbeitungswerkzeug Flächeninterpolations-Layer in Polygone die Anzahl pro Zeiteinheit für jedes angegebene Polygon vorhergesagt. Wenn die Walbeobachter beispielsweise ihre Beobachtungszeiten in Form von Stunden aufgezeichnet haben, wird die Vorhersage für ein neues Polygon als die erwartete Anzahl von Walen interpretiert, die in diesem Polygon in einer Stunde beobachtet werden. Bei Volkszählungsdaten ist die Interpretation ganz einfach die prognostizierte Bevölkerung des Polygons zum Zeitpunkt der Volkszählung.

Erstellen eines gültigen Modells

Wie bei allen geostatistischen Interpolationsmethoden hängt die Genauigkeit Ihrer Vorhersagen bei der Flächeninterpolation von der Genauigkeit Ihres Modells ab. Daher sollte besondere Mühe darauf verwandt werden, mit dem Geostatistical Wizard ein gültiges Modell zu erstellen.

Da die Flächeninterpolation in Geostatistical Analyst mit Hilfe eines Kriging-Verfahrens durchgeführt wird, ist die interaktive Variografie ein wesentlicher Schritt beim Erstellen des Modells. Es ist oft schwierig, die Qualität einer Kovarianzkurve visuell zu beurteilen, daher werden für jede empirische Kovarianz (blaue Kreuze) Konfidenzintervalle (die roten vertikalen Linien in der Grafik unten) angegeben. Wenn das Kovarianzmodell richtig spezifiziert ist, ist zu erwarten, dass 90 % der empirischen Kovarianzen im Bereich der Konfidenzintervalle liegen. In der nachstehenden Grafik liegen 11 der 12 empirischen Kovarianzen im Bereich der Konfidenzintervalle, und 1 Punkt liegt etwas außerhalb des Konfidenzintervalls. Dies zeigt, dass das Modell mit den Daten übereinstimmt und die Ergebnisse vertrauenswürdig sind.

Erstellen eines gültigen Modells
Erstellen eines gültigen Modells

Die Standard-Kovarianzkurve passt oft nicht gut zu den Daten. In diesem Fall müssen die Variografie-Parameter geändert werden. Die Anpassung einer korrekten Kovarianzkurve ist oft schwierig, und der beste Weg zu einer Verbesserung ist im Prinzip das Üben, aber im Folgenden nennen wir einige Faustregeln, die Ihnen zu einem guten Modell verhelfen können:

  • Verringern Sie den Wert für Größe der Entfernungsstufen, bis die empirischen Kovarianzen nicht mehr negativ sind.
  • Wenn das Modell immer noch nicht passt, experimentieren Sie mit dem Parameter Modell. K-Bessel und Stabil sind die funktionalsten Modelle, aber sie benötigen auch die längste Bearbeitungszeit.
  • Wenn Sie eine Kombination aus Größe der Entfernungsstufen and Modell finden, die fast passt, können Sie den Wert Linienrasterabstand reduzieren. Beachten Sie jedoch, dass eine Verkleinerung des Linienrasterabstands die Bearbeitungszeit schnell erhöht. Der Parameter "Linienrasterabstand" wird unter "Neue Parameter für die Flächeninterpolation" weiter unten beschrieben.

Wie in der Grafik unten zu sehen: Wenn Funktionstyp in Semivariogramm geändert wird, verläuft die Semivariogramm-Kurve für Punkte (die blaue Linie in der unten stehenden Grafik) möglicherweise nicht durch die Konfidenzintervalle. Das ist kein Problem, und die Kriterien für ein gutes Modell ändern sich nicht: Wenn ein großer Prozentsatz der empirischen Semivarianzen im Bereich der Konfidenzintervalle liegt, können Sie auf die Genauigkeit Ihres Modells vertrauen.

Erstellen eines gültigen Modells
Erstellen eines gültigen Modells

Neue Parameter für die Flächeninterpolation

Im Geostatistical Wizard finden Sie die folgenden drei Parameter, die nicht in anderen Kriging-Methoden vorkommen:

  • Linienrasterabstand: Um Punktvarianzen zu schätzen, wird über jedes Polygon ein quadratisches Linienraster gelegt, und ein Punkt wird jedem Schnittpunkt im Linienraster zugewiesen. Der Parameter für den Linienrasterabstand gibt die horizontale und vertikale Entfernung zwischen den einzelnen Punkten an. Wenn der Linienrasterabstand so groß ist, dass ein Polygon keinen Punkt erhält, wird ein Punkt an seinen Schwerpunkt gesetzt. Ein kleinerer Linienrasterabstand macht Vorhersagen genauer, verlängert aber auch die Verarbeitungszeit. Wird der Linienrasterabstand beispielsweise halbiert, dauert die Verarbeitung viermal länger.
  • Konfidenzniveau: Gibt das Konfidenzniveau für die Konfidenzintervalle der Semivariogramm-/Kovarianzkurven an. Wenn das Modell richtig ist, gibt dieser Wert den Prozentsatz der empirischen Kovarianzen/Semivarianzen an, die im Bereich der Konfidenzintervalle liegen sollten. Beachten Sie, dass die Linie des Punkt-Semivariogramms sich nicht unbedingt im Bereich der Konfidenzintervalle befindet. Dieser Parameter dient nur zu Diagnosezwecken. Der Wert hat keinen Einfluss auf die Vorhersagen.
  • Überdispersionsparameter: Nur anwendbar für Zählungsdaten aus "Ereignis (Überdispersion bei Poisson-Modell)". Bei Poisson-Zählungsdaten wird häufig eine Überdispersion beobachtet (größere Variabilität als nach dem Poisson-Modell erwartet). Dies kann mit dem Überdispersionsparameter korrigiert werden. Der Parameter entspricht dem Kehrwert des Dispersionsparameters der negativen Binomialverteilung.

Alle anderen Parameter haben die gleiche Bedeutung wie bei anderen Kriging-Methoden.

Einschränkungen

Wie bei allen Kriging-Methoden gibt es auch bei der Flächeninterpolation einige Einschränkungen, die verhindern können, dass Sie ein gültiges Modell für Ihre Daten finden.

Nichtstationarität

Eine der strengsten Kriging-Annahmen ist die Annahme der Stationarität der Daten. Stationarität ist die Annahme, dass die statistische Beziehung zwischen zwei Polygondatenwerten nur vom Abstand zwischen den Polygonen abhängt. Zum Beispiel ist die Bevölkerungszahl in Städten oft konzentriert, während in den Gebieten zwischen den Städten nur wenige Menschen leben. Dies ist bei der Flächeninterpolation problematisch, da sich die Bevölkerungsdichte bei Stationarität gleichmäßig über die Landschaft hinweg verändern sollte: Extrem hohe Bevölkerungsdichten sollten nicht direkt neben extrem niedrigen Bevölkerungsdichten zu sehen sein. Bei nicht stationären Daten wie diesen ist die Anpassung eines gültigen Flächeninterpolationsmodells sehr schwierig, wenn nicht unmöglich.

Polygone mit sehr unterschiedlichen Größen

Wenn einige Ihrer Polygone im Vergleich zu den größten Polygonen sehr kleine Flächen haben, kann die Software diese Polygone möglicherweise nicht unterscheiden und behandelt sie als lagegleiche Polygone. Dies kann passieren, weil der Linienrasterabstand die Polygone diskretisiert, und mehr als ein Polygon kann als ein Punkt im Linienraster dargestellt werden. Dies führt zu einem Fehler, da die Flächeninterpolation keine lagegleichen Polygone unterstützt. Gehen Sie folgendermaßen vor, um diesen Fehler zu beheben:

  1. Verwenden Sie die Werkzeuge Identische finden und Identische löschen, um die lagegleichen Polygone zu suchen und zu löschen. Wenn keine lagegleichen Polygone gefunden werden oder durch das Entfernen der Fehler nicht behoben wird, fahren Sie mit dem nächsten Schritt fort.
  2. Verringern Sie den Linienrasterabstand manuell, bis die Software in der Lage ist, die Polygone zu unterscheiden. Eine Verkleinerung des Linienrasterabstands führt jedoch zu einem raschen Anstieg der Berechnungszeit. Wenn Sie feststellen, dass die Bearbeitung des gewünschten Linienrasterabstands zu lange dauert, fahren Sie mit dem nächsten Schritt fort.
  3. Heben Sie die Auswahl der kleinsten Polygone in Ihrer Feature-Class auf, damit sie nicht in die Berechnung einbezogen werden.

Referenzen

  1. Krivoruchko, K., A. Gribov, E. Krause (2011). "Multivariate Areal Interpolation for Continuous and Count Data", Procedia Environmental Sciences, Volume 3: 14–19.

Verwandte Themen