Ausgleichen der präferenziellen Stichprobenerfassung durch Daten-Declustering

Mit der Geostatistical Analyst-Lizenz verfügbar.

Häufig weisen die räumlichen Positionen Ihrer Daten keine willkürlichen oder regelmäßigen Abstände auf. Aus unterschiedlichen Gründen können die Stichproben der Daten subjektiv erfasst worden sein, sodass einige Orte eine höhere Dichte an Referenzpunkten aufweisen als andere. Für eine korrekte Implementierung der Z-Transformation und des Histogramms (sowie der kumulativen Verteilung) der Stichprobe ist es wichtig, das Histogramm der gesamten Population richtig widerzuspiegeln. Wenn räumlich autokorrelierte Daten durch eine präferenzielle Stichprobenerfassung erhoben wurden, spiegelt das aus der Stichprobe resultierende Histogramm möglicherweise nicht das Histogramm der Population wider.

Declustering-Beispiele

In der Abbildung mit dem Declustering-Beispiel oben links ist die gesamte Population der Werte an 100 Positionen entlang einer Linie in Form von einfarbigen Kreisen dargestellt. Diese wurden von einem räumlich autokorrelierten Prozess mit einem konstanten Mittelwert und starker positiver Autokorrelation simuliert. Bei jedem zweiten Punkt ab dem ersten Punkt handelt es sich um Stichprobendaten. Sie sind mit Kreisen dargestellt. Im rechten Declustering-Beispiel ist das Histogramm der Population in Blau und das Histogramm der Stichprobe in Violett dargestellt.

Da die Stichprobe der Hälfte der Population entspricht, wäre zu erwarten, dass die Balken des Stichprobenhistogramms, abgesehen von leichten Abweichungen, etwa halb so hoch sind wie die für die Population. Die Abbildung unten links zeigt die Daten einer präferenziellen Stichprobenerfassung, bei der Stichproben an jeder fünften Position bis Position 34, dann an jeder Position bis Position 70 und danach wieder an jeder fünften Position bis zum Ende genommen wurden. Das Endergebnis ist hier wieder das gleiche: Es wurde die Hälfte der gesamten Population beprobt. Die präferenzielle Stichprobenerfassung zur Mitte der räumlichen Positionen hin führt zu einem höheren Anteil der mittleren Datenwerte in der Stichprobe, sodass die Histogrammbalken für Werte zwischen -3 und 1 fast auf gleicher Höhe mit den Populationsbalken sind. Dies hat wiederum zur Folge, dass die unteren und höheren Werte im Stichprobenhistogramm unterrepräsentiert sind.

Eine Lösung im Hinblick auf die präferenzielle Stichprobenerfassung besteht darin, die Daten zu gewichten. Dabei erhalten die Daten in dicht beprobten Gebieten eine geringere Gewichtung (wodurch die Balken des Stichprobenhistogramms für die Werte zwischen -3 und 1 im obigen Beispiel kleiner würden) und die Daten in wenig beprobten Gebieten eine höhere Gewichtung (wodurch die Balken des Stichprobendiagramms für die unteren und oberen Datenwerte größer würden). In Geostatistical Analyst werden beide Methoden unterstützt. Die Standardmethode ist das Zellen-Declustering. Beim Zellen-Declustering werden rechteckige Zellen über den Datenpositionen in einem Gitternetz angeordnet, und die Gewichtung der einzelnen Datenpositionen ist umgekehrt proportional zur Anzahl der Datenpunkte in der Zelle.

Lediglich die Gittergröße und die Ausrichtung bleiben erhalten. In Geostatistical Analyst steht ein Diagramm zur Verfügung, das den gewichteten Mittelwert aller Daten für verschiedene Zellengrößen zeigt. Es wurde vorgeschlagen, die Zellengröße auf der Grundlage des minimalen gewichteten Mittelwertes zu wählen, wenn die Daten in Bereichen mit hohen Werten durch präferenzielle Stichprobenerfassung erhoben wurden, und analog dazu die Zellengröße auf der Grundlage des maximalen gewichteten Mittelwertes zu wählen, wenn die Daten in Bereichen mit niedrigen Werten durch präferenzielle Stichprobenerfassung erhoben wurden.

Ein anderes Schema verwendet eine Polygon-Methode. Dabei wird um jede Datenposition ein Polygon definiert, sodass alle Positionen innerhalb des Polygons näher an der Datenposition liegen als alle anderen Datenpositionen. Diese Methode ist in der folgenden Abbildung dargestellt.

Beispiel für Polygon-Declustering

Die Datenpositionen werden als kleine Punkte dargestellt, und die Polygone werden um die Punkte herum gezeichnet, wobei unterschiedliche Farbschattierungen die Größe der Polygone angeben. Die Idee ist, jede Datenposition proportional zu dem Bereich zu gewichten, den sie "repräsentiert". Problematisch gestaltet sich bei dieser Methode jedoch die Definition der Gewichtungen in den Randbereichen. Die Randpunkte können häufig große Gewichtungen erhalten, es sei denn, die Daten sind von einem Rahmen umgeben. In Geostatistical Analyst ist der Rahmen ein Rechteck, wodurch die Randpositionen häufig eine zu starke Gewichtung erhalten.