Mit der Geostatistical Analyst-Lizenz verfügbar.
Einführung
Die Regressionsvorhersage mit EBK ist eine geostatistische Interpolationsmethode, die Empirical Bayesian Kriging (EBK) mit Rastern als erklärende Variablen verwendet, wobei von den Rastern bekannt ist, dass sie sich auf den Wert der zu interpolierenden Daten auswirken. Diese Methode kombiniert Kriging mit Regressionsanalysen, um Vorhersagen zu treffen, die genauer sind als jeweils mit Regression oder Kriging erzielte Vorhersagen.
Grundlagen von Kriging-Modellen für die Regression
Wie der Name schon sagt, sind Regressions-Kriging-Modelle eine Mischung aus der Regression der kleinsten Quadrate und einfachem Kriging. Mit diesen Regressions- und Kriging-Modellen wird die abhängige Variable vorhergesagt, indem die Schätzung des Mittelwertes (Durchschnittswertes) und eines Fehlerterms voneinander separiert wird:
Abhängige Variable = (Mittelwert) + (Fehler)
Bei "Kleinste Quadrate (Ordinary Least Squares, OLS)" wird der Mittelwert als gewichtete Summe der erklärenden Variablen modelliert (dies ist die so genannte Regressionsgleichung), und für den Fehlerterm wird ein zufälliges, unkorreliertes Rauschen angenommen. Beim Simple Kriging wird der Fehlerterm anhand eines Semivariogramm-/Kovarianzmodells modelliert, und für den Mittelwert wird ein konstanter Wert angenommen. Dementsprechend führt OLS die gesamte umfangreiche Analyse des Mittelwertes durch, während Kriging die gesamte umfangreiche Analyse des Fehlerterms durchführt. Bei Regressions-Kriging-Modellen hingegen wird gleichzeitig sowohl ein Regressionsmodell für den Mittelwert als auch ein Semivariogramm-/Kovarianzmodell für den Fehlerterm geschätzt. Durch die gleichzeitige Berücksichtigung beider Komponenten können mit Regressions-Kriging-Modellen genauere Vorhersagen getroffen werden als mit Regression oder Kriging allein. Sowohl die OLS-Regression als auch das Simple Kriging sind Sonderfälle des Regressions-Krigings.
Die Auswahl der Variablen, die für das Raster mit erklärenden Variablen verwendet werden sollen, sollte sehr sorgfältig vorgenommen werden. Von jeder erklärenden Variable sollte bekannt sein, dass sie den Wert der abhängigen Variable beeinflusst. Es wird empfohlen, die erklärenden Variablen in ähnlicher Weise auszuwählen wie die erklärenden Variablen für Kleinste Quadrate (Ordinary Least Squares). Sie brauchen jedoch nicht zu prüfen, ob die erklärenden Variablen miteinander korrelieren. Wie Sie dabei vorgehen, wird im nächsten Abschnitt näher beschrieben.
Hauptkomponentenanalyse
Vor dem Erstellen des Regressions-Kriging-Modells werden die als erklärende Variablen dienenden Raster in ihre Hauptkomponenten umgewandelt, und diese Hauptkomponenten werden als erklärende Variablen im Regressionsmodell verwendet. Die Hauptkomponenten sind lineare Kombinationen (gewichtete Summen) der erklärenden Variablen und werden so berechnet, dass sie nicht mit anderen Hauptkomponenten korrelieren. Da sie nicht miteinander korrelieren, löst die Verwendung von Hauptkomponenten das Problem der Multikollinearität (erklärende Variablen, die miteinander korrelieren) im Regressionsmodell.
Jede Hauptkomponente erfasst einen bestimmten Anteil der Gesamtvariabilität der erklärenden Variablen. In vielen Fällen können die meisten in den erklärenden Variablen enthaltenen Informationen in nur wenigen Hauptkomponenten erfasst werden. Indem Sie die am wenigsten nützlichen Hauptkomponenten verwerfen, wird die Modellberechnung stabiler und effizienter, ohne dass die Genauigkeit signifikant abnimmt. Sie können steuern, wie viel Variation die Hauptkomponenten berücksichtigen müssen, indem Sie den Parameter Minimaler kumulativer Prozentsatz der Varianz verwenden.
Warum müssen die erklärenden Variablen Raster sein?
Bei diesem Werkzeug müssen alle erklärenden Variablen als Raster bereitgestellt werden, und das Regressions-Kriging-Modell wird durch Extraktion der Werte des Rasters erstellt, die für die einzelnen Eingabepunkte gelten. Sie fragen sich vielleicht, warum die erklärenden Variablen keine Felder der Point-Feature-Class sein können, in der auch die abhängige Variable gespeichert wird. Für die Vorhersage an einem neuen Ort müssen die erklärenden Variablen an diesem neuen Ort gemessen werden, damit die Vorhersage gemäß Regressions-Kriging-Modell berechnet werden kann. Wenn die erklärenden Variablen Felder der Eingabe-Features der abhängigen Variablen wären, könnten Sie nur Vorhersagen an den Eingabe-Punktpositionen treffen. Um tatsächlich zu interpolieren (also Werte für neue Orte vorherzusagen), müssen die erklärenden Variablen an den Orten gemessen werden, an denen Sie sie interpolieren möchten. Der einfachste Weg, die erklärenden Variablen an jedem vorherzusagenden Ort zu spezifizieren, besteht darin, die erklärenden Variablen als Raster zu speichern.
Wenn Ihre erklärenden Variablen nicht im Raster-Format vorliegen, sondern als Felder in den Eingabe-Features der abhängigen Variablen gespeichert sind, sollten Sie jede erklärende Variable mithilfe einer der verfügbaren Interpolationsmethoden in ein Raster konvertieren. Es ist jedoch zu beachten, dass bei der Regressionsvorhersage mit EBK davon ausgegangen wird, dass die erklärenden Variablen gemessene Werte sind (und nicht interpolierte Vorhersagen), sodass jeder Fehler, der durch die Interpolation der erklärenden Variablen verursacht wird, in den nachfolgenden Berechnungen weitergeführt wird. In der Praxis bedeutet dies, dass die Vorhersagen verzerrt und die Standardfehler unterschätzt werden könnten.
Erstellen und Überprüfen lokaler Modelle
Einer der größten Vorteile der Regressionsvorhersage mit EBK im Vergleich zu anderen Regressions-Kriging-Modellen ist die lokale Berechnung der Modelle. Auf diese Weise ist es möglich, dass sich das Modell in verschiedenen Gebieten ändert und lokale Effekte berücksichtigt. So können sich beispielsweise die Beziehungen zwischen den erklärenden Variablen und der abhängigen Variable in verschiedenen Regionen ändern, und mit der Regressionsvorhersage mit EBK können diese regionalen Veränderungen genau modelliert werden.
Die Regressionsvorhersage mit EBK berücksichtigt diese lokalen Effekte, indem die Eingabedaten vor der Modellierung in Teilmengen einer bestimmten Größe unterteilt werden. Die Anzahl der Punkte in jeder lokalen Teilmenge kann durch den Parameter Maximale Anzahl Punkte in jedem lokalen Modell gesteuert werden. Das Regressions-Kriging-Modell wird für jede dieser lokalen Teilmengen unabhängig voneinander berechnet, und diese lokalen Modelle werden zur Erstellung der endgültigen Vorhersagekarte zusammengeführt. Alternativ können die lokalen Teilmengen auch mit dem Parameter Teilmengenpolygon-Features definiert werden. Wenn für diesen Parameter Polygon-Features angegeben werden, definiert jedes Polygon-Feature eine einzelne Teilmenge, und alle in einem einzelnen Polygon-Feature enthaltenen Punkte werden als eine Teilmenge verarbeitet. In diesem Fall muss jedes Polygon mindestens 20 Punkte und darf höchstens 1.000 Punkte enthalten.
Der Parameter Ausgabe-Diagnose-Feature-Class kann verwendet werden, um Modelldiagnosen für jedes dieser lokalen Modelle zu erstellen. Mit diesem Parameter wird eine Polygon-Feature-Class erstellt, in der jedes Polygon alle Punkte enthält, die zu diesem lokalen Modell beitragen. Wenn es z. B. fünf Teilmengen gibt, werden fünf Polygone erstellt, und jedes Polygon enthält die Region jeder Teilmenge. Die Polygon-Feature-Class enthält auch verschiedene Felder mit diagnostischen Informationen darüber, wie gut das lokale Modell zur Teilmenge passt. Wenn Teilmengen-Polygon-Features bereitgestellt werden, hat die ausgegebene Diagnose-Feature-Class dieselbe Geometrie wie die Teilmengenpolygone.
Transformations- und Semivariogramm-Modelle
Für die Regressionsvorhersage mit EBK steht eine Vielzahl von Transformations- und Semivariogramm-Modellen zur Verfügung.
Die folgenden Transformationsoptionen sind verfügbar:
- Keine: Auf die abhängige Variable wird keine Transformation angewendet.
- Empirical: Eine nichtparametrische Kernel-Mischung wird auf die abhängige Variable angewendet. Diese Option wird empfohlen, wenn die abhängige Variable nicht normalverteilt ist.
- Log empirical: Eine logarithmische Transformation wird auf die abhängige Variable angewendet, bevor die empirische Transformation durchgeführt wird. Mit dieser Option wird sichergestellt, dass jede Vorhersage größer als Null ist. Daher wird diese Option empfohlen, wenn die abhängige Variable nicht negativ sein soll, wie z. B. bei Niederschlagsmessungen.
Die folgenden Semivariogramm-Modelle sind verfügbar:
- Exponentiell: Bei diesem Semivariogramm-Modell wird davon ausgegangen, dass die räumliche Autokorrelation des Fehlerterms im Vergleich zu den anderen Optionen relativ schnell abnimmt. Dies ist die Standardeinstellung.
- Nugget: Bei diesem Semivariogramm-Modell wird davon ausgegangen, dass der Fehlerterm räumlich unabhängig ist. Diese Option entspricht der Regression nach dem Prinzip der kleinsten Quadrate, sodass sie für die eigentliche Interpolation nur selten nützlich ist. Sie können mit ihr aber untersuchen, wie viel Verbesserung durch die Verwendung von Regressions-Kriging im Vergleich zur Regression nach dem Prinzip der kleinsten Quadrate erzielt werden kann.
- Whittle: Bei diesem Semivariogramm-Modell wird davon ausgegangen, dass die räumliche Autokorrelation des Fehlerterms im Vergleich zu den anderen Optionen relativ langsam abnimmt.
- K-Bessel: Dieses Semivariogramm-Modell ermöglicht es, dass die räumliche Autokorrelation des Fehlerterms langsam, schnell oder mit einer Geschwindigkeit irgendwo dazwischen abnimmt. Da es flexibel ist, liefert es fast immer die genauesten Vorhersagen, erfordert aber die Schätzung eines zusätzlichen Parameters, sodass die Berechnung länger dauert. Wenn Sie sich nicht sicher sind, welches Semivariogramm Sie verwenden sollen, und für genauere Ergebnisse bereit sind, länger zu warten, ist dies die empfohlene Option.
Referenzen
- Chilès, J-P., und P. Delfiner (1999). Kapitel 4 von Geostatistics: Modeling Spatial Uncertainty. New York: John Wiley & Sons, Inc.
- Krivoruchko K. (2012). "Empirical Bayesian Kriging", ArcUser Fall 2012.
- Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging", ArcUser Fall 2012.
- Krivoruchko K. und Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data", Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences, Springer 2014, S. 61-64.
- Krivoruchko K. und Gribov A. (2019). "Evaluation of empirical Bayesian kriging", Spatial Statistics Band 32. https://doi.org/10.1016/j.spasta.2019.100368.
- Pilz, J., und G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods", Stochastic Environmental Research and Risk Assessment 22 (5):621–632.