Geographisch gewichtete Regression (GWR) (Spatial Statistics)

Zusammenfassung

Führt eine geographisch gewichtete Regression (GWR) durch. Dies ist eine lokale Form der linearen Regression zur Modellierung räumlich variierender Beziehungen.

Hinweis:

Dieses Werkzeug wurde zu ArcGIS Pro 2.3 hinzugefügt, um das ähnliche, aber jetzt veraltetes Werkzeug für die geographisch gewichtete Regression (GWR) zu ersetzen. Dieses neue Werkzeug enthält Verbesserungen der Methoden, die in den letzten Jahren entwickelt wurden, und unterstützt weitere Modelle.

Weitere Informationen zur Funktionsweise der geographisch gewichteten Regression (GWR)

Abbildung

Geographisch gewichtete Regression
GWR ist ein lokales Regressionsmodell. Die Koeffizienten können im Raum variieren.

Verwendung

  • Dieses Werkzeug führt eine geographisch gewichtete Regression (GWR) durch, eine lokale Form von Regression zur Modellierung räumlich variierender Beziehungen. Das GWR-Werkzeug erstellt ein lokales Modell der Variable oder des Prozesses, die bzw. den Sie verstehen oder vorhersagen möchten, indem eine Regressionsgleichung an jedes Feature im Dataset angepasst wird. Das Werkzeug Geographisch gewichtete Regression (GWR) erstellt diese separaten Gleichungen durch Einbeziehung der abhängigen und erklärenden Variablen von Features in der Nachbarschaft der einzelnen Ziel-Features. Form und Ausdehnung der einzelnen analysierten Nachbarschaften hängen von den Eingaben für die Parameter Nachbarschaftstyp und Auswahlmethode für Nachbarschaften ab. Ausnahme: Wenn die Anzahl der benachbarten Features 1000 überschreitet, werden nur die nächsten 1000 in jede lokale Gleichung aufgenommen.

  • Wenden Sie das GWR-Werkzeug auf Datasets mit mehreren hundert Features an, um optimale Ergebnisse zu erzielen. Für kleine Datasets ist diese Methode nicht geeignet. Das Werkzeug funktioniert nicht mit Multipoint-Daten.

  • Verwenden Sie den Parameter Eingabe-Features mit einem Feld, das das Phänomen darstellt, das Sie modellieren (die abhängige Variable), und einem oder mehreren Feldern, die die erklärenden Variablen darstellen. Diese Felder müssen numerisch sein und einen Wertebereich aufweisen. Features, bei denen Werte in der abhängigen oder erklärenden Variablen fehlen, werden von der Analyse ausgeschlossen. Sie können jedoch mit dem Werkzeug Fehlende Werte ausfüllen das Dataset vervollständigen, bevor Sie das Werkzeug Geographisch gewichtete Regression (GWR) ausführen.

  • Hinweis:

    Das Werkzeug Geographisch gewichtete Regression (GWR) erzeugt eine Vielzahl von Ausgaben. Während der Ausführung des Werkzeugs wird unten im Bereich Geoverarbeitung eine Zusammenfassung des GWR-Modells in Form einer Meldung angezeigt. Sie können auf diese Meldung zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Sie können auch über den Geoverarbeitungsverlauf auf die Meldungen einer früheren Ausführung des Werkzeugs Geographisch gewichtete Regression (GWR) zugreifen.

    Das GWR-Werkzeug erzeugt zudem Ausgabe-Features und fügt Felder hinzu, die lokale Diagnosewerte angeben. Die Ausgabe-Features und verknüpfte Diagramme werden automatisch dem Inhaltsverzeichnis hinzugefügt, wobei ein Hot/Cold-Rendering-Schema zur Modellierung von Residuen angewendet wird. Eine vollständige Erläuterung der einzelnen Ausgaben und Diagramme finden Sie im Thema Funktionsweise des Werkzeugs "Geographisch gewichtete Regression".

  • Der angegebene Modelltyp hängt von den Daten ab, die Sie modellieren. Es ist wichtig, das richtige Modell für Ihre Analyse zu verwenden, um mit der Regressionsanalyse genaue Ergebnisse zu erhalten.

  • Es wird empfohlen, projizierte Daten zu verwenden. Dies ist besonders wichtig, wenn die Entfernung eine Komponente der Analyse ist, z. B. wenn Sie für GWR Entfernungsband für den Parameter Nachbarschaftstyp auswählen. Es wird empfohlen, dass die Daten in einem projizierten Koordinatensystem (und nicht in einem geographischen Koordinatensystem) vorliegen.

  • Zur Verbesserung der Performance werden für einen Teil der vom Werkzeug Geographisch gewichtete Regression (GWR) ausgeführten Berechnungen mehrere CPUs verwendet. Zur Verarbeitung werden automatisch bis zu acht Threads/CPUs genutzt.

  • Es ist üblich, die Daten global mit dem Werkzeug Generalisierte lineare Regression zu erkunden, bevor Sie die Daten lokal mit dem GWR-Werkzeug erkunden.

  • Die Parameter Abhängige Variable und Erklärende Variable(n) sollten numerische Felder sein, die eine Vielzahl von Werten enthalten. Es sollte global und lokal eine Variation in diesen Werten geben. Verwenden Sie deshalb keine erklärenden "Dummy"-Variablen, um die verschiedenen räumlichen Ordnungen in Ihrem GWR-Modell darzustellen (z. B. Zuweisen des Wertes 1 zu Zählbezirken außerhalb des Stadtkerns, wenn allen anderen der Wert 0 zugewiesen wird). Da beim GWR-Werkzeug die erklärenden Variablenkoeffizienten variieren können, sind diese erklärenden Variablen für räumliche Ordnungen unnötig. Wenn sie einbezogen werden, können sie Probleme aufgrund von lokaler Multikollinearität verursachen.

  • In globalen Regressionsmodellen wie Generalisierte lineare Regression sind die Ergebnisse unzuverlässig, wenn zwei oder mehr Variablen Multikollinearität aufweisen (wenn zwei oder mehr Variablen redundant sind oder das Gleiche aussagen). Das GWR-Werkzeug erstellt eine lokale Regressionsgleichung für jedes Feature im Dataset. Wenn die Werte für eine bestimmte erklärende Variable zur räumlichen Cluster-Bildung neigen, liegen wahrscheinlich Probleme mit lokaler Multikollinearität vor. Das Feld für Bedingungswerte (COND) in der Ausgabe-Feature-Class gibt an, wann Ergebnisse aufgrund von lokaler Multikollinearität instabil sind. Betrachten Sie im Allgemeinen Ergebnisse für Features mit einem Bedingungswert größer als 30, gleich null oder (für Shapefiles) gleich -1.7976931348623158e+308 skeptisch. Der Bedingungswert ist an den Maßstab angepasst, um die Anzahl der erklärenden Variablen im Modell zu korrigieren. Dies ermöglicht einen direkten Vergleich des Bedingungswertes zwischen Modellen mit einer unterschiedlichen Anzahl von erklärenden Variablen.

  • Bei Verwendung von Nominal- oder Kategoriedaten in einem GWR-Modell ist Vorsicht angebracht. Wenn Kategorien zur Bildung von räumlichen Clustern neigen, treten u. U. Probleme aufgrund von lokaler Multikollinearität auf. Der in der Ausgabe des GWR-Werkzeugs enthaltene Bedingungswert gibt an, wann lokale Kollinearität ein Problem darstellt (ein Bedingungswert kleiner als 0, größer als 30 oder gleich NULL). Bei einer starken lokalen Multikollinearität sind die Ergebnisse instabil.

  • Um die regionale Variation unter den Koeffizienten der erklärenden Variablen besser zu verstehen, untersuchen Sie die vom GWR-Werkzeug erstellten optionalen Koeffizienten-Raster-Oberflächen. Diese Raster-Oberflächen werden im Parameter Koeffizienten-Raster-Workspace unter Zusätzliche Optionen erstellt (falls angegeben). Für Polygondaten können Sie auf jedes Koeffizientenfeld in den Ausgabe-Features Cold-to-Hot-Rendering oder Rendering mit abgestuften Farben anwenden, um die Änderungen in Ihrem Untersuchungsgebiet nachzuvollziehen.

  • Sie können das GWR-Werkzeug auch für Vorhersagen verwenden, indem Sie Vorherzusagende Positionen (diese Feature-Class stimmt meist mit Eingabe-Features überein) angeben, die erklärenden Variablen anpassen und Vorhergesagte Ausgabe-Features angeben. Wenn die Felder Abzugleichende erklärende Variablen von Eingabe-Features mit den Feldern Felder der vorherzusagenden Positionen übereinstimmen, werden sie automatisch gefüllt. Geben Sie andernfalls die richtigen Felder an.

  • Bei einem falsch angegebenen Regressionsmodell handelt es sich um ein Modell, in dem eine wichtige erklärende Variable fehlt. Die statistisch signifikante räumliche Autokorrelation in den Regressionsresiduen oder die unerwartete räumliche Variation unter den Koeffizienten einer oder mehrerer erklärender Variablen weist darauf hin, dass das Modell falsch angegeben ist. Ermitteln Sie mit allen verfügbaren Analysemethoden (zum Beispiel die Untersuchung von GLR-Residuen und GWR-Koeffizientenvariationen), welche wichtigen Variablen fehlen, damit sie in das Modell aufgenommen werden können.

  • Hinterfragen Sie stets, ob es sinnvoll ist, dass eine erklärende Variable nicht stationär ist. Nehmen Sie beispielsweise an, Sie modellieren die Verbreitung einer bestimmten Pflanzenart als Funktion mehrerer Variablen einschließlich ASPECT. Wenn Sie feststellen, dass sich der Koeffizient für die Variable ASPECT über das Untersuchungsgebiet hinweg ändert, weist dies darauf hin, dass eine wichtige erklärende Variable fehlt (zum Beispiel die Verbreitung einer konkurrierenden Vegetationsart). Treffen Sie alle möglichen Maßnahmen, damit alle wichtigen erklärenden Variablen in Ihrem Regressionsmodell enthalten sind.

  • Wenn das Ergebnis einer Berechnung unendlich oder nicht definiert ist, lautet das Ergebnis für Nicht-Shapefiles NULL und für Shapefiles -DBL_MAX = -1.7976931348623158e+308.

    Vorsicht:

    Denken Sie beim Verwenden von Shapefiles daran, dass diese keine NULL-Werte speichern können. Werkzeuge oder andere Verfahren zur Erstellung von Shapefiles aus Nicht-Shapefile-Eingaben speichern NULL-Werte ggf. als Wert 0 oder als sehr kleinen negativen Wert (-DBL_MAX = -1,7976931348623158e+308). Dies kann zu unerwarteten Ergebnissen führen. Weitere Informationen finden Sie unter Überlegungen zur Geoverarbeitung für die Shapefile-Ausgabe.

  • Es gibt drei Optionen für den Parameter Auswahlmethode für Nachbarschaften. Wenn Sie Goldene Suche auswählen, sucht das Werkzeug mit dem Suchverfahren Goldener Schnitt nach den besten Werten für die Parameter Entfernungsband oder Anzahl der Nachbarn. Mit der Option Manuelle Intervalle werden Nachbarschaften in Inkrementen zwischen den angegebenen Entfernungen getestet. In jedem Fall wird die Nachbarschaftsgröße verwendet, die den AICc-Wert (Akaike Information Criterion) minimiert. Durch Probleme mit lokaler Multikollinearität wird jedoch verhindert, dass mit diesen Methoden die optimale Entfernung bzw. die optimale Anzahl von Nachbarn berechnet wird. Bei einem Fehler oder schwerwiegenden Problemen beim Modellentwurf könnten Sie versuchen, eine genaue Entfernung oder Anzahl von Nachbarn mit der Option Benutzerdefiniert anzugeben. Untersuchen Sie dann die Bedingungswerte in der Ausgabe-Feature-Class, um zu ermitteln, welche Features mit den Problemen mit lokaler Multikollinearität verknüpft sind.

  • Schwerwiegende Probleme beim Modellentwurf oder Fehler mit der Meldung, dass die Anzahl an Nachbarn in lokalen Gleichungen nicht ausreicht, weisen oft auf globale oder lokale Multikollinearität hin. Um die Problemursache zu ermitteln, führen Sie ein globales Modell mit Generalisierte lineare Regression aus, und untersuchen Sie den VIF-Wert für jede erklärende Variable. Wenn einige der VIF-Werte sehr groß sind (z. B. größer als 7,5), verhindert die globale Multikollinearität die Berechnung mit dem GWR-Werkzeug. Jedoch ist wahrscheinlich eher eine lokale Multikollinearität das Hauptproblem. Versuchen Sie, eine thematische Karte für jede erklärende Variable zu erstellen. Wenn die Karte räumliche Cluster-Bildung von identischen Werten erkennen lässt, entfernen Sie diese Variablen aus dem Modell oder kombinieren Sie diese Variablen mit anderen erklärenden Variablen, um die Wertvariation zu erhöhen. Wenn Sie beispielsweise Immobilienwerte modellieren und für Schlafzimmer wie auch Badezimmer über Variablen verfügen, ist es möglicherweise sinnvoll, diese zu kombinieren, um die Wertvariation zu erhöhen oder sie als kombinierte Größe darzustellen. Vermeiden Sie beim Erstellen von GWR-Modellen die Verwendung der folgenden Variablen: Dummy-Variablen für räumliche Ordnungen, Kategorievariablen bzw. nominale Variablen für räumliche Cluster-Bildung oder Variablen mit sehr wenigen möglichen Werten.

  • Geographisch gewichtete Regression ist ein lineares Modell, für das die gleichen Anforderungen wie für Generalisierte lineare Regression gelten. Prüfen Sie die in Funktionsweise des Werkzeugs "Geographisch gewichtete Regression" erläuterte Diagnose, um sicherzustellen, dass Ihr GWR-Modell ordnungsgemäß festgelegt ist. Der Abschnitt Wie Regressionsmodelle ungültig werden im Thema "Grundlagen zur Regressionsanalyse" bietet ebenfalls Informationen, um die Richtigkeit Ihres Modells sicherzustellen.

Syntax

arcpy.stats.GWR(in_features, dependent_variable, model_type, explanatory_variables, output_features, neighborhood_type, neighborhood_selection_method, {minimum_number_of_neighbors}, {maximum_number_of_neighbors}, {minimum_search_distance}, {maximum_search_distance}, {number_of_neighbors_increment}, {search_distance_increment}, {number_of_increments}, {number_of_neighbors}, {distance_band}, {prediction_locations}, {explanatory_variables_to_match}, {output_predicted_features}, {robust_prediction}, {local_weighting_scheme}, {coefficient_raster_workspace})
ParameterErklärungDatentyp
in_features

Die Feature-Class, die die abhängigen und erklärenden Variablen enthält.

Feature Layer
dependent_variable

Das numerische Feld mit den beobachteten Werten, die modelliert werden.

Field
model_type

Gibt den Typ der Daten an, die modelliert werden.

  • CONTINUOUS Der Wert dependent_variable ist kontinuierlich. Das Gauß'sche Modell wird verwendet, und das Werkzeug führt eine Regression des Typs "Kleinste Quadrate" durch.
  • BINARY Der Wert dependent_variable stellt das Vorhandensein oder Fehlen dar. Dies können herkömmliche Einsen und Nullen oder kontinuierliche Daten sein, die basierend auf einem Schwellenwert codiert wurden. Das logistische Regressionsmodell wird verwendet.
  • COUNTDer Wert für dependent_variable ist diskontinuierlich und stellt Ereignisse wie die Anzahl von Straftaten, Krankheiten oder Verkehrsunfälle dar. Das Poisson-Regressionsmodell wird verwendet.
String
explanatory_variables
[explanatory_variables,...]

Eine Liste von Feldern, die unabhängige erklärende Variablen im Regressionsmodell darstellen.

Field
output_features

Die neue Feature-Class mit den Schätzungen und Residuen abhängiger Variablen.

Feature Class
neighborhood_type

Gibt an, ob die verwendete Nachbarschaft als feste Entfernung konstruiert wird oder abhängig von der Dichte der Features in der räumlichen Ausdehnung schwanken darf.

  • NUMBER_OF_NEIGHBORS Die Nachbarschaftsgröße ist eine Funktion der angegebenen Anzahl der Nachbarn, die in die Berechnungen für jedes Feature einbezogen wird. Wo die Features dicht sind, ist die räumliche Ausdehnung der Nachbarschaft kleiner. Bei wenigen Features ist die räumliche Ausdehnung der Nachbarschaft größer.
  • DISTANCE_BANDDie Nachbarschaftsgröße ist eine konstante oder feste Entfernung für jedes Feature.
String
neighborhood_selection_method

Gibt an, wie die Nachbarschaftsgröße bestimmt wird. Die mit den Optionen GOLDEN_SEARCH und MANUAL_INTERVALS ausgewählte Nachbarschaft basiert auf der Minimierung des AICc-Wertes.

  • GOLDEN_SEARCHDas Werkzeug ermittelt basierend auf den Merkmalen der Daten mithilfe der Golden Section Search die optimale Entfernung oder die Anzahl der Nachbarn.
  • MANUAL_INTERVALS Die getesteten Nachbarschaften werden mit den in den Parametern minimum_number_of_neighbors und number_of_neighbors_increment angegebenen Werten definiert, wenn NUMBER_OF_NEIGHBORS für den Parameter neighborhood_type ausgewählt wird. Die Parameter minimum_search_distance und search_distance_increment werden herangezogen, wenn DISTANCE_BAND für den Parameter neighborhood_type ausgewählt wird. Außerdem wird der Parameter number_of_increments verwendet.
  • USER_DEFINED Die Nachbarschaftsgröße wird mit dem Parameter number_of_neighbors oder distance_band angegeben.
String
minimum_number_of_neighbors
(optional)

Die minimale Anzahl von Nachbarn, die jedes Feature in die Berechnungen einbezieht. Empfohlen wird, mindestens 30 Nachbarn zu verwenden.

Long
maximum_number_of_neighbors
(optional)

Die maximale Anzahl von Nachbarn (bis zu 1000), die jedes Feature in die Berechnungen einbezieht.

Long
minimum_search_distance
(optional)

Die minimale Suchentfernung für die Nachbarschaft. Empfohlen wird eine Entfernung, bei der jedes Feature mindestens 30 Nachbarn aufweist.

Linear Unit
maximum_search_distance
(optional)

Die maximale Suchentfernung für die Nachbarschaft. Wenn eine Entfernung zu Features mit mehr als 1000 Nachbarn führt, verwendet das Werkzeug die ersten 1000 in Berechnungen für das Ziel-Feature.

Linear Unit
number_of_neighbors_increment
(optional)

Die Anzahl der Nachbarn, um die die manuellen Intervalle für jeden Nachbarschaftstest vergrößert werden.

Long
search_distance_increment
(optional)

Die Entfernung, um die die manuellen Intervalle für jeden Nachbarschaftstest vergrößert werden.

Linear Unit
number_of_increments
(optional)

Die Anzahl der zu testenden Nachbarschaftsgrößen, beginnend mit dem Parameter minimum_number_of_neighbors oder minimum_search_distance.

Long
number_of_neighbors
(optional)

Die nächste Anzahl der Nachbarn (bis zu 1000), die für jedes Feature berücksichtigt werden muss. Die Anzahl muss ein ganzzahliger Wert zwischen 2 und 1000 sein.

Long
distance_band
(optional)

Die räumliche Ausdehnung der Nachbarschaft.

Linear Unit
prediction_locations
(optional)

Eine Feature-Class mit Features, die Positionen darstellen, an denen Schätzungen berechnet werden. Jedes Feature im Dataset sollte Werte für alle angegebenen erklärenden Variablen enthalten. Die abhängige Variable für diese Features wird anhand des Modells geschätzt, das für die Eingabe-Feature-Class-Daten kalibriert wurde. Zur Vorhersage sollten diese Feature-Positionen im gleichen Untersuchungsgebiet wie in_features oder in der Nähe (innerhalb der Ausdehnung plus 15 Prozent) liegen.

Eine Feature-Class mit Features, die Positionen darstellen, an denen Schätzungen berechnet werden. Jedes Feature im Dataset sollte Werte für alle angegebenen erklärenden Variablen enthalten. Die abhängige Variable für diese Features wird anhand des Modells geschätzt, das für die Eingabe-Feature-Class-Daten kalibriert wurde. Zur Vorhersage sollten diese Feature-Positionen im gleichen Untersuchungsgebiet wie die Eingabe-Features oder in der Nähe (innerhalb der Ausdehnung plus 15 Prozent) liegen.

Feature Layer
explanatory_variables_to_match
[explanatory_variables_to_match,...]
(optional)

Die erklärenden Variablen des Parameters prediction_locations, die mit den entsprechenden erklärenden Variablen des Parameters in_features abgeglichen werden. [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]] sind Beispiele.

Value Table
output_predicted_features
(optional)

Die Ausgabe-Feature-Class zum Empfangen abhängiger Variablenschätzungen für jede prediction_location.

Feature Class
robust_prediction
(optional)

Gibt die Features an, die in Vorhersageberechnungen verwendet werden.

  • ROBUSTFeatures, die mehr als drei Standardabweichungen vom Mittelwert abweichen (Wertausreißer), und Features mit der Gewichtung 0 (räumliche Ausreißer) werden aus Vorhersageberechnungen ausgeschlossen, erhalten aber Vorhersagen in der Ausgabe-Feature-Class. Dies ist die Standardeinstellung.
  • NON_ROBUSTAlle Features werden in Vorhersageberechnungen verwendet.
Boolean
local_weighting_scheme
(optional)

Gibt den Kernel-Typ an, mit dem die räumliche Gewichtung im Modell bereitgestellt wird. Der Kernel definiert, in welchem Zusammenhang die einzelnen Features mit anderen Features in ihrer Nachbarschaft stehen.

  • BISQUAREEinem Feature außerhalb der angegebenen Nachbarschaft wird die Gewichtung 0 zugewiesen. Dies ist die Standardeinstellung.
  • GAUSSIANAlle Features erhalten Gewichtungen, die Gewichtungen werden jedoch mit der Entfernung vom Ziel-Feature exponentiell kleiner.
String
coefficient_raster_workspace
(optional)

Der Workspace, in dem Koeffizienten-Raster erstellt werden. Wenn dieser Workspace bereitgestellt wird, werden Raster für den Intercept und jede erklärende Variable erstellt.

Workspace

Abgeleitete Ausgabe

NameErklärungDatentyp
coefficient_raster_layers

Die Ausgabe-Koeffizienten-Raster.

Raster-Layer

Codebeispiel

GWR – Beispiel 1 (Python-Fenster)

Das folgende Skript veranschaulicht die Verwendung des Werkzeugs GWR im Python-Fenster.

import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb”
arcpy.stats.GWR("US_Counties", "Diabetes_Percent", "CONTINUOUS", 
     "Inactivity_Percent;Obesity_Percent", "out_features", 
     "NUMBER_OF_NEIGHBORS", "GOLDEN_SEARCH", None, None, None, 
     None, None, None, None, None, None, None, None, None, "ROBUST", 
     "BISQUARE")
GWR – Beispiel 2 (eigenständiges Skript)

Das folgende eigenständige Python-Skript veranschaulicht, wie Sie das Werkzeug GWR verwenden.

# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, and average household income.
 
import arcpy
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GWR("crime_counts", "total crimes", "COUNT", "YRBLT;TOTPOP;AVGHINC", 
     "out_features", "NUMBER_OF_NEIGHBORS", "GOLDEN_SEARCH", 30, None, None, None, 
     None, None, None, None, None, "prediction_locations", 
     "YRBLT YRBLT;TOTPOP TOTPOP;AVGHINC AVGHINC", "predicted_counts", 
     "NON_ROBUST", "BISQUARE", r"c:\data\out_rasters")

Umgebungen

Ausgabe-Koordinatensystem

Die Feature-Geometrie wird nach Abschluss der Analyse auf das Ausgabe-Koordinatensystem projiziert.

Lizenzinformationen

  • Basic: Eingeschränkt
  • Standard: Eingeschränkt
  • Advanced: Ja

Verwandte Themen