Geographisch gewichtete Regression (GWR) ist eine von mehreren räumlichen Regressionstechniken, die in der Geographie und anderen Disziplinen eingesetzt wird. Sie dient zur Auswertung eines lokalen Modells der Variablen oder des Prozesses, die bzw. den Sie verstehen oder vorhersagen möchten, indem eine Regressionsgleichung an jedes Feature im Dataset angepasst wird. Diese separaten Gleichungen werden durch Einbeziehung der abhängigen und erklärenden Variablen von Features in der Nachbarschaft der einzelnen Ziel-Features erstellt. Form und Ausdehnung jeder analysierten Nachbarschaft basieren auf den Parametern Nachbarschaftstyp und Auswahlmethode für Nachbarschaften. Wenden Sie die GWR auf Datasets mit mehreren hundert Features an. Für kleinere Datasets und Multipoint-Daten ist die Methode nicht geeignet.
Das Werkzeug Geographisch gewichtete Regression (Multiscale) kann verwendet werden, um GWR für Daten mit unterschiedlichen Maßstäben von Beziehungen zwischen den abhängigen und erklärenden Variablen durchzuführen.
Hinweis:
Dieses Werkzeug wurde für ArcGIS Pro 2.3 aktualisiert; es beinhaltet zusätzliche akademische Forschung sowie Verbesserungen der in den letzten Jahren entwickelten Methode und erweitert die Unterstützung für zusätzliche Modelle. Dank der neu hinzugefügten Modelle Anzahl (Poisson) und Binär (Logistisch) kann das Werkzeug für ein breiteres Spektrum von Problemen eingesetzt werden.
Potenzielle Anwendungsbereiche
Das Werkzeug Geographisch gewichtete Regression bietet eine Vielzahl von Anwendungsmöglichkeiten, z. B. die folgenden:
- Ist die Beziehung zwischen Bildungsabschluss und Einkommen im gesamten Untersuchungsgebiet konsistent?
- Treten bestimmte Krankheitsfälle in der Nähe von Wasserflächen häufiger auf?
- Was sind die Hauptvariablen, die eine hohe Waldbrandhäufigkeit erklären?
- Welche Lebensräume sollten geschützt werden, um die Wiedereinführung einer gefährdeten Spezies zu fördern?
- In welchen Bezirken erzielen Kinder gute Ergebnisse bei Leistungstests? Welche Eigenschaften scheinen verknüpft zu sein? Wo sind die einzelnen Eigenschaften am wichtigsten?
- Sind die Faktoren, die höhere Krebsraten beeinflussen, im gesamten Untersuchungsgebiet konsistent?
Eingaben
Um das GWR-Werkzeug auszuführen, geben Sie den Parameter Eingabe-Features mit einem Feld an, das die abhängige Variable darstellt, sowie einem oder mehreren Feldern, die die erklärenden Variablen darstellen. Diese Felder müssen numerisch sein und einen Wertebereich aufweisen. Features, bei denen Werte in den abhängigen oder erklärenden Variablen fehlen, werden von der Analyse ausgeschlossen. Sie können jedoch mit dem Werkzeug Fehlende Werte ausfüllen das Dataset vervollständigen, bevor Sie die GWR ausführen. Als Nächstes müssen Sie auf der Basis der zu analysierenden Daten einen Modelltyp auswählen. Es ist wichtig, ein geeignetes Modell für Ihre Daten zu verwenden. Im Folgenden werden die Modelltypen beschrieben, und Sie erfahren, wie Sie das geeignete Modell für Ihre Daten ermitteln können.
Modelltyp
Die GWR stellt drei Typen von Regressionsmodellen bereit: kontinuierlich, binär und Anzahl. Die entsprechenden Regressionstypen werden in der statistischen Literatur als Gauß-, logistische und Poisson-Regression bezeichnet. Bei der Auswahl des Modelltyps für Ihre Analyse sollten Sie berücksichtigen, wie Ihre abhängige Variable gemessen oder zusammengefasst wurde und welchen Wertebereich sie umfasst.
Kontinuierlich (Gauß)
Verwenden Sie Kontinuierlich (Gauß) als Modelltyp, wenn Ihre abhängige Variable einen großen Wertebereich haben kann, z. B. Temperaturen oder Umsätze. Im Idealfall ist Ihre abhängige Variable normal verteilt. Sie können für Ihre abhängige Variable ein Histogramm erstellen, um zu überprüfen, ob es normal verteilt ist. Ist das Histogramm eine symmetrische Glockenkurve, verwenden Sie den Gauß-Modelltyp. Die meisten Werte bilden ein Cluster in der Nähe des Mittelwerts, und es gibt nur wenige Werte, die stark vom Mittelwert abweichen. Auf der linken Seite des Mittelwerts sollten sich ebenso viele Werte befinden wie auf der rechten Seite (Mittel- und Medianwert sind für die Verteilung identisch). Wenn Ihre abhängige Variable nicht normal verteilt ist, haben Sie die Möglichkeit, diese als binäre Variable zu reklassifizieren. Ist Ihre abhängige Variable beispielsweise das durchschnittliche Haushaltseinkommen, können Sie diese in eine binäre Variable umcodieren, wobei 1 angibt, dass der Wert über dem nationalen Durchschnitt liegt, und 0 (Null), dass er unter dem Durchschnitt liegt. Ein kontinuierliches Feld kann mit der Hilfsfunktion Reklassifizieren des Werkzeugs Feld berechnen als binäres Feld reklassifiziert werden.
Binär (Logistisch)
Verwenden Sie Binär (Logistisch) als Modelltyp, wenn Ihre abhängige Variable einen von zwei möglichen Werten annehmen kann, z. B. Erfolg oder Misserfolg, Anwesenheit oder Abwesenheit. Bei dem Feld mit der abhängigen Variable muss es sich um ein numerisches Feld handeln, das nur Einsen und Nullen enthält. Die Ergebnisse lassen sich einfacher interpretieren, wenn Sie das relevante Ereignis, z. B. Erfolg oder die Anwesenheit eines Tieres, als 1 codieren, da die Regression die Wahrscheinlichkeit von 1 modelliert. Sowohl global als auch lokal sollten die Einsen und Nullen in Ihren Daten variieren. Wenn Sie für Ihre abhängige Variable ein Histogramm erstellen, sollte dieses nur Einsen und Nullen enthalten. Mit dem Werkzeug "Nach Kreis auswählen" können Sie lokale Abweichungen überprüfen, indem Sie verschiedene Regionen auf der Karte auswählen und sicherstellen, dass jede Region eine Kombination aus Einsen und Nullen enthält.
Anzahl (Poisson)
Die Verwendung von Anzahl (Poisson) als Modelltyp sollten Sie in Betracht ziehen, wenn Ihre abhängige Variable diskontinuierlich ist und die Anzahl eines bestimmten Ereignisses darstellt, z. B. die Anzahl von Straftaten. Anzahlmodelle können auch verwendet werden, wenn Ihre abhängige Variable ein Verhältnis darstellt und es sich bei dem Nenner des Verhältnisses um einen Festwert handelt, z. B. Umsatz pro Monat oder die Anzahl der krebskranken Personen pro 10.000 Einwohner. Das Modell Anzahl (Poisson) geht davon aus, dass der Mittelwert und die Abweichung der abhängigen Variablen gleich sind und die Werte Ihrer abhängigen Variablen weder negativ sind noch Dezimalstellen enthalten.
Auswählen einer Nachbarschaft (Bandbreite)
Eine Nachbarschaft (auch Bandbreite genannt) ist das Entfernungsband oder die Anzahl der Nachbarn, das bzw. die für jede lokale Regressionsgleichung verwendet wird. Es ist der vielleicht wichtigste Parameter, der bei der geografisch gewichteten Regression berücksichtigt werden sollte, da er den Grad der Glättung im Modell steuert. Form und Ausdehnung der analysierten Nachbarschaften hängen von den Eingaben für die Parameter Nachbarschaftstyp und Auswahlmethode für Nachbarschaften ab. Wenn die Anzahl der Features in der Nachbarschaft jedoch 1000 überschreitet, wird in jeder lokalen Regressionsgleichung nur die nächsten 1000 verwendet.
Der Parameter Nachbarschaftstyp kann auf Anzahl der Nachbarn oder Entfernungsband basieren. Wird Anzahl der Nachbarn verwendet, ist die Nachbarschaftsgröße eine Funktion der angegebenen Anzahl der Nachbarn, sodass die Nachbarschaften kleiner sein können, wenn die Features dicht platziert sind, und größer, wenn die Features spärlich sind. Wird Entfernungsband verwendet, bleibt die Nachbarschaftsgröße für jedes Feature im Untersuchungsgebiet konstant. Dies führt zu mehr Features pro Nachbarschaft, wenn die Features dicht sind, und weniger Features pro Nachbarschaft, wenn diese spärlich vorhanden sind.
Der Parameter Auswahlmethode für Nachbarschaften gibt an, wie die Größe der Nachbarschaft bestimmt wird (die tatsächliche Entfernung oder die verwendete Anzahl der Nachbarn). Die mit der Option Golden Search oder Manuelle Intervalle ausgewählte Nachbarschaft basiert immer auf der Minimierung des Wertes für das Akaike Information Criterion (AICc). Alternativ können Sie mit der Option Benutzerdefiniert eine bestimmte Nachbarschaftsentfernung oder Anzahl der Nachbarn festlegen.
Wird die Option Golden Search ausgewählt, ermittelt das Werkzeug mit dem Suchverfahren "Golden Section Search" die besten Werte für den Parameter Entfernungsband oder Anzahl der Nachbarn. Mit der Option Golden Search werden zunächst die Maximal- und Minimalentfernungen gefunden; dazwischen wird inkrementell das AICc mit verschiedenen Entfernungen gemessen. Enthält ein Dataset mehr als 1000 Features, ist die maximale Entfernung die Entfernung, bei der jedes Feature höchstens 1000 Nachbarn aufweist. Die minimale Entfernung ist die Entfernung, bei der jedes Feature mindestens 20 Nachbarn aufweist. Bei weniger als 1000 Features ist die maximale Entfernung die Entfernung, bei der jedes Feature n/2 Nachbarn (die Hälfte der Anzahl der Features) aufweist; die minimale Entfernung ist die Entfernung, bei der jedes Feature mindestens 5 Prozent von n (5 Prozent der Features im Dataset) aufweist. Golden Search ermittelt die Entfernung oder die Anzahl der Nachbarn mit dem niedrigsten AICc als Größe der Nachbarschaft.
Mit den Parametern Minimale Suchentfernung und Maximale Suchentfernung (für Entfernungsband) sowie Minimale Anzahl von Nachbarn und Maximale Anzahl von Nachbarn (für Anzahl der Nachbarn) kann der Suchbereich begrenzt werden, indem Sie die Start- und Endentfernungen für Golden Search manuell festlegen.
Lokales Gewichtungsschema
Der große Vorteil der GWR besteht darin, dass auf die in jeder lokalen Regressionsgleichung verwendeten Features eine geographische Gewichtung angewendet wird. Features, die weiter vom Regressionspunkt entfernt sind, erhalten eine geringere Gewichtung und haben somit weniger Einfluss auf die Regressionsergebnisse für das Ziel-Feature; Features, die näher daran liegen, haben in der Regressionsgleichung eine höhere Gewichtung. Die Gewichtung wird mithilfe eines Kernels ermittelt, einer Distanzabnahmefunktion, die bestimmt, wie schnell die Gewichtung mit zunehmender Entfernung abnimmt. Das Werkzeug Geographisch gewichtete Regression bietet zwei Kernel-Optionen für den Parameter Lokales Gewichtungsschema: Gauß und Biquadrat.
Das Gewichtungsschema Gauß weist dem Regressions-Feature (Feature i) eine Gewichtung von 1 zu, wobei die Gewichtungen für die umliegenden Features (j-Features) mit zunehmender Entfernung vom Regressions-Feature gleichmäßig und allmählich abnimmt. Liegen Feature i und j beispielsweise 0,25 Einheiten auseinander, beträgt die daraus resultierende Gewichtung in der Gleichung etwa 0,88. Liegen Feature i und j 0,75 Einheiten auseinander, beträgt die daraus resultierende Gewichtung etwa 0,32. Feature j hat weniger Einfluss auf die Regression, da es weiter entfernt ist. Ein Gauß-Gewichtungsschema erreicht nie Null, aber die Gewichtungen für Features, die sehr weit von der Regressionsfunktion entfernt sind, können so klein sein, dass sie praktisch keinen Einfluss auf die Regression haben. Konzeptionell gelten bei Verwendung eines Gauß-Gewichtungsschemas alle anderen Features in den Eingabedaten als benachbarte Features und erhalten deshalb eine Gewichtung. Überschreitet die Anzahl der benachbarten Features jedoch 1000, werden aus Gründen der Recheneffizienz nur die nächsten 1000 in jede lokale Regression aufgenommen. Ein Gauß-Gewichtungsschema stellt sicher, dass jedes Regressions-Feature zahlreiche Nachbarn aufweist, und erhöht dadurch die Wahrscheinlichkeit, dass die Werte dieser Nachbarn ausreichend variieren. Auf diese Weise kann ein bekanntes Problem der geographisch gewichteten Regression, die so genannte lokale Kollinearität, vermieden werden. Verwenden Sie ein Gauß-Gewichtungsschema, wenn der Einfluss benachbarter Features gleichmäßig und allmählich abnimmt, aber immer vorhanden ist, unabhängig davon, wie weit entfernt die umliegenden Features sind.
Das Gewichtungsschema Biquadrat ähnelt dem Gauß-Gewichtungsschema. Es weist dem Regressions-Feature (Feature i) eine Gewichtung von 1 zu, wobei die Gewichtungen für die umliegenden Features (j-Features) mit zunehmender Entfernung vom Regressions-Feature gleichmäßig und allmählich abnimmt. Allerdings wird allen Features außerhalb der angegebenen Nachbarschaft die Gewichtung 0 zugewiesen, sodass sie keinen Einfluss auf die lokale Regression für das Ziel-Feature haben. Im Vergleich zu einem Gauß-Gewichtungsschema nehmen die Gewichtungen in einem Biquadrat-Gewichtungsschema mit den gleichen Nachbarschaftsspezifikationen schneller ab. Mit einem Biquadrat-Gewichtungsschema können Sie eine Entfernung angeben, ab der Features keinen Einfluss auf die Regressionsergebnisse mehr haben. Da Biquadrat Features ab einer bestimmten Entfernung ausschließt, gibt es keine Garantie, dass genügend Features (mit Einfluss) in der Nachbarschaft vorhanden sind, um eine zuverlässige lokale Regressionsanalyse durchzuführen. Verwenden Sie ein Gauß-Gewichtungsschema, wenn der Einfluss der benachbarten Features gleichmäßig und allmählich abnimmt und es eine Entfernung gibt, ab der sich dieser Einfluss nicht mehr auswirkt. Beispielsweise wird die Regression häufig zur Modellierung von Immobilienpreisen verwendet, und der Verkaufspreis der umliegenden Häuser ist eine oft verwendete erklärende Variable. Diese umliegenden Häuser werden als Vergleichsobjekte bezeichnet. Kreditinstitute haben zuweilen Regeln, die besagen, dass sich ein vergleichbares Haus innerhalb einer bestimmten Entfernung befinden muss. In diesem Fall kann ein Biquadrat-Gewichtungsschema mit einer Nachbarschaft verwendet werden, die der vom Kreditinstitut vorgegebenen maximalen Entfernung entspricht.
Vorhersage
Mit dem erstellten Regressionsmodell können Sie Vorhersagen für andere Features (Punkte oder Polygone) im selben Untersuchungsgebiet treffen. Für diese Vorhersagen ist es erforderlich, dass alle vorherzusagenden Positionen Werte für jede der angegebenen erklärenden Variablen enthalten. Stimmen die Feldnamen aus den Eingabe-Features und die Parameter für die vorherzusagenden Positionen nicht überein, wird ein Parameter für den Variablenabgleich bereitgestellt. Beim Abgleich der erklärenden Variablen müssen die Felder aus den Eingabe-Features und die Parameter für die vorherzusagenden Positionen den gleichen Typ aufweisen (z. B. müssen Double-Felder mit Double-Feldern abgeglichen werden).
Koeffizienten-Raster
Ein wesentlicher Aspekt der GWR ist, dass sie es Ihnen ermöglicht, räumlich variierende Beziehungen zu untersuchen. Eine Möglichkeit, wie Sie die variierenden Beziehungen zwischen den erklärenden Variablen und der abhängigen Variablen im Raum visualisieren können, besteht darin, Koeffizientenraster zu erstellen. Wenn Sie einen Pfadnamen für den Parameter Koeffizienten-Raster-Workspace angeben, erstellt das GWR-Werkzeug Koeffizienten-Raster-Oberflächen für das Modell-Intercept und jede erklärende Variable. Die Auflösung der Raster wird mithilfe der Umgebung Zellengröße gesteuert. Eine Nachbarschaft (Kernel) wird mithilfe der Parameter Nachbarschaftstyp und Lokales Gewichtungsschema um die einzelnen Rasterzellen herum konstruiert. Entfernungsbasierte Gewichtungen werden von der Mitte der Rasterzelle bis zu allen Eingabe-Features berechnet, die innerhalb der Nachbarschaft (Bandbreite) liegen. Diese Gewichtungen werden zur Berechnung einer eindeutigen Regressionsgleichung für diese Rasterzelle verwendet. Die Koeffizienten variieren von Rasterzelle zu Rasterzelle, da sich die entfernungsbasierten Gewichtungen ändern und unterschiedliche Eingabe-Features in der Nachbarschaft (Bandbreite) liegen können.
Hinweis:
Es herrscht aktuell kein Konsens darüber, wie das Vertrauen in die Koeffizienten aus einem GWR-Modell zu bewerten ist. Zwar wurden t-Tests durchgeführt, um einen Rückschluss darauf zu ermöglichen, ob der geschätzte Wert der Koeffizienten signifikant von Null abweicht, aber die Gültigkeit dieses Ansatzes ist derzeit noch Gegenstand der aktiven Forschung. Ein Ansatz zur informellen Bewertung der Koeffizienten besteht darin, den Koeffizienten durch den für jedes Feature angegebenen Standardfehler zu dividieren, um den Umfang der Schätzung mit dem verbundenen Standardfehler zu skalieren. Diese Ergebnisse können dann visualisiert werden, um nach Clustern mit hohen Standardfehlern relativ zu ihren Koeffizienten zu suchen.
Ausgaben
Das Werkzeug Geographisch gewichtete Regression erzeugt verschiedene Ausgaben. Während der Ausführung des Werkzeugs werden unten im Bereich Geoverarbeitung eine Zusammenfassung des GWR-Modells sowie statistische Zusammenfassungen in Form von Meldungen angezeigt. Um auf die Meldungen zuzugreifen, bewegen Sie den Mauszeiger über die Fortschrittsleiste, klicken Sie auf die Pop-out-Schaltfläche, oder erweitern Sie den Abschnitt "Meldungen" im Bereich Geoverarbeitung. Sie können auch über den Geoverarbeitungsverlauf auf Meldungen einer früheren Ausführung des Werkzeugs Geographisch gewichtete Regression zugreifen. Darüber hinaus generiert das Werkzeug Ausgabe-Features, Diagramme sowie optional vorhergesagte Ausgabe-Features und Koeffizienten-Raster-Oberflächen. Die Ausgabe-Features sowie verknüpfte Diagramme werden automatisch dem Bereich Inhalt hinzugefügt, wobei ein Hot/Cold-Rendering-Schema zur Modellierung von Residuen angewendet wird. Die generierten Diagnosen und Diagramme hängen vom Modelltyp der Eingabe-Features ab und werden nachfolgend beschrieben.
Globale Modellstatistiken werden für alle Modelle berechnet.
Kontinuierlich (Gauß)
Feature-Class und hinzugefügte Felder
Neben Regressionsresiduen umfasst der Parameter Ausgabe-Features Felder für beobachtete Werte und vorhergesagte abhängige Variablenwerte, eine Bedingungsnummer (COND), Local R2, erklärende Variablenkoeffizienten und Standardfehler.
Der Schnittpunkt, der Standardfehler des Schnittpunkts, die Koeffizienten, die Standardfehler für jede der erklärenden Variablen, Vorhersagen, Residuen, standardisierte Residuen, der Einfluss, die Cook'sche Distanz, der lokale R-Squared-Wert und der Bedingungswert werden ebenfalls gemeldet. Viele dieser Felder werden unter Funktionsweise der OLS-Regression erläutert. Die Werte für Einfluss und Cook'sche Distanz messen beide den Einfluss des Features auf die Schätzung der Regressionskoeffizienten. Sie können ein Histogramm verwenden, um zu ermitteln, ob wenige Features mehr Einfluss haben als der Rest des Datasets. Diese Features sind häufig Ausreißer, die die Schätzung der Koeffizienten verzerren. Die Modellergebnisse können besser werden, wenn sie entfernt werden und das Werkzeug erneut ausgeführt wird. Der lokale R-Squared-Wert liegt zwischen 0 und 1 und stellt die Stärke der Korrelationen des lokalen Modells des Features dar. Der Bedingungswert ist ein Maß für die Stabilität der geschätzten Koeffizienten. Bedingungswerte über etwa 1000 kennzeichnen eine Instabilität im Modell. Häufig wird sie durch erklärende Variablen verursacht, die eng korrelieren.
Interpretieren von Meldungen und Diagnosen
Die Meldungen enthalten Analysedetails, einschließlich der Anzahl der analysierten Features, der abhängigen und erklärenden Variablen und der Anzahl der angegebenen Nachbarn. Darüber hinaus werden verschiedene Modelldiagnosen gemeldet:
- R2: R-Squared ist ein Messwert für die Qualität der Übereinstimmung. Der Wert variiert von 0.0 bis 1.0, wobei höhere Werte vorzuziehen sind. Er kann als Anteil der abhängigen Variablenvarianz durch das Regressionsmodell interpretiert werden. Der Nenner für die Berechnung von R2 ist die Summe von abhängigen Variablenwerten im Quadrat. Durch Hinzufügen einer zusätzlichen erklärenden Variable zum Modell wird nicht der Nenner, sondern der Zähler geändert; dadurch entsteht der Eindruck, dass die Modelleignung verbessert wird, was aber möglicherweise nicht der Fall ist. Weitere Informationen finden Sie weiter unten unter "R2Adjusted".
- AdjR2: Aufgrund des oben beschriebenen Problems mit dem R2-Wert werden durch Berechnungen des Wertes "Adjusted R-Squared" der Zähler und der Nenner nach ihren Freiheitsgraden normalisiert. Dadurch wird die Anzahl der Variablen in einem Modell ausgeglichen, und folglich ist der angepasste R2-Wert fast immer kleiner als der R2-Wert. Indem Sie diese Anpassung vornehmen, geht jedoch die Interpretation des Werts als Anteil der erläuterten Varianz verloren. Bei der GWR ist die effektive Anzahl von Freiheitsgraden eine Funktion der verwendeten Nachbarschaft, sodass die Anpassung im Vergleich zu einem globalen Modell wie der generalisierten linearen Regression (GLR) möglicherweise stark ausgeprägt ist. Aus diesem Grund wird AICc zum Vergleichen von Modellen vorgezogen.
- AICc: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AICc-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AICc ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AICc-Werte für zwei Modelle um mehr als 3 unterscheiden, wird das Modell mit dem niedrigeren AICc-Wert als besser betrachtet. Das Vergleichen des AICc-Wertes aus der GWR mit dem AICc-Wert aus der GLR ist eine Möglichkeit, die Vorteile eines Umstiegs von einem globalen Modell (GLR) auf ein lokales Regressionsmodell (GWR) zu beurteilen.
Unter Gollini et al. im Abschnitt Zusätzliche Quellen finden Sie die Formeln, die zum Berechnen der AICc-Werte für alle Modelltypen verwendet wurden.
- Sigma-Squared: Dies ist die Least-Squares-Schätzung der Varianz (Quadrat der Standardabweichung) für die Residuen. Kleinere Werte dieser Statistik sind vorzuziehen. Dieser Wert ist die normalisierte Restsumme von Quadraten, wobei die Restsumme von Quadraten durch die effektiven Freiheitsgrade des Residuums dividiert wird. Sigma-Squared wird für AICc-Berechnungen verwendet.
- Sigma-Squared – MLE: Dies ist die Maximum-Likelihood-Schätzung (Maximum Likelihood Estimate, MLE) der Varianz (Quadrat der Standardabweichung) für die Residuen. Kleinere Werte dieser Statistik sind vorzuziehen. Zur Berechnung dieses Wertes wird die Restsumme von Quadraten durch die Anzahl der Eingabe-Features dividiert.
- Effektive Freiheitsgrade: Dieser Wert spiegelt einen Kompromiss zwischen der Varianz der angepassten Werte und der Verzerrung in den Koeffizientenschätzungen wider und steht im Zusammenhang mit der ausgewählten Nachbarschaftsgröße. Da sich die Nachbarschaft der Unendlichkeit nähert, nähern sich die geographischen Gewichtungen für jedes Feature dem Wert 1, und die Koeffizientenschätzungen liegen sehr nah an den Schätzungen für ein globales GLR-Modell. Bei sehr großen Nachbarschaften nähert sich die effektive Anzahl von Koeffizienten der tatsächlichen Anzahl. Lokale Koeffizientenschätzungen weisen eine kleine Varianz auf, sind aber recht stark verzerrt. Umgekehrt nähern sich die geographischen Gewichtungen für jedes Feature dem Wert Null, wenn die Nachbarschaft kleiner wird und sich Null nähert, mit Ausnahme des Regressionspunkts selbst. Bei sehr kleinen Nachbarschaften entspricht die effektive Anzahl der Koeffizienten der Anzahl der Beobachtungen. Lokale Koeffizientenschätzungen weisen eine große Varianz, jedoch nur eine geringe Verzerrung auf. Die effektive Anzahl wird verwendet, um zahlreiche andere Diagnosemessungen zu berechnen.
- Angepasster kritischer Wert von Pseudo-T-Statistiken: Dies ist der angepasste kritische Wert, mit dem die statistische Signifikanz der Koeffizienten in einem zweiseitigen T-Test mit einer Konfidenz von 95 Prozent getestet werden. Der Wert entspricht einem Signifikanzniveau (Alpha) von 0,05 geteilt durch die effektiven Freiheitsgrade. Diese Anpassung steuert die familienweise Fehlerrate (FWER) der Signifikanz der erklärenden Variablen.
Ausgabediagramme
Dieses Werkzeug gibt im Bereich Inhalt eine Scatterplotmatrix und ein Histogramm aus. Die Scatterplotmatrix enthält eine abhängige Variable und bis zu 9 erklärende Variablen. Im Histogramm werden das abweichende Residuum und eine Normalverteilungskurve angezeigt.
Binär (Logistisch)
Feature-Class und hinzugefügte Felder
Der Schnittpunkt (INTERCEPT), der Standardfehler des Schnittpunkts (SE_INTERCEPT), die Koeffizienten und Standardfehler für jede der erklärenden Variablen sowie die Wahrscheinlichkeit, dass es sich um den Wert 1 handelt, die Vorhersage, das abweichende Residuum, GInfluence und die lokale prozentuale Abweichung werden gemeldet.
Interpretieren von Meldungen und Diagnosen
Die Meldungen enthalten Analysedetails, einschließlich der Anzahl der analysierten Features, der abhängigen und erklärenden Variablen und der Anzahl der angegebenen Nachbarn. Darüber hinaus werden die folgenden Diagnosen gemeldet:
- % Abweichung, die durch das globale Modell (nicht räumlich) erklärt wird: Dies ist ein Messwert für die Qualität der Übereinstimmung, der die Performance eines globalen Modells (GLR) quantifiziert. Der Wert variiert von 0.0 bis 1.0, wobei höhere Werte vorzuziehen sind. Er kann als Anteil der abhängigen Variablenvarianz durch das Regressionsmodell interpretiert werden.
- % Abweichung, die durch das lokale Modell erklärt wird: Dies ist ein Messwert für die Qualität der Übereinstimmung, der die Performance eines lokalen Modells (GWR) quantifiziert. Der Wert variiert von 0.0 bis 1.0, wobei höhere Werte vorzuziehen sind. Er kann als Anteil der abhängigen Variablenvarianz durch das Regressionsmodell interpretiert werden.
- % Abweichung, die durch das lokale im Vergleich zum globalen Modell erklärt wird: Dieser Anteil ist eine Möglichkeit, die Vorteile des Umstiegs von einem globalen Modell (GLR) auf ein lokales Regressionsmodell (GWR) zu beurteilen, indem die Restsumme von Quadraten des lokalen Modells mit der Restsumme von Quadraten des globalen Modells verglichen wird. Der Wert variiert von 0,0 bis 1,0, wobei höhere Werte angeben, dass das lokale Regressionsmodell besser abgeschnitten hat als ein globales Modell.
- AICc: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AICc-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AICc ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AICc-Werte für zwei Modelle um mehr als 3 unterscheiden, wird das Modell mit dem niedrigeren AICc-Wert als besser betrachtet. Das Vergleichen des AICc-Werts aus GWR mit dem AICc-Wert aus OLS ist eine Möglichkeit, um die Vorteile des Umsteigens von einem globalen Modell (OLS) auf ein lokales Regressionsmodell (GWR) zu beurteilen.
- Sigma-Squared: Dieser Wert ist die normalisierte Restsumme von Quadraten, wobei die Restsumme von Quadraten durch die effektiven Freiheitsgrade des Residuums dividiert wird. Dies ist die Least-Squares-Schätzung der Varianz (Quadrat der Standardabweichung) für die Residuen. Kleinere Werte dieser Statistik sind vorzuziehen. Sigma-Squared wird für AICc-Berechnungen verwendet.
- Sigma-Squared – MLE: Dies ist die Maximum-Likelihood-Schätzung (Maximum Likelihood Estimate, MLE) der Varianz (Quadrat der Standardabweichung) für die Residuen. Kleinere Werte dieser Statistik sind vorzuziehen. Zur Berechnung dieses Wertes wird die Restsumme von Quadraten durch die Anzahl der Eingabe-Features dividiert.
- Effektive Freiheitsgrade: Dieser Wert spiegelt einen Kompromiss zwischen der Varianz der angepassten Werte und der Verzerrung in den Koeffizientenschätzungen wider und steht im Zusammenhang mit der ausgewählten Nachbarschaftsgröße. Da sich die Nachbarschaft der Unendlichkeit nähert, nähern sich die geographischen Gewichtungen für jedes Feature dem Wert 1, und die Koeffizientenschätzungen liegen sehr nah an den Schätzungen für ein globales GLR-Modell. Bei sehr großen Nachbarschaften nähert sich die effektive Anzahl von Koeffizienten der tatsächlichen Anzahl. Lokale Koeffizientenschätzungen weisen eine kleine Varianz auf, sind aber recht stark verzerrt. Umgekehrt nähern sich die geographischen Gewichtungen für jedes Feature dem Wert Null, wenn die Nachbarschaft kleiner wird und sich Null nähert, mit Ausnahme des Regressionspunkts selbst. Bei sehr kleinen Nachbarschaften entspricht die effektive Anzahl der Koeffizienten der Anzahl der Beobachtungen. Lokale Koeffizientenschätzungen weisen eine große Varianz, jedoch nur eine geringe Verzerrung auf. Die effektive Anzahl wird verwendet, um zahlreiche andere Diagnosemessungen zu berechnen.
- Angepasster kritischer Wert von Pseudo-T-Statistiken: Dies ist der angepasste kritische Wert, mit dem die statistische Signifikanz der Koeffizienten in einem zweiseitigen T-Test mit einer Konfidenz von 95 Prozent getestet werden. Der Wert entspricht einem Signifikanzniveau (Alpha) von 0,05 geteilt durch die effektiven Freiheitsgrade. Diese Anpassung steuert die familienweise Fehlerrate (FWER) der Signifikanz der erklärenden Variablen.
Ausgabediagramme
Eine Scatterplotmatrix sowie Boxplots und ein Histogramm der abweichenden Residuen werden bereitgestellt.
Anzahl (Poisson)
Feature-Class und hinzugefügte Felder
Der Schnittpunkt (INTERCEPT), der Standardfehler des Schnittpunkts (SE_INTERCEPT), die Koeffizienten und Standardfehler für jede der erklärenden Variablen sowie der vorhergesagte Wert vor der logarithmischen Transformation (RAW_PRED), die Vorhersage, das abweichende Residuum, GInfluence, die lokale prozentuale Abweichung und der Bedingungswert werden gemeldet.
Interpretieren von Meldungen und Diagnosen
Die Meldungen enthalten Analysedetails, einschließlich der Anzahl der analysierten Features, der abhängigen und erklärenden Variablen und der Anzahl der angegebenen Nachbarn. Darüber hinaus werden die Diagnosen im folgenden Screenshot gemeldet:
- % Abweichung, die durch das globale Modell (nicht räumlich) erklärt wird: Dies ist ein Messwert für die Qualität der Übereinstimmung, der die Performance eines globalen Modells (GLR) quantifiziert. Der Wert variiert von 0.0 bis 1.0, wobei höhere Werte vorzuziehen sind. Er kann als Anteil der abhängigen Variablenvarianz durch das Regressionsmodell interpretiert werden.
- % Abweichung, die durch das lokale Modell erklärt wird: Dies ist ein Messwert für die Qualität der Übereinstimmung, der die Performance des lokalen Modells (GWR) quantifiziert. Der Wert variiert von 0.0 bis 1.0, wobei höhere Werte vorzuziehen sind. Er kann als Anteil der abhängigen Variablenvarianz durch das Regressionsmodell interpretiert werden.
- % Abweichung, die durch das lokale im Vergleich zum globalen Modell erklärt wird: Dieser Anteil ist eine Möglichkeit, die Vorteile des Umstiegs von einem globalen Modell (GLR) auf ein lokales Regressionsmodell (GWR) zu beurteilen, indem die Restsumme von Quadraten des lokalen Modells mit der Restsumme von Quadraten des globalen Modells verglichen wird. Der Wert variiert von 0,0 bis 1,0, wobei höhere Werte angeben, dass das lokale Regressionsmodell besser abgeschnitten hat als ein globales Modell.
- AICc: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AICc-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AICc ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AICc-Werte für zwei Modelle um mehr als 3 unterscheiden, wird das Modell mit dem niedrigeren AICc-Wert als besser betrachtet. Das Vergleichen des AICc-Werts aus GWR mit dem AICc-Wert aus OLS ist eine Möglichkeit, um die Vorteile des Umsteigens von einem globalen Modell (OLS) auf ein lokales Regressionsmodell (GWR) zu beurteilen.
- Sigma-Squared: Dieser Wert ist die normalisierte Restsumme von Quadraten, wobei die Restsumme von Quadraten durch die effektiven Freiheitsgrade des Residuums dividiert wird. Dies ist die Least-Squares-Schätzung der Varianz (Quadrat der Standardabweichung) für die Residuen. Kleinere Werte dieser Statistik sind vorzuziehen. Sigma-Squared wird für AICc-Berechnungen verwendet.
- Sigma-Squared – MLE: Dies ist die Maximum-Likelihood-Schätzung (Maximum Likelihood Estimate, MLE) der Varianz (Quadrat der Standardabweichung) für die Residuen. Kleinere Werte dieser Statistik sind vorzuziehen. Zur Berechnung dieses Wertes wird die Restsumme von Quadraten durch die Anzahl der Eingabe-Features dividiert.
- Effektive Freiheitsgrade: Dieser Wert spiegelt einen Kompromiss zwischen der Varianz der angepassten Werte und der Verzerrung in den Koeffizientenschätzungen wider und steht im Zusammenhang mit der ausgewählten Nachbarschaftsgröße. Da sich die Nachbarschaft der Unendlichkeit nähert, nähern sich die geographischen Gewichtungen für jedes Feature dem Wert 1, und die Koeffizientenschätzungen liegen sehr nah an den Schätzungen für ein globales GLR-Modell. Bei sehr großen Nachbarschaften nähert sich die effektive Anzahl von Koeffizienten der tatsächlichen Anzahl. Lokale Koeffizientenschätzungen weisen eine kleine Varianz auf, sind aber recht stark verzerrt. Umgekehrt nähern sich die geographischen Gewichtungen für jedes Feature dem Wert Null, wenn die Nachbarschaft kleiner wird und sich Null nähert, mit Ausnahme des Regressionspunkts selbst. Bei sehr kleinen Nachbarschaften entspricht die effektive Anzahl der Koeffizienten der Anzahl der Beobachtungen. Lokale Koeffizientenschätzungen weisen eine große Varianz, jedoch nur eine geringe Verzerrung auf. Die effektive Anzahl wird verwendet, um zahlreiche andere Diagnosemessungen zu berechnen.
- Angepasster kritischer Wert von Pseudo-T-Statistiken: Dies ist der angepasste kritische Wert, mit dem die statistische Signifikanz der Koeffizienten in einem zweiseitigen T-Test mit einer Konfidenz von 95 Prozent getestet werden. Der Wert entspricht einem Signifikanzniveau (Alpha) von 0,05 geteilt durch die effektiven Freiheitsgrade. Diese Anpassung steuert die familienweise Fehlerrate (FWER) der Signifikanz der erklärenden Variablen.
Ausgabediagramme
Der Bereich Inhalt enthält eine Scatterplotmatrix (mit bis zu 19 Variablen) sowie ein Histogramm des abweichenden Residuums und der Normalverteilungslinie.
Weitere Hinweise und Tipps zur Implementierung
In globalen Regressionsmodellen wie GLR sind die Ergebnisse unzuverlässig, wenn zwei oder mehr Variablen Multikollinearität aufweisen (also wenn zwei oder mehr Variablen redundant sind oder das Gleiche aussagen). Das Werkzeug Geographisch gewichtete Regression erstellt eine lokale Regressionsgleichung für jedes Feature im Dataset. Wenn die Werte für eine bestimmte erklärende Variable zur räumlichen Cluster-Bildung neigen, treten wahrscheinlich Probleme mit lokaler Multikollinearität auf. Der Bedingungswert im Parameter Ausgabe-Features gibt an, wann Ergebnisse aufgrund von lokaler Multikollinearität instabil sind. Als allgemeine Faustregel gilt: Betrachten Sie Ergebnisse für Features mit einem Bedingungswert größer als 30, gleich NULL oder (für Shapefiles) gleich -1.7976931348623158e+308 skeptisch. Der Bedingungswert ist an den Maßstab angepasst, um die Anzahl der erklärenden Variablen im Modell zu korrigieren. Dies ermöglicht einen direkten Vergleich des Bedingungswertes zwischen Modellen mit einer unterschiedlichen Anzahl von erklärenden Variablen.
Modellentwurfsfehler weisen oft auf globale oder lokale Multikollinearität hin. Um die Problemursache zu ermitteln, führen Sie das Modell mit GLR aus, und untersuchen Sie den VIF-Wert für jede erklärende Variable. Wenn einige der VIF-Werte sehr groß sind (z. B. größer als 7,5), verhindert die globale Multikollinearität die Berechnung mit dem GWR-Werkzeug. Jedoch ist wahrscheinlich eher eine lokale Multikollinearität das Hauptproblem. Versuchen Sie, eine thematische Karte für jede erklärende Variable zu erstellen. Wenn die Karte räumliche Cluster-Bildung von identischen Werten erkennen lässt, entfernen Sie diese Variablen aus dem Modell oder kombinieren Sie diese Variablen mit anderen erklärenden Variablen, um die Wertvariation zu erhöhen. Wenn Sie beispielsweise Immobilienwerte modellieren und für Schlafzimmer wie auch Badezimmer über Variablen verfügen, ist es möglicherweise sinnvoll, diese zu kombinieren, um die Wertvariation zu erhöhen oder sie als kombinierte Größe darzustellen. Vermeiden Sie beim Erstellen von GWR-Modellen die Verwendung von künstlichen oder binären Variablen für räumliche Ordnungen mit Gauß- oder Poisson-Modelltypen, von Kategorievariablen bzw. nominalen Variablen für räumliche Cluster-Bildung mit logistischen Modelltypen oder von Variablen mit wenigen möglichen Werten.
Zudem können Probleme mit lokaler Multikollinearität verhindern, dass das Tool das optimale Entfernungsband bzw. die optimale Anzahl der Nachbarn berechnet. Geben Sie manuelle Intervalle, ein benutzerdefiniertes Entfernungsband oder eine bestimmte Anzahl von Nachbarn an. Untersuchen Sie anschließend die Bedingungswerte in der Ausgabe-Feature-Class, um zu ermitteln, bei welchen Features Probleme aufgrund von lokaler Multikollinearität vorliegen (Bedingungswerte größer als 30). Sie können diese Problem-Features beim Ermitteln einer optimalen Entfernung bzw. einer optimalen Anzahl an Nachbarn vorübergehend entfernen. Beachten Sie, dass Ergebnisse, die mit Bedingungswerten von größer als 30 verknüpft sind, nicht zuverlässig sind.
Parameterschätzungen und vorhergesagte Werte für GWR werden anhand der folgenden Funktion für räumliche Gewichtung berechnet: exp(-d^2/b^2). Diese Gewichtungsfunktion kann bei verschiedenen GWR-Softwareimplementierungen unterschiedlich sein. Demzufolge stimmen Ergebnisse des Werkzeugs GWR möglicherweise nicht exakt mit den Ergebnissen anderer GWR-Softwarepakete überein.
Zusätzliche Quellen
Es gibt zahlreiche Ressourcen, mit denen Sie mehr über die generalisierte lineare Regression und die geographisch gewichtete Regression erfahren können. Beginnen Sie mit Grundlagen zur Regressionsanalyse, oder arbeiten Sie das Lernprogramm zur Regressionsanalyse durch.
Folgende Ressourcen sind ebenfalls hilfreich:
Brunsdon, C., Fotheringham, A. S., & Charlton, M. E. (1996). "Geographically weighted regression: a method for exploring spatial nonstationarity". Geographical Analysis, 28(4), 281-298.
Fotheringham, Stewart A., Chris Brunsdon, and Martin Charlton. Geographically Weighted Regression: The analysis of spatially varying relationships. John Wiley & Sons, 2002.
Gollini, I., Lu, B., Charlton, M., Brunsdon, C., & Harris, P. (2015). "GWmodel: An R Package For Exploring Spatial Heterogeneity Using Geographically Weighted Models." Journal of Statistical Software, 63(17), 1–50.https://doi.org/10.18637/jss.v063.i17.
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.
Nakaya, T., Fotheringham, A. S., Brunsdon, C., & Charlton, M. (2005). "Geographically weighted Poisson regression for disease association mapping". Statistics in medicine, 24(17), 2695-2717.
Páez, A., Farber, S., & Wheeler, D. (2011). "A simulation-based study of geographically weighted regression as a method for investigating spatially varying relationships". Environment and Planning A, 43(12), 2992-3010.