Funktionsweise der generalisierten linearen Regression

Die Regressionsanalyse ist die wohl am häufigsten verwendete Statistik in den Sozialwissenschaften. Regression wird zur Auswertung von Beziehungen zwischen zwei oder mehreren Feature-Attributen verwendet. Durch die Identifizierung und Messung von Beziehungen können Sie besser verstehen, welche Ereignisse an einem Ort auftreten, vorhersagen, wo Ereignisse eintreten könnten, oder Ursachen für das Auftreten von Ereignissen an bestimmten Orten untersuchen. Die generalisierte lineare Regression erstellt ein Modell der Variablen oder des Prozesses, die bzw. den Sie zu verstehen oder vorherzusagen versuchen; das Modell kann verwendet werden, um die Beziehungen zwischen den Features zu untersuchen und zu quantifizieren.

Hinweis:

Dieses Werkzeug ist neu in ArcGIS Pro 2.3 und beinhaltet die Funktionalität Kleinste Quadrate (Ordinary Least Squares, OLS). Dieses Werkzeug enthält die zusätzlichen Modelle "Anzahl (Poisson)" und "Binär (Logistisch)", dank derer das Werkzeug für ein breiteres Spektrum von Problemen eingesetzt werden kann.

Potenzielle Anwendungsbereiche

Die generalisierte lineare Regression bietet eine Vielzahl von Anwendungsmöglichkeiten, z. B. die folgenden:

  • Welche demografischen Eigenschaften tragen zu hohen Nutzungsraten für öffentliche Transportmittel bei?
  • Besteht eine positive Beziehung zwischen Vandalismus und Einbrüchen?
  • Mit welchen Variablen kann das Anrufvolumen für Notfallnummern effektiv vorhergesagt werden? Wie sieht angesichts der Vorhersagen für die Zukunft die erwartete Nachfrage für Notdienste aus?
  • Welche Variablen wirken sich auf niedrige Geburtenraten aus?

Eingaben

Um das Werkzeug Generalisierte lineare Regression auszuführen, geben Sie Eingabe-Features mit einem Feld an, das die abhängige Variable darstellt, sowie einem oder mehreren Feldern, die die erklärenden Variablen darstellen. Optional können Sie auch Entfernungs-Features angeben. Diese Felder müssen numerisch sein und einen Wertebereich aufweisen. Features, bei denen Werte in der abhängigen oder erklärenden Variablen fehlen, werden von der Analyse ausgeschlossen. Sie können jedoch mit dem Werkzeug Fehlende Werte ausfüllen das Dataset vervollständigen, bevor Sie das Werkzeug Generalisierte lineare Regression ausführen. Als Nächstes müssen Sie auf der Basis der zu analysierenden Daten einen Modelltyp auswählen. Es ist wichtig, ein geeignetes Modell für Ihre Daten zu verwenden. Im Folgenden werden die Modelltypen beschrieben, und Sie erfahren, wie Sie das geeignete Modell für Ihre Daten ermitteln können.

Modelltyp

Die generalisierte lineare Regression stellt drei Typen von Regressionsmodellen bereit: kontinuierlich, binär und Anzahl. Die entsprechenden Regressionstypen werden in der statistischen Literatur als Gauß-, logistische und Poisson-Regression bezeichnet. Bei der Auswahl des Modelltyps für Ihre Analyse sollten Sie berücksichtigen, wie Ihre abhängige Variable gemessen oder zusammengefasst wurde und welchen Wertebereich sie umfasst.

Kontinuierlich (Gauß)

Verwenden Sie Kontinuierlich (Gauß) als Modelltyp, wenn Ihre abhängige Variable einen großen Wertebereich haben kann, z. B. Temperaturen oder Umsätze. Im Idealfall ist Ihre abhängige Variable normal verteilt. Sie können für Ihre abhängige Variable ein Histogramm erstellen, um zu überprüfen, ob es normal verteilt ist. Ist das Histogramm eine symmetrische Glockenkurve, verwenden Sie den Gauß-Modelltyp. Die meisten Werte bilden ein Cluster in der Nähe des Mittelwerts, und es gibt nur wenige Werte, die stark vom Mittelwert abweichen. Auf der linken Seite des Mittelwerts sollten sich ebenso viele Werte befinden wie auf der rechten Seite (Mittel- und Medianwert sind für die Verteilung identisch). Wenn Ihre abhängige Variable nicht normal verteilt ist, haben Sie die Möglichkeit, diese als binäre Variable zu reklassifizieren. Ist Ihre abhängige Variable beispielsweise das durchschnittliche Haushaltseinkommen, können Sie diese in eine binäre Variable umcodieren, wobei 1 angibt, dass der Wert über dem nationalen Durchschnitt liegt, und 0, dass er unter dem Durchschnitt liegt. Ein kontinuierliches Feld kann mit der Hilfsfunktion Reklassifizieren des Werkzeugs Feld berechnen als binäres Feld reklassifiziert werden.

Binär (Logistisch)

Verwenden Sie Binär (Logistisch) als Modelltyp, wenn Ihre abhängige Variable einen von zwei möglichen Werten annehmen kann, z. B. Erfolg oder Misserfolg, Anwesenheit oder Abwesenheit. Bei dem Feld mit der abhängigen Variable muss es sich um ein numerisches Feld handeln, das nur Einsen und Nullen enthält. Die Ergebnisse lassen sich einfacher interpretieren, wenn Sie das relevante Ereignis, z. B. Erfolg oder die Anwesenheit eines Tieres, als 1 codieren, da die Regression die Wahrscheinlichkeit von 1 modelliert. Ihre Daten sollten Variationen von Einsen und Nullen aufweisen. Wenn Sie für Ihre abhängige Variable ein Histogramm erstellen, sollte dieses nur Einsen und Nullen enthalten.

Anzahl (Poisson)

Die Verwendung von Anzahl (Poisson) als Modelltyp sollten Sie in Betracht ziehen, wenn Ihre abhängige Variable diskontinuierlich ist und die Anzahl eines bestimmten Ereignisses darstellt, z. B. die Anzahl von Straftaten. Anzahlmodelle können auch verwendet werden, wenn Ihre abhängige Variable ein Verhältnis darstellt und es sich bei dem Nenner des Verhältnisses um einen Festwert handelt, z. B. Umsatz pro Monat oder die Anzahl der krebskranken Personen pro 10.000 Einwohner. Das Modell Anzahl (Poisson) geht davon aus, dass der Mittelwert und die Abweichung der abhängigen Variablen gleich sind und die Werte Ihrer abhängigen Variablen weder negativ sind noch Dezimalstellen enthalten.

Entfernungs-Features

Obwohl die generalisierte lineare Regression keine inhärent räumliche Methode ist, können Sie die räumlichen Möglichkeiten in Ihrer Analyse mithilfe von Entfernungs-Features nutzen. Bei der Modellierung der Performance einer Reihe von Einzelhandelsgeschäften könnte z. B. eine Variable, die die Entfernung zu Autobahnauffahrten oder zum nächsten Mitbewerber darstellt, für die Erstellung genauer Vorhersagen entscheidend sein. Ähnlich ist bei der Modellierung der Luftqualität eine erklärende Variable für die Darstellung der Entfernung zu den größten Verschmutzungsquellen oder den Hauptverkehrsstraßen wichtig. Entfernungs-Features dienen zum automatischen Erstellen erklärender Variablen durch die Berechnung der Entfernung zwischen bereitgestellten Features und Eingabe-Features. Entfernungen werden von den einzelnen erklärenden Entfernungs-Features der Eingabe bis zu den Eingabe-Features berechnet. Wenn die erklärenden Entfernungs-Features der Eingabe Polygone oder Linien sind, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet. Allerdings werden Entfernungen bei Polygonen und Linien anders berechnet. Weitere Informationen hierzu finden Sie unter So wird die Entfernung mit Proximity-Werkzeugen berechnet.

Prognose

Mit dem erstellten Regressionsmodell können Sie Vorhersagen für andere Features (Punkte oder Polygone) treffen. Für die Erstellung dieser Vorhersagen ist es erforderlich, dass alle vorherzusagenden Positionen Werte für jede der angegebenen erklärenden Variablen sowie ggf. vorhandene erklärende Entfernungs-Features für den Interessenbereich enthalten. Stimmen die Feldnamen aus den Parametern Eingabe-Features und Vorherzusagende Positionen nicht überein, wird ein Parameter für den Variablenabgleich bereitgestellt. Beim Abgleich der erklärenden Variablen müssen die Felder aus den Eingabe-Features und die Parameter für die vorherzusagenden Positionen den gleichen Typ aufweisen (z. B. müssen Double-Felder mit Double-Feldern abgeglichen werden). Ggf. vorhandene erklärende Entfernungs-Features müssen ebenfalls abgeglichen werden.

Ausgaben

Das Werkzeug Generalisierte lineare Regression erzeugt verschiedene Ausgaben. Während der Ausführung des Werkzeugs werden unten im Bereich Geoverarbeitung eine Zusammenfassung des GLR-Modells sowie statistische Zusammenfassungen in Form einer Meldung angezeigt. Um auf die Meldungen zuzugreifen, bewegen Sie den Mauszeiger über die Fortschrittsleiste, klicken Sie auf die Pop-out-Schaltfläche, oder erweitern Sie den Abschnitt "Meldungen" im Bereich Geoverarbeitung. Sie können auch über den Geoverarbeitungsverlauf auf Meldungen einer früheren Ausführung des Werkzeugs Generalisierte lineare Regression zugreifen. Darüber hinaus generiert das Werkzeug Ausgabe-Features, Diagramme sowie optional vorhergesagte Ausgabe-Features. Die Ausgabe-Features sowie verknüpfte Diagramme werden automatisch dem Bereich Inhalt hinzugefügt, wobei ein Hot/Cold-Rendering-Schema zur Modellierung von Residuen angewendet wird. Die generierten Diagnosen und Diagramme hängen vom Modelltyp der Eingabe-Features ab und werden nachfolgend beschrieben.

Kontinuierlich (Gauß)

Interpretieren von Meldungen und Diagnosen

  • AICc: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AICc-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AICc ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AICc-Werte für zwei Modelle um mehr als 3 unterscheiden, wird das Modell mit dem niedrigeren AICc-Wert als besser betrachtet. Das Vergleichen des AICc-Wertes aus der GWR mit dem AICc-Wert aus der GLR ist eine Möglichkeit, die Vorteile eines Umstiegs von einem globalen Modell (GLR) auf ein lokales Regressionsmodell (GWR) zu beurteilen.
  • R2: Der R-Squared-Wert ist ein Messwert für die Qualität der Übereinstimmung. Der Wert variiert von 0.0 bis 1.0, wobei höhere Werte vorzuziehen sind. Er kann als Anteil der abhängigen Variablenvarianz durch das Regressionsmodell interpretiert werden. Der Nenner für die Berechnung von R2 ist die Summe von abhängigen Variablenwerten im Quadrat. Durch Hinzufügen einer zusätzlichen erklärenden Variable zum Modell wird nicht der Nenner, sondern der Zähler geändert; dadurch entsteht der Eindruck, dass die Modelleignung verbessert wird, was aber möglicherweise nicht der Fall ist. Weitere Informationen erhalten Sie weiter unten unter "Adjusted R-Squared".
  • Adjusted R-Squared: Aufgrund des oben beschriebenen Problems mit dem R2-Wert werden durch Berechnungen des angepassten R-Squared-Wertes der Zähler und der Nenner nach ihren Freiheitsgraden normalisiert. Dadurch wird die Anzahl der Variablen in einem Modell ausgeglichen, und folglich ist der angepasste R2-Wert fast immer kleiner als der R2-Wert. Indem Sie diese Anpassung vornehmen, geht jedoch die Interpretation des Werts als Anteil der erläuterten Varianz verloren. Bei der GWR ist die effektive Anzahl von Freiheitsgraden eine Funktion der verwendeten Nachbarschaft, sodass die Anpassung im Vergleich zu einem globalen Modell wie der GLR möglicherweise stark ausgeprägt ist. Aus diesem Grund wird AICc zum Vergleichen von Modellen vorgezogen.
  • Joint F- und Joint Wald-Statistiken: Die Joint F- und Joint Wald-Statistiken sind Messwerte für die allgemeine statistische Signifikanz von Modellen. Die Joint F-Statistic ist nur vertrauenswürdig, wenn die Koenker-Statistik (BP-Statistik) (siehe unten) nicht statistisch signifikant ist. Wenn die Koenker-(BP)-Statistik signifikant ist, ziehen Sie die Joint Wald-Statistik heran, um die allgemeine Modellsignifikanz zu ermitteln. Die Nullhypothese für beide Tests besagt, dass die erklärenden Variablen im Modell nicht wirksam sind. Ein Konfidenzniveau von 95 Prozent bedeutet, dass ein p-Wert (Wahrscheinlichkeit) kleiner als 0,05 für ein statistisch signifikantes Modell steht.
  • Koenker-(BP)-Statistik (Koenkers t-verteilte Breusch-Pagan-Statistik): Mit diesem Test wird ermittelt, ob die erklärenden Variablen im Modell über eine konsistente Beziehung zur abhängigen Variable sowohl im geographischem Raum als auch im Datenbereich verfügen. Wenn das Modell im geographischem Raum konsistent ist, verhalten sich die durch die erklärenden Variablen dargestellten räumlichen Prozesse genauso wie überall im Untersuchungsgebiet (die Prozesse sind stationär). Wenn das Modell im Datenbereich konsistent ist, ändert sich die Variation in der Beziehung zwischen vorhergesagten Werten und jeder erklärenden Variable nicht bei Änderungen der Beträge der erklärenden Variablen (es gibt keine Heteroskedastizität im Modell). Angenommen, Sie möchten Verbrechen vorhersagen, und eine der erklärenden Variablen ist das Einkommen. Das Modell würde eine problematische Heteroskedastizität aufweisen, wenn die Vorhersagen für Orte mit niedrigem mittleren Einkommen genauer wären als für Orte mit hohem mittleren Einkommen. Die NULL-Hypothese für diesen Test ist, dass das Modell stationär ist. Ein Konfidenzniveau von 95 Prozent bedeutet, dass ein p-Wert (Wahrscheinlichkeit) kleiner als 0,05 statistisch signifikante Heteroskedastizität oder Nichtstationarität angibt. Wenn die Ergebnisse dieses Tests statistisch signifikant sind, ziehen Sie die robusten Koeffizientenstandardfehler und Wahrscheinlichkeiten heran, um die Effektivität der einzelnen erklärenden Variablen zu bewerten. Regressionsmodelle mit statistisch signifikanter Nichtstationarität sind häufig gute Kandidaten für die GWR-Analyse.
  • Jarque-Bera: Diese Statistik gibt an, ob die Residuen (die beobachteten oder bekannten abhängigen Variablenwerte abzüglich der vorhergesagten oder geschätzten Werte) normal verteilt sind. Die Nullhypothese für diesen Test besagt, dass die Residuen normal verteilt sind, wenn Sie also ein Histogramm für diese Residuen erstellen würden, würden diese eine klassische Glockenkurve bzw. eine Gauß'sche Verteilung darstellen. Wenn der p-Wert (Wahrscheinlichkeit) für diesen Test klein ist (z. B. kleiner als 0,05 für ein Konfidenzniveau von 95), werden die Residuen nicht normal verteilt, was auf ein verzerrtes Modell hinweist. Wenn zudem eine statistisch signifikante räumliche Autokorrelation Ihrer Residuen vorliegt (siehe unten), liegt die Ursache für die Verzerrung möglicherweise an einer falschen Angabe des Modells (eine wichtige Modellvariable fehlt). Ergebnisse aus einem falsch angegebenen OLS-Modell sind nicht vertrauenswürdig. Ein statistisch signifikanter Jarque-Bera-Test ist auch möglich, wenn Sie nicht lineare Beziehungen modellieren, wenn Ihre Daten einflussreiche Ausreißer enthalten oder wenn eine starke Heteroskedastizität vorliegt.

Ausgabediagramme

Die mit diesem Werkzeug erstellten Diagramme für den Modelltyp Kontinuierlich umfassen eine Scatterplotmatrix der im Modell verwendeten Variablen, ein Histogramm der Modellresiduen sowie einen Plot der Residuen und Vorhersagen.

Binär (Logistisch)

Interpretieren von Meldungen und Diagnosen

  • AICc: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AICc-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AICc ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AICc-Werte für zwei Modelle um mehr als 3 unterscheiden, wird das Modell mit dem niedrigeren AICc-Wert als besser betrachtet. Das Vergleichen des AICc-Wertes aus der GWR mit dem AICc-Wert aus der GLR ist eine Möglichkeit, die Vorteile eines Umstiegs von einem globalen Modell (GLR) auf ein lokales Regressionsmodell (GWR) zu beurteilen.
  • % erklärte Abweichung: Der Anteil der abhängigen Variablenvarianz, der von den erklärenden Variablen berücksichtigt wird.
  • Joint Wald-Statistik: Die Joint Wald-Statistik ist ein Messwert für die allgemeine statistische Signifikanz von Modellen. Die Nullhypothese für diesen Test besagt, dass die erklärenden Variablen im Modell nicht wirksam sind. Ein Konfidenzniveau von 95 Prozent bedeutet, dass ein p-Wert (Wahrscheinlichkeit) kleiner als 0,05 für ein statistisch signifikantes Modell steht.

Ausgabediagramme

Die mit diesem Werkzeug erstellten Diagramme für den Modelltyp Binär umfassen eine Scatterplotmatrix der im Modell verwendeten Variablen, einen Boxplot, der die Verteilung der erklärenden Variablen darstellt, ein Histogramm der Modellresiduen und eine Vorhersageleistungstabelle.

Anzahl (Poisson)

Interpretieren von Meldungen und Diagnosen

  • AICc: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AICc-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AICc ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AICc-Werte für zwei Modelle um mehr als 3 unterscheiden, wird das Modell mit dem niedrigeren AICc-Wert als besser betrachtet. Das Vergleichen des AICc-Wertes aus der GWR mit dem AICc-Wert aus der GLR ist eine Möglichkeit, die Vorteile eines Umstiegs von einem globalen Modell (GLR) auf ein lokales Regressionsmodell (GWR) zu beurteilen.
  • % erklärte Abweichung: Der Anteil der abhängigen Variablenvarianz, der von den erklärenden Variablen berücksichtigt wird.
  • Joint Wald-Statistik: Die Joint Wald-Statistik ist ein Messwert für die allgemeine statistische Signifikanz von Modellen. Die Nullhypothese für diesen Test besagt, dass die erklärenden Variablen im Modell nicht wirksam sind. Ein Konfidenzniveau von 95 Prozent bedeutet, dass ein p-Wert (Wahrscheinlichkeit) kleiner als 0,05 für ein statistisch signifikantes Modell steht.

Ausgabediagramme

Die mit diesem Werkzeug erstellten Diagramme für den Modelltyp Anzahl umfassen eine Scatterplotmatrix der im Modell verwendeten Variablen, ein Histogramm der Modellresiduen sowie einen Plot der Residuen und Vorhersagen.

Zusätzliche Ressourcen

Es gibt zahlreiche Ressourcen, mit denen Sie mehr über die generalisierte lineare Regression und die geographisch gewichtete Regression erfahren können. Beginnen Sie mit Grundlagen zur Regressionsanalyse, oder arbeiten Sie das Lernprogramm zur Regressionsanalyse durch.

Folgende Ressourcen sind ebenfalls hilfreich:

Fox, J. (1991). Regression Diagnostics. Sage, Newbury Park, CA.

Menard, S. (2002). Applied logistic regression analysis (Vol. 106). Sage.

Nelder, J. A. und Wedderburn, R. W. M. (1972) Generalized linear models. J. R. Statist. Soc. A, 135, 370 - 384.