Generalisierte lineare Regression (GLR) (Spatial Statistics)

Zusammenfassung

Führt eine generalisierte lineare Regression (GLR) aus, um Vorhersagen zu generieren oder eine abhängige Variable in Hinsicht auf ihre Beziehung zu einem Satz erklärender Variablen zu modellieren. Dieses Werkzeug kann für kontinuierliche (OLS) und binäre (logistische) Modelle sowie für Anzahlmodelle (Poisson) verwendet werden.

Weitere Informationen zur Funktionsweise der generalisierten linearen Regression

Abbildung

Generalisierte lineare Regression

Verwendung

  • Primäre Ausgabe dieses Werkzeugs ist eine Berichtsdatei, die während der Ausführung des Werkzeugs in Form von Meldungen unten im Bereich Geoverarbeitung angezeigt wird. Um auf die Meldungen zuzugreifen, zeigen Sie mit der Maus auf die Fortschrittsleiste, klicken Sie auf die Pop-out-Schaltfläche, oder erweitern Sie den Abschnitt "Meldungen" im Bereich Geoverarbeitung. Sie können über den Geoverarbeitungsverlauf auch auf die Meldungen für ein zuvor ausgeführtes Werkzeug zugreifen.

  • Verwenden Sie den Parameter Eingabe-Features mit einem Feld, das das Phänomen darstellt, das Sie modellieren (die abhängige Variable), und einem oder mehreren Feldern, die die erklärenden Variablen darstellen. Diese Felder müssen numerisch sein und einen Wertebereich aufweisen. Features, bei denen Werte in der abhängigen oder erklärenden Variablen fehlen, werden von der Analyse ausgeschlossen. Sie können jedoch mit dem Werkzeug Fehlende Werte ausfüllen das Dataset vervollständigen, bevor Sie das Werkzeug ausführen.

  • Das Werkzeug Generalisierte lineare Regression erzeugt darüber hinaus Ausgabe-Features mit Koeffizienteninformationen und Diagnosen. Die Ausgabe-Feature-Class wird dem Inhaltsverzeichnis automatisch hinzugefügt, wobei ein Rendering-Schema zur Modellierung von Residuen angewendet wird. Eine vollständige Erläuterung der einzelnen Ausgaben finden Sie im Thema Funktionsweise des Werkzeugs "Generalisierte lineare Regression".

  • Die für den Parameter Modelltyp gewählte Option hängt von den Daten ab, die Sie modellieren. Es ist wichtig, das richtige Modell für die Analyse zu verwenden, um mit der Regressionsanalyse genaue Ergebnisse zu erhalten.

    Modell-Datentypen "Kontinuierlich", "Anzahl" und "Binär"

  • Ergebnisse der Modellzusammenfassung und Diagnosen werden in das Meldungsfenster eingegeben, und Diagramme werden unterhalb der Ausgabe-Feature-Class erstellt. Die gemeldeten Diagnosen und Diagramme hängen vom Parameter Modelltyp ab. Sie werden ausführlich im Thema Funktionsweise des Werkzeugs Generalisierte lineare Regression erläutert.

  • Die Ergebnisse der GLR sind jedoch nur dann zuverlässig, wenn die Daten und das Regressionsmodell allen Annahmen entsprechen, die für diese Methode erforderlich sind. Überprüfen Sie alle resultierenden Diagnosen und die Tabelle Allgemeine Regressionsprobleme, Folgen und Lösungen unter Grundlagen zur Regressionsanalyse, um sicherzustellen, dass Ihr Modell ordnungsgemäß angegeben wurde.

  • Die Parameter Abhängige Variable und Erklärende Variable(n) sollten numerische Felder sein, die eine Vielzahl von Werten enthalten. Dieses Werkzeug kann keine Berechnung vornehmen, wenn die Variablen alle dieselben Werte aufweisen (wenn beispielsweise alle Werte für ein Feld 9,0 betragen).

  • Erklärende Variablen können aus Feldern stammen oder mit dem Parameter Erklärende Entfernungs-Features aus Entfernungs-Features berechnet werden. Sie können eine Kombination dieser erklärenden Variablentypen verwenden, jedoch ist mindestens ein Typ erforderlich. Erklärende Entfernungs-Features dienen der automatischen Erstellung erklärender Variablen, die eine Entfernung zwischen den bereitgestellten Features und Eingabe-Features darstellen. Entfernungen werden von den einzelnen erklärenden Entfernungs-Features der Eingabe bis zu den Eingabe-Features berechnet. Wenn die erklärenden Entfernungs-Features der Eingabe Polygone oder Linien sind, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet. Allerdings werden Entfernungen bei Polygonen und Linien anders berechnet. Weitere Informationen hierzu finden Sie unter So wird die Entfernung mit Proximity-Werkzeugen berechnet.

  • Es wird empfohlen, projizierte Daten zu verwenden, wenn erklärende Entfernungs-Features eine Komponente der Analyse sind. Es wird dringend empfohlen, dass die Daten in einem projizierten Koordinatensystem (und nicht in einem geographischen Koordinatensystem) vorliegen, damit Entfernungen genau gemessen werden.

  • Wenn eine statistisch signifikante räumliche Autokorrelation der Regressionsresiduen auftritt, wird das GLR-Modell als falsch angegeben angesehen. Die GLR-Ergebnisse sind infolgedessen unzuverlässig. Stellen Sie sicher, dass Sie das Werkzeug Räumliche Autokorrelation für die Regressionsresiduen ausführen, um dieses potenzielle Problem zu beheben. Die statistisch signifikante räumliche Autokorrelation in den Regressionsresiduen kann darauf hinweisen, dass eine oder mehrere wichtige erklärende Variablen im Modell fehlen.

  • Sie sollten die in Ihren Regressionsresiduen vorhandenen zu hohen und zu niedrigen Vorhersagen visuell überprüfen, um festzustellen, ob sie Aufschluss über potenzielle fehlende Variablen in Ihrem Regressionsmodell geben. Es kann hilfreich sein, eine Hot-Spot-Analyse für die Residuen durchzuführen, um so die räumliche Cluster-Bildung der zu hohen und zu niedrigen Vorhersagen besser visualisieren zu können.

  • Wenn die Modellierung von nichtstationären Variablen mithilfe eines globalen Modells (wie GLR) zu falschen Angaben führt, kann das Werkzeug Geographisch gewichtete Regression verwendet werden, um die Vorhersagen zu verbessern und die Nichtstationarität (regionale Variation) der erklärenden Variablen besser zu verstehen.

  • Wenn das Ergebnis einer Berechnung unendlich oder nicht definiert ist, wird für Nicht-Shapefiles NULL ausgegeben. Für Shapefiles lautet die Ausgabe -DBL_MAX (beispielsweise –1,7976931348623158e+308).

  • Vorsicht:

    Denken Sie beim Verwenden von Shapefiles daran, dass diese keine NULL-Werte speichern können. Werkzeuge oder andere Verfahren zur Erstellung von Shapefiles aus Nicht-Shapefile-Eingaben speichern oder interpretieren NULL-Werte möglicherweise als Wert 0. In manchen Fällen werden NULL-Werte in Shapefiles als sehr große negative Werte gespeichert. Dies kann zu unerwarteten Ergebnissen führen. Weitere Informationen finden Sie unter Überlegungen zur Geoverarbeitung für die Shapefile-Ausgabe.

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Features

Die Feature-Class, die die abhängigen und unabhängigen Variablen enthält.

Feature Layer
Abhängige Variable

Das numerische Feld mit den beobachteten Werten, die modelliert werden sollen.

Field
Modelltyp

Gibt den Typ der Daten an, die modelliert werden.

  • Kontinuierlich (Gauß) dependent_variable ist kontinuierlich. Das Gauß'sche Modell wird verwendet, und das Werkzeug führt eine Regression des Typs "Kleinste Quadrate" durch.
  • Binär (Logistisch) dependent_variable stellt das Vorhandensein oder Fehlen dar. Dies können herkömmliche Einsen und Nullen oder kontinuierliche Daten sein, die basierend auf einem Schwellenwert neu codiert wurden. Das logistische Regressionsmodell wird verwendet.
  • Anzahl (Poisson)dependent_variable ist diskontinuierlich und stellt Ereignisse wie die Anzahl von Straftaten, Krankheiten oder Verkehrsunfälle dar. Das Poisson-Regressionsmodell wird verwendet.
  • Kontinuierlich (Gauß) Die abhängige Variable ist kontinuierlich. Das Gauß'sche Modell wird verwendet, und das Werkzeug führt eine Regression des Typs "Kleinste Quadrate" durch.
  • Binär (Logistisch) Die abhängige Variable stellt das Vorhandensein oder Fehlen dar. Dies können herkömmliche Einsen und Nullen oder kontinuierliche Daten sein, die basierend auf einem Schwellenwert neu codiert wurden. Das logistische Regressionsmodell wird verwendet.
  • Anzahl (Poisson)Die abhängige Variable ist diskontinuierlich und stellt Ereignisse wie die Anzahl von Straftaten, Krankheiten oder Verkehrsunfälle dar. Das Poisson-Regressionsmodell wird verwendet.
String
Ausgabe-Features

Die neue Feature-Class mit den Schätzungen und Residuen abhängiger Variablen.

Feature Class
Erklärende Variable(n)

Eine Liste von Feldern, die unabhängige erklärende Variablen im Regressionsmodell darstellen.

Field
Erklärende Entfernungs-Features
(optional)

Erstellt automatisch erklärende Variablen durch die Berechnung der Entfernung zwischen bereitgestellten Features und Eingabe-Features. Entfernungen werden von den einzelnen erklärenden Entfernungs-Features der Eingabe bis zu den Eingabe-Features berechnet. Wenn die erklärenden Entfernungs-Features der Eingabe Polygone oder Linien sind, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet.

Feature Layer
Vorherzusagende Positionen
(optional)

Eine Feature-Class mit Features, die Positionen darstellen, an denen Schätzungen berechnet werden. Jedes Feature im Dataset sollte Werte für alle angegebenen erklärenden Variablen enthalten. Die abhängige Variable für diese Features wird anhand des Modells geschätzt, das für die Eingabe-Feature-Class-Daten kalibriert wurde.

Feature Layer
Erklärende Variablen abgleichen
(optional)

Gleicht die erklärenden Variablen in Vorherzusagende Positionen mit den entsprechenden erklärenden Variablen von Eingabe-Feature-Class ab.

Value Table
Entfernungs-Features abgleichen
(optional)

Gleicht die Entfernungs-Features, die für die vorherzusagenden Positionen links angegeben wurden, mit den entsprechenden Entfernungs-Features für die Eingabe-Features rechts ab.

Value Table
Vorhergesagte Ausgabe-Features
(optional)

Die Ausgabe-Feature-Class zum Empfangen abhängiger Variablenschätzungen für jede vorherzusagende Position.

Feature Class

arcpy.stats.GeneralizedLinearRegression(in_features, dependent_variable, model_type, output_features, explanatory_variables, {distance_features}, {prediction_locations}, {explanatory_variables_to_match}, {explanatory_distance_matching}, {output_predicted_features})
NameErläuterungDatentyp
in_features

Die Feature-Class, die die abhängigen und unabhängigen Variablen enthält.

Feature Layer
dependent_variable

Das numerische Feld mit den beobachteten Werten, die modelliert werden sollen.

Field
model_type

Gibt den Typ der Daten an, die modelliert werden.

  • CONTINUOUS dependent_variable ist kontinuierlich. Das Gauß'sche Modell wird verwendet, und das Werkzeug führt eine Regression des Typs "Kleinste Quadrate" durch.
  • BINARY dependent_variable stellt das Vorhandensein oder Fehlen dar. Dies können herkömmliche Einsen und Nullen oder kontinuierliche Daten sein, die basierend auf einem Schwellenwert neu codiert wurden. Das logistische Regressionsmodell wird verwendet.
  • COUNTdependent_variable ist diskontinuierlich und stellt Ereignisse wie die Anzahl von Straftaten, Krankheiten oder Verkehrsunfälle dar. Das Poisson-Regressionsmodell wird verwendet.
String
output_features

Die neue Feature-Class mit den Schätzungen und Residuen abhängiger Variablen.

Feature Class
explanatory_variables
[explanatory_variables,...]

Eine Liste von Feldern, die unabhängige erklärende Variablen im Regressionsmodell darstellen.

Field
distance_features
[distance_features,...]
(optional)

Erstellt automatisch erklärende Variablen durch die Berechnung der Entfernung zwischen bereitgestellten Features und in_features. Entfernungen werden von den einzelnen distance_features der Eingabe zu den nächsten in_features berechnet. Wenn es sich bei distance_features der Eingabe um Polygone oder Linien handelt, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet.

Feature Layer
prediction_locations
(optional)

Eine Feature-Class mit Features, die Positionen darstellen, an denen Schätzungen berechnet werden. Jedes Feature im Dataset sollte Werte für alle angegebenen erklärenden Variablen enthalten. Die abhängige Variable für diese Features wird anhand des Modells geschätzt, das für die Eingabe-Feature-Class-Daten kalibriert wurde.

Feature Layer
explanatory_variables_to_match
[[Field from Prediction Locations, Field from Input Features],...]
(optional)

Gleicht die erklärenden Variablen in prediction_locations mit den entsprechenden erklärenden Variablen von in_features ab, Beispiel: [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]]

Value Table
explanatory_distance_matching
[[Prediction Distance Features, Input Explanatory Distance Features],...]
(optional)

Gleicht die Entfernungs-Features, die für features_to_predict links angegeben wurden, mit den entsprechenden Entfernungs-Features für in_features rechts ab, Beispiel: [["stores2010", "stores2000"], ["freeways2010", "freeways2000"]].

Value Table
output_predicted_features
(optional)

Die Ausgabe-Feature-Class zum Empfangen abhängiger Variablenschätzungen für jede prediction_location.

Die Ausgabe-Feature-Class zum Empfangen abhängiger Variablenschätzungen für jede vorherzusagende Position.

Feature Class

Codebeispiel

GeneralizedLinearRegression – Beispiel 1 (Python-Fenster)

Das folgende Skript veranschaulicht die Verwendung des Werkzeugs GeneralizedLinearRegression im Python-Fenster.

import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("landslides", "occurred",
                                 "BINARY", "out_features", 
                                 "eastness;northness;elevation;slope", 
                                 "rivers")
GeneralizedLinearRegression – Beispiel 2 (eigenständiges Skript)

Das folgende eigenständige Python-Skript veranschaulicht, wie Sie das Werkzeug GeneralizedLinearRegression verwenden.

# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, average household income and the
# distance to the central business district (CBD)
import arcpy
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("crime_counts", 
     "total_crimes", "COUNT", "out_features", "YRBLT;TOTPOP;AVGHINC", 
     "CBD", "prediction_locations", "YRBLT YRBLT;TOTPOP TOTPOP;AVGHINC AVGHINC", 
     "CBD CBD", "predicted_features")

Umgebungen

Sonderfälle

Lizenzinformationen

  • Basic: Begrenzt
  • Standard: Begrenzt
  • Advanced: Ja

Verwandte Themen