Generalisierte lineare Regression (Spatial Statistics)—ArcGIS Pro

Zusammenfassung

Führt eine generalisierte lineare Regression (GLR) aus, um Vorhersagen zu generieren oder eine abhängige Variable in Hinsicht auf ihre Beziehung zu einem Satz erklärender Variablen zu modellieren. Dieses Werkzeug kann für kontinuierliche (OLS) und binäre (logistische) Modelle sowie für Anzahlmodelle (Poisson) verwendet werden.

Weitere Informationen zur Funktionsweise der generalisierten linearen Regression

Abbildung

Verwendung

Primäre Ausgabe dieses Werkzeugs ist eine Berichtsdatei, die während der Verarbeitung durch das Werkzeug in Form von Meldungen unten im Bereich Geoverarbeitung angezeigt wird. Um auf die Meldungen zuzugreifen, zeigen Sie mit der Maus auf die Fortschrittsleiste, klicken Sie auf die Pop-out-Schaltfläche, oder erweitern Sie den Abschnitt "Meldungen" im Bereich Geoverarbeitung. Sie können im Geoverarbeitungsverlauf auch auf die Meldungen für ein zuvor ausgeführtes Werkzeug zugreifen.
Verwenden Sie den Parameter Eingabe-Features mit einem Feld, das das Phänomen darstellt, das Sie modellieren (Wert für Abhängige Variable), und einem oder mehreren Feldern, die den Wert für Erklärende Variable(n) darstellen. Diese Felder müssen numerisch sein und einen Wertebereich aufweisen. Features, bei denen Werte in der abhängigen oder erklärenden Variablen fehlen, werden von der Analyse ausgeschlossen. Sie können jedoch mit dem Werkzeug Fehlende Werte ausfüllen das Dataset vervollständigen, bevor Sie das Werkzeug ausführen.
Dieses Werkzeug erzeugt darüber hinaus Ausgabe-Features mit Koeffizienteninformationen und Diagnosen. Die Ausgabe-Feature-Class wird dem Inhaltsverzeichnis automatisch hinzugefügt, wobei ein Rendering-Schema zur Modellierung von Residuen angewendet wird.
Die für den Parameter Modelltyp gewählte Option hängt von den Daten ab, die Sie modellieren. Es ist wichtig, das richtige Modell für die Analyse zu verwenden, um genaue Ergebnisse der Regressionsanalyse zu erhalten.
Ergebnisse der Modellzusammenfassung und Diagnosen werden in das Meldungsfenster eingegeben, und Diagramme werden unterhalb der Ausgabe-Feature-Class erstellt. Die gemeldeten Diagnosen und Diagramme hängen vom Wert des Parameters Modelltyp ab. Sie werden ausführlich im Thema Funktionsweise des Werkzeugs Generalisierte lineare Regression erläutert.
Die Ergebnisse der GLR sind jedoch nur dann zuverlässig, wenn die Daten und das Regressionsmodell allen Annahmen entsprechen, die für diese Methode erforderlich sind. Überprüfen Sie alle resultierenden Diagnosen und die Tabelle Allgemeine Regressionsprobleme, Folgen und Lösungen unter Grundlagen zur Regressionsanalyse, um sicherzustellen, dass das Modell ordnungsgemäß angegeben wurde.
Die Parameter Abhängige Variable und Erklärende Variable(n) sollten numerische Felder sein, die eine Vielzahl von Werten enthalten. Dieses Werkzeug kann keine Berechnung vornehmen, wenn die Variablen alle dieselben Werte aufweisen (wenn beispielsweise alle Werte für ein Feld 9,0 betragen).
Erklärende Variablen können aus Feldern stammen oder mit dem Parameter Erklärende Entfernungs-Features aus Entfernungs-Features berechnet werden. Sie können eine Kombination dieser erklärenden Variablentypen verwenden, jedoch ist mindestens ein Typ erforderlich. Die Werte des Parameters Erklärende Entfernungs-Features dienen der automatischen Erstellung erklärender Variablen, die eine Entfernung zwischen den bereitgestellten Features und den Werten des Parameters Eingabe-Features darstellen. Entfernungen werden von den einzelnen Eingabewerten für Erklärende Entfernungs-Features zu den nächsten Eingabe-Features berechnet. Wenn es sich bei den Eingabewerten für Erklärende Entfernungs-Features um Polygone oder Linien handelt, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet. Allerdings werden Entfernungen bei Polygonen und Linien anders berechnet. Weitere Informationen hierzu finden Sie unter So wird die Entfernung mit Proximity-Werkzeugen berechnet.
Der Parameter Trainierte Ausgabe-Modelldatei kann verwendet werden, um die Ergebnisse des trainierten Modells als Datei zu speichern, die wiederverwendet werden kann. Das Werkzeug Mit Modelldatei für räumliche Statistiken vorhersagen kann verwendet werden, um mit der Modelldatei neue Features vorherzusagen.
Es wird empfohlen, projizierte Daten zu verwenden, wenn die Werte Erklärende Entfernungs-Features eine Komponente der Analyse sind. Es wird ebenso empfohlen, dass die Daten in einem projizierten Koordinatensystem (und nicht in einem geographischen Koordinatensystem) vorliegen, damit Entfernungen genau gemessen werden.
Wenn eine statistisch signifikante räumliche Autokorrelation der Regressionsresiduen auftritt, wird das GLR-Modell als falsch angegeben angesehen. Die GLR-Ergebnisse sind infolgedessen unzuverlässig. Führen Sie das Werkzeug Räumliche Autokorrelation für die Regressionsresiduen aus, um dieses potenzielle Problem zu beheben. Die statistisch signifikante räumliche Autokorrelation in den Regressionsresiduen kann darauf hinweisen, dass eine oder mehrere wichtige erklärende Variablen im Modell fehlen.
Sichten Sie die in den Regressionsresiduen vorhandenen zu hohen und zu niedrigen Vorhersagen, um festzustellen, ob sie Aufschluss über potenzielle fehlende Variablen im Regressionsmodell geben. Es kann hilfreich sein, eine Hot-Spot-Analyse für die Residuen durchzuführen, um so die räumliche Cluster-Bildung der zu hohen und zu niedrigen Vorhersagen besser visualisieren zu können.
Wenn die Modellierung von nichtstationären Variablen mithilfe eines globalen Modells (wie GLR) zu falschen Angaben führt, können Sie das Werkzeug Geographisch gewichtete Regression verwenden, um die Vorhersagen zu verbessern und die Nichtstationarität (regionale Variation) der erklärenden Variablen besser zu verstehen.
Wenn das Ergebnis einer Berechnung unendlich oder nicht definiert ist, wird für Nicht-Shapefiles NULL ausgegeben. Für Shapefiles lautet die Ausgabe -DBL_MAX (beispielsweise –1,7976931348623158e+308).

Vorsicht:

Denken Sie beim Verwenden von Shapefiles daran, dass diese keine NULL-Werte speichern können. Werkzeuge oder andere Verfahren zur Erstellung von Shapefiles aus Nicht-Shapefile-Eingaben speichern oder interpretieren NULL-Werte möglicherweise als Wert 0. In manchen Fällen werden NULL-Werte in Shapefiles als sehr große negative Werte gespeichert. Dies kann zu unerwarteten Ergebnissen führen. Weitere Informationen finden Sie unter Überlegungen zur Geoverarbeitung für die Shapefile-Ausgabe.

Parameter

Beschriftung	Erläuterung	Datentyp
Eingabe-Features	Die Feature-Class, die die abhängigen und unabhängigen Variablen enthält.	Feature Layer
Abhängige Variable	Das numerische Feld mit den beobachteten Werten, die modelliert werden sollen.	Field
Modelltyp	Gibt den Typ der Daten an, die modelliert werden. Kontinuierlich (Gauß)—Der Wert für die abhängige Variable ist kontinuierlich. Das Gauß'sche Modell wird verwendet, und das Werkzeug führt eine Regression des Typs "Kleinste Quadrate" durch. Binär (Logistisch)—Der Wert für Abhängige Variable stellt das Vorhandensein oder Fehlen dar. Dies können herkömmliche Einsen und Nullen oder kontinuierliche Daten sein, die basierend auf einem Schwellenwert neu codiert wurden. Das logistische Regressionsmodell wird verwendet. Anzahl (Poisson)—Der Wert Abhängige Variable ist diskontinuierlich und stellt Ereignisse dar: z. B. die Anzahl von Straftaten, Krankheiten oder Verkehrsunfälle. Das Poisson-Regressionsmodell wird verwendet.	String
Ausgabe-Features	Die neue Feature-Class mit den Schätzungen und Residuen abhängiger Variablen.	Feature Class
Erklärende Variable(n)	Eine Liste von Feldern, die unabhängige erklärende Variablen im Regressionsmodell darstellen.	Field
Erklärende Entfernungs-Features (optional)	Erstellt automatisch erklärende Variablen durch die Berechnung der Entfernung zwischen bereitgestellten Features und den Werten für Eingabe-Features. Entfernungen werden von den einzelnen Eingabewerten für Erklärende Trainings-Entfernungs-Features zum nächsten Wert für Eingabe-Trainings-Features berechnet. Wenn es sich bei den Eingabewerten für Erklärende Entfernungs-Features um Polygone oder Linien handelt, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet.	Feature Layer
Vorherzusagende Positionen (optional)	Eine Feature-Class mit Features, die Positionen darstellen, an denen Schätzungen berechnet werden. Jedes Feature im Dataset sollte Werte für alle angegebenen erklärenden Variablen enthalten. Die abhängige Variable für diese Features wird anhand des Modells geschätzt, das für die Eingabe-Feature-Class-Daten kalibriert wurde.	Feature Layer
Erklärende Variablen abgleichen (optional)	Gleicht die erklärenden Variablen des Parameters Vorherzusagende Positionen mit den entsprechenden erklärenden Variablen des Parameters Eingabe-Feature-Class ab.	Value Table
Entfernungs-Features abgleichen (optional)	Gleicht die Entfernungs-Features, die für den Parameter Vorherzusagende Positionen links angegeben wurden, mit den entsprechenden Entfernungs-Features für den Parameter Eingabe-Features rechts ab.	Value Table
Vorhergesagte Ausgabe-Features (optional)	Die Ausgabe-Feature-Class zum Empfangen abhängiger Variablenschätzungen für jeden Wert für Vorherzusagende Position.	Feature Class
Trainierte Ausgabe-Modelldatei (optional)	Eine Ausgabe-Modelldatei, in der das trainierte Modell, das später für Vorhersagen wiederverwendet werden kann, gespeichert werden soll.	File

arcpy.stats.GeneralizedLinearRegression(in_features, dependent_variable, model_type, output_features, explanatory_variables, {distance_features}, {prediction_locations}, {explanatory_variables_to_match}, {explanatory_distance_matching}, {output_predicted_features}, {output_trained_model})

Name	Erläuterung	Datentyp
in_features	Die Feature-Class, die die abhängigen und unabhängigen Variablen enthält.	Feature Layer
dependent_variable	Das numerische Feld mit den beobachteten Werten, die modelliert werden sollen.	Field
model_type	Gibt den Typ der Daten an, die modelliert werden. CONTINUOUS—Der Wert für dependent_variable ist kontinuierlich. Das Gauß'sche Modell wird verwendet, und das Werkzeug führt eine Regression des Typs "Kleinste Quadrate" durch. BINARY—Der Wert für dependent_variable stellt das Vorhandensein oder Fehlen dar. Dies können herkömmliche Einsen und Nullen oder kontinuierliche Daten sein, die basierend auf einem Schwellenwert neu codiert wurden. Das logistische Regressionsmodell wird verwendet. COUNT—Der Wert für dependent_variable ist diskontinuierlich und stellt Ereignisse wie die Anzahl von Straftaten, Krankheiten oder Verkehrsunfälle dar. Das Poisson-Regressionsmodell wird verwendet.	String
output_features	Die neue Feature-Class mit den Schätzungen und Residuen abhängiger Variablen.	Feature Class
explanatory_variables [explanatory_variables,...]	Eine Liste von Feldern, die unabhängige erklärende Variablen im Regressionsmodell darstellen.	Field
distance_features [distance_features,...] (optional)	Erstellt automatisch erklärende Variablen durch die Berechnung der Entfernung zwischen bereitgestellten Features und den Werten für in_features. Entfernungen werden von den einzelnen Eingabewerten für distance_features zu den nächsten Werten für in_features berechnet. Wenn es sich bei distance_features der Eingabe um Polygone oder Linien handelt, werden die Entfernungsattribute als Entfernung zwischen den nächstgelegenen Segmenten des Feature-Paares berechnet.	Feature Layer
prediction_locations (optional)	Eine Feature-Class mit Features, die Positionen darstellen, an denen Schätzungen berechnet werden. Jedes Feature im Dataset sollte Werte für alle angegebenen erklärenden Variablen enthalten. Die abhängige Variable für diese Features wird anhand des Modells geschätzt, das für die Eingabe-Feature-Class-Daten kalibriert wurde.	Feature Layer
explanatory_variables_to_match [[Field from Prediction Locations, Field from Input Features],...] (optional)	Gleicht die erklärenden Variablen des Parameters prediction_locations mit den entsprechenden erklärenden Variablen des Parameters in_features ab.	Value Table
explanatory_distance_matching [[Prediction Distance Features, Input Explanatory Distance Features],...] (optional)	Gleicht die Entfernungs-Features, die für features_to_predict links angegeben wurden, mit den entsprechenden Entfernungs-Features des Parameters in_features rechts ab.	Value Table
output_predicted_features (optional)	Die Ausgabe-Feature-Class zum Empfangen abhängiger Variablenschätzungen für jeden Wert für prediction_location. Die Ausgabe-Feature-Class zum Empfangen abhängiger Variablenschätzungen für jeden Wert für Vorherzusagende Position.	Feature Class
output_trained_model (optional)	Eine Ausgabe-Modelldatei, in der das trainierte Modell, das später für Vorhersagen wiederverwendet werden kann, gespeichert werden soll.	File

Codebeispiel

GeneralizedLinearRegression: Beispiel 1 (Python-Fenster)

Das folgende Skript für das Python-Fenster veranschaulicht, wie Sie die Funktion GeneralizedLinearRegression verwenden.

import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("landslides", "occurred",
                                 "BINARY", "out_features", 
                                 ["eastness", "northness", "elevation", "slope"], 
                                 "rivers")

GeneralizedLinearRegression: Beispiel 2 (eigenständiges Skript)

Im folgenden eigenständigen Python-Skript wird veranschaulicht, wie Sie die Funktion GeneralizedLinearRegression verwenden.

# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, average household income and the
# distance to the central business district (CBD)

import arcpy

# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"

arcpy.stats.GeneralizedLinearRegression("crime_counts", 
     "total_crimes", "COUNT", "out_features", ["YRBLT", "TOTPOP", "AVGHINC"], 
     "CBD", "prediction_locations", [["YRBLT", "YRBLT"], ["TOTPOP", "TOTPOP"], ["AVGHINC", "AVGHINC"]], 
     [["CBD", "CBD"]], "predicted_features")

Umgebungen

Ausgabe-Koordinatensystem

Lizenzinformationen

Basic: Ja
Standard: Ja
Advanced: Ja