Analyse eines räumlichen Clusters mit mehreren Entfernungen (Ripleys K Function) (Spatial Statistics)
Zusammenfassung
Bestimmt, ob Features oder die mit Features verknüpften Werte eine statistisch signifikante Cluster-Bildung oder Streuung über einen Entfernungsbereich aufweisen.
Dieses Werkzeug erfordert projizierte Daten, um Entfernungen präzise zu messen.
Die Werkzeugausgabe ist eine Tabelle mit den Feldern ExpectedK und ObservedK, die die erwarteten bzw. beobachteten K-Werte enthalten. Da die Transformation L(d) angewendet wird, stimmen die ExpectedK-Werte immer mit dem Entfernungswert überein. Das Feld DiffK enthält die Differenz aus den beobachteten und den erwarteten K-Werten. Wenn eine Konfidenzintervalloption angegeben wird, sind zwei weitere Felder namens LwConfEnv und HiConfEnv in der Ausgabe-Tabelle enthalten. Diese Felder enthalten Vertrauensintervallinformationen für jede Iteration des Werkzeugs, wie vom Parameter Anzahl der Entfernungsbänder angegeben.
Wenn der beobachtete K-Wert für eine bestimmte Entfernung größer als der erwartete K-Wert ist, ist die Verteilung stärker gruppiert als eine zufällige Verteilung bei dieser Entfernung (Analysemaßstab). Wenn der beobachtete K-Wert kleiner als der erwartete K-Wert ist, ist die Verteilung stärker gestreut als eine zufällige Verteilung bei dieser Entfernung. Wenn der beobachtete K-Wert größer als der Wert für HiConfEnv ist, ist die räumliche Cluster-Bildung für diese Entfernung statistisch signifikant. Wenn der beobachtete K-Wert kleiner als der Wert für LwConfEnv ist, ist die räumliche Streuung für diese Entfernung statistisch signifikant. Weitere Informationen zur Interpretation finden Sie unter Funktionsweise der Analyse eines räumlichen Clusters mit mehreren Entfernungen (Ripleys K-Funktion).
Für Linien- und Polygon-Features werden bei Entfernungsberechnungen Feature-Schwerpunkte verwendet. Für Multipoints, Polylinien oder Polygone mit mehreren Teilen wird der Schwerpunkt mithilfe des gewichteten arithmetischen Mittelpunkts aller Feature-Teile berechnet. Die Gewichtung für Punkt-Features ist 1, für Linien-Features "Länge" und für Polygon-Features "Fläche".
Das Gewichtungsfeld wird am besten dann verwendet, wenn es die Anzahl von Ereignissen oder Mengen angibt.
Wenn kein Gewichtungsfeld angegeben ist, zeigt der größte DiffK-Wert die Entfernung an, in der räumliche Prozesse, welche die Cluster-Bildung fördern, am stärksten sind.
Nachfolgend wird die Berechnung des Confidence-Envelope erläutert:
Kein Gewichtungsfeld
Wenn kein Gewichtungsfeld angegeben ist, wird der Confidence-Envelope erstellt, indem Punkte nach dem Zufallsprinzip im Untersuchungsgebiet verteilt werden und L(d) für diese Verteilung berechnet wird. Jede zufällige Verteilung der Punkte wird als "Permutation" bezeichnet. Wenn 99 permutations ausgewählt wurde, wird der Satz von Punkten vom Werkzeug für jede Iteration 99 Mal verteilt. Nachdem die Punkte 99 Mal verteilt wurden, wählt das Werkzeug für jede Entfernung den beobachteten k-Wert, der nach oben und unten von dem erwarteten k-Wert abweicht, nach dem größten Betrag aus; diese Werte bilden das Vertrauensintervall.
Mit Gewichtungsfeld
Wenn ein Gewichtungsfeld angegeben wird, werden nur die Gewichtungswerte zufällig neu verteilt, um Confidence-Envelopes zu berechnen; die Punktpositionen bleiben bestehen. Wenn ein Gewichtungsfeld angegeben wird, bleiben Positionen fixiert, und das Werkzeug wertet die Cluster-Bildung von Feature-Werten im Raum aus. Wenn dagegen kein Gewichtungsfeld angegeben wird, analysiert das Werkzeug die Cluster-Bildung/Streuung von Feature-Positionen.
Da der Confidence-Envelope aus zufälligen Permutationen erstellt wird, ändern sich die Werte, die den Confidence-Envelope definieren, bei jedem Durchgang, selbst wenn die Parameter identisch sind. Wenn Sie jedoch einen Startwert für die Geoverarbeitungsumgebungseinstellung Zufallszahlengenerator festlegt haben, führen Wiederholungsanalysen zu konsistenten Ergebnissen.
Die Anzahl der für den Parameter Confidence-Envelope berechnen ausgewählten Permutationen kann in Konfidenzniveaus übersetzt werden: 9 für 90 %, 99 für 99 % und 999 für 99,9 %.
Wenn kein Untersuchungsgebiet angegeben wird, verwendet das Werkzeug ein minimales umschließendes Rechteck als Untersuchungsgebietspolygon. Im Gegensatz zur Ausdehnung richtet sich ein minimales umschließendes Rechteck nicht zwangsläufig an der X- und Y-Achse aus.
Die K-Funktion-Statistik ist hinsichtlich der Größe des Untersuchungsgebiets sehr empfindlich. Die identische Anordnung von Punkten kann eine Cluster-Bildung oder Streuung aufweisen, je nach Größe des Untersuchungsgebiets, das die Punkte umschließt. Daher ist es erforderlich, die Grenzen des Untersuchungsgebiets sorgfältig zu erwägen. Das Bild unten ist ein klassisches Beispiel dafür, wie identische Feature-Verteilungen je nach angegebenem Untersuchungsgebiet gestreut oder geclustert sein können.
Eine Untersuchungsgebiets-Feature-Class ist erforderlich, wenn vom Benutzer bereitgestellte Study-Area-Feature-Class als Parameter für die Untersuchungsgebietsmethode festgelegt wird.
Wenn eine Untersuchungsgebiets-Feature-Class festgelegt wird, sollte sie genau ein Singlepart-Feature aufweisen (das Untersuchungsgebietspolygon).
Wenn keine Anfangsentfernung oder Entfernungsschrittgröße angegeben wird, dann werden Standardwerte auf Grundlage der Ausdehnung der Eingabe-Feature-Class berechnet.
Die K-Funktion weist eine Untererfassung für Features auf, die sich am Rand des Untersuchungsgebiets befinden. Der Parameter Grenzkorrekturmethode stellt Methoden zum Korrigieren dieser Verzerrung bereit.
Keine
Es wird keine bestimmte Grenzkorrektur angewendet. Punkte in der Eingabe-Feature-Class, die außerhalb des vom Benutzer angegebenen Untersuchungsgebiets liegen, werden jedoch in Nachbarmengen berücksichtigt. Diese Methode ist hilfreich, wenn Sie Daten von einem sehr großen Untersuchungsgebiet erfasst haben, aber nur kleinere Flächen analysieren möchten, die innerhalb der für die Datenerfassung angegebenen Grenzen liegen.
Äußere Grenzwerte simulieren
Diese Methode erstellt Punkte außerhalb des Untersuchungsgebiets, die denen innerhalb des Gebiets entsprechen, um so Untererfassungen an den Rändern zu vermeiden. Punkte in einer Entfernung, die sich innerhalb des maximalen Entfernungsbandes vom Rand des Untersuchungsgebiets befinden, werden gespiegelt. Die gespiegelten Punkte werden verwendet, damit die Kantenpunkte genauere Nachbarschätzungen haben. Die Abbildung unten zeigt, welche Punkte in der Berechnung und welche nur zur Kantenkorrektur verwendet werden.
Analysebereich reduzieren
Diese Methode zur Kantenkorrektur verkleinert die Größe des Analysebereichs um eine Entfernung, die dem größten Entfernungsband entspricht, das in der Analyse verwendet werden soll. Nach der Verkleinerung des Untersuchungsbereichs werden Punkte außerhalb des neuen Bereichs nur dann berücksichtigt, wenn Nachbarmengen auf Punkte überprüft werden, die sich noch innerhalb des Untersuchungsbereichs befinden. Sie werden während der K-Funktion-Berechnung auf keine andere Weise verwendet. Die Abbildung unten zeigt, welche Punkte in der Berechnung und welche nur zur Kantenkorrektur verwendet werden.
Kantenkorrekturformel von Ripley
Diese Methode überprüft die Entfernung jedes Punktes vom Rand des Untersuchungsgebiets und seine Entfernung zu jedem seiner Nachbarn. Alle Nachbarn, die weiter vom Punkt entfernt sind als der Rand des Untersuchungsgebiets, erhalten eine zusätzliche Gewichtung. Diese Kantenkorrekturmethode ist nur für quadratische und rechteckige Untersuchungsgebiete geeignet oder bei Auswahl von Minimales umschließendes Rechteck als Parameter für die Untersuchungsgebietsmethode.
Wenn keine Grenzkorrektur angewendet wird, nimmt die Untererfassung mit zunehmender Analyseentfernung zu.
In mathematischer Hinsicht verwendet das Werkzeug für die Analyse eines räumlichen Clusters mit mehreren Entfernungen eine gängige Transformation von Ripleys K Function, wobei das erwartete Ergebnis aus einem zufälligen Satz an Punkten gleich der Eingabeentfernung ist. Die Transformation L (d) ist unten dargestellt.
Hierbei ist A die Fläche, N die Anzahl der Punkte, d die Entfernung und k (i, j) die Gewichtung, die (wenn es keine Grenzkorrektur gibt) 1 beträgt, wenn die Entfernung zwischen i und j kleiner oder gleich d ist, und die 0 beträgt, wenn die Entfernung zwischen i und j größer als d ist. Bei der Anwendung der Kantenkorrektur wird das Gewicht von k(i, j) leicht verändert.
Sie können Karten-Layer verwenden, um die Eingabe-Feature-Class zu definieren. Beim Verwenden eines Layers mit einer Auswahl sind nur die ausgewählten Features in der Analyse enthalten.
Vorsicht:
Denken Sie beim Verwenden von Shapefiles daran, dass diese keine NULL-Werte speichern können. Werkzeuge oder andere Verfahren zur Erstellung von Shapefiles aus Nicht-Shapefile-Eingaben speichern oder interpretieren NULL-Werte möglicherweise als Wert 0. In manchen Fällen werden NULL-Werte in Shapefiles als sehr große negative Werte gespeichert. Dies kann zu unerwarteten Ergebnissen führen. Weitere Informationen finden Sie unter Überlegungen zur Geoverarbeitung für die Shapefile-Ausgabe.
Parameter
Beschriftung
Erläuterung
Datentyp
Eingabe-Feature-Class
Die Feature-Class, für welche die Analyse durchgeführt wird.
Feature Layer
Ausgabetabelle
Die Tabelle, in welche die Ergebnisse der Analyse geschrieben werden.
Table
Anzahl der Entfernungsbänder
Die Häufigkeit, mit der die Nachbarschaftsgröße inkrementiert und das Dataset für die Cluster-Bildung analysiert wird. Der Startpunkt und die Größe der Inkrementierung werden in den Parametern Anfangsentfernung und Entfernungsschrittgröße angegeben.
Long
Confidence-Envelope berechnen
(optional)
Der Confidence-Envelope wird berechnet, indem Feature-Punkte (oder Feature-Werte) im Untersuchungsgebiet zufällig platziert werden. Die Anzahl der Punkte/Werte, die zufällig platziert werden, entspricht der Anzahl der Punkte in der Feature-Class. Jeder Satz zufälliger Platzierungen wird als Permutation bezeichnet, der Confidence-Envelope wird aus diesen Permutationen erstellt. Mit diesem Parameter können Sie bestimmen, wie viele Permutationen zur Erstellung des Confidence-Envelope verwendet werden sollen.
0 Permutationen – kein Confidence-Envelope—Es werden keine Confidence-Envelopes erstellt.
9 Permutationen—Es werden neun Sätze von Punkten/Werten zufällig platziert.
99 Permutationen—Es werden 99 Sätze von Punkten/Werten zufällig platziert.
999 Permutationen—Es werden 999 Sätze von Punkten/Werten zufällig platziert.
String
Ergebnisse grafisch anzeigen
(optional)
Dieser Parameter hat keine Auswirkungen. Er wird aus Gründen der Abwärtskompatibilität beibehalten.
Boolean
Gewichtungsfeld
(optional)
Ein Zahlenfeld mit Gewichtungen, die die Anzahl der Features/Ereignisse an jeder Position darstellen.
Field
Anfangsentfernung
(optional)
Die Entfernung, in der die Cluster-Analyse gestartet wird, und die Entfernung, in der die Inkrementierung beginnt. Der für diesen Parameter eingegebene Wert sollte in den Einheiten des Ausgabe-Koordinatensystems vorliegen.
Double
Entfernungsschrittgröße
(optional)
Die während jeder Iteration zu inkrementierende Entfernung. Die in der Analyse verwendete Entfernung beginnt bei der Anfangsentfernung und nimmt entsprechend des für die Entfernungsschrittgröße angegebenen Wertes zu. Der für diesen Parameter eingegebene Wert sollte in den Einheiten der Umgebungseinstellung "Ausgabe-Koordinatensystem" vorliegen.
Double
Grenzkorrekturmethode
(optional)
Methode zur Korrektur von Unterschätzungen bei der Anzahl der Nachbarn für Features am Rand des Untersuchungsgebiets.
Keine—Es wird keine Kantenkorrektur vorgenommen. Wenn die Eingabe-Feature-Class jedoch bereits Punkte aufweist, die außerhalb der Grenzen des Untersuchungsgebiets liegen, werden diese in Nachbarmengen für Features in der Nähe von Grenzen verwendet.
Äußere Grenzwerte simulieren—Diese Methode simuliert Punkte außerhalb des Untersuchungsgebiets, damit die Anzahl der Nachbarn in der Nähe von Kanten nicht unterschätzt wird. Die simulierten Punkte sind die "Spiegel" von Punkten in der Nähe von Kanten innerhalb des Untersuchungsgebiets.
Analysebereich reduzieren—Diese Methode verkleinert das Untersuchungsgebiet so, dass einige Punkte außerhalb des Untersuchungsgebiets liegen. Punkte, die außerhalb des Untersuchungsgebiets liegen, werden zur Berechnung von Nachbarmengen, nicht jedoch für die eigentliche Cluster-Analyse verwendet.
Kantenkorrekturformel von Ripley—Bei dieser Methode wird für alle Punkte (j) in der Umgebung von Punkt i geprüft, ob der Rand des Untersuchungsgebiets näher an i liegt oder ob j näher an i liegt. Liegt j näher, erhält der Punkt j eine zusätzliche Gewichtung. Diese Kantenkorrekturmethode ist nur für quadratische oder rechteckige Untersuchungsgebiete geeignet.
String
Untersuchungsgebietsmethode
(optional)
Gibt die Region an, die für das Untersuchungsgebiet verwendet werden soll. Die K-Funktion ist gegen Änderungen in Untersuchungsgebietsgröße empfindlich. Daher ist es wichtig, diesen Wert sorgsam festzulegen.
Minimales umschließendes Rechteck—Gibt an, dass das kleinste mögliche Rechteck, das alle Punkte umschließt, verwendet wird.
Vom Benutzer bereitgestellte Study-Area-Feature-Class—Gibt an, dass eine Feature-Class, die das Untersuchungsgebiet definiert, im Parameter "Study Area Feature Class" bereitgestellt wird.
String
Untersuchungsgebiets-Feature-Class
(optional)
Feature-Class, die die Fläche abgrenzt, für welche die Eingabe-Feature-Class analysiert werden soll. Wird nur angegeben, wenn Vom Benutzer bereitgestellte Study-Area-Feature-Class als Parameter für die Untersuchungsgebietsmethode ausgewählt wird.
Feature Layer
Abgeleitete Ausgabe
Beschriftung
Erläuterung
Datentyp
Ergebnisdiagramm
Ein Liniendiagramm zum Zusammenfassen von Werkzeugergebnissen.
Die Feature-Class, für welche die Analyse durchgeführt wird.
Feature Layer
Output_Table
Die Tabelle, in welche die Ergebnisse der Analyse geschrieben werden.
Table
Number_of_Distance_Bands
Die Häufigkeit, mit der die Nachbarschaftsgröße inkrementiert und das Dataset für die Cluster-Bildung analysiert wird. Der Startpunkt und die Größe der Inkrementierung werden in den Parametern Beginning_Distance und Distance_Increment angegeben.
Long
Compute_Confidence_Envelope
(optional)
Der Confidence-Envelope wird berechnet, indem Feature-Punkte (oder Feature-Werte) im Untersuchungsgebiet zufällig platziert werden. Die Anzahl der Punkte/Werte, die zufällig platziert werden, entspricht der Anzahl der Punkte in der Feature-Class. Jeder Satz zufälliger Platzierungen wird als Permutation bezeichnet, der Confidence-Envelope wird aus diesen Permutationen erstellt. Mit diesem Parameter können Sie bestimmen, wie viele Permutationen zur Erstellung des Confidence-Envelope verwendet werden sollen.
0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE—Es werden keine Confidence-Envelopes erstellt.
9_PERMUTATIONS—Es werden neun Sätze von Punkten/Werten zufällig platziert.
99_PERMUTATIONS—Es werden 99 Sätze von Punkten/Werten zufällig platziert.
999_PERMUTATIONS—Es werden 999 Sätze von Punkten/Werten zufällig platziert.
String
Display_Results_Graphically
(optional)
Dieser Parameter hat keine Auswirkungen. Er wird aus Gründen der Abwärtskompatibilität beibehalten.
NO_DISPLAY—Es wird keine grafische Zusammenfassung erstellt (Standardeinstellung).
DISPLAY_IT—Es wird eine grafische Zusammenfassung als Diagramm-Layer erstellt.
Boolean
Weight_Field
(optional)
Ein Zahlenfeld mit Gewichtungen, die die Anzahl der Features/Ereignisse an jeder Position darstellen.
Field
Beginning_Distance
(optional)
Die Entfernung, in der die Cluster-Analyse gestartet wird, und die Entfernung, in der die Inkrementierung beginnt. Der für diesen Parameter eingegebene Wert sollte in den Einheiten des Ausgabe-Koordinatensystems vorliegen.
Double
Distance_Increment
(optional)
Die während jeder Iteration zu inkrementierende Entfernung. Die in der Analyse verwendete Entfernung beginnt bei der Beginning_Distance und nimmt entsprechend des für die Distance_Increment angegebenen Wertes zu. Der für diesen Parameter eingegebene Wert sollte in den Einheiten der Umgebungseinstellung "Ausgabe-Koordinatensystem" vorliegen.
Double
Boundary_Correction_Method
(optional)
Methode zur Korrektur von Unterschätzungen bei der Anzahl der Nachbarn für Features am Rand des Untersuchungsgebiets.
NONE—Es wird keine Kantenkorrektur vorgenommen. Wenn die Eingabe-Feature-Class jedoch bereits Punkte aufweist, die außerhalb der Grenzen des Untersuchungsgebiets liegen, werden diese in Nachbarmengen für Features in der Nähe von Grenzen verwendet.
SIMULATE_OUTER_BOUNDARY_VALUES—Diese Methode simuliert Punkte außerhalb des Untersuchungsgebiets, damit die Anzahl der Nachbarn in der Nähe von Kanten nicht unterschätzt wird. Die simulierten Punkte sind die "Spiegel" von Punkten in der Nähe von Kanten innerhalb des Untersuchungsgebiets.
REDUCE_ANALYSIS_AREA—Diese Methode verkleinert das Untersuchungsgebiet so, dass einige Punkte außerhalb des Untersuchungsgebiets liegen. Punkte, die außerhalb des Untersuchungsgebiets liegen, werden zur Berechnung von Nachbarmengen, nicht jedoch für die eigentliche Cluster-Analyse verwendet.
RIPLEY_EDGE_CORRECTION_FORMULA—Bei dieser Methode wird für alle Punkte (j) in der Umgebung von Punkt i geprüft, ob der Rand des Untersuchungsgebiets näher an i liegt oder ob j näher an i liegt. Liegt j näher, erhält der Punkt j eine zusätzliche Gewichtung. Diese Kantenkorrekturmethode ist nur für quadratische oder rechteckige Untersuchungsgebiete geeignet.
String
Study_Area_Method
(optional)
Gibt die Region an, die für das Untersuchungsgebiet verwendet werden soll. Die K-Funktion ist gegen Änderungen in Untersuchungsgebietsgröße empfindlich. Daher ist es wichtig, diesen Wert sorgsam festzulegen.
MINIMUM_ENCLOSING_RECTANGLE—Gibt an, dass das kleinste mögliche Rechteck, das alle Punkte umschließt, verwendet wird.
USER_PROVIDED_STUDY_AREA_FEATURE_CLASS—Gibt an, dass eine Feature-Class, die das Untersuchungsgebiet definiert, im Parameter "Study Area Feature Class" bereitgestellt wird.
String
Study_Area_Feature_Class
(optional)
Feature-Class, die die Fläche abgrenzt, für welche die Eingabe-Feature-Class analysiert werden soll. Wird nur angegeben, wenn Study_Area_Method = "USER_PROVIDED_STUDY_AREA_FEATURE_CLASS".
Feature Layer
Abgeleitete Ausgabe
Name
Erläuterung
Datentyp
Result_Image
Ein Liniendiagramm zum Zusammenfassen von Werkzeugergebnissen.
Graph
Codebeispiel
MultiDistanceSpatialClustering: Beispiel 1 (Python-Fenster)
Das folgende Skript für das Python-Fenster veranschaulicht, wie Sie die Funktion MultiDistanceSpatialClustering verwenden.
MultiDistanceSpatialClustering: Beispiel 2 (eigenständiges Skript)
Im folgenden eigenständigen Python-Skript wird veranschaulicht, wie Sie die Funktion MultiDistanceSpatialClustering verwenden.
# Use Ripley's K-Function to analyze the spatial distribution of 911
# calls in Portland Oregon
# Import system modules
import arcpy
# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"C:\Data"
try:
# Set the current workspace (to avoid having to specify the full
# path to the feature classes each time)
arcpy.env.workspace = workspace
# Set Distance Band Parameters: Analyze clustering of 911 calls from
# 1000 to 3000 feet by 200 foot increments
numDistances = 11
startDistance = 1000.0
increment = 200.0
# Process: Run K-Function...
kFun = arcpy.stats.MultiDistanceSpatialClustering("911Calls.shp",
"kFunResult.dbf", numDistances,
"0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE",
"NO_DISPLAY", "#", startDistance, increment,
"REDUCE_ANALYSIS_AREA",
"MINIMUM_ENCLOSING_RECTANGLE", "#")
except:
# If an error occurred when running the tool, print out the error message.
print(arcpy.GetMessages())
Feature-Geometrie wird vor der Analyse in das Ausgabe-Koordinatensystem projiziert, sodass die Werte für die Parameter Anfangsentfernung und Entfernungsschrittgröße zu jenen passen, die im Ausgabe-Koordinatensystem angegeben werden. Alle mathematischen Berechnungen basieren auf dem Raumbezug des Ausgabe-Koordinatensystems.