Das Werkzeug Anfälligkeit gegenüber Attributunsicherheiten bewerten bewertet, wie sich Analyseergebnisse bestimmter Werkzeuge in der Toolbox "Spatial Statistics" ändern, wenn die Werte einer oder mehrerer Analysevariablen (Attribute) unsicher sind. Attributunsicherheiten können mithilfe von Fehlerspannen, einer oberen und einer unteren Grenze oder einem bestimmten Prozentsatz des ursprünglichen Wertes angegeben werden. Dieses Werkzeug akzeptiert Ausgabe-Features folgender Werkzeuge:
- Hot-Spot-Analyse (Getis-Ord Gi*)
- Optimierte Hot-Spot-Analyse
- Cluster- und Ausreißeranalyse (Anselin Local Morans I)
- Optimierte Ausreißeranalyse
- Generalisierte lineare Regression
- Räumliche Autokorrelation (Morans I)
Das Werkzeug führt durch wiederholtes Simulieren neuer Daten eine Sensitivitätsanalyse durch, wobei die ursprüngliche Analysevariable und ihr Unsicherheitsmaß herangezogen werden. Anschließend wird das ursprüngliche Analysewerkzeug mehrmals mit den simulierten Daten ausgeführt, und die Ergebnisse werden zusammengefasst. Wenn die Ergebnisse der Simulationen den ursprünglichen Ergebnissen sehr ähnlich sind, können Sie davon ausgehen, dass die ursprünglichen Ergebnisse robust und verlässlich sind. Wenn die Simulationen jedoch große Unterschiede zu den ursprünglichen Ergebnissen ergeben, sind Schlussfolgerungen, die Sie aus den ursprünglichen Ergebnissen ziehen, mit hoher Wahrscheinlichkeit nicht belastbar.
Potenzielle Anwendungsbereiche
Zu den potenziellen Anwendungsbereichen des Werkzeugs zählen:
- Eine örtliche Wohltätigkeitsorganisation ermittelt mithilfe von Hot-Spot-Analysen, welche Gebiete im Landkreis vorrangig für Dienste zur Armutsbekämpfung in Frage kommen. Es wird geplant, sich auf Regionen zu konzentrieren, in denen die Analyse auf eine starke Cluster-Bildung und Intensität der Armut hinweist (Hot-Spots mit 99-prozentiger Konfidenz). Die Beobachtung von Änderungen im Zeitverlauf kann dazu führen, dass die Prioritäten der Dienste verstärkt oder überdacht werden.
- Eine große Einzelhandelskette hat ein generalisiertes lineares Regressionsmodell entwickelt, um abzuschätzen, wie demografische Faktoren wie Alter und verfügbares Einkommen den Verkauf von Sportartikeln beeinflussen. Die durch Surveys erfassten erklärenden Variablen schließen sowohl obere als auch untere Grenzen ein. Durch die Einbeziehung der Unsicherheit in diesen Variablen kann der Einzelhändler die potenzielle Bandbreite des Verkaufsvolumens untersuchen.
Attributunsicherheit
Attributunsicherheit ist die Variabilität der Datenwerte, die sich aus natürlichen und unvermeidbaren Aspekten der Datenerfassung und -aggregation ergibt, wie z. B. Stichprobenfehler oder Messfehler. Stichprobenfehler treten auf, wenn Daten von einer Teilmenge einer Grundgesamtheit erfasst werden, wodurch sich die Frage stellt, wie gut die Stichprobe die gesamte Grundgesamtheit repräsentiert. Ein Messfehler entsteht, wenn ein Datenerfassungsinstrument, wie z. B. ein Thermometer oder ein Windmesser, geringfügige Abweichungen der aufgezeichneten Werte von den tatsächlichen Werten verursacht. Die Daten werden häufig mit der besten Schätzung des wahren Wertes der Messung, der sog. Punktschätzung, und einem Maß für den Grad ihrer Unsicherheit versehen. Diese Unsicherheitsfaktoren können zwar die Genauigkeit der Daten beeinträchtigen, sind aber in jedem realen Datenerfassungsprozess vorhanden. Das Erkennen und Erkunden der Attributunsicherheiten und deren Auswirkungen auf Analyseergebnisse kann dazu beitragen, Analysen transparenter und robuster zu machen.
Quantifizierung von Unsicherheiten
Dieses Werkzeug unterstützt drei Möglichkeiten zur Angabe von Attributunsicherheiten: Fehlerspanne, obere und untere Grenze sowie ein Prozentsatz oberhalb und unterhalb eines Attributwertes.
Fehlerspanne
Eine Fehlerspanne stellt den Bereich dar, in den der wahre Wert des Attributs wahrscheinlich fällt. Sie ist mit einem Konfidenzniveau (z. B. 90 Prozent) verknüpft, das angibt, wie sicher Sie sein können, dass der tatsächliche Wert des Attributs innerhalb des durch die Schätzung definierten Bereichs liegt, zuzüglich oder abzüglich der Fehlerspanne. In einem Survey kann beispielsweise geschätzt werden, dass in einem Landkreis 2.500 Menschen von Armut betroffen sind, wobei die Fehlerspanne bei einem Konfidenzniveau von 90 % bei 300 liegt. Das bedeutet, dass Sie mit 90-prozentiger Sicherheit davon ausgehen können, dass die tatsächliche Zahl der Menschen in Armut zwischen 2.200 und 2.800 liegt. Bei Verwendung dieser Methode ist für mindestens eine Analysevariable ein Feld für die Fehlerspanne erforderlich. Dieses Feld enthält die numerische Fehlergrenze, die angibt, wie weit der wahre Grundgesamtheitswert voraussichtlich über oder unter der Stichprobenschätzung liegen wird. Das Konfidenzniveau beträgt standardmäßig 90 Prozent und kann mit dem Parameter Fehlerspannen-Konfidenzniveau angepasst werden.
Hinweis:
Fehlerspannen werden in der Regel als Felder zusammen mit der ursprünglichen Variablen aufgezeichnet. Dies gilt für viele Variablen in den ArcGIS Living Atlas of the World-Daten, die aus dem American Community Survey (ACS) des U.S. Census Bureau stammen. Viele nationale statistische Organisationen stellen ähnliche Messwerte für Unsicherheiten zur Verfügung.
Obere und untere Grenze
Obere und untere Grenzen stellen die Unsicherheit eines Attributs dar, indem sie explizit einen Bereich um eine Schätzung herum angeben. Im Gegensatz zur Fehlerspanne müssen obere und untere Grenzen um die Punktschätzung herum nicht symmetrisch sein.
Prozent unterhalb und oberhalb
Die Option "Prozent unterhalb und oberhalb" stellt die Attributunsicherheit dar, indem der ursprüngliche Attributwert jedes Features um einen bestimmten Prozentsatz angepasst wird. Dadurch entsteht ein Bereich um die Schätzung, der möglicherweise den wahren Wert enthält. Diese Vorgehensweise kann nützlich sein, wenn andere Methoden, wie z. B. Fehlerspannen oder obere und untere Grenzen, nicht zur Verfügung stehen, um die Unsicherheit auszudrücken.
Hinweis:
Im Gegensatz zu den Optionen "Fehlerspanne" und "Obere und untere Grenze", die es erlauben, die Attributunsicherheit für jedes Feature unterschiedlich anzugeben, wendet die Option "Prozent unterhalb und oberhalb" dieselbe Unsicherheitsdefinition auf alle Features an.
Verwendung von Simulationen zur Handhabung von Unsicherheiten
Um zu bewerten, wie anfällig Analyseergebnisse auf Unsicherheiten reagieren, erzeugt das Werkzeug simulierte Datasets auf der Grundlage der ursprünglichen Analysevariablen und ihres Unsicherheitsmaßes. Im Idealfall stellt jedes simulierte Dataset eine plausible Version der Daten dar, die in der realen Welt existieren könnte. Darüber hinaus gibt es verschiedene Annahmen darüber, wie der wahre Wert um die Punktschätzung herum zentriert sein oder von ihr abweichen könnte. Das Werkzeug verwendet Wahrscheinlichkeitsverteilungen, um die simulierten Datenwerte einzuschränken und den Bereich und die Wahrscheinlichkeit der verschiedenen Realisierungen der Daten zu erfassen. Es werden drei Verteilungen unterstützt: "Normal", "Dreieck" und "Gleich". Beim Simulieren von Daten für das Werkzeug "Generalisierte lineare Regression" wird die Korrelationsstruktur der erklärenden Variablen beibehalten. Bei Analyseergebnissen aus anderen Werkzeugen werden die Daten unabhängig von den einzelnen Features simuliert. Um der Abhängigkeit zwischen den erklärenden Variablen Rechnung zu tragen, wird ihre Korrelation global geschätzt. Die Generierung der simulierten Werte für jedes Feature erfolgt durch Hinzufügen von Zufallsrauschen einer multivariaten Normalverteilung mit dem Mittelwert 0 und einer Kovarianzmatrix, die auf der globalen Korrelation der erklärenden Variablen basiert. Da das Zufallsrauschen auf einer multivariaten Normalverteilung basiert, wird bei Simulationen für das Werkzeug "Generalisierte lineare Regression" nur die Simulationsmethode "Normal" unterstützt.
Normal
Die Option Normal des Parameters Simulationsmethode wird üblicherweise verwendet, wenn eine Fehlerspanne mit einem entsprechenden Konfidenzniveau verfügbar ist. Diese Option verwendet eine normale (gaußsche) Wahrscheinlichkeitsverteilung mit einem Mittelwert, der dem Wert der ursprünglichen Analysevariablen entspricht, und einer Standardabweichung, die auf dem Fehlerspannenwert und dem Konfidenzniveau des Features basiert.
Wie die Form der Wahrscheinlichkeitsverteilung vermuten lässt, werden Werte, die näher an der ursprünglichen Schätzung liegen, mit größerer Wahrscheinlichkeit generiert als Werte, die weiter davon entfernt sind. Dies kann jedoch je nach Fehlerspanne erheblich variieren. Standorte mit größeren Fehlerspannen – oft aufgrund kleinerer Stichprobengrößen – haben Verteilungen mit längeren Ausläufern, was bedeutet, dass die Simulationen eher Werte erzeugen, die weiter von der ursprünglichen Schätzung entfernt sind.
Dreieck
Eine Dreiecksverteilung wird in der Regel verwendet, wenn der ursprüngliche Wert eine wahrscheinliche Schätzung des wahren Wertes darstellt. Die Option Dreieck des Parameters Simulationsmethode ist besonders nützlich bei asymmetrischen Verteilungen, bei denen sich die Werte eher um den geschätzten Wert clustern, jedoch mit einer asymmetrischen Form. Es wird eine Dreiecksverteilung konstruiert und verwendet, um Daten für jedes Feature auf der Grundlage des minimalen Datenwertes, des ursprünglichen Wertes des Features und des maximalen Datenwertes zu simulieren. Der Wert des Parameters Unsicherheitstyp bestimmt die minimalen und maximalen Datenwerte der Dreiecksverteilung.
Durch die Form der Dreiecks-Wahrscheinlichkeitsverteilung wird sichergestellt, dass Werte, die nahe am ursprünglichen Wert liegen, mit größerer Wahrscheinlichkeit generiert werden als Werte in den Extrembereichen der Verteilung.
Hinweis:
Anders als bei der Normalverteilung muss die Form nicht symmetrisch sein. Die untere und obere Grenze kann zum Beispiel unterschiedlich sein.
Gleich
Die Option Gleich des Parameters Simulationsmethode wird verwendet, wenn der ursprüngliche Wert an jeder Position eine schlechte Schätzung des wahren Wertes ist und die einzige verfügbare Information zur Attributunsicherheit der Bereich der möglichen Werte ist. Diese Option verwendet eine gleiche Wahrscheinlichkeitsverteilung mit zwei Parametern: den minimalen Wert in dem durch den Unsicherheitstyp festgelegten Bereich und den maximalen Wert in dem durch den Unsicherheitstyp festgelegten Bereich. Anders als bei Normal- und Dreiecksverteilungen wird bei der gleichen Verteilung nicht der ursprüngliche Wert in den Wahrscheinlichkeitsverteilungsparametern verwendet; jeder Wert zwischen dem minimalen und maximalen Wert wird mit gleicher Wahrscheinlichkeit in den Simulationen generiert.
Unterstützte Werkzeuge
Im Gegensatz zu den meisten Geoverarbeitungswerkzeugen, die einen vorhandenen Layer als Eingabe akzeptieren, ist die Eingabe für dieses Werkzeug der Ergebnis-Layer eines der folgenden Werkzeuge aus der Toolbox "Spatial Statistics":
- Hot-Spot-Analyse (Getis-Ord Gi*)
- Optimierte Hot-Spot-Analyse
- Cluster- und Ausreißeranalyse (Anselin Local Morans I)
- Optimierte Ausreißeranalyse
- Generalisierte lineare Regression
- Räumliche Autokorrelation (Morans I)
Werkzeuge "Hot-Spot-Analyse", "Optimierte Hot-Spot-Analyse", "Cluster- und Ausreißeranalyse" und "Optimierte Ausreißeranalyse"
Für Ergebnisse der Werkzeuge Hot-Spot-Analyse (Getis-Ord Gi*), Optimierte Hot-Spot-Analyse, Cluster- und Ausreißeranalyse (Anselin Local Moran’s I) und Optimierte Ausreißeranalyse wird die Robustheit bewertet, indem ermittelt wird, wie häufig ein Feature in den wiederholten Ausführungen der Analyse die Kategorie gewechselt hat. Wenn zum Beispiel ein Feature in der ursprünglichen Analyse ein Hot-Spot mit 90 Prozent Konfidenz war und in einer der Analysewiederholungen mit simulierten Daten in eine andere Kategorie wechselt, zählt dies als Kategoriewechsel. Das Werkzeug zählt, wie oft sich die Kategorie eines Features ändert. Features werden als instabil gekennzeichnet, wenn weniger als 80 Prozent der Simulationen die ursprüngliche Kategorie ergeben.
Das Werkzeug erzeugt einen Gruppen-Layer, der einen Instabilitäts-Layer und eine Kopie der ursprünglichen Analyseergebnisse enthält.
Zusätzlich enthält der Gruppen-Layer ein Diagramm, das die Anzahl der Features für jede ursprüngliche Analysekategorie und jede vorherrschende Kategorie anzeigt. Die vorherrschende Kategorie ist die Kategorie, die bei allen wiederholten Ausführungen des Werkzeugs an jedem Standort am häufigsten vorkam.
Dieses Diagramm kann hilfreich sein, um kategoriale Instabilitätsmuster zu erkennen. Ein vollkommen robustes Ergebnis, bei dem jede ursprüngliche Kategorie perfekt mit der vorherrschenden Kategorie übereinstimmt, würde die Zelldiagonalen ausfüllen.
Hinweis:
Das Werkzeug unterstützt keine Analyseergebnisse aus aggregierten Punktdaten, wenn das Werkzeug Optimierte Hot-Spot-Analyse oder Optimierte Ausreißer-Analyse ausgeführt wird.
Werkzeug "Generalisierte lineare Regression"
Bei der Bewertung der Unsicherheit einer Analyse der generalisierten linearen Regression sind die wichtigsten Ergebnisse des Werkzeugs Generalisierte lineare Regression Diagramme, die die Verteilung der Regressionsdiagnosen über die simulierten Ausführungen anzeigen, wie z. B. R-Squared und Koeffizienten der erklärenden Variablen. Das Werkzeug liefert einen Gruppen-Layer, der eine Kopie des ursprünglichen Analyseergebnisses enthält, eine Tabelle, die die Ergebnisse aus wiederholten Ausführungen des ursprünglichen Werkzeugs zusammenfasst, und drei Diagramme, die die Verteilung von R-Squared, statistischer Signifikanz nach Jarque-Bera und standardisierten Koeffizienten erklärender Variablen anzeigen.
Werkzeug "Räumliche Autokorrelation (Morans I)"
Bei den Ergebnissen des Werkzeugs Räumliche Autokorrelation (Global Morans I) besteht das Ziel darin, nachzuvollziehen, wie sicher die ursprüngliche Bewertung der globalen räumlichen Autokorrelation bei Attributunsicherheit wäre. Das Werkzeug liefert einen Gruppen-Layer mit einer Kopie der ursprünglichen Analyseergebnisse, eine Tabelle, die die Ergebnisse wiederholter Ausführungen des Werkzeugs zusammenfasst, sowie Diagramme, die die Verteilung der Morans-Indexwerte und ihrer Z-Werte anzeigen.
In der Regel sind die meisten Morans-Indexwerte und ihre Z-Werte kleiner als die Originalwerte, da das Hinzufügen von unkorreliertem Zufallsrauschen zu den Datenwerten dazu führt, dass sich die räumliche Autokorrelation der Daten verringert.
Hinweis:
Das Werkzeug Räumliche Autokorrelation (Global Morans I) generiert keine Ausgabe-Features. Verwenden Sie die ursprünglichen Eingabe-Features, die in der Analyse des Werkzeugs Räumliche Autokorrelation (Global Morans I) verwendet wurden, als Wert für den Parameter Analyseergebnis-Features.
Zusätzliche Überlegungen
Die folgenden Unterabschnitte enthalten zusätzliche Informationen.
Ändern des Robustheitsschwellenwertes in der Ausgabe
Für die Ergebnisse der folgenden Werkzeuge wendet der Instabilitäts-Layer einen standardmäßigen Robustheitsschwellenwert von 80 % an: Hot-Spot-Analyse (Getis-Ord Gi*), Optimierte Hot-Spot-Analyse, Cluster- und Ausreißeranalyse (Anselin Local Morans I) und Optimierte Ausreißeranalyse. Das bedeutet, dass ein Feature nur dann als robust angesehen wird, wenn es in mehr als 80 % der Simulationen der gleichen Kategorie wie in der ursprünglichen Analyse zugeordnet wird. Je höher dieser Schwellenwert ist, desto mehr Features werden als instabil eingestuft, und je niedriger er ist, desto weniger Features werden als instabil eingestuft.
Der Schwellenwert, der die Robustheit definiert, kann über die Einstellungen der Layer-Symbolisierung konfiguriert werden. Um den Schwellenwert zu ändern, müssen Sie zunächst den Instabilitäts-Layer im Ausgabe-Gruppen-Layer suchen und auswählen. Öffnen Sie als Nächstes den Bereich Symbolisierung, doppelklicken Sie auf die Zelle Oberer Wert für die 80-Prozent-Klasse, und ändern Sie den Schwellenwert.
Grenzwerte für Simulationsdaten
Sie können den Bereich der simulierten Werte für eine Analysevariable begrenzen. Dies kann nützlich sein, wenn die Analysevariable nicht negativ sein soll (Zählungen) oder einen Bereich zwischen Null und 100 haben soll (Prozentsätze). Verwenden Sie den Parameter Grenzwerte für Simulationsdaten, um den Bereich der möglichen Werte für jede Variable festzulegen. Wenn Sie den Parameter Grenzwerte für Simulationsdaten festlegen, verwirft das Werkzeug simulierte Daten, die außerhalb des angegebenen Bereichs liegen, und wiederholt die Simulation.
Speichern der Zwischenergebnisse der Simulation
Die vom Werkzeug generierten Simulationen können als Feature-Class gespeichert werden. Verwenden Sie den Parameter Workspace für Simulationsergebnisse, um einen vorhandenen Workspace einzurichten, in dem das Werkzeug alle Simulationsergebnisse speichert.
Die Benennung der einzelnen Dateien erfolgt nach folgendem Format: Name der Analyseergebnis-Features _ Simulations-ID _ Simulationszeitstempel. Jede Feature-Class mit Simulationsergebnissen enthält das Schema des ursprünglichen Analyseergebnisses.
Die Zwischenergebnisse der Simulation können für die weitere Analyse hilfreich sein. Sie können zum Beispiel einen Workspace mit Simulationsergebnissen des Werkzeugs Generalisierte lineare Regression untersuchen, um die Verteilung der vorhergesagten Werte über die Simulationen hinweg besser zu verstehen.
Metadaten für Geoverarbeitungsvorgänge
Um das Analysewerkzeug, die Eingabe-Features und die in der Analyse verwendeten zusätzlichen Parameter zu finden, liest das Werkzeug die Metadaten aus dem Parameterwert Analyseergebnis-Features aus. Folglich muss die Analyse, die die Analyseergebnis-Features erzeugt hat, für Schreibvorgänge in die Metadaten konfiguriert sein.
Dies ist die Standardeinstellung. Öffnen Sie zum Überprüfen dieser Einstellung das Dialogfeld Optionen. Klicken Sie dann auf die Registerkarte Geoverarbeitung und stellen Sie im Abschnitt Protokollierung sicher, dass die Option Geoverarbeitungsvorgänge in Dataset-Metadaten schreiben aktiviert ist.
Hinweis:
Das Werkzeug unterstützt keine Analysen des Werkzeugs Räumliche Autokorrelation (Global Moran's I), die auf gehosteten Layern ausgeführt werden, da die Metadaten für diese Datasets nicht geändert werden können.
Zusätzliche Quellen
Weitere Informationen finden Sie in den folgenden Ressourcen:
- JingXiong Zhang und Michael Goodchild. 2002. "Uncertainty in Geographical Information." Taylor & Francis. ISBN 0-203-47132-6. https://doi.org/10.1201/b12624.
- Raphaella Diniz, Pedro O.S. Vaz-de-Melo, Renato Assunção. 2024. "Data augmentation for spatial disease mapping." Spatial Data Science Symposium 2021 Short Paper Proceedings. https://doi.org/10.25436/E2KS35
- Michele Crosetto und Stefano Tarantola. 2001. "Uncertainty and sensitivity analysis: tools for GIS-based model implementation." International Journal of Geographical Information Science. 15:5, 415–437. https://doi.org/10.1080/13658810110053125
- Zhou Dimin. 2010. "Research on Propagation of Attribute Uncertainty in GIS." 2010 International Conference on Intelligent Computation Technology and Automation.
- Hyeongmo Koo, Takuya Iwanaga, Barry F.W. Croke, Anthony J. Jakeman, Jing Yang, Hsiao-Hsuan Wang, Xifu Sun, Guonian Lü, Xin Li, Tianxiang Yue, Wenping Yuan, Xintao Liu und Min Chen. 2020. "Position paper: Sensitivity analysis of spatially distributed environmental models- a pragmatic framework for the exploration of uncertainty sources." Environmental Modelling and Software. https://doi.org/10.1016/j.envsoft.2020.104857
- Hyeongmo Koo, Yongwan Chun und Daniel A. Griffith. 2018. "Geovisualizing attribute uncertainty of interval and ratio variables: A framework and an implementation for vector data." Journal of Visual Languages and Computing 44, 89–96. https://doi.org/10.1016/j.jvlc.2017.11.007
- Robert Haining, Daniel A. Griffith und Robert Bennett. 1983. "Simulating Two-dimensional Autocorrelated Surfaces." Geographical Analysis. https://doi.org/10.1111/j.1538-4632.1983.tb00785.x
- Sirius Fuller und Charles Gamble. 2020. "Calculating Margins of Error the ACS Way." American Community Survey (ACS) Programs and Surveys, U.S. Census Bureau.
- Shuliang Wang, Wenzhong Shi, Hanning Yuan und Guoqing Chen. 2005. "Attribute Uncertainty in GIS Data". Fuzzy Systems and Knowledge Discvery Conference. 3614, 614–623. https://doi.org/10.1007/11540007_76
- Ningchuan Xiao, Catherine A. Calder und Marc P. Armstrong. 2007. "Assessing the effect of attribute uncertainty on the robustness of choropleth mapclassification." International Journal of Geographical Information Science. 21:2, 121–144. https://doi.org/10.1080/13658810600894307
Verwandte Themen
- Funktionsweise der Hot-Spot-Analyse (Getis-Ord Gi*)
- Funktionsweise des Werkzeugs "Cluster- und Ausreißeranalyse (Anselin Local Morans I)"
- Funktionsweise der optimierten Hot-Spot-Analyse
- Funktionsweise der optimierten Ausreißeranalyse
- Funktionsweise der generalisierten linearen Regression (GLR)
- Funktionsweise von räumlicher Autokorrelation (Global Moran's I)