Sie können die Qualität und Verteilung der Werte in jedem Feld Ihrer Daten mit Data Engineering-Methoden evaluieren. So kann z. B. die Anzahl der NULL-Werte in einem Feld ein hilfreicher Index für die Datenqualität sein, mit dessen Hilfe Features mit fehlenden Daten identifiziert werden können. Deskriptive Statistiken, wie z. B. Mittelwert, Standardabweichung und Kurtosis, können dabei helfen, die Verteilung der Werte in den Feldern zu verstehen und zu beurteilen, wie ein Feld in einer Analyse verwendet werden sollte.
Mit der Ansicht "Data Engineering" in ArcGIS Pro können Sie deskriptive Statistiken und Kennwerte für Interessensfelder in Ihren Daten in einer Tabelle anzeigen. In dieser sind die Felder als Zeilen und die Statistiken als Spalten darstellt. Sie können diese Tabelle verwenden, um die Daten weiter zu erkunden und um Probleme in den Daten zu beheben, indem Sie die Symbolisierungseinstellungen anpassen, Diagramme erstellen und für die Kennwerte und Eigenschaften des ausgewählten Feldes geeignete Geoverarbeitungswerkzeuge ausführen.
Auswählen von Feldern und Berechnen von Statistiken
Die Ansicht "Data Engineering" hat zwei Bereiche: Der eine zeigt die Felder in Ihren Daten an, während der andere eine Statistiktabelle für die Felder angibt (wenn diese ausgewählt und berechnet wurden).
Weitere Informationen zur Ansicht "Data Engineering"
Klicken Sie zuerst auf ein einzelnes Feld im Bereich "Felder", drücken Sie die Taste Strg und klicken Sie, um mehrere einzelne, nicht nebeneinander liegende Felder auszuwählen, oder drücken Sie die Umschalttaste und klicken Sie, um mehrere Felder auszuwählen. Ziehen Sie dann die Felder in den Bereich "Statistik".
Alternativ können Sie mit der rechten Maustaste auf ausgewählte Felder klicken und danach auf Zu Statistik hinzufügen oder auch auf Zu Statistik hinzufügen und berechnen.
Sobald die Felder hinzugefügt sind, werden sie als Zeilen in der Statistiktabelle angezeigt. Jede Zeile enthält den Feldnamen, den Alias und den Datentyp der ausgewählten Felder. Zusätzlich erscheint nach der Berechnung eine Reihe von Statistikspalten mit weiteren Informationen zu den ausgewählten Feldern.
Klicken Sie auf die Schaltfläche Berechnen, um die Informationen in den Statistikspalten für die ausgewählten Felder anzuzeigen.
Die Statistikspalten werden mit Informationen für alle Felder gefüllt.
Wenn Sie Datensätze ausgewählt haben, entsprechen die Ergebnisse den ausgewählten Datensätzen in den Daten. Die Anzahl der ausgewählten Features und die Anzahl der zur Berechnung der Statistik verwendeten Features werden unterhalb der Statistiktabelle angezeigt.
Wenn ausstehende Bearbeitungen im Feature-Layer oder in der Tabelle vorliegen, werden die ausstehenden Bearbeitungen für die Berechnung verwendet.
Typen von Statistiken
In der Ansicht "Data Engineering" können Sie für alle Felder in Ihren Daten Statistik- und Datenqualitätskennwerte in Form von Tabellenspalten berechnen und anzeigen. Klicken Sie nach dem Berechnen der Werte mit der rechten Maustaste auf die Statistikzellen für jedes Feld, um zusätzliche Statistikfunktionen aufzurufen. Einige dieser Funktionen verwenden Geoverarbeitungswerkzeuge, die die Eingabedaten verändern. Falls die Daten nicht editierbar sind, erstellen Sie vor dem Data Engineering eine editierbare Kopie.
Hinweis:
Die Rundung der Ergebnisse in der Statistiktabelle hängt von der Größe des Wertes ab. Bei Statistiken mit Dezimalstellen wird mindestens eine Dezimalstelle angezeigt. Weitere Dezimalstellen werden jedoch nur hinzugefügt, wenn dadurch weniger als 1 Prozent Rundungsfehler auftreten.
Statistik | Beschreibung | Geeignete Datentypen | Menüoptionen |
---|---|---|---|
Anzahl NULL-Werte | Die Anzahl der Datensätze mit NULL-Werten im Feld. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit NULL-Werten auszuwählen. Hinweis:Wenn die Symbolisierung des Layers nicht für die Anzeige von NULL-Werten konfiguriert ist, wird die Auswahl möglicherweise nicht auf der Karte angezeigt. Konfigurieren Sie die Symbolisierung, damit die Option Werte außerhalb des Bereichs anzeigen Features mit NULL-Werten anzeigt. | Numerisch, Text, Datum |
|
Diagrammvorschau | Eine visuelle Darstellung der Verteilung der Werte im Feld. Es werden Histogramme für numerische Felder (Short, Long, Float, Double), Balkendiagramme für kategorische Felder (Text) und Liniendiagramme für Datumsfelder angezeigt. Verwenden Sie die Spalte mit der Diagrammvorschau für eine erste Erkundung. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, wenn Sie für Interessensfelder Diagramme erstellen möchten. Hinweis:Bei Histogrammen und Liniendiagrammen werden standardmäßig 20 Abschnitte angezeigt. Je nach Seltenheit der Daten kann es Abschnitte ohne Daten geben. Abschnitte mit leeren Werten werden in der Diagrammvorschau wie Null-Werte behandelt. Um die Detaillierungsebene zu ändern, klicken Sie mit der rechten Maustaste auf die Diagrammvorschau und erstellen Sie ein Diagramm. | Numerisch, Text, Datum |
|
Minimum | Der kleinste Wert im Feld. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem Minimalwert auszuwählen. | Numerisch, Datum |
|
Maximum | Der größte Wert im Feld. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem Maximalwert auszuwählen. | Numerisch, Datum |
|
Mittelwert | Der Mittelwert aller Werte im Feld. Der Mittelwert ist der Durchschnittswert in einer Verteilung, berechnet als Summe der Werte im Feld geteilt durch die Gesamtzahl der Werte. Der Mittelwert ist das Standardmaß für die zentrale Tendenz in einer Verteilung. Bei der Berechnung des mittleren Datums für Datumsfelder wird jedes Datum in eine Zahl umgewandelt, indem die Differenz zwischen dem Datum und einem Referenzdatum (z. B. 1900-01-01) in Millisekunden berechnet wird. Die Summe aller Millisekundenwerte geteilt durch die Anzahl der Datumswerte ergibt das mittlere Datum, das für die Anzeige auf die nächste Sekunde gerundet wird. Hinweis:Das mittlere Datum muss eine andere zeitliche Auflösung (d. h. Minuten, Sekunden, Millisekunden) haben als die Werte im Feld. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des Mittelwertes auszuwählen. | Numerisch, Datum |
|
Standardabweichung | Die Standardabweichung der Werte im Feld. Die Standardabweichung ist ein Maß für die Ausbreitung der Verteilung Sie wird als Quadratwurzel der Varianz berechnet, wobei die Varianz dem Durchschnitt der quadrierten Differenzen aller Werte vom Mittelwert des Feldes entspricht. | Numerisch | |
Medianwert | Der Medianwert aller Werte im Feld. Der Medianwert ist der mittlere Wert in der sortierten Werteliste. Bei einer geraden Werteanzahl ist der Medianwert der Mittelwert zwischen den beiden mittleren Werten in der Verteilung. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des Medianwerts auszuwählen. | Numerisch, Datum |
|
Anzahl | Die Anzahl der Werte im Feld, die nicht NULL sind. | Numerisch, Text, Datum |
|
Anzahl Einzelwerte | Die Anzahl der Einzelwerte im Feld. | Numerisch, Text, Datum | Keine einmaligen Aktionen |
Modalwert | Der Modalwert aller Werte im Feld. Der Modalwert ist der häufigste Wert im Feld. Bei Konflikten, die auftreten, wenn der häufigste Wert in einem Feld mit mehreren Werten verknüpft ist, ist in der Zelle <Mehrfache Werte> angegeben. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem Modalwert auszuwählen. | Numerisch, Text, Datum |
|
Am seltensten | Der seltenste Wert im Feld Bei Konflikten, die auftreten, wenn der seltenste Wert in einem Feld mit mehreren Werten verknüpft ist, ist in der Zelle <Mehrfache Werte> angegeben. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem seltensten Wert auszuwählen. | Numerisch, Text, Datum |
|
Ausreißer | Die Anzahl der Datensätze mit Ausreißerwerten im Feld. Ausreißer sind Werte, die um mehr als das 1,5-fache des Interquartil-Bereichs oberhalb des dritten Quartils oder unterhalb des ersten Quartils des ausgewählten Feldes liegen. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um die Datensätze mit Ausreißer-Werten auszuwählen. | Numerisch |
|
Summe | Die Summe aller Werte im Feld. | Numerisch | Keine einmaligen Aktionen |
Bereich | Die Differenz zwischen dem kleinsten und dem größten Wert im Feld. | Numerisch | Keine einmaligen Aktionen |
Interquartil-Bereich | Der Bereich zwischen den Werten des ersten Quartils und den Werten des dritten Quartils im Feld. Quartile unterteilen die sortierte Werteliste in vier Gruppen mit der jeweils gleichen Anzahl an Werten. Der erste Quartilswert ist der obere Grenzwert der ersten Gruppe in aufsteigender Reihenfolge und das dritte Quartil ist der obere Grenzwert der dritten Gruppe. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten in diesem Bereich auszuwählen. | Numerisch |
|
Erstes Quartil | Der Wert des ersten Quartils im Feld. Quartile unterteilen die sortierte Werteliste in vier Gruppen mit der jeweils gleichen Anzahl an Werten. Der erste Quartilswert entspricht dem oberen Grenzwert der ersten Gruppe in aufsteigender Reihenfolge. Bein Konflikten wird der Mittelwert aller entsprechenden Werte angezeigt. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des ersten Quartils auszuwählen. | Numerisch, Datum |
|
Drittes Quartil | Der Wert des dritten Quartils im Feld. Quartile unterteilen die sortierte Werteliste in vier Gruppen mit der jeweils gleichen Anzahl an Werten. Der dritte Quartilswert entspricht dem oberen Grenzwert der dritten Gruppe. Bein Konflikten wird der Mittelwert aller entsprechenden Werte angezeigt. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des dritten Quartils auszuwählen. | Numerisch, Datum |
|
Variationskoeffizient | Der Variationskoeffizient für die Werte im Feld. Der Variationskoeffizient gibt die relative Verbreitung der Werte an. Er berechnet sich als die durch den Mittelwert des Feldes geteilte Standardabweichung. Im Gegensatz zur Standardabweichung, die immer im Kontext des Datenbereichs betrachtet werden muss, können mit dem Variationskoeffizienten Datenreihen mit verschiedenen Bereichen und Mittelwerten verglichen werden. | Numerisch | |
Schiefe | Die Schiefe aller Werte im Feld. Die Schiefe misst die Symmetrie der Verteilung. Die Schiefe ist Null (oder nahe Null), wenn die Verteilung auf beiden Seiten symmetrisch ist. Dies ist bei einer Normalverteilung der Fall. Verteilungen mit längeren Flanken auf der linken Seite haben eine negative Schiefe. Verteilungen mit längeren Flanken auf der rechten Seite haben eine positive Schiefe. Die Schiefe wird berechnet, indem das dritte Moment (Durchschnitt der kubierten Datenwerte) durch die kubierte Standardabweichung geteilt wird. | Numerisch | |
Kurtosis | Die Kurtosis aller Werte im Feld. Die Kurtosis beschreibt das Gewicht der Flanken einer Verteilung im Vergleich zu den Flanken einer Normalverteilung. Mit ihrer Hilfe lässt sich feststellen, wie häufig Extremwerte auftreten. Verteilungen mit einer Kurtosis von weniger als drei haben leichtere Flanken und weniger Extremwerte als die Normalverteilung. Verteilungen mit einer Kurtosis über drei haben dagegen schwerere Flanken und mehr Extremwerte als die Normalverteilung. Die Kurtosis wird berechnet, indem das vierte Moment (die vierte Potenz des erwarteten Werts der Datenwerte) durch die vierte Potenz der Standardabweichung geteilt wird. | Numerisch |
Interaktive Statistiktabelle
Die Statistiktabelle ist interaktiv. Klicken Sie mit der rechten Maustaste auf Zellen und Zeilen-/Spaltenköpfe und verwenden Sie die Werkzeugleiste, um auf Funktionen zuzugreifen.
Interagieren mit Feldern
Klicken Sie mit der rechten Maustaste auf einen Zeilenkopf, um auf Funktionen für das ausgewählte Feld zuzugreifen. Das können z. B. sein:
- Diagramm erstellen: Diagramme über das ausgewählte Feld erstellen. Es werden datentypspezifische Empfehlungen angezeigt.
- Bereinigen, Konstruieren, Integrieren, und Formatieren: Auf Geoverarbeitungswerkzeuge zur Vorbereitung der Dateien zugreifen. Weitere Informationen zu diesen Optionen erhalten Sie im Abschnitt Vorbereiten von Daten.
- Feld entfernen: Ein Feld aus der Statistiktabelle entfernen.
Hinweis:
Die meisten Geoverarbeitungsvorgänge, bei denen Eingabedaten geändert werden, können nicht rückgängig gemacht werden.
Anzeigen von bestimmten Datentypen
Die Symbolleiste der Statistiktabelle enthält Optionen, die festlegen, welche Felder und Statistikspalten bei welchem Datentyp angezeigt werden.
Sie können z. B. auf die Option Text klicken, um Felder mit dem Datentyp Text zu entfernen.
Wenn Sie Datentypen aus der Statistiktabelle entfernen, werden Spalten, die nur zum entfernten Datentyp gehören, ebenfalls entfernt. So können Interessenselemente leichter in der Tabelle gefunden werden. Wenn Sie z. B. nur Felder vom Typ Datum anzeigen, werden Spalten, die Verteilungen wie Schiefe und Kurtosis beinhalten, nicht angezeigt. Dadurch werden nur die interessanten Spalten angezeigt.
Sortieren, Ausblenden, Fixieren und Neuanordnen von Spalten
Mit den Optionen für die Spaltenköpfe können Sie die Spalten in der Tabelle sortieren, ausblenden und fixieren.
Durch Sortieren können Sie die Zeilen nach ihrem Wert in der berechneten Statistik neu anordnen. Sie können z. B. Felder nach der Spalte Anzahl NULL-Werte sortieren, um herauszufinden, in welchen Feldern möglicherweise Daten fehlen.
Hinweis:
Das Sortieren ist nur möglich, wenn die Tabelle Felder mit je einem Datentyp enthält. Filtern Sie mit den Anzeigeoptionen in der Werkzeugleiste nach einen bestimmten Datentyp und sortieren Sie dann.
Um Spalten auszublenden, klicken Sie auf Spalte ausblenden. Dies entfernt die Spalte aus der Ansicht. Wenn Sie alle ausgeblendeten Spalten wieder anzeigen möchten, klicken Sie auf Alle Spalten anzeigen.
Klicken Sie auf Fixieren/Fixierung aufheben, um die Spalte an den Anfang der Statistiktabelle zu verschieben und zu fixieren. Dann wird die Spalte beim horizontalen Scrollen der Tabelle durchgehend angezeigt.
Wenn Sie die Spalten neu anordnen möchten, klicken Sie auf eine Spaltenüberschrift und ziehen Sie sie an die neue Position.
Referenzen
- Sheskin, D.J. (2000). "Handbook of Parametric and Nonparametric Statistical Procedures." Second Edition. Boca Raton, Florida: Chapman & Hall/CRC. ISBN: 978-1-58488-814-7.
- UCLA: Statistical Consulting Group.
"IEEE Standard for Floating-Point Arithmetic." IEEE Std 754-2019 (Überarbeitung von IEEE 754-2008), Vol., No., Seiten 1-84, 22. Juli 2019. https://ieeexplore.ieee.org/document/8766229.