Interagieren mit Statistiken

Sie können die Qualität und Verteilung der Werte in jedem Feld Ihrer Daten mit Data Engineering-Methoden evaluieren. So kann z. B. die Anzahl der NULL-Werte in einem Feld ein hilfreicher Index für die Datenqualität sein, mit dessen Hilfe Features mit fehlenden Daten identifiziert werden können. Deskriptive Statistiken, wie z. B. Mittelwert, Standardabweichung und Kurtosis, können dabei helfen, die Verteilung der Werte in den Feldern zu verstehen und zu beurteilen, wie ein Feld in einer Analyse verwendet werden sollte.

Mit der Ansicht "Data Engineering" in ArcGIS Pro können Sie deskriptive Statistiken und Kennwerte für Interessensfelder in Ihren Daten in einer Tabelle anzeigen. In dieser sind die Felder als Zeilen und die Statistiken als Spalten darstellt. Sie können diese Tabelle verwenden, um die Daten weiter zu erkunden und um Probleme in den Daten zu beheben, indem Sie die Symbolisierungseinstellungen anpassen, Diagramme erstellen und für die Kennwerte und Eigenschaften des ausgewählten Feldes geeignete Geoverarbeitungswerkzeuge ausführen.

Auswählen von Feldern und Berechnen von Statistiken

Die Ansicht "Data Engineering" hat zwei Bereiche: Der eine zeigt die Felder in Ihren Daten an, während der andere eine Statistiktabelle für die Felder angibt (wenn diese ausgewählt und berechnet wurden).

Weitere Informationen zur Ansicht "Data Engineering"

Klicken Sie zuerst auf ein einzelnes Feld im Bereich "Felder", drücken Sie die Taste Strg und klicken Sie, um mehrere einzelne, nicht nebeneinander liegende Felder auszuwählen, oder drücken Sie die Umschalttaste und klicken Sie, um mehrere Felder auszuwählen. Ziehen Sie dann die Felder in den Bereich "Statistik".

Wählen Sie die Felder aus und ziehen Sie sie in den Bereich "Statistik".

Alternativ können Sie mit der rechten Maustaste auf ausgewählte Felder klicken und danach auf Zu Statistik hinzufügen oder auch auf Zu Statistik hinzufügen und berechnen.

Sobald die Felder hinzugefügt sind, werden sie als Zeilen in der Statistiktabelle angezeigt. Jede Zeile enthält den Feldnamen, den Alias und den Datentyp der ausgewählten Felder. Zusätzlich erscheint nach der Berechnung eine Reihe von Statistikspalten mit weiteren Informationen zu den ausgewählten Feldern.

Klicken Sie auf die Schaltfläche Berechnen, um die Informationen in den Statistikspalten für die ausgewählten Felder anzuzeigen. Während der Berechnung der Statistik ändert sich die Schaltfläche Berechnen in die Schaltfläche Abbrechen, über die Sie die Berechnung abbrechen können.

Schaltfläche "Berechnen"

Die Statistikspalten werden mit Informationen für alle Felder gefüllt.

Statistiktabelle mit Statistiken und Diagrammen für alle Felder

Wenn Sie Datensätze ausgewählt haben, entsprechen die Ergebnisse den ausgewählten Datensätzen in den Daten. Die Anzahl der ausgewählten Features und die Anzahl der zur Berechnung der Statistik verwendeten Features werden unterhalb der Statistiktabelle angezeigt.

Wenn ausstehende Bearbeitungen im Feature-Layer oder in der Tabelle vorliegen, werden die ausstehenden Bearbeitungen für die Berechnung verwendet.

Typen von Statistiken

In der Ansicht "Data Engineering" können Sie für alle Felder in Ihren Daten Statistik- und Datenqualitätskennwerte in Form von Tabellenspalten berechnen und anzeigen. Klicken Sie nach dem Berechnen der Werte mit der rechten Maustaste auf die Statistikzellen für jedes Feld, um zusätzliche Statistikfunktionen aufzurufen. Einige dieser Funktionen verwenden Geoverarbeitungswerkzeuge, die die Eingabedaten verändern. Falls die Daten nicht editierbar sind, erstellen Sie vor dem Data Engineering eine editierbare Kopie.

Hinweis:

Die Rundung der Ergebnisse in der Statistiktabelle hängt von der Größe des Wertes ab. Bei Statistiken mit Dezimalstellen wird mindestens eine Dezimalstelle angezeigt. Weitere Dezimalstellen werden jedoch nur hinzugefügt, wenn dadurch weniger als 1 Prozent Rundungsfehler auftreten.

Hinweis:

Bei den Berechnungen werden Inf und -Inf als NULL-Werte behandelt. Die Menüoption NULL auswählen der NULL-Statistik behandelt diese Werte jedoch nicht als NULL-Werte.

StatistikBeschreibungGeeignete DatentypenMenüoptionen

NULL-Werte

Die Anzahl und der Prozentsatz aller Datensätze, die NULL-Werte im Feld enthalten.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit NULL-Werten auszuwählen.

Hinweis:

Wenn die Symbolisierung des Layers nicht für die Anzeige von NULL-Werten konfiguriert ist, wird die Auswahl möglicherweise nicht auf der Karte angezeigt. Konfigurieren Sie die Symbolisierung, damit die Option Werte außerhalb des Bereichs anzeigen Features mit NULL-Werten anzeigt.

Numerisch, Text, Datum

Diagrammvorschau

Eine visuelle Darstellung der Verteilung der Werte im Feld.

Es werden Histogramme für numerische Felder (Short, Long, Float, Double), Balkendiagramme für kategorische Felder (Text) und Liniendiagramme für Datumsfelder angezeigt.

Verwenden Sie die Spalte mit der Diagrammvorschau für eine erste Erkundung. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, wenn Sie für Interessensfelder Diagramme erstellen möchten.

Hinweis:

Bei Histogrammen und Liniendiagrammen werden standardmäßig 20 Abschnitte angezeigt. Je nach Seltenheit der Daten kann es Abschnitte ohne Daten geben. Abschnitte mit leeren Werten werden in der Diagrammvorschau wie Null-Werte behandelt. Um die Detaillierungsebene zu ändern, klicken Sie mit der rechten Maustaste auf die Diagrammvorschau und erstellen Sie ein Diagramm.

Numerisch, Text, Datum

Minimum

Der kleinste Wert im Feld.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem Minimalwert auszuwählen.

Numerisch, Datum

Maximum

Der größte Wert im Feld.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem Maximalwert auszuwählen.

Numerisch, Datum

Mittelwert

Der Mittelwert aller Werte im Feld.

Der Mittelwert ist der Durchschnittswert in einer Verteilung, berechnet als Summe der Werte im Feld geteilt durch die Gesamtzahl der Werte. Der Mittelwert ist das Standardmaß für die zentrale Tendenz in einer Verteilung.

Bei der Berechnung des mittleren Datums für Datumsfelder wird jedes Datum in eine Zahl umgewandelt, indem die Differenz zwischen dem Datum und einem Referenzdatum (z. B. 1900-01-01) in Millisekunden berechnet wird. Die Summe aller Millisekundenwerte geteilt durch die Anzahl der Datumswerte ergibt das mittlere Datum, das für die Anzeige auf die nächste Sekunde gerundet wird.

Hinweis:

Das mittlere Datum muss eine andere zeitliche Auflösung (d. h. Minuten, Sekunden, Millisekunden) haben als die Werte im Feld.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des Mittelwertes auszuwählen.

Numerisch, Datum

  • Auswählen (oberhalb und unterhalb des Durchschnitts)

Standardabweichung

Die Standardabweichung der Werte im Feld.

Die Standardabweichung ist ein Maß für die Ausbreitung der Verteilung Sie wird als Quadratwurzel der Varianz berechnet, wobei die Varianz dem Durchschnitt der quadrierten Differenzen aller Werte vom Mittelwert des Feldes entspricht.

Numerisch

Medianwert

Der Medianwert aller Werte im Feld.

Der Medianwert ist der mittlere Wert in der sortierten Werteliste. Bei einer geraden Werteanzahl ist der Medianwert der Mittelwert zwischen den beiden mittleren Werten in der Verteilung.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des Medianwerts auszuwählen.

Numerisch, Datum

  • Auswählen (Zeilen oberhalb oder unterhalb des Meridianwerts)

Anzahl

Die Anzahl und der Prozentsatz aller Werte im Feld, die nicht NULL sind.

Numerisch, Text, Datum

  • Alle auswählen (Zeilen, die Bestandteil der berechneten Statistik waren)

Anzahl Einzelwerte

Die Anzahl der Einzelwerte im Feld.

Numerisch, Text, Datum

Keine einmaligen Aktionen

Modus

Der Modalwert aller Werte im Feld.

Der Modalwert ist der häufigste Wert im Feld. Bei Konflikten, die auftreten, wenn der häufigste Wert in einem Feld mit mehreren Werten verknüpft ist, ist in der Zelle [Mehrfache Werte] angegeben.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem Modalwert auszuwählen.

Numerisch, Text, Datum

  • Modus auswählen (Zeilen mit Moduswert – nur für ganzzahlige Felder, Text- und Datumsfelder)

Am seltensten

Der seltenste Wert im Feld

Bei Konflikten, die auftreten, wenn der seltenste Wert in einem Feld mit mehreren Werten verknüpft ist, ist in der Zelle [Mehrfache Werte] angegeben.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem seltensten Wert auszuwählen.

Numerisch, Text, Datum

  • Seltenste auswählen (Zeilen mit dem seltensten Wert – nur für ganzzahlige Felder, Text- und Datumsfelder)

Ausreißer

Die Anzahl der Datensätze mit Ausreißerwerten im Feld.

Ausreißer sind Werte, die um mehr als das 1,5-fache des Interquartil-Bereichs oberhalb des dritten Quartils oder unterhalb des ersten Quartils des ausgewählten Feldes liegen.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um die Datensätze mit Ausreißer-Werten auszuwählen.

Numerisch

  • Ausreißer auswählen (Zeilen mit Ausreißern)

Summe

Die Summe aller Werte im Feld.

Numerisch

Keine einmaligen Aktionen

Bereich

Die Differenz zwischen dem kleinsten und dem größten Wert im Feld.

Numerisch

Keine einmaligen Aktionen

Interquartil-Bereich

Der Bereich zwischen den Werten des ersten Quartils und den Werten des dritten Quartils im Feld.

Quartile unterteilen die sortierte Werteliste in vier Gruppen mit der jeweils gleichen Anzahl an Werten. Der erste Quartilswert ist der obere Grenzwert der ersten Gruppe in aufsteigender Reihenfolge und das dritte Quartil ist der obere Grenzwert der dritten Gruppe.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten in diesem Bereich auszuwählen.

Numerisch

Erstes Quartil

Der Wert des ersten Quartils im Feld.

Quartile unterteilen die sortierte Werteliste in vier Gruppen mit der jeweils gleichen Anzahl an Werten. Der erste Quartilswert entspricht dem oberen Grenzwert der ersten Gruppe in aufsteigender Reihenfolge.

Bein Konflikten wird der Mittelwert aller entsprechenden Werte angezeigt.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des ersten Quartils auszuwählen.

Numerisch, Datum

Drittes Quartil

Der Wert des dritten Quartils im Feld.

Quartile unterteilen die sortierte Werteliste in vier Gruppen mit der jeweils gleichen Anzahl an Werten. Der dritte Quartilswert entspricht dem oberen Grenzwert der dritten Gruppe.

Bein Konflikten wird der Mittelwert aller entsprechenden Werte angezeigt.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des dritten Quartils auszuwählen.

Numerisch, Datum

Variationskoeffizient

Der Variationskoeffizient für die Werte im Feld.

Der Variationskoeffizient gibt die relative Verbreitung der Werte an. Er berechnet sich als die durch den Mittelwert des Feldes geteilte Standardabweichung.

Im Gegensatz zur Standardabweichung, die immer im Kontext des Datenbereichs betrachtet werden muss, können mit dem Variationskoeffizienten Datenreihen mit verschiedenen Bereichen und Mittelwerten verglichen werden.

Der Variationskoeffizient kann nicht berechnet werden, wenn der Mittelwert gleich 0 ist. Wenn der Mittelwert nahezu 0 ist und sowohl positive als auch negative Werte im Dataset vorliegen, ist u. U. keine sinnvolle Interpretation des Variationskoeffizienten möglich.

Numerisch

Schiefe

Die Schiefe aller Werte im Feld.

Die Schiefe misst die Symmetrie der Verteilung. Die Schiefe ist Null (oder nahe Null), wenn die Verteilung auf beiden Seiten symmetrisch ist. Dies ist bei einer Normalverteilung der Fall. Verteilungen mit längeren Flanken auf der linken Seite haben eine negative Schiefe. Verteilungen mit längeren Flanken auf der rechten Seite haben eine positive Schiefe.

Die Schiefe wird berechnet, indem das dritte Moment (Durchschnitt der kubierten Datenwerte) durch die kubierte Standardabweichung geteilt wird.

Numerisch

Kurtosis

Die Kurtosis aller Werte im Feld.

Die Kurtosis beschreibt das Gewicht der Flanken einer Verteilung im Vergleich zu den Flanken einer Normalverteilung. Mit ihrer Hilfe lässt sich feststellen, wie häufig Extremwerte auftreten. Verteilungen mit einer Kurtosis von weniger als drei haben leichtere Flanken und weniger Extremwerte als die Normalverteilung. Verteilungen mit einer Kurtosis über drei haben dagegen schwerere Flanken und mehr Extremwerte als die Normalverteilung.

Die Kurtosis wird berechnet, indem das vierte Moment (die vierte Potenz des erwarteten Werts der Datenwerte) durch die vierte Potenz der Standardabweichung geteilt wird.

Numerisch

Interaktive Statistiktabelle

Die Statistiktabelle ist interaktiv. Klicken Sie mit der rechten Maustaste auf Zellen und Zeilen-/Spaltenköpfe und verwenden Sie die Werkzeugleiste, um auf Funktionen zuzugreifen.

Interagieren mit Feldern

Klicken Sie mit der rechten Maustaste auf einen Zeilenkopf, um auf Funktionen für das ausgewählte Feld zuzugreifen. Das können z. B. sein:

  • Diagramm erstellen: Diagramme über das ausgewählte Feld erstellen. Es werden datentypspezifische Empfehlungen angezeigt.
  • Felder: Feldansicht öffnen und aktuelles Feld als aktives Feld in der Ansicht festlegen.
  • Attributtabelle: Attributtabelle öffnen und aktuelles Feld als aktives Feld in der Attributtabelle festlegen.
  • Bereinigen, Konstruieren, Integrieren, und Formatieren: Auf Geoverarbeitungswerkzeuge zur Vorbereitung der Dateien zugreifen. Weitere Informationen zu diesen Optionen erhalten Sie im Abschnitt Vorbereiten von Daten.
  • Feld entfernen: Feld entfernen und dessen Statistik aus der Statistiktabelle löschen.

Hinweis:

Die meisten Geoverarbeitungsvorgänge, bei denen Eingabedaten geändert werden, können nicht rückgängig gemacht werden.

Funktionalitätsoptionen für Zeilen in der Statistiktabelle

Anzeigen von bestimmten Datentypen

Die Symbolleiste der Statistiktabelle enthält Optionen, die festlegen, welche Felder und Statistikspalten bei welchem Datentyp angezeigt werden.

Filtern der Felder nach Datentyp

Sie können z. B. auf die Option Text klicken, um Felder mit dem Datentyp Text zu entfernen.

Wenn Sie Datentypen aus der Statistiktabelle entfernen, werden Spalten, die nur zum entfernten Datentyp gehören, ebenfalls entfernt. So können Interessenselemente leichter in der Tabelle gefunden werden. Wenn Sie z. B. nur Felder vom Typ Datum anzeigen, werden Spalten, die Verteilungen wie Schiefe und Kurtosis beinhalten, nicht angezeigt. Dadurch werden nur die interessanten Spalten angezeigt.

Sortieren, Ausblenden, Fixieren und Neuanordnen von Spalten

Standardmäßig werden die Felder in der gleichen Reihenfolge angezeigt wie in der Attributtabelle. Mit den Optionen für die Spaltenköpfe können Sie die Spalten in der Tabelle sortieren, ausblenden und fixieren.

Optionen für die Spalte "Anzahl NULL-Werte" in der Statistiktabelle

Durch Sortieren können Sie die Zeilen nach ihrem Wert in der berechneten Statistik neu anordnen. Sie können z. B. Felder nach der Spalte NULL-Werte sortieren, um herauszufinden, in welchen Feldern möglicherweise Daten fehlen.

Hinweis:

Das Sortieren ist nur möglich, wenn die Tabelle Felder mit je einem Datentyp enthält. Filtern Sie mit den Anzeigeoptionen in der Werkzeugleiste nach einen bestimmten Datentyp und sortieren Sie dann. Die Sortierreihenfolge wird jedes Mal, wenn ein neues Feld zur Statistiktabelle hinzugefügt wird, auf den Standardwert zurückgesetzt.

Klicken Sie auf Fixieren/Fixierung aufheben, um die Spalte an den Anfang der Statistiktabelle zu verschieben und zu fixieren. Dann wird die Spalte beim horizontalen Scrollen der Tabelle durchgehend angezeigt. Wenn Sie die Spalten neu anordnen möchten, ziehen Sie die Spaltenüberschrift an die neue Position.

Um Spalten auszublenden, klicken Sie auf Spalte ausblenden. Dies entfernt die Spalte aus der Ansicht. Wenn Sie alle ausgeblendeten Spalten wieder anzeigen möchten, klicken Sie auf Alle Spalten anzeigen.

Die Option "Alle Spalten anzeigen"

Um alle Felder und deren Statistiken aus der Statistiktabelle zu entfernen, klicken Sie auf Alle Felder entfernen. Wird ein zuvor entferntes Feld wieder zur Statistiktabelle hinzugefügt, müssen Sie erneut auf die Schaltfläche Berechnen klicken, um die Statistik anzuzeigen.

Statistik exportieren

Um die Statistik in anderen Teilen von ArcGIS Pro zu verwenden, behalten Sie die Statistik als eigenständige Tabelle bei. Klicken Sie auf Statistik als Tabelle exportieren, um das Werkzeug Feldstatistik in Tabelle zu öffnen. Mit dieser Option können Sie die Statistik als einzelne Tabelle oder als mehrere Tabellen für jeden Datentyp exportieren.

Referenzen

Verwandte Themen