Interagieren mit Statistiken

Sie können die Qualität und Verteilung der Werte in jedem Feld Ihrer Daten mit Data Engineering-Methoden evaluieren. So kann z. B. die Anzahl der NULL-Werte in einem Feld ein hilfreicher Index für die Datenqualität sein, mit dessen Hilfe Features mit fehlenden Daten identifiziert werden können. Deskriptive Statistiken, wie z. B. Mittelwert, Standardabweichung und Kurtosis, können dabei helfen, die Verteilung der Werte in den Feldern zu verstehen und zu beurteilen, wie ein Feld in einer Analyse verwendet werden sollte.

Mit der Ansicht "Data Engineering" in ArcGIS Pro können Sie deskriptive Statistiken und Kennwerte für Interessensfelder in Ihren Daten in einer Tabelle anzeigen. Jedes Feld wird als eine Zeile und jede Statistik als eine Spalte angezeigt. Sie können diese Tabelle verwenden, um die Daten zu erkunden oder um Probleme in den Daten zu beheben, indem Sie die Symbolisierungseinstellungen anpassen, Diagramme erstellen und für die Kennwerte und Eigenschaften des ausgewählten Feldes geeignete Geoverarbeitungswerkzeuge ausführen.

Auswählen von Feldern und Berechnen von Statistiken

Die Ansicht "Data Engineering" hat zwei Bereiche: Der eine zeigt die Felder in den Daten an, während der andere eine Statistiktabelle für die Felder angibt (wenn diese ausgewählt und berechnet wurden).

Weitere Informationen zur Ansicht "Data Engineering"

Klicken Sie zuerst auf ein Feld im Bereich "Felder", drücken Sie die Taste Strg, und klicken Sie, um mehrere einzelne, nicht nebeneinander liegende Felder auszuwählen, oder drücken Sie die Umschalttaste, und klicken Sie, um mehrere Felder auszuwählen. Ziehen Sie dann die Felder in den Bereich "Statistik".

Wählen Sie die Felder aus und ziehen Sie sie in den Bereich "Statistik".

Alternativ können Sie mit der rechten Maustaste auf die ausgewählten Felder klicken und danach auf Zu Statistik hinzufügen oder auch auf Zu Statistik hinzufügen und berechnen.

Hinweis:

Sie können auch in einer Aktion alle Felder hinzufügen und berechnen, indem Sie auf der Werkzeugleiste im Bereich "Felder" auf die Schaltfläche Felder hinzufügen und Statistiken berechnen Felder hinzufügen und Statistiken berechnen klicken oder indem Sie vor dem Hinzufügen der Felder in der Mitte des leeren Bereichs "Statistik" auf die Schaltfläche Alle Felder hinzufügen und berechnen klicken.

Sobald die Felder hinzugefügt sind, werden sie als Zeilen in der Statistiktabelle angezeigt. Jede Zeile enthält den Feldnamen, den Alias und den Datentyp der ausgewählten Felder. Zusätzlich erscheint nach der Berechnung eine Reihe von Statistikspalten mit weiteren Informationen zu den ausgewählten Feldern.

Klicken Sie auf die Schaltfläche Berechnen, um die Statistikspalten für die ausgewählten Felder auszufüllen. Während der Berechnung der Statistik ändert sich die Schaltfläche Berechnen in die Schaltfläche Abbrechen, über die Sie die Berechnung abbrechen können.

Schaltfläche "Berechnen"

Die Statistikspalten werden mit Informationen für alle Felder gefüllt.

Statistiktabelle mit Statistiken und Diagrammen für alle Felder

Wenn Sie Datensätze ausgewählt haben, entsprechen die Ergebnisse den ausgewählten Datensätzen in den Daten. Die Anzahl der ausgewählten Features und die Anzahl der zur Berechnung der Statistik verwendeten Features werden unterhalb der Statistiktabelle angezeigt.

Wenn ausstehende Bearbeitungen im Feature-Layer oder in der Tabelle vorliegen, werden die ausstehenden Bearbeitungen für die Berechnung verwendet.

Verwenden Sie zum horizontalen Scrollen in der Statistiktabelle UMSCHALT + Mausrad.

Typen von Statistiken

In der Ansicht "Data Engineering" können Sie für alle Felder in Ihren Daten Statistik- und Datenqualitätskennwerte in Form von Tabellenspalten berechnen und anzeigen. In der Tabelle sind einige der Kopfzeilennamen der Statistiken abgekürzt. Zeigen Sie mit der Maus auf die Kopfzeile, um den ganzen Namen der Statistik anzuzeigen. Die Ergebnisse in der Statistiktabelle werden mit 6 Dezimalstellen angezeigt. Sie können mit der rechten Maustaste auf eine Zelle klicken, und die Option Kopieren auswählen, um den unverarbeiteten Wert zu kopieren.

Hinweis:

Beachten Sie bei Feldern des Datentyps "Zeitstempelversatz" oder "Nur Zeit" Folgendes:

  • Statistiken für Felder des Datentyps "Zeitstempelversatz" werden in UTC berechnet und angezeigt (Versatz +00:00:00).
  • Statistiken für Felder des Datentyps "Nur Zeit" sind lineare Statistiken und keine zirkulären Statistiken.

Klicken Sie nach dem Berechnen der Werte mit der rechten Maustaste auf die Statistikzellen für jedes Feld, um zusätzliche Statistikfunktionen aufzurufen. Einige dieser Funktionen verwenden Geoverarbeitungswerkzeuge, die die Eingabedaten verändern. Falls die Daten nicht editierbar sind, erstellen Sie vor dem Data Engineering eine editierbare Kopie.

StatistikBeschreibungGeeignete DatentypenMenüoptionen

NULL-Werte

Die Anzahl und der Prozentsatz aller Datensätze, die NULL-Werte im Feld enthalten.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit NULL-Werten auszuwählen.

Hinweis:

Wenn die Symbolisierung des Layers nicht für die Anzeige von NULL-Werten konfiguriert ist, wird die Auswahl möglicherweise nicht auf der Karte angezeigt. Konfigurieren Sie die Symbolisierung, damit die Option Werte außerhalb des Bereichs anzeigen Features mit NULL-Werten anzeigt.

Numerisch, Text, Datum

Diagrammvorschau

Eine visuelle Darstellung der Verteilung der Werte im Feld.

Es werden Histogramme für numerische Felder (Short, Long, Big Integer, Float, Double), Balkendiagramme für kategorische Felder (Text) und Liniendiagramme für Datumsfelder (Datum, Nur Datum, Nur Zeit, Zeitstempelversatz) angezeigt.

Verwenden Sie die Spalte mit der Diagrammvorschau für eine erste Erkundung. Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, wenn Sie für Interessensfelder Diagramme erstellen möchten.

Hinweis:

Bei Histogrammen und Liniendiagrammen werden standardmäßig 20 Abschnitte angezeigt. Je nach Seltenheit der Daten kann es Abschnitte ohne Daten geben. Abschnitte mit leeren Werten werden in der Diagrammvorschau wie Null-Werte behandelt. Um die Detaillierungsebene zu ändern, klicken Sie mit der rechten Maustaste auf die Diagrammvorschau und erstellen Sie ein Diagramm. Bei Balkendiagrammen werden NULL-Werte in der Diagrammvorschau nicht als Kategorie berücksichtigt, das vollständige Diagramm enthält jedoch eine Kategorie für NULL-Werte.

Wenn Sie mit der Maus auf Balkendiagramme und Liniendiagramme zeigen, wird eine QuickInfo mit zusätzlichen Informationen angezeigt. Bei Balkendiagrammen werden in der Quickinfo die häufigsten Kategorien angezeigt. Bei Liniendiagrammen werden in der Quickinfo die Anzahl und Dauer der Intervalle im Diagramm beschrieben.

Hinweis:

Bei Intervallbeschreibungen von Datumsfeldern werden Monate als Zeiträume von 30 Tagen betrachtet. Damit entspricht zum Beispiel ein Intervall von 3,2 Monaten einem Zeitraum von 96 Tagen.

Numerisch, Text, Datum

Minimum (Min)

Der kleinste Wert im Feld.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem Minimalwert auszuwählen.

Numerisch, Datum

Maximum (Max)

Der größte Wert im Feld.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem Maximalwert auszuwählen.

Numerisch, Datum

Mittelwert

Der Mittelwert aller Werte im Feld.

Der Mittelwert ist der Durchschnittswert in einer Verteilung, berechnet als Summe der Werte im Feld geteilt durch die Gesamtzahl der Werte. Der Mittelwert ist das Standardmaß für die zentrale Tendenz in einer Verteilung.

Bei der Berechnung des mittleren Datums für Datumsfelder wird jedes Datum in eine Zahl umgewandelt, indem die Differenz zwischen dem Datum und einem Referenzdatum (z. B. 1900-01-01) in Millisekunden berechnet wird. Die Summe aller Millisekundenwerte geteilt durch die Anzahl der Datumswerte ergibt das mittlere Datum, das für die Anzeige auf die nächste Sekunde gerundet wird. Für Felder des Datentyps "Nur Datum" wird für Berechnungszwecke angenommen, dass die Zeit Mitternacht ist.

Hinweis:

Das mittlere Datum muss eine andere zeitliche Auflösung (d. h. Minuten, Sekunden, Millisekunden) haben als die Werte im Feld.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des Mittelwertes auszuwählen.

Numerisch, Datum

  • Auswählen (oberhalb und unterhalb des Mittelwertes)

Standardabweichung (Std- Abw.)

Die Standardabweichung der Werte im Feld.

Die Standardabweichung ist ein Maß für die Ausbreitung der Verteilung Sie wird als Quadratwurzel der Varianz berechnet, wobei die Varianz dem Durchschnitt der quadrierten Differenzen aller Werte vom Mittelwert des Feldes entspricht.

Numerisch

Medianwert

Der Medianwert aller Werte im Feld.

Der Medianwert ist der mittlere Wert in der sortierten Werteliste. Bei einer geraden Werteanzahl ist der Medianwert der Mittelwert zwischen den beiden mittleren Werten in der Verteilung.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des Medianwerts auszuwählen.

Numerisch, Datum

  • Auswählen (Zeilen oberhalb oder unterhalb des Meridianwerts)

Anzahl

Die Anzahl und der Prozentsatz aller Werte im Feld, die nicht NULL sind.

Numerisch, Text, Datum

  • Alle auswählen (Zeilen, die Bestandteil der berechneten Statistik waren)

Anzahl von Einzelwerten (Eindeutig)

Die Anzahl der Einzelwerte im Feld.

Numerisch, Text, Datum

Keine einmaligen Aktionen

Modalwert

Der Modalwert aller Werte im Feld.

Der Modalwert ist der häufigste Wert im Feld. Bei Konflikten, die auftreten, wenn der häufigste Wert in einem Feld mit mehreren Werten verknüpft ist, ist in der Zelle [Mehrere Werte] angegeben. Wenn Sie dann mit der Maus auf die Zelle zeigen, werden die Modalwerte mit ihrer Häufigkeit angezeigt. Wenn alle Werte im Feld Einzelwerte sind, ist in der Zelle [Alle Einzelwerte] angegeben.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem Modalwert auszuwählen.

Numerisch, Text, Datum

  • Modus auswählen (Zeilen mit Moduswert – nur für ganzzahlige Felder, Text- und Datumsfelder)

Am seltensten

Der seltenste Wert im Feld

Bei Konflikten, die auftreten, wenn der seltenste Wert in einem Feld mit mehreren Werten verknüpft ist, ist in der Zelle [Mehrere Werte] angegeben. Wenn Sie dann mit der Maus auf die Zelle zeigen, werden die seltensten Werte mit ihrer Häufigkeit angezeigt. Wenn alle Werte im Feld Einzelwerte sind, ist in der Zelle [Alle Einzelwerte] angegeben.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit dem seltensten Wert auszuwählen.

Numerisch, Text, Datum

  • Seltenste auswählen (Zeilen mit dem seltensten Wert – nur für ganzzahlige Felder, Text- und Datumsfelder)

Ausreißer

Die Anzahl der Datensätze mit Ausreißerwerten im Feld.

Ausreißer sind Werte, die um mehr als das 1,5-fache des Interquartil-Bereichs oberhalb des dritten Quartils oder unterhalb des ersten Quartils des ausgewählten Feldes liegen.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um die Datensätze mit Ausreißerwerten (oder alle Werte außer Ausreißern) auszuwählen.

Numerisch

  • Ausreißer auswählen (Zeilen mit Ausreißern)
  • Inlier auswählen (Zeilen, bei denen es sich nicht um Ausreißer handelt)

Summe

Die Summe aller Werte im Feld.

Numerisch

Keine einmaligen Aktionen

Bereich

Die Differenz zwischen dem kleinsten und dem größten Wert im Feld.

Bei Datumsfeldern ist der Bereich die Zeitspanne zwischen dem frühesten Datum und dem spätesten Datum, die im Feld gefunden wurden.

Hinweis:

Bei Datumsfeldbereichen werden Monate als Zeiträume von 30 Tagen betrachtet. Damit entspricht zum Beispiel ein Bereich von 3,2 Monaten einem Zeitraum von 96 Tagen.

Numerisch, Datum

Keine einmaligen Aktionen

Interquartil-Bereich (IQR)

Der Bereich zwischen den Werten des ersten Quartils und den Werten des dritten Quartils im Feld.

Quartile unterteilen die sortierte Werteliste in vier Gruppen mit der jeweils gleichen Anzahl an Werten. Der erste Quartilswert ist der obere Grenzwert der ersten Gruppe in aufsteigender Reihenfolge und das dritte Quartil ist der obere Grenzwert der dritten Gruppe.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten in diesem Bereich auszuwählen.

Numerisch

Erstes Quartil (Q1)

Der Wert des ersten Quartils im Feld. Das erste Quartil entspricht dem Wert des 25. Perzentils: dem oberen Grenzwert des untersten Viertels der Daten in aufsteigender Reihenfolge.

Wenn das erste Quartil zwischen zwei Werte fällt, wird der Wert durch Interpolieren zwischen den beiden Werten berechnet.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des ersten Quartils auszuwählen.

Numerisch, Datum

Drittes Quartil (Q3)

Der Wert des dritten Quartils im Feld. Das dritte Quartil entspricht dem Wert des 75. Perzentils: dem oberen Grenzwert der untersten drei Viertel der Daten in aufsteigender Reihenfolge.

Wenn das dritte Quartil zwischen zwei Werte fällt, wird der Wert durch Interpolieren zwischen den beiden Werten berechnet.

Klicken Sie mit der rechten Maustaste auf Zellen in dieser Spalte, um Datensätze mit Werten oberhalb und unterhalb des dritten Quartils auszuwählen.

Numerisch, Datum

Variationskoeffizient (CV)

Der Variationskoeffizient für die Werte im Feld.

Der Variationskoeffizient gibt die relative Verbreitung der Werte an. Er berechnet sich als die durch den Mittelwert des Feldes geteilte Standardabweichung.

Im Gegensatz zur Standardabweichung, die immer im Kontext des Datenbereichs betrachtet werden muss, können mit dem Variationskoeffizienten Datenreihen mit verschiedenen Bereichen und Mittelwerten verglichen werden.

Der Variationskoeffizient kann nicht berechnet werden, wenn der Mittelwert gleich 0 ist. Wenn der Mittelwert nahezu 0 ist und sowohl positive als auch negative Werte im Dataset vorliegen, ist u. U. keine sinnvolle Interpretation des Variationskoeffizienten möglich.

Numerisch

Schiefe

Die Schiefe aller Werte im Feld.

Die Schiefe misst die Symmetrie der Verteilung. Die Schiefe ist Null (oder nahe Null), wenn die Verteilung auf beiden Seiten symmetrisch ist. Dies ist bei einer Normalverteilung der Fall. Verteilungen mit längeren Flanken auf der linken Seite haben eine negative Schiefe. Verteilungen mit längeren Flanken auf der rechten Seite haben eine positive Schiefe.

Die Schiefe wird berechnet, indem das dritte Moment (Durchschnitt der kubierten Datenwerte) durch die kubierte Standardabweichung geteilt wird.

Numerisch

Kurtosis

Die Kurtosis aller Werte im Feld.

Die Kurtosis beschreibt das Gewicht der Flanken einer Verteilung im Vergleich zu den Flanken einer Normalverteilung. Mit ihrer Hilfe lässt sich feststellen, wie häufig Extremwerte auftreten. Verteilungen mit einer Kurtosis von weniger als drei haben leichtere Flanken und weniger Extremwerte als die Normalverteilung. Verteilungen mit einer Kurtosis über drei haben dagegen schwerere Flanken und mehr Extremwerte als die Normalverteilung.

Die Kurtosis wird berechnet, indem das vierte Moment (die vierte Potenz des erwarteten Werts der Datenwerte) durch die vierte Potenz der Standardabweichung geteilt wird.

Numerisch

Interaktive Statistiktabelle

Die Statistiktabelle ist interaktiv. Klicken Sie mit der rechten Maustaste auf Zellen und Zeilen-/Spaltenköpfe und verwenden Sie die Werkzeugleiste, um auf Funktionen zuzugreifen.

Interagieren mit Feldern

Klicken Sie mit der rechten Maustaste auf einen Zeilenkopf, um auf Funktionen für das ausgewählte Feld zuzugreifen. Das können z. B. sein:

  • Diagramm erstellen: Diagramme über das ausgewählte Feld erstellen. Es werden datentypspezifische Empfehlungen angezeigt.
  • Felder: Feldansicht öffnen und aktuelles Feld als aktives Feld in der Ansicht festlegen.
  • Attributtabelle: Attributtabelle öffnen und aktuelles Feld als aktives Feld in der Attributtabelle festlegen.
  • Bereinigen, Konstruieren, Integrieren, und Formatieren: Auf Geoverarbeitungswerkzeuge zur Vorbereitung der Dateien zugreifen. Weitere Informationen zu diesen Optionen erhalten Sie im Abschnitt Vorbereiten von Daten.
  • Feld entfernen: Feld entfernen und dessen Statistik aus der Statistiktabelle löschen.

Hinweis:

Die meisten Geoverarbeitungsvorgänge, bei denen Eingabedaten geändert werden, können nicht rückgängig gemacht werden.

Funktionalitätsoptionen für Zeilen in der Statistiktabelle

Interagieren mit Zellen

Klicken Sie mit der rechten Maustaste auf eine Zelle, um auf Funktionen für die ausgewählte Zelle zuzugreifen. Mit Kopieren können Sie den Wert der Zelle in die Zwischenablage kopieren. Bei Zellen in der Spalte Diagrammvorschau können Sie das Standarddiagramm der Zelle öffnen oder ein Diagramm, das für den Datentyp der Zelle verwendet werden kann, erstellen. Bei allen anderen Spalten sind kontextsensitive Auswahl- und Geoverarbeitungswerkzeug-Optionen verfügbar. Zum Beispiel ermöglicht die Spalte Standardabweichung die Auswahl von Datensätzen innerhalb von einer, zwei oder drei Standardabweichungen des Mittelwertes und enthält Links zu den Werkzeugen Feld standardisieren und Feld transformieren. Eine Liste aller verwendbaren Optionen und Funktionen für jede Spalte finden Sie in der Tabelle weiter oben im Abschnitt Typen von Statistiken.

Hinweis:

Die kontextsensitive Auswahl ist in den folgenden beiden Fällen deaktiviert:

  • Wenn die berechneten Statistiken an einer Auswahl durchgeführt wurden. Um in einer Auswahl in einem Layer mindestens eine Auswahl an berechneten Statistiken vorzunehmen, können Sie einen Auswahl-Layer erstellen.
  • Wenn das Feld einer ausgewählten Zelle vom Datentyp Float oder Double ist.

Anzeigen von bestimmten Datentypen

Die Symbolleiste der Statistiktabelle enthält Optionen, die festlegen, welche Felder und Statistikspalten bei welchem Datentyp angezeigt werden.

Optionen auf der Werkzeugleiste der Statistiktabelle

Sie können z. B. auf die Schaltfläche Text klicken, um Felder mit dem Datentyp "Text" zu entfernen. Klicken Sie auf die Schaltfläche Numerisch, um Felder der Datentypen Short, Long, Big Integer, Float und Double auszublenden bzw. anzuzeigen. Klicken Sie auf die Schaltfläche Datum, um Felder der Datentypen Datum, Nur Datum, Nur Zeit und Zeitstempelversatz auszublenden bzw. anzuzeigen.

Wenn Sie Datentypen aus der Statistiktabelle entfernen, werden Spalten, die nur zum entfernten Datentyp gehören, ebenfalls entfernt. So können Interessenselemente leichter in der Tabelle gefunden werden. Wenn Sie z. B. nur Felder vom Typ Datum anzeigen, werden Spalten, die Verteilungen wie Schiefe und Kurtosis beinhalten, nicht angezeigt. Dadurch werden nur die interessanten Spalten angezeigt.

Sortieren, Ausblenden, Fixieren und Neuanordnen von Spalten

Standardmäßig werden die Felder in der gleichen Reihenfolge angezeigt wie in der Attributtabelle. Mit den Optionen für die Spaltenköpfe können Sie die Spalten in der Tabelle sortieren, ausblenden und fixieren.

Optionen für die Spalte "Anzahl NULL-Werte" in der Statistiktabelle

Durch Sortieren können Sie die Zeilen nach ihrem Wert in der berechneten Statistik neu anordnen. Sie können z. B. Felder nach der Spalte NULL-Werte sortieren, um herauszufinden, in welchen Feldern möglicherweise Daten fehlen.

Hinweis:

Das Sortieren ist nur möglich, wenn die Tabelle Felder mit je einem Datentyp enthält. Filtern Sie mit den Anzeigeoptionen in der Werkzeugleiste nach einen bestimmten Datentyp und sortieren Sie dann. Die Sortierreihenfolge wird jedes Mal, wenn ein neues Feld zur Statistiktabelle hinzugefügt wird, auf den Standardwert zurückgesetzt.

Klicken Sie auf Fixieren/Fixierung aufheben, um die Spalte an den Anfang der Statistiktabelle zu verschieben und zu fixieren. Dann wird die Spalte beim horizontalen Scrollen der Tabelle durchgehend angezeigt. Wenn Sie die Spalten neu anordnen möchten, ziehen Sie die Spaltenüberschrift an die neue Position.

Um Spalten auszublenden, klicken Sie auf Spalte ausblenden. Dies entfernt die Spalte aus der Ansicht. Wenn Sie alle ausgeblendeten Spalten wieder anzeigen möchten, klicken Sie auf Alle Spalten anzeigen.

Die Option "Alle Spalten anzeigen"

Um alle Felder und deren Statistiken aus der Statistiktabelle zu entfernen, klicken Sie auf Alle Felder entfernen. Wird ein zuvor entferntes Feld wieder zur Statistiktabelle hinzugefügt, müssen Sie erneut auf die Schaltfläche Berechnen klicken, um die Statistik anzuzeigen.

Statistik exportieren

Um die Statistik in anderen Teilen von ArcGIS Pro zu verwenden, behalten Sie die Statistik als eigenständige Tabelle bei. Klicken Sie auf Statistik als Tabelle exportieren, um das Werkzeug Feldstatistik in Tabelle zu öffnen. Mit dieser Option können Sie die Statistik als einzelne Tabelle oder als mehrere Tabellen für jeden Datentyp exportieren. Dieses Werkzeug unterstützt keine Statistiken für Felder der Datentypen Big Integer, Nur Datum, Nur Zeit und Zeitstempelversatz.

Referenzen

Verwandte Themen