Boxplot

Boxplots ermöglichen Ihnen die Visualisierung und den Vergleich der Verteilung und zentralen Tendenz numerischer Werte über deren Quantile. Quartile ermöglichen die Unterteilung numerischer Werte in gleiche Gruppen basierend auf fünf Hauptwerten: Minimum, erstes Quartil, Median, drittes Quartil, und Maximum. Bei Boxplots wird die Perzentilberechnung verwendet, um Quartilwerte zu bestimmen. Beispiel: Das erste Quartil entspricht dem 25. Perzentil.

Der Rechteckbereich des folgenden Diagramms veranschaulicht die mittleren 50 Prozent der Datenwerte, die auch als Interquartil-Bereich (IQR) bezeichnet werden. Der Median der Werte wird als Linienunterteilung des Rechtecks in zwei Hälften dargestellt. Der IQR veranschaulicht die Variabilität in einer Reihe von Werten. Ein großer IQR gibt weit verstreute Werte an, und ein kleinerer IQR gibt an, dass sich die meisten Werte in der Mitte befinden. Boxplots stellen zudem die Minimum- und Maximumwerte durch vom Rechteck ausgehende Whiskers (oder Linien) und optional Ausreißer als Punkte dar, die sich über die Whiskers hinaus erstrecken. Ausreißer sind definiert als Werte, die um das 1,5-Fache des IQR unterhalb des ersten Quartils oder oberhalb des dritten Quartils liegen.

Boxplot-Diagramm

Variablen

Boxplots bestehen aus einer X- und einer Y-Achse. Die X-Achse weist ein Rechteck für jede Kategorie oder jede Variable vom Typ Numerisches Feld zu. Die Y-Achse dient zum Messen der Werte Minimum, erstes Quartil, Median, drittes Quartil, und Maximum in einer Reihe von Zahlen.

Sie können Boxplots zum Visualisieren einer oder mehrerer Verteilungen nutzen. Um eine einzelne Verteilung zu visualisieren, fügen Sie eine Variable vom Typ Numerisches Feld hinzu. Dies ergibt ein Diagramm mit einem Boxplot, mit dem die Verteilung des angegebenen numerischen Attributs visualisiert wird.

Sie können weitere Variablen vom Typ Numerisches Feld hinzufügen, um mehrere Verteilungen aus verschiedenen Attributfeldern in einer Tabelle zu vergleichen. Beispiel: In einem Landkreis-Dataset werden die Felder Population2010 und Population2015 als Variablen vom Typ Numerisches Feld hinzugefügt. Das resultierende Diagramm zeigt zwei Boxplots an, eines zum Visualisieren der Verteilung von Population2010 und das andere zum Visualisieren der Verteilung von Population2015 für alle Landkreise im Dataset.

Wenn nur eine einzelne Variable vom Typ Numerisches Feld hinzugefügt wird, können Sie eine Variable vom Typ Kategorie hinzufügen, um Verteilungen über Kategorien hinweg zu vergleichen. Beispiel: Für ein Landkreis-Dataset ist Population2010 als Variable vom Typ Numerisches Feld und StateName als Variable vom Typ Kategorie festgelegt. Das resultierende Diagramm zeigt einen Boxplot für jeden US-Bundesstaat an, der die Verteilung von Population2010 für alle Landkreise visualisiert, die zu den einzelnen Bundesstaaten gehören.

Mehrere Reihen

Mithilfe von Boxplots mit mehreren Reihen können Verteilungen unterschiedlicher Typen verglichen oder Vergleiche nach unterschiedlichen Kategorien durchgeführt werden.

Boxplots mit mehreren Reihen können erstellt werden, indem Sie eine Variable vom Typ Kategorie und mehrere Variablen vom Typ Numerisches Feld angeben oder ein Kategoriefeld vom Typ Unterteilen nach festlegen.

Bei der Verwendung einer Variablen vom Typ Kategorie mit mehreren Variablen vom Typ Numerisches Feld wird durch jede Variable vom Typ Numerisches Feld, die der Tabelle "Reihe" hinzugefügt wird, eine Reihe erstellt. Beispiel: In einem Landkreis-Dataset sind StateName als Variable vom Typ Kategorie und Population2010, Population2015 und Population2020 als Variablen vom Typ Numerisches Feld festgelegt. Das resultierende Diagramm verfügt über US-Bundesstaaten als Kategorien entlang der X-Achse mit jeweils drei Reihen (Population2010, Population2015 und Population2020).

Alternativ kann das Kategoriefeld Unterteilen nach hinzugefügt werden, um die Daten weiter zu unterteilen und mehrere Reihen zu erstellen. Beispiel: Für ein Landkreis-Dataset ist Population2010 als Variable vom Typ Numerisches Feld, StateName als Variable vom Typ Kategorie und ElectionWinner als Kategoriefeld Unterteilen nach festgelegt. Die Tabelle "Reihe" wird mit den jeweiligen Einzelwerten für ElectionWinner (Democrat oder Republican) gefüllt. Das resultierende Diagramm zeigt für jeden Staat zwei Boxplots nebeneinander an (100 Boxplots insgesamt), wobei einer die Verteilung von Population2010 für alle Landkreise der einzelnen Bundesstaaten mit dem ElectionWinner-Wert Democrat visualisiert und der andere die Verteilung für alle Landkreise der einzelnen Bundesstaaten mit dem ElectionWinner-Wert Republican.

Kategoriefelder vom Typ Unterteilen nach können auch verwendet werden, wenn mehrere Variablen vom Typ Numerisches Feld anstelle einer Variablen vom Typ Kategorie verwendet werden. Beispiel: Für ein Landkreis-Dataset sind Population2010, Population2015 und Population2020 als Variablen vom Typ Numerisches Feld und ElectionWinner als Kategoriefeld Unterteilen nach festgelegt. Das resultierende Diagramm zeigt die drei Variablen vom Typ Numerisches Feld entlang der X-Achse (Population2010, Population2015 und Population2020) mit jeweils zwei Boxplots nebeneinander an: Der eine zeigt die Verteilung für alle Landkreise mit dem ElectionWinner-Wert von Democrat an und der andere die Verteilung für alle Landkreise mit dem ElectionWinner-Wert von Republican.

Anzeigen mehrerer Reihen

Wird ein Kategoriefeld vom Typ Unterteilen nach zum Erstellen mehrerer Reihen verwendet, sind die folgenden Optionen zum Visualisieren der Ergebnisse verfügbar:

  • Nebeneinander Multibox-Diagramm: Es werden nebeneinander dargestellte Boxplots erstellt, einer für jede Reihe.
  • Als Mittellinien Mittelliniendiagramm: Erstellen Sie einen Boxplot für jede Variable vom Typ Kategorie bzw. für jede Variable vom Typ Numerisches Feld, und zeigen Sie mithilfe von Linien den Mittelwert für jeden Einzelwert im Kategoriefeld Unterteilen nach an.

Beispiel: Für ein Landkreis-Dataset ist Population2010 als Variable vom Typ Numerisches Feld, StateName als Variable vom Typ Kategorie und ElectionWinner als Kategoriefeld Unterteilen nach festgelegt. Die Tabelle "Reihe" wird mit den jeweiligen Einzelwerten für ElectionWinner (Democrat und Republican) gefüllt. Statt jedoch jeden US-Bundesstaat in einen Boxplot für jeden ElectionWinner-Wert zu teilen, wird im resultierenden Diagramm ein Boxplot pro Bundesstaat dargestellt. Darin wird die Verteilung von Population2010 für die Landkreise in diesem Bundesstaat visualisiert. Die Boxplots werden mit dem Mittelwert jeder Kategoriefeldreihe Unterteilen nach (Democrat und Republican) überlagert, um anzuzeigen, wo der Mittelwert der jeweiligen Reihe in Bezug auf die Gesamtverteilung liegt.

Standardisierung

Wird ein Boxplot aus mehreren Variablen vom Typ Numerisches Feld erstellt, wird standardmäßig eine Z-Wert-Standardisierung angewendet. Die Standardisierung ermöglicht das Vergleichen von numerischen Variablen in unterschiedlichen Einheiten.

Zum Beispiel wäre ein Boxplot zum Vergleichen der Verteilungen von Einkommen (bei dem die Werte im Bereich von Zehntausendern liegen) und Arbeitslosenquote (bei der die Werte von 0 bis 1 reichen) ohne Standardisierung nur schwer zu lesen, da die Werte für die Arbeitslosenquote sehr viel kleiner als die für das Einkommen sind.

Die Standardisierung der Attributwerte umfasst eine Z-Transformation, bei der der Mittelwert aller Werte von jedem Wert subtrahiert und durch die Standardabweichung für alle Werte dividiert wird. Die Z-Score-Standardisierung bringt alle Attribute auf derselben Skala unter, sodass mehrere Verteilungen in einem Diagramm visualisiert werden können. Wenn Sie stattdessen die Rohwerte visualisieren möchten, deaktivieren Sie das Kontrollkästchen Werte standardisieren (Z-Wert) im Bereich Diagrammeigenschaften.

Achsen

Die in den Unterabschnitten unten beschriebenen Optionen sind zum Steuern der Achsen und der zugehörigen Einstellungen verfügbar.

Zeichenbegrenzung für X-Achsenbeschriftung

Kategoriebeschriftungen werden standardmäßig nach 11 Zeichen abgeschnitten. Wenn Beschriftungen abgeschnitten sind, können Sie den Mauszeiger über die Beschriftung bewegen, um den vollständigen Text zu sehen. Um den vollständigen Beschriftungstext im Diagramm anzuzeigen, erhöhen Sie die Zeichenbegrenzung für Beschriftungen.

Grenzen der Y-Achse

Die Standardgrenzen der Y-Achse werden entsprechend dem Bereich der Datenwerte auf der Achse festgelegt. Sie können diese Werte anpassen, indem Sie einen neuen Wert für die Achsengrenze angeben. Sie können Achsengrenzen festlegen, um einen einheitlichen Diagrammmaßstab für Vergleiche beizubehalten. Klicken Sie auf die Schaltfläche Zurücksetzen Zurücksetzen, um die Grenze der Achse auf den Standardwert zurückzusetzen.

Gitternetzintervalle

Gitternetzintervalle für die Y-Achse werden mit dem Steuerelement Intervall konfiguriert. Das Standardgitternetzintervall wird automatisch berechnet.

Zahlenformat

Sie können formatieren, wie numerische Werte auf einer Achse dargestellt werden, indem Sie eine Zahlenformatkategorie angeben oder eine benutzerdefinierte Formatzeichenfolge definieren. Sie können beispielsweise $#,### als benutzerdefinierte Formatzeichenfolge für die Darstellung von Werten in einer Währung verwenden.

Aussehen

Die in den Unterabschnitten unten beschriebenen Optionen sind zum Steuern der Diagrammdarstellung und der zugehörigen Einstellungen verfügbar.

Titel und Beschreibung

Die Standardtitel der Diagramme und Achsen basieren auf den Variablennamen und dem Diagrammtyp. Diese können auf der Registerkarte Allgemein im Bereich Diagrammeigenschaften bearbeitet werden. Sie können auch einen Wert für die Option Beschreibung angeben, wobei es sich um einen Textblock handelt, der am unteren Rand des Diagrammfensters angezeigt wird.

Visuelle Formatierung

Sie können das Aussehen eines Diagramms konfigurieren, indem Sie Text- und Symbolelemente formatieren oder ein Diagrammdesign anwenden. Formateigenschaften können auf der Registerkarte Format im Bereich Diagrammeigenschaften konfiguriert werden. Auf der Registerkarte Diagramm kann ein Diagrammdesign ausgewählt werden. Die Optionen für Diagrammformatierung lauten wie folgt:

  • Größe, Farbe und Schriftschnitt der Schriftart für Achsentitel, Achsenbeschriftungen, Beschreibungstexte, Legendentitel, Legendentexte und Führungslinienbeschriftungen
  • Farbe, Breite und Linientyp für Raster- und Achsenlinien
  • Hintergrundfarbe des Diagramms

Weitere Informationen zum Ändern des Aussehens eines Diagramms

Reihen-Style

Boxplots entsprechen nach Möglichkeit der Umrisslinie und den Füllfarben, die in der Layer-Symbolisierung definiert sind. Wenn Reihen auf eine Weise geteilt werden, die nicht mit der Layer-Symbolisierung übereinstimmt, wird eine Standardfarbpalette angewendet. Reihenfarben können auf der Registerkarte Reihe im Bereich Diagrammeigenschaften geändert werden, indem in der Tabelle "Reihe" auf das Farbfeld Symbol geklickt und eine neue Farbe ausgewählt wird. Um einen gemeinsamen Style auf mehrere Reihen anzuwenden, wählen Sie in der Tabelle "Reihe" mehrere Zeilen aus, und klicken Sie für eine der ausgewählten Reihen auf das Farbfeld Symbol. Alternativ können Sie die Dropdown-Liste Farbschema auf der Registerkarte Reihe verwenden, um eine Palette auf die Reihe in einem Diagramm anzuwenden.

Sortieren

Boxplots werden automatisch alphabetisch nach ihren Kategorien (X-Achse aufsteigend) sortiert. Dies lässt sich mit den Optionen zum Sortieren im Bereich Diagrammeigenschaften ändern. Die folgenden Sortieroptionen sind für Boxplots verfügbar:

  • X-Achse aufsteigend: Kategorien werden alphabetisch von links nach rechts angeordnet.
  • X-Achse absteigend: Kategorien werden in umgekehrter alphabetischer Reihenfolge angeordnet.
  • Mittelwert aufsteigend: Die Felder werden anhand der Mittelwert-Statistik in aufsteigender Reihenfolge angeordnet.
  • Mittelwert absteigend: Die Felder werden anhand der Mittelwert-Statistik in absteigender Reihenfolge angeordnet.
  • Medianwert aufsteigend: Die Felder werden anhand der Mittelwert-Statistik in aufsteigender Reihenfolge angeordnet.
  • Medianwert absteigend: Die Felder werden anhand der Mittelwert-Statistik in absteigender Reihenfolge angeordnet.
  • Benutzerdefinierte Sortierung: Kategorien können in der Tabelle "Benutzerdefinierte Sortierung" manuell angeordnet werden.

Ausrichtung

Um Boxen horizontal zu zeichnen, klicken Sie im Diagrammfenster auf die Schaltfläche Diagramm drehen Diagramm drehen.

Führungslinien

Führungslinien oder Bereiche können als Referenz oder zum Hervorheben signifikanter Werte zu Diagrammen hinzugefügt werden. Um eine neue Führungslinie hinzuzufügen, wechseln Sie im Bereich Diagrammeigenschaften zur Registerkarte Führungslinien, klicken Sie auf den Pfeil auf der Schaltfläche Führungslinie hinzufügen, und wählen Sie eine der folgenden Optionen aus:

  • Führungslinie oder -bereich mit festen Werten erstellen: Zeichnet an einer festen Position eine Führungslinie oder einen Führungslinienbereich. Wenn diese Option ausgewählt ist, geben Sie unter Wert einen Wert an, wo die Linie gezeichnet werden soll. Um einen Bereich zu erstellen, geben Sie einen bis-Wert an.
  • Datengesteuerte Führung erstellen: Zeichnet eine datengesteuerte Führungslinie. Wenn diese Option ausgewählt ist, wählen Sie in der Dropdown-Liste Wert ein Feld aus, dessen Werte zur Berechnung der Position der Führungslinie verwendet werden sollen. Wählen Sie für die Aggregation eine Option aus, um anzugeben, wie diese Werte zusammengefasst werden.
Abhängig vom Typ der Führungslinie kann der Style der Führungslinie mit dem Linien-Style oder der Farbauswahl Füllfarbe geändert werden. Fügen Sie optional Text zur Führungslinie hinzu, indem Sie einen Wert für Beschriftung angeben, und konfigurieren Sie den Beschriftungs-Style, indem Sie auf das Textfeld neben der Eingabe klicken, um die Style-Auswahl zu öffnen. Datengesteuerte Führungslinien zeigen immer den Wert der Führungslinie an (basierend auf den Feldwerten und der Aggregation). Dieser Wert wird an das Ende des für den Wert Beschriftung angegebenen Textes angehängt.

Beispiel

Erstellen Sie einen Boxplot, um die Verteilungen und die Variabilität chronischer Erkrankungen nach US-Bundesstaat zu vergleichen. Verwenden Sie dazu die folgenden Einstellungen:

  • Numerische Felder: % Diabetes, % Asthma, % Heart Failure
  • Kategorie:State

Boxplots zum Vergleichen der Verteilungen und Variabilität chronischer Erkrankungen nach US-Bundesstaat

Verwandte Themen