箱ひげ図

箱ひげ図では、四分位を使用して数値の分布と中心傾向を視覚化および比較できます。 四分位は、最小値、第 1 四分位値、中央値、第 3 四分位値、最大値という 5 つのキー値に基づいて数値を 4 つの等しいグループに分割する方法です。 箱ひげ図は、パーセンタイル計算を使用して、四分位値を決定します。 たとえば、第 1 四分位値は、25 パーセンタイルに等しくなります。

次の図の箱部分には、中央の 50 パーセントのデータ値 (四分位範囲、IQR とも呼ばれる) が示されます。 これらの値の中央値は箱を半分に分割するラインとして描画されます。 IQR は一連の値の変動を表します。 IQR が大きい場合、値が広く分散していることを意味し、IQR が小さい場合、大部分の値が中心近くにあることを意味します。 箱ひげ図では、ボックスから伸びるひげ (線) を使用して最小データ値と最大データ値も示されます。また、ひげを越えて広がるポイントとして外れ値を示すこともできます。 外れ値とは、第一四分位から IQR の 1.5 倍を超えて下に外れた値、または第三四分位から IQR の 1.5 倍を超えて上に外れた値として定義されます。

箱ひげ図の図

変数

箱ひげ図は、X 軸と Y 軸で構成されています。 X 軸では、[カテゴリー] または [数値フィールド] 変数ごとに 1 つの箱が割り当てられます。 Y 軸は、一連の数値内で最小値、第 1 四分位値、中央値、第 3 四分位値、最大値を測定するために使用されます。

箱ひげ図を使用すると、1 つまたは多数の分布を視覚化できます。 単一の分布を視覚化するには、1 つの [数値フィールド] 変数を追加します。 これにより、指定した数値属性の分布を視覚化する 1 つの箱ひげ図を含むチャートが生成されます。

さらに、他の [数値フィールド] 変数を追加して、テーブル内の別々の属性フィールドから提供される複数の分布を比較できます。 たとえば、郡のデータセットで、Population2010 および Population2015 フィールドが [数値フィールド] 変数として追加されるとします。 結果として生成されるチャートには 2 つの箱ひげ図が表示されます。1 つはデータセット内のすべての郡について Population2010 の分布を視覚化し、もう 1 つは Population2015 の分布を視覚化するためのものです。

[数値フィールド] 変数が 1 つだけ追加された場合は、カテゴリー間で分布を比較する方法として [カテゴリー] 変数を追加できます。 たとえば、郡のデータセットで、Population2010[数値フィールド] 変数として設定され、StateName[カテゴリー] 変数として設定されるとします。 結果として生成されるチャートには、州ごとに 1 つの箱ひげ図が表示されます。この箱ひげ図では、各州に属するすべての郡について Population2010 の分布が視覚化されます。

複数のシリーズ

複数のシリーズの箱ひげ図は、異なるタイプまたは異なるカテゴリーの分布の比較に使用できます。

複数のシリーズの箱ひげ図は [カテゴリー] 変数と複数の [数値フィールド] 変数を指定するか、[分割] カテゴリー フィールドを指定することで作成できます。

複数の [数値フィールド] 変数を持つ [カテゴリー] 変数を使用すると、[数値フィールド] 変数がシリーズ テーブルに追加されるごとにシリーズが作成されます。 たとえば、郡のデータセットで StateName[カテゴリー] 変数として設定され、Population2010Population2015Population2020[数値フィールド] 変数として設定されるとします。 結果として生成されるチャートでは、カテゴリーとして州が X 軸に示され、州ごとに 3 つのシリーズ (Population2010Population2015Population2020) が表示されます。

あるいは、データをさらに分割し、複数のシリーズを作成する方法として [分割] カテゴリー フィールドを追加できます。 たとえば、郡のデータセットで、Population2010[数値フィールド] 変数として、StateName[カテゴリー] 変数として設定され、さらに ElectionWinner[分割] カテゴリー フィールドとして設定されるとします。 シリーズ テーブルには、それぞれ一意の ElectionWinner 値 (Democrat または Republican) が入力されます。 結果として生成されるチャートには、横に並んだ 2 つの箱ひげ図が州ごとに表示されます (合計で 100 個の箱ひげ図)。1 つは各州で ElectionWinner 値として Democrat を持つすべての郡について、もう 1 つは各州で ElectionWinner 値として Republican を持つすべての郡について Population2010 の分布を視覚化します。

[分割] カテゴリー フィールドは、[カテゴリー] 変数の代わりに複数の [数値フィールド] 変数が使用される場合にも使用できます。 たとえば、郡のデータセットで、Population2010Population2015Population2020[数値フィールド] 変数として、ElectionWinner[分割] カテゴリー フィールドとして設定されるとします。 結果として生成されるチャートでは、X 軸に 3 つの [数値フィールド] 変数 (Population2010Population2015Population2020) が表示され、フィールドごとに、横に並んだ 2 つの箱ひげ図が示されます。1 つは ElectionWinner 値として Democrat を持つすべての郡の分布を表示し、もう 1 つは ElectionWinner 値として Republican を持つすべての郡の分布を表示します。

複数のシリーズを表示

[分割] カテゴリー フィールドが複数のシリーズの作成に使用される場合は、結果の視覚化のために次のオプションが提供されます:

  • [並べて表示] マルチボックス チャート - 横に並んだ箱ひげ図を、シリーズごとに 1 つずつ作成します。
  • [平均ラインとして表示] 平均ライン チャート - [カテゴリー] 変数または [数値フィールド] 変数ごとに 1 つの箱ひげ図が作成され、[分割] カテゴリー フィールドのそれぞれ一意の値の平均を表示するためにラインが使用されます。

たとえば、郡のデータセットで、Population2010[数値フィールド] 変数として、StateName[カテゴリー] 変数として設定され、さらに ElectionWinner[分割] カテゴリー フィールドとして設定されるとします。 シリーズ テーブルには、それぞれ一意の ElectionWinner 値 (DemocratRepublican) が入力されます。ただし、各州が ElectionWinner 値ごとの箱ひげ図に分けられるのではなく、結果として生成されるチャートには、州ごとに 1 つの箱ひげ図が表示され、その州内に存在する郡の Population2010 の分布が視覚化されます。さらに、各 [分割] カテゴリー フィールド シリーズ (DemocratRepublican) の平均値が箱ひげ図上にオーバーレイされ、各シリーズの平均値が全体的な分布との関連でどの位置にあたるかが示されます。

標準化

箱ひげ図が複数の [数値フィールド] 変数から作成されるとき、Z スコア標準化がデフォルトで適用されます。 標準化により、異なる単位の数値変数を比較できるようになります。

たとえば、収入 (万単位の値) の分布と失業率 (0 ~ 1.0 の範囲の値) の分布を比較する箱ひげ図は、標準化なしで読み取ることが困難になります。これは、失業率の値が収入値よりもはるかに小さいためです。

属性値の標準化には、Z 変換が含まれます。この変換では、すべての値の平均を各値から引いた後、その結果をすべての値の標準偏差で割ります。 Z スコア標準化は、すべての属性を同じ縮尺にして、複数の分布を同じチャートに表示できるようにします。 その代わりに、生の値を表示する場合は、[チャート プロパティ] ウィンドウの [値の標準化 (z スコア)] チェックボックスをオフにします。

軸と関連する設定は、以下のサブセクションに記載されているオプションによって制御されます。

X 軸ラベル文字制限

カテゴリー ラベルは、デフォルトで 11 文字に切詰められます。 ラベルが切詰められているときは、ラベルの上にポインターを合わせることでフル テキストを表示できます。 チャート内のラベル テキストの全体を表示するには、ラベルの文字数制限を増やします。

Y 軸範囲

デフォルトの Y 軸範囲は、Y 軸上に表示されるデータ値の範囲に基づいて設定されます。 これらの値をカスタマイズするには、新しい軸範囲値を指定します。 軸の範囲を設定すると、チャートの縮尺を一定に保つことができ、値を比較する際に役立ちます。 [リセット] ボタン リセット をクリックすると、軸範囲がデフォルト値に戻ります。

グリッドの間隔

[間隔] コントロールを使用して、Y 軸のグリッドの間隔を構成します。 デフォルトのグリッドの間隔は、自動的に計算されます。

数値形式

数値形式のカテゴリーを指定するか、カスタム形式の文字列を定義して、軸が数値を表示する方法を書式設定できます。 たとえば、「$#,###」は通貨の値を表示するカスタム形式の文字列として使用します。

表示設定

チャートの表示設定と関連する設定は、以下のサブセクションに記載されているオプションによって制御されます。

タイトルと説明

チャートおよび軸のデフォルト タイトルは、変数名およびチャート タイプに基づいています。 これらのタイトルは、[チャート プロパティ] ウィンドウの [一般] タブで編集できます。 [説明] オプション (チャート ウィンドウの下部に表示される一連のテキスト) の値を入力することもできます。

外観の書式設定

テキスト エレメントやシンボル エレメントを書式設定したり、チャートのテーマを適用したりして、チャートの外観を構成することができます。 書式設定のプロパティは [チャート プロパティ] ウィンドウの [書式設定] タブで設定できます。 [チャート] タブでチャート テーマを選択できます。 チャートの書式設定オプションには次のものがあります。

  • 軸タイトル、軸ラベル、説明テキスト、凡例タイトル、凡例テキスト、ガイド ラベルに使用されるフォントのサイズ、色、スタイル
  • グリッドと軸線の色、幅、ライン タイプ
  • チャートの背景色

チャートの外観を変更する方法の詳細

シリーズのスタイル

箱ひげ図では、レイヤー シンボルで定義されたアウトライン色と塗りつぶし色に一致する色が可能な限り適用されます。 シリーズが、レイヤー シンボルに一致しない方法で分割された場合は、標準のカラー パレットが適用されます。 シリーズの色を変更するには、[チャート プロパティ] ウィンドウの [シリーズ] タブで、シリーズ テーブルの [シンボル] カラー パッチをクリックし、新しい色を選択します。 複数のシリーズに共通のスタイルを適用するには、シリーズ テーブルで複数の行を選択し、選択したシリーズの 1 つで [シンボル] カラー パッチをクリックします。 または、[シリーズ] タブの [配色] ドロップダウン リストを使用して、チャートのシリーズにパレットを適用します。

並べ替え

箱ひげ図は、カテゴリーのアルファベット順に自動的に並べ替えられます (X 軸昇順)。 [チャート プロパティ] ウィンドウの [並べ替え] オプションを使用すると、これを変更できます。 箱ひげ図では、次の並べ替えオプションが利用できます。

  • [X 軸昇順] - カテゴリーは、左から右にアルファベットの昇順に並べられます。
  • [X 軸降順] - カテゴリーは、アルファベットの降順に並べられます。
  • [平均昇順] - 箱は、平均統計の昇順に並べられます。
  • [平均降順] - 箱は、平均統計の降順に並べられます。
  • [中央値昇順] - 箱は、中央値統計の昇順に並べられます。
  • [中央値降順] - 箱は、中央値統計の降順に並べられます。
  • [ユーザー設定の並べ替え] - カテゴリーはユーザー設定の並べ替えテーブルで手動で並べ替えることができます。

方向

箱を水平方向に描画するには、チャート ウィンドウの [チャートの回転] ボタン チャートの回転 をクリックします。

ガイド

参照または重要な値をハイライト表示する方法として、ガイドのラインまたは範囲を追加できます。 新しいガイドを追加するには、[チャート プロパティ] ウィンドウの [ガイド] タブに移動し、[ガイドを追加] ボタンの矢印をクリックして、次のいずれかのオプションを選択します。

  • [固定値ラインまたは範囲ガイドの作成 - 固定位置に線または範囲ガイドを描画します。 このオプションを選択すると、ラインを描画したい [値] の値を入力します。 範囲を作成するには、[幅] の値を入力します。
  • [データ ドリブン ガイドの作成] - データ ドリブン ガイドを描画します。 このオプションを選択すると、[値] のドロップダウン リストからフィールドを選択し、そのフィールドの値を使用してガイドの位置を計算します。 集約オプションを選択し、それらの値をどのように集計するかを指定します。
ガイドのスタイルは、ガイド タイプに応じて [ライン スタイル] または [塗りつぶし色] スタイル ピッカーを使用して構成できます。 必要に応じて、[ラベル] 値を指定して、ガイドにテキストを追加します。入力に隣接したテキストの見本をクリックしてスタイル ピッカーを開き、ラベル スタイルを構成します。 データ ドリブン ガイドは常にガイド値 (フィールド値と集約に基づく) を表示し、この値は [ラベル] 値に指定されたテキストの末尾に付加されます。

次の設定を使用して、慢性的健康障害の分布と変動を州別に比較する箱ひげ図を作成します:

  • [数値フィールド] - % Diabetes% Asthma% Heart Failure
  • [カテゴリー] - State

慢性的健康障害の分布と変動を州別に比較する箱ひげ図

関連トピック