箱形图

箱形图允许您通过其四分位数来显示和比较数值的分布与集中趋势。四分位数是基于五个关键值(最小值、第一四分位数、中值、第三四分位数和最大值)将数值分为四个相等组的方法。

图表的方框部分显示数据值中间 50% 的数据,也称为四分位距或 IQR。描绘数据值中值的线,将方框一分为二。IQR 可表明一组值的差异。IQR 较大,表示值散布的范围较大;而 IQR 较小,则表示大多数值都落在中心附近。箱形图还可显示介于须线内但延伸到方框外的最小和最大数据值以及异常值,即超出须线的点(视情况而定)。

箱形图逻辑示意图

变量

箱形图由 (x) 轴和 (y) 轴组成。x 轴为每个类别数值字段分配一个方框。y 轴用于测量一组数字中的最小值、第一四分位数、中值、第三四分位数和最大值。

箱形图可用于显示一个或多个分布。要显示单个分布,请添加一个数值字段。这将生成包含一个箱形图的图表,用于显示所选数值属性的分布。

可以添加其他数值字段,以比较表中不同属性字段的多个分布。例如,在县数据集中,可将 Population2010Population2015 作为数值字段添加添加。生成的图表将显示两个箱形图,分别用于显示数据集中所有县的 Population2010Population2015 的分布。

当仅添加单个数值字段时,可选择添加类别变量来比较不同类别的分布。例如,对于县数据集,Population2010 设置为数值字段StateName 设置为类别。所生成的图表将显示每个州的箱形图,用于可视化每个州所辖各县的 Population2010 的分布情况。

多个系列

多系列箱形图可用于比较不同类型的分布或按不同类别进行比较。

要创建多系列箱形图,可通过指定一个类别字段和多个数值字段,或通过指定分割依据类别字段。

当使用具有多个数值字段类别变量时,添加到系列表中的每个数值字段将创建一个系列。例如,在县数据集中,StateName 设置为类别Population2010Population2015Population2020 均设置为数值字段。所生成图表的 x 轴使用州作为类别,每个州具有三个系列(Population2010Population2015Population2020)。

或者,可添加分割依据变量,用于进一步划分数据并创建多个系列。例如,对于县数据集,Population2010 设置为数值字段StateName 设置为 类别ElectionWinner 设置为分割依据字段。系列表将使用每个唯一 ElectionWinner 值(民主党共和党)进行填充。生成的图表将针对每个州并排显示两个箱形图(共 100 个箱形图),分别显示民主党ElectionWinner 值的每个州所有县以及共和党ElectionWinner 值的每个州所有县的 Population2010 分布情况。

使用多个数值字段而非类别变量时,也可以使用分割依据字段。例如,对于县数据集,Population2010Population2015Population2020 均设置为数值字段ElectionWinner 设置为分割依据字段。所生成的图表沿 x 轴显示三个 数值字段Population2010Population2015Population2020),每个字段包含两个并排的箱形图,分别显示 民主党ElectionWinner 值的所有县以及共和党ElectionWinner 值的所有县的分布情况。

显示多个系列

使用分割依据字段创建多个系列时,可使用以下两个选项显示结果。

  • 显示为多个箱形图 多框图 - 创建并排箱形图,一个图表对应一个系列。
  • 显示为平均线 平均线图 - 将针对每个类别值或数值字段创建一个箱形图,并使用线来显示分割依据字段中每个唯一值的平均值。

例如,对于县数据集,Population2010 设置为数值字段StateName 设置为 类别ElectionWinner 设置为分割依据字段。系列表将使用各个唯一 ElectionWinner 值(民主党共和党)进行填充,但所生成的图表不会针对每个州的每个 ElectionWinner 值分割成一个箱形图,而是针对每个州显示一个箱形图,用于显示该州内各县的 Population2010 分布,每个分割依据系列(民主党共和党)的平均值将在箱形图上重叠,以显示每个系列平均值相对于总分布的位置。

标准化

如果根据多个数值字段创建箱型图,则默认情况下将应用 z 得分标准化。标准化可使不同单位的数值变量具有可比性。

例如,如果没有标准化,则用于比较收入分布(值以万为单位)和失业率(值范围介于 0 和 1.0 之间)的箱形图将难以理解,因为失业率值比收入值小很多。

属性值的标准化涉及 Z 变换,即从每个值中减去所有值的平均值然后除以所有值的标准差。z 得分标准化可将所有属性置于同一比例中,允许在同一图表中显示多个分布。要显示原始值,只需取消选中图表属性窗格中的标准化值(z 得分)复选框即可。

X 轴标注字符限制

默认情况下,类别标注将被截断为 11 个字符。标注被截断时,全文都将在鼠标悬停时可用。要在图表中显示整个标注文本,请增加标注字符限制。

Y 轴边界

默认的 y 轴边界是基于 y 轴上表示的数据值范围设置的。可以输入所需的新轴边界值,对这些值进行自定义。设置轴边界可用来保持图表比例一致以进行比较。单击重置按钮时,轴边界将会恢复为默认值。

数字格式

可以通过指定数字格式类别或定义自定义格式字符串来格式化轴显示数值的方式。例如,$#,### 可以用作自定义格式字符串来显示货币值。

外观

标题和描述

图表和轴的默认标题将基于变量名和图表类型给定。可在图表属性窗格的常规选项卡上对此进行编辑。还可提供图表描述,这是显示在图表窗口底部的文本块。

视觉格式化

可以通过格式化文本和符号元素或者应用图表主题来配置图表的外观。格式属性可以在图表属性窗格的格式选项卡上进行配置,也可以通过图表格式上下文功能区进行配置。图表格式化选项包括以下内容:

  • 轴标题、轴标注、描述文本、图例标题、图例文本和引导标注所使用的字体的大小、颜色和样式
  • 格网和轴线的颜色、宽度和线型
  • 图表的背景颜色

了解有关更改图表外观的详细信息

Color

箱形图需尽可能与图层符号系统中定义的轮廓和填充颜色相匹配。如果系列的分割方式与图层符号系统不对应,则会应用标准调色板。要更改系列颜色,可以在图表属性窗格的系列选项卡上,单击系列表中的符号颜色图面,然后选择一个新颜色。

排序

箱形图按类别的字母数字顺序自动排序(x 轴升序)。可使用图表属性窗格中的排序选项对其进行更改。下列排序选项适用于箱形图:

  • X 轴升序 - 类别按字母数字顺序从左到右排列。
  • X 轴降序 - 类别按反向字母数字顺序排列。
  • 自定义 - 类别可在自定义排序表手动进行排列。

方向

要水平绘制方框,可通过在图表窗口中单击旋转图表按钮 旋转图表

参考线

可以向图表中添加参考线或范围作为参考或用以突出重要值。要添加新参考线,在图表属性窗格的参考线选项卡中,单击添加参考线。要绘制一条线,请在要绘制线的位置输入。要创建一个范围,请输入一个值。您可以选择通过指定标注为参考线添加文本。

示例

创建箱形图来按州比较不同慢性疾病的分布和差异。

  • 数值字段 - % Diabetes、% Asthma、% Heart Failure
  • 类别 - State

此箱形图按州比较不同慢性疾病的分布和差异