箱形图允许您通过其四分位数来显示和比较数值的分布与集中趋势。 四分位数是基于五个关键值(最小值、第一四分位数、中值、第三四分位数和最大值)将数值分为四个相等组的方法。 箱形图使用百分位数计算来确定四分位数值。 例如,第一个四分位数等于第 25 百分位数。
下图的方框部分显示数据值中间 50% 的数据,也称为四分位距 (IQR)。 描绘数据值中值的线,将方框一分为二。 IQR 可表明一组值的差异。 IQR 较大,表示值散布的范围较大;而 IQR 较小,则表示大多数值都落在中心附近。 箱形图还可显示介于须线或线内但延伸到方框外的最小和最大数据值以及异常值,即超出须线的点(视情况而定)。
变量
箱形图由 (x) 轴和 (y) 轴组成。 x 轴为每个类别或数值字段变量分配一个方框。 y 轴用于测量一组数字中的最小值、第一四分位数、中值、第三四分位数和最大值。
可以使用箱形图可视化一个或多个分布。 要显示单个分布,添加一个数值字段变量。 这将生成包含一个箱形图的图表,用于显示所选数值属性的分布。
可以添加其他数值字段变量以比较来自表中不同属性字段的多个分布。 例如,在县数据集中,可将 Population2010 和 Population2015 作为数值字段变量添加。 生成的图表将显示两个箱形图,分别用于显示数据集中所有县的 Population2010 和 Population2015 的分布。
当仅添加单个数值字段变量时,可选择添加类别变量作为比较不同类别的分布的方法。 例如,对于县数据集,Population2010 设置为数值字段变量,StateName 设置为类别变量。 所生成的图表将显示每个州的箱形图,用于可视化每个州所辖各县的 Population2010 的分布情况。
多个系列
可使用多系列箱形图比较不同类型的分布或按不同类别进行比较。
要创建多系列箱形图,可通过指定一个类别字段和多个数值字段,或通过指定分割依据类别字段。
当使用具有多个数值字段的类别变量时,添加到系列表中的每个数值字段将创建一个系列。 例如,在县数据集中,StateName 设置为类别变量,Population2010、Population2015 和 Population2020 设置为数值字段变量。 所生成图表的 x 轴使用州作为类别,每个州具有三个系列(Population2010、Population2015 和 Population2020)。
或者,可添加分割依据变量,用于进一步划分数据并创建多个系列。 例如,对于县数据集,Population2010 设置为数值字段变量,StateName 设置为类别变量,ElectionWinner 设置为分割依据字段。 系列表将使用每个唯一 ElectionWinner 值(民主党或共和党)进行填充。 生成的图表将针对每个州并排显示两个箱形图(共 100 个箱形图),分别显示民主党为 ElectionWinner 值的每个州所有县以及共和党为 ElectionWinner 值的每个州所有县的 Population2010 分布情况。
当使用多个数值字段变量而不是类别变量时,还可以使用分割依据字段。 例如,对于县数据集,Population2010、Population2015 和 Population2020 设置为数值字段变量,ElectionWinner 设置为分割依据字段。 生成的图表将沿 x 轴显示三个数值字段变量(Population2010、Population2015 和 Population2020),每个变量都有两个并排的箱线图:分别显示民主党为 ElectionWinner 值的所有县以及共和党为 ElectionWinner 值的所有县的分布情况。
显示多个系列
使用分割依据字段创建多个系列时,可使用以下两个选项显示结果:
- 并排 - 创建并排箱形图,一个图表对应一个系列。
- 作为平均线 - 将针对每个类别值或数值字段变量创建一个箱形图,并使用线来显示分割依据字段中每个唯一值的平均值。
例如,对于县数据集,Population2010 设置为数值字段变量,StateName 设置为类别变量,ElectionWinner 设置为分割依据字段。 系列表将使用各个唯一 ElectionWinner 值(民主党和共和党)进行填充,但所生成的图表不会针对每个州的每个 ElectionWinner 值分割成一个箱形图,而是针对每个州显示一个箱形图,用于显示该州内各县的 Population2010 分布,每个分割依据系列(民主党和共和党)的平均值将在箱形图上重叠,以显示每个系列平均值相对于总分布的位置。
标准化
如果根据多个数值字段创建箱型图,则默认情况下将应用 z 得分标准化。 标准化可使不同单位的数值变量具有可比性。
例如,如果没有标准化,则用于比较收入分布(值以万为单位)和失业率(值范围介于 0 和 1.0 之间)的箱形图将难以理解,因为失业率值比收入值小很多。
属性值的标准化涉及 Z 变换,即从每个值中减去所有值的平均值然后除以所有值的标准差。 z 得分标准化可将所有属性置于同一比例中,允许在同一图表中显示多个分布。 要显示原始值,只需取消选中图表属性窗格中的标准化值(z 得分)复选框即可。
轴
多个选项可以控制轴和相关设置。
X 轴标注字符限制
默认情况下,类别标注将被截断为 11 个字符。 如果标注被截断,可以将光标悬停在标注上显示完整文本。 要在图表中显示整个标注文本,请增加标注字符限制。
Y 轴边界
默认的 y 轴边界是基于 y 轴上表示的数据值范围设置的。 输入新的轴边界值,对这些值进行自定义。 可以设置轴边界来保持图表比例一致以进行比较。 单击“重置”按钮 ,以将轴边界恢复为默认值。
格网间隔
使用间隔控件配置 y 轴的格网间隔。 默认情况下,将自动计算格网间隔。
数字格式
可以通过指定数字格式类别或定义自定义格式字符串来格式化轴显示数值的方式。 例如,使用 $#,### 作为自定义格式字符串来显示货币值。
外观
多个选项可以控制图表外观和相关设置。
标题和描述
图表和轴默认标题将基于变量名和图表类型给定。 可在图表属性窗格的常规选项卡上对此进行编辑。 您也可以为描述选项提供值,这是显示在图表窗口底部的文本块。
视觉格式化
可以通过格式化文本和符号元素或者应用图表主题来配置图表的外观。 格式属性可以在图表属性窗格的格式选项卡上进行配置。 可以在图表选项卡上选择图表主题。 图表格式化选项包括以下内容:
- 轴标题、轴标注、描述文本、图例标题、图例文本和引导标注所使用的字体的大小、颜色和样式
- 格网和轴线的颜色、宽度和线型
- 图表的背景颜色
颜色
箱形图需尽可能与图层符号系统中定义的轮廓和填充颜色相匹配。 如果系列的分割方式与图层符号系统不对应,则会应用标准调色板。 要更改系列颜色,可以在图表属性窗格的系列选项卡上,单击系列表中的符号颜色图面,然后选择一个新颜色。
排序
箱形图按类别的字母数字顺序自动排序(x 轴升序)。 可使用图表属性窗格中的排序选项对此进行更改。 下列排序选项适用于箱形图:
- X 轴升序 - 类别按字母数字顺序从左到右排列。
- X 轴降序 - 类别按反向字母数字顺序排列。
- 平均值升序 - 方框按平均值统计数据以升序进行排列。
- 平均值降序 - 方框按平均值统计数据以降序进行排列。
- 中值升序 - 方框按中值统计数据以升序进行排列。
- 中值降序 - 方框按中值统计数据以降序进行排列。
- 自定义排序 - 类别可在自定义排序表手动进行排列。
方向
在图表窗口中,单击旋转图表按钮 横向绘制方框。
参考线
可将参考线或范围添加到图表,以此作为参考或者用于突出显示重要值。 要添加新参考线,在图表属性窗格的参考线选项卡中,单击添加参考线。 要绘制一条线,请在要绘制线的位置为值提供值。 要创建一个范围,请提供一个至值。 您也可以通过指定标注值为参考线添加文本。
示例
创建箱形图来按州比较不同慢性疾病的分布和差异。
- 数值字段 - % Diabetes、% Asthma % Heart Failure
- 类别 -State