通过测量某些值在数据集中显示的频数,直方图直观地概述了连续型数字变量的分布。 直方图中的 x 轴 是一个数字行,该行已被拆分成数字范围或条柱。 对每个条柱而言,已绘制相应的条,其中条的宽度表示条柱范围,条的高度表示落入此范围内的数据点数。 了解数据分布是数据探索过程中的一个重要步骤。
变量
直方图需要 x 轴上的一个连续数字变量。
多个系列
以下视频演示了如何使用分割依据字段创建多个系列的直方图:
- 视频长度:0:57
- 此视频是使用 ArcGIS Pro 3.2 创建的。
可以通过设置分割依据控件来创建多个系列的直方图。 当设置了分割依据控件时,直方图会基于字段中的唯一类别数分割为多个系列。 例如,当显示与住房价格相关的数据集的直方图时,数值控件设置为 SoldPrice 以查看城市中住房价格的分布。 将分割依据控件设置为 Neighborhood 会将直方图分割为 N 个系列,其中 N 是唯一邻域值的数量。 多个系列的直方图会显示 N 个迷你图表,每个图表代表一个唯一 Neighborhood 值,因此可以在分割依据值之间比较住房价格分布。
注:
具有多个唯一值的类别字段不适用于将字段分割成多个系列。
多个系列的直方图仅可以使用一种格网布局显示,可以在图表属性窗格中的系列选项卡上对其进行自定义。 可以通过设置每行的迷你图表值来自定义格网图表布局的尺寸。 例如,将每行的迷你图表设置为 3 将每行最多显示 3 个图表 - 格网中的总行数由图表中的系列数决定。 选中显示预览图表复选框可通过选择一个图表以在较大的预览图表中查看来详细地动态探索每个迷你图表。
变换
某些分析方法需要呈正态分布的数据。 如果数据偏斜(分布不均衡),则可能需要将数据变换为正态分布。 借助直方图,可以在数据分布上浏览对数和平方根变换的效果。 对于参考,可通过选中图表属性窗格中的显示正态分布复选框,向直方图添加一个正态分布叠加。
对数变换
对数变换通常用于呈正偏分布的数据,其中有些值非常大。 如果这些大值位于数据集中,对数变换有助于使方差更加恒定并会归一化数据。
例如,以下第一个图表中的正偏分布使用第二个图表中的对数变换转换为正态分布:
注:
对数变换只能应用于大于零的数字。
平方根变换
平方根变换和对数变换类似,因为它会减少数据集的右偏度。 不同于对数变换的是,平方根变换可以应用于零。
注:
平方根变换只能应用于大于零的数字和零。
反向变换
倒数变换可获取字段中每个值 (x) 的倒数 (1/x)。
注:
倒数变换不能应用于零值。 如果字段中存在零值,则将这些值评估为空值。
Box-Cox 变换
Box-Cox 变换将以下幂函数应用于正态分布值:
其中 x' 为变换后的值,x 为原始值,λ1 为幂参数值,λ2 为偏移参数值。
注:
Box-Cox 变换只能应用于正值。 如果存在负值或零值,请使用偏移参数确保所有值均为正值。
条柱数量
条柱数量默认值为数据集中记录数的平方根。 可通过更改图表属性窗格的数据选项卡中的条柱值调整此项。 通过更改条柱数量,可在数据结构中查看或多或少的详细信息。
注:
直方图最多可以具有 64 个条柱。 之所以施加此限制,是因为使用过多的条柱通常会导致直方图存在噪声,由此难以解释直方图中分布的特征。
统计数据
将计算几个描述性统计数据并将其在直方图上显示为垂直线。 平均值和中值均使用一行来显示,位于平均值以上或以下的标准差需使用两行来显示。 可在图表图例中单击这些项目以将其开启或关闭。
统计数据表显示在图表属性窗格的数据选项卡中,其中包含所选数值字段的以下统计数据:
- 平均值
- 中值
- 标准差
- 计数
- 最小值
- 最大值
- 总和
- 空
- 偏度
- 峰度
如果图表的源图层具有选择集,则统计数据表将有一列显示完整数据集的统计数据,一列仅显示选择集的统计数据。
统计数据表还包含用于打开和关闭直方图的平均值、中值和标准偏差线以及更改其颜色的控件。
要将图表属性窗格中的统计数据复制到其他窗口或应用程序,请右键单击统计数据表,然后选择复制表、复制行或复制值。
轴
多个选项可以控制轴和相关设置。
轴边界
轴的默认边界基于轴上表示的数据值范围。 通过提供新的轴边界值,可以对这些值进行自定义。 可以设置轴边界来保持图表比例一致以进行比较。 单击重置按钮 ,将轴边界恢复为默认值。
格网间隔
使用间隔控件配置 y 轴的格网间隔。 默认情况下,将自动计算格网间隔。
数字格式
可以通过指定数字格式类别或定义自定义格式字符串来设置轴显示数值的格式。 例如,可以使用 $#,### 作为自定义格式字符串以显示货币值。
外观
标题和描述
图表和轴默认标题将基于变量名和图表类型给定。 可在图表属性窗格的常规选项卡上对此进行编辑。 您也可以为描述选项提供值,这是显示在图表窗口底部的文本块。
颜色
可使用图表属性窗格的数据选项卡中图格旁边的颜色图面更改直方图的图格颜色。
参考线
可将参考线或范围添加到图表,以此作为参考或者用于突出显示重要值。 要添加新参考线,在图表属性窗格的参考线选项卡中,单击添加参考线。 要绘制一条线,请在要绘制线的位置为值提供值。 要创建一个范围,请提供一个至值。 您也可以通过指定标注值为参考线添加文本。
示例
以下直方图使用以下设置显示了整个华盛顿特区人口普查区块组的人口密度分布:
- 数字 - Population Density