通过测量某些值在数据集中显示的频数,直方图直观地概述了连续型数字变量的分布。 直方图中的 x 轴 是一个数字行,该行已被拆分成数字范围或条柱。 对每个条柱而言,已绘制相应的条,其中条的宽度表示条柱范围,条的高度表示落入此范围内的数据点数。 了解数据分布是数据探索过程中的一个重要步骤。
变量
直方图需要 x 轴上的一个连续数字变量。
变换
某些分析方法需要呈正态分布的数据。 如果数据偏斜(分布不均衡),则可能需要将数据变换为正态分布。 直方图使您可以在数据分布上浏览对数和平方根变换的效果。 对于参考,可通过选中图表属性窗格中的显示正态分布复选框,向直方图添加一个正态分布叠加。
对数变换
对数变换通常用于呈正偏分布的数据,其中有些值非常大。 如果这些大值位于数据集中,对数变换有助于使方差更加恒定并会归一化数据。
例如,左侧图表中的正偏分布使用右侧图表中的对数变换转换为正态分布:
注:
对数变换只能应用于大于零的数字。
平方根变换
平方根变换和对数变换类似,因为它会减少数据集的右偏度。 不同于对数变换的是,平方根变换可以应用于零。
注:
平方根变换只能应用于大于零的数字和零。
反向变换
倒数变换可获取字段中每个值 (x) 的倒数 (1/x)。
注:
倒数变换不能应用于零值。 如果字段中存在零值,则将这些值评估为空值。
Box-Cox 变换
Box-Cox 变换将以下幂函数应用于正态分布值:
其中 x' 为变换后的值,x 为原始值,λ1 为幂参数,λ2 为偏移参数。
注:
Box-Cox 变换只能应用于正值。 如果存在负值或零值,请使用偏移参数以确保所有值均为正值。
条柱数量
条柱数量默认为数据集中记录数的平方根。 可通过更改图表属性窗格的数据选项卡中的立方图格值调整此项。 通过更改条柱数量,可在数据结构中查看或多或少的详细信息。
统计
将计算几个描述性统计信息并将其在直方图上显示为垂直线。 平均值和中值均使用一行来显示,位于平均值以上或以下的标准差需使用两行来显示。 可在图表图例中单击这些项目以将其开启或关闭。
统计信息表在图表属性窗格的数据选项卡中显示,其中包含所选数值字段的以下统计信息:
- 平均值
- 中值
- 标准差
- 计数
- 最小值
- 最大值
- 总和
- 空
- 偏度
- 峰度
如果图表的源图层具有选择集,则统计信息表将有一列显示完整数据集的统计信息,一列仅显示选择集的统计信息。
统计信息表还包含用于打开和关闭直方图平均值、中值和标准偏差线以及更改其颜色的控件。
可以右键单击统计信息表,然后选择复制表、复制行或复制值。 从而可以将统计信息从图表属性窗格复制并粘贴到其他窗口或应用程序中。
轴
Y 轴边界
默认的 y 轴边界是基于 y 轴上表示的数据值范围设置的。 可以通过输入新的需要的轴边界值,对这些值进行自定义。 设置轴边界可用来保持图表比例一致以进行比较。 单击重置按钮,以将轴边界恢复为默认值。
数字格式
可以通过指定数字格式类别或定义自定义格式字符串来设置轴显示数值的格式。 例如,$#,### 可以用作自定义格式字符串来显示货币值。
外观
标题和描述
图表和轴的默认标题将基于变量名和图表类型给定。可在图表属性窗格的常规选项卡上对此进行编辑。还可提供图表描述,这是显示在图表窗口底部的文本块。
Color
可使用图表属性窗格的数据选项卡中图格旁边的颜色图面更改直方图的图格颜色。
参考线
可以向图表中添加参考线或范围作为参考或用以突出重要值。要添加新参考线,在图表属性窗格的参考线选项卡中,单击添加参考线。要绘制一条线,请在要绘制线的位置输入值。要创建一个范围,请输入一个至值。您可以选择通过指定标注为参考线添加文本。
示例
创建直方图,以便对整个华盛顿特区人口普查区块组的人口密度分布情况进行可视化。
- 数量 - 人口密度