通过测量某些值在数据集中显示的频数,直方图直观地概述了连续型数字变量的分布。直方图中的 x 轴 是一个数字行,该行已被拆分成数字范围或图格。对每个图格而言,已绘制相应的条,其中条的宽度表示图格范围,条的高度表示落入此范围内的数据点数。了解数据分布是数据探索过程中的一个重要步骤。
Variable
直方图需要 x 轴上的一个连续数字变量。
变换
某些分析方法需要呈正态分布的数据。如果数据偏斜(分布不均衡),则可能需要将数据变换为正态分布。直方图使您可以在数据分布上浏览对数和平方根变换的效果。对于参考,可通过选中图表属性窗格中的显示正态分布复选框,向直方图添加一个正态分布叠加。
对数变换
对数变换通常用于呈正偏分布的数据,其中有些值非常大。如果这些大值位于数据集中,对数变换有助于使方差更加恒定并会归一化数据。
例如,左侧图表中的正偏分布使用右侧图表中的对数变换转换为正态分布:。
注:
对数变换只能应用于大于零的数字。
平方根变换
平方根变换和对数变换类似,因为它会减少数据集的右偏度。不同于对数变换的是,平方根变换可以应用于零。
注:
平方根变换只能应用于大于零的数字和零。
图格数目
图格数量默认为数据集中记录数的平方根。可通过更改图表属性窗格的数据选项卡中的图格值调整此项。通过更改图格数量,可在数据结构中查看或多或少的详细信息。
统计
将计算几个描述性统计信息并将其在直方图上显示为垂直线。平均值和中值均使用一行来显示,位于平均值以上或以下的标准差需使用两行来显示。可在图表图例中单击这些项目以将其开启或关闭。
统计信息表在图表属性窗格的数据选项卡中显示,其中包含所选数值字段的以下统计信息:
- 平均值
- 中值
- 标准差
- 计数
- 最小值
- 最大值
- 总和
- 空
- 偏度
- 峰度
如果图表的源图层具有选择集,则统计信息表将有一列显示完整数据集的统计信息,一列仅显示选择集的统计信息。
统计信息表还包含用于打开和关闭直方图平均值、中值和标准偏差线以及更改其颜色的控件。
可以右键单击统计信息表,然后选择命令以向剪贴板复制表、复制行或复制值。从而可以将统计信息从图表属性窗格复制并粘贴到其他窗口或应用程序中。
轴
Y 轴边界
默认的 y 轴边界是基于 y 轴上表示的数据值范围设置的。可以输入所需的新轴边界值,对这些值进行自定义。设置轴边界可用来保持图表比例一致以进行比较。单击重置图标,轴边界将会恢复为默认值。
数字格式
可以通过指定数字格式类别或定义自定义格式字符串来设置轴显示数值的格式。例如,$#,### 可以用作自定义格式字符串来显示货币值。
外观
标题和描述
图表和轴的默认标题将基于变量名和图表类型给定。可在图表属性窗格的常规选项卡上对此进行编辑。还可提供图表描述,这是显示在图表窗口底部的文本块。
Color
可使用图表属性窗格的数据选项卡中图格旁边的颜色图面更改直方图的图格颜色。
参考线
可以向图表中添加参考线或范围作为参考或用以突出重要值。要添加新参考线,在图表属性窗格的参考线选项卡中,单击添加参考线。要绘制一条线,请在要绘制线的位置输入值。要创建一个范围,请输入一个至值。您可以选择通过指定标注为参考线添加文本。
示例
创建直方图,以便对整个华盛顿特区人口普查区块组的人口密度分布情况进行可视化。
- 数量 - 人口密度