选择随机样本 (Data Reviewer)

需要 Data Reviewer 许可。

摘要

根据指定的采样方法选择输入要素或行的随机样本。

输出为在地图框中的输入图层上的选择。 此工具还可以创建一个记录所选对象 ID (OID) 的 .json 文件,以及用于选择的 SQL 表达式。 选择可用于浏览要素可视化检查工具和运行数据校验工具工作流。

使用情况

  • 采样方法参数具有以下选项:

    • 固定数量 - 所选记录的数量将基于记录数量参数值。
    • 百分比 - 所选记录的数量将基于记录百分比参数值。
    • 自动计算 - 所选记录的数量将基于使用置信度误差幅度参数值进行的计算。

  • 采样方法参数的自动计算选项使用以下变量来计算记录的数量:

    z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) n=((z/m)^2)*(p*(1-p)) n'=(n*N)/(n+(N-1))
    • 所需置信度的 z 统计量 (z)。 z 统计量使用置信度变量和 scipy.stats 模块 z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) 进行计算。
    • 置信区间中可接受的误差幅度 (m)。
    • 概率 (p) 在 0.5 时最高,因为无法预先了解特定比例的记录将通过还是未通过检查。 由于记录通过或未通过检查的概率相等,因此 0.5 是方差方程中使用的最保守值。
    • 总体大小 (N) 是要素图层或表中的记录总数。

  • 随机 OID 使用 random Python 模块 random.sample(population, k) 进行选择,其中 population 是 OID 值的列表,k 是样本大小。

  • 此工具的输出是基于采样方法参数值,从输入行参数值中随机选择的记录。

  • 使用可选的输出文件参数创建一个包含以下内容的 .json 文件:

    • 工具的运行日期和时间
    • 输入源于的工作空间
    • 输入要素图层或表的名称
    • 选定记录总数
    • 选定记录的 OID
    • 用于选择的 SQL 表达式

  • 无论使用所选记录切换按钮是否关闭,都将执行在输入行参数中所做的所有选择。

  • 在运行工具前,要素图层或表必须具有 ObjectID 字段。

  • 如果关闭使用选定记录切换按钮,则输出文件参数值将记录基于整个数据集的随机要素选择。 但是,如果应用定义查询,则仅地图框中与查询相匹配的要素或行处于选中状态。

参数

标注说明数据类型
输入行

将应用所选内容的数据。

Feature Layer; Table View
采样方法

指定将使用的采样方法。

  • 固定数量所选记录的数量将基于记录数量参数值。
  • 百分比所选记录的数量将基于记录百分比参数值。
  • 自动计算所选记录的数量将基于使用置信度和误差幅度参数值进行的计算。
String
记录数量
(可选)

将选择的记录数量。

采样方法参数值为固定数量时,此参数处于活动状态。

Long
记录百分比
(可选)

将在输入中选择的记录百分比。

采样方法参数值为百分比时,此参数处于活动状态。

Long
置信度
(可选)

置信度是指样本大小具有统计显著性的可能性,以百分比形式输入(如 98 或 95)。

此参数将用于计算 z 统计量 (z)。

z 统计量可使用 scipy.stats 模块 z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) 进行计算。

采样方法参数值为自动计算时,此参数处于活动状态。

Long
误差幅度
(可选)

置信度中可接受的误差幅度,以百分比形式输入(如 8 或 5)。

此参数使用计算出的 z 统计量 (z),通过以下公式计算实际样本大小 (n'):n=((z/m)^2)*(p*(1-p))n'=(n*N)/(n+(N-1))

采样方法参数值为自动计算时,此参数处于活动状态。

Long
输出文件
(可选)

将包含所选数据记录的输出 .json 文件。

File

派生输出

标注说明数据类型
已更新行

已应用选择的已更新输入。

Feature Layer; Table View

arcpy.Reviewer.SelectRandomSample(in_layer_or_view, sample_method, {number_of_records}, {percentage_of_records}, {confidence_level}, {margin_of_error}, {out_file})
名称说明数据类型
in_layer_or_view

将应用所选内容的数据。

Feature Layer; Table View
sample_method

指定将使用的采样方法。

  • FIXED_NUMBER所选记录的数量将基于记录数量参数值。
  • PERCENTAGE所选记录的数量将基于记录百分比参数值。
  • AUTO_CALCULATE所选记录的数量将基于使用置信度和误差幅度参数值进行的计算。
String
number_of_records
(可选)

将选择的记录数量。

sample_method 参数值为 FIXED_NUMBER 时,启用此参数。

Long
percentage_of_records
(可选)

将在输入中选择的记录百分比。

sample_method 参数值为 PERCENTAGE 时,启用此参数。

Long
confidence_level
(可选)

置信度是指样本大小具有统计显著性的可能性,以百分比形式输入(如 98 或 95)。

此参数将用于计算 z 统计量 (z)。

z 统计量可使用 scipy.stats 模块 z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) 进行计算。

sample_method 参数值为 AUTO_CALCULATE 时,启用此参数。

Long
margin_of_error
(可选)

置信度中可接受的误差幅度,以百分比形式输入(如 8 或 5)。

此参数使用计算出的 z 统计量 (z),通过以下公式计算实际样本大小 (n'):n=((z/m)^2)*(p*(1-p))n'=(n*N)/(n+(N-1))

sample_method 参数值为 AUTO_CALCULATE 时,启用此参数。

Long
out_file
(可选)

将包含所选数据记录的输出 .json 文件。

File

派生输出

名称说明数据类型
out_layer_or_view

已应用选择的已更新输入。

Feature Layer; Table View

代码示例

SelectRandomSample 示例 1(Python 窗口)

以下 Python 窗口脚本演示了如何使用 SelectRandomSample 函数。

import arcpy
arcpy.env.workspace = r"C:\USAData\Data.gdb"
arcpy.SelectRandomSample_Reviewer("Cities", "FIXED_NUMBER", number_of_records = 35, out_file = "C:\\USAData\\Cities_Sample.json")
SelectRandomSample 示例 2(独立脚本)

下列独立脚本在 Cities 要素图层中创建随机选择的要素。

# Name: SelectRandomSample_Example.py
# Description: Use the SelectRandomSample tool in ArcGIS Pro to select a random sample of features from a feature class.

# Import system modules
import arcpy

# Set environment workspace
arcpy.env.workspace = r"C:\USAData\Data.gdb"

# Set local variables
in_layer_or_view = "Cities"
sampling_method = "AUTO_CALCULATE"
confidence_level = 98
margin_of_error = 5
out_file = r"C:\USAData\Cities_Sample.json"

# Generate a random sample of features
arcpy.SelectRandomSample_Reviewer(in_layer_or_view, sampling_method, confidence_level, margin_of_error, out_file)

许可信息

  • Basic: 需要 Data Reviewer
  • Standard: 需要 Data Reviewer
  • Advanced: 需要 Data Reviewer

相关主题