ランダム サンプルの選択 (Select Random Sample) (Data Reviewer)

Data Reviewer のライセンスで利用可能。

サマリー

指定したサンプリング方法に基づいて、入力フィーチャまたは行のランダム サンプルを選択します。

マップ フレーム内の入力レイヤーで行われた選択セットが出力されます。 ツールでは、選択されたオブジェクト ID (OID) と選択セットに使用された SQL 式を記録した .json ファイルを作成することもできます。 選択セットは、フィーチャの参照ツール (目視レビュー ツール) とデータ チェックの実行ツールのワークフローで使用できます。

使用法

  • [サンプリング方法] パラメーターには、次のオプションがあります:

    • [固定数] - 選択されるレコード数は、[レコード数] パラメーターの値に基づきます。
    • [割合] - 選択されるレコード数は、[レコードの割合] パラメーターの値に基づきます。
    • [自動計算] - 選択されるレコード数は、[信頼度] および [許容誤差範囲] パラメーターの値を使用した計算に基づきます。

  • [サンプリング方法] パラメーターの [自動計算] オプションでは、次の変数を使用してレコード数を計算します:

    z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) n=((z/m)^2)*(p*(1-p)) n'=(n*N)/(n+(N-1))
    • 目的の信頼度の Z 統計 (z)。 Z 統計は、信頼度変数と scipy.stats モジュール z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) を使用して計算されます。
    • 信頼区間における許容誤差範囲 (m)。
    • 特定の割合のレコードの合格または不合格に関する過去の知識がないため、確率 (p) は最も高くて 0.5 になります。 レコードの合格と不合格の確率が等しいため、分散の式で使用する最も保守的な値は 0.5 です。
    • 母集団サイズ (N) は、フィーチャ レイヤーまたはテーブル内のレコードの総数です。

  • ランダム OID は、random Python モジュール random.sample(population, k) を使用して選択されます。ここで population は OID 値のリスト、k はサンプルのサイズです。

  • このツールの出力は、[入力行] パラメーターの値からランダムに選択されたレコード セットであり、[サンプリング方法] パラメーターの値に基づいています。

  • オプションの [出力ファイル] パラメーターを使用して、次を含む .json ファイルを作成します:

    • ツールが実行された日時
    • 入力が取得されたワークスペース
    • 入力フィーチャ レイヤーまたはテーブルの名前
    • 選択したレコードの総数
    • 選択したレコードの OID
    • 選択に使用された SQL 式

  • [選択レコードを使用] 切り替えボタンがオフかどうかにかかわらず、[入力行] パラメーターで行われたすべての選択セットが実装されます。

  • このツールを実行するには、フィーチャ レイヤーまたはテーブルに ObjectID フィールドが必要です。

  • [選択レコードを使用] 切り替えボタンがオフの場合、[出力ファイル] パラメーター値には、データセット全体に基づくフィーチャのランダム選択が記録されます。 ただし、定義クエリーが適用されている場合、そのクエリーに整合するフィーチャまたは行のみがマップ フレーム内で選択されます。

パラメーター

ラベル説明データ タイプ
入力行

選択を適用するデータ。

Feature Layer; Table View
サンプリング方法

使用するサンプリング方法を指定します。

  • 固定数選択されるレコード数は、レコード数パラメーターの値に基づきます。
  • パーセンテージ選択されるレコード数は、レコードの割合パラメーターの値に基づきます。
  • 自動計算選択されるレコード数は、信頼度および許容誤差範囲パラメーターの値を使用した計算に基づきます。
String
レコード数
(オプション)

選択されるレコードの数。

このパラメーターは、[サンプリング方法] パラメーターの値が [固定数] の場合に有効です。

Long
レコードの割合
(オプション)

入力データ内で選択されるレコードの割合。

このパラメーターは、[サンプリング方法] パラメーターの値が [割合] の場合に有効です。

Long
信頼度
(オプション)

信頼度は、サンプル サイズが統計的に有意である尤度をパーセンテージで入力します (例: 98、95)。

このパラメーターは Z 統計 (z) の計算に使用されます。

Z 統計は、scipy.stats モジュール z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) を使用して計算できます。

このパラメーターは、[サンプリング方法] パラメーターの値が [自動計算] の場合に有効です。

Long
許容誤差範囲
(オプション)

信頼区間における許容誤差範囲。8 や 5 などのパーセンテージで入力します。

このパラメーターは、計算済みの Z 統計 (z) を使用し、次の式で実際のサンプル サイズ (n') を計算します: n=((z/m)^2)*(p*(1-p)) から n'=(n*N)/(n+(N-1))

このパラメーターは、[サンプリング方法] パラメーターの値が [自動計算] の場合に有効です。

Long
出力ファイル
(オプション)

選択したデータのレコードが格納される出力 .json ファイル。

File

派生した出力

ラベル説明データ タイプ
更新された行

選択が適用された状態の更新された入力。

Feature Layer; Table View

arcpy.Reviewer.SelectRandomSample(in_layer_or_view, sample_method, {number_of_records}, {percentage_of_records}, {confidence_level}, {margin_of_error}, {out_file})
名前説明データ タイプ
in_layer_or_view

選択を適用するデータ。

Feature Layer; Table View
sample_method

使用するサンプリング方法を指定します。

  • FIXED_NUMBER選択されるレコード数は、レコード数パラメーターの値に基づきます。
  • PERCENTAGE選択されるレコード数は、レコードの割合パラメーターの値に基づきます。
  • AUTO_CALCULATE選択されるレコード数は、信頼度および許容誤差範囲パラメーターの値を使用した計算に基づきます。
String
number_of_records
(オプション)

選択されるレコードの数。

このパラメーターは、sample_method パラメーターの値が FIXED_NUMBER の場合に有効です。

Long
percentage_of_records
(オプション)

入力データ内で選択されるレコードの割合。

このパラメーターは、sample_method パラメーターの値が PERCENTAGE の場合に有効です。

Long
confidence_level
(オプション)

信頼度は、サンプル サイズが統計的に有意である尤度をパーセンテージで入力します (例: 98、95)。

このパラメーターは Z 統計 (z) の計算に使用されます。

Z 統計は、scipy.stats モジュール z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) を使用して計算できます。

このパラメーターは、sample_method パラメーターの値が AUTO_CALCULATE の場合に有効です。

Long
margin_of_error
(オプション)

信頼区間における許容誤差範囲。8 や 5 などのパーセンテージで入力します。

このパラメーターは、計算済みの Z 統計 (z) を使用し、次の式で実際のサンプル サイズ (n') を計算します: n=((z/m)^2)*(p*(1-p)) から n'=(n*N)/(n+(N-1))

このパラメーターは、sample_method パラメーターの値が AUTO_CALCULATE の場合に有効です。

Long
out_file
(オプション)

選択したデータのレコードが格納される出力 .json ファイル。

File

派生した出力

名前説明データ タイプ
out_layer_or_view

選択が適用された状態の更新された入力。

Feature Layer; Table View

コードのサンプル

SelectRandomSample の例 1 (Python ウィンドウ)

次の Python ウィンドウ スクリプトは、SelectRandomSample 関数の使用方法を示しています。

import arcpy
arcpy.env.workspace = r"C:\USAData\Data.gdb"
arcpy.SelectRandomSample_Reviewer("Cities", "FIXED_NUMBER", number_of_records = 35, out_file = "C:\\USAData\\Cities_Sample.json")
SelectRandomSample の例 2 (スタンドアロン スクリプト)

次のスタンドアロン スクリプトは、Cities フィーチャ レイヤー内のフィーチャのランダムな選択セットを作成します。

# Name: SelectRandomSample_Example.py
# Description: Use the SelectRandomSample tool in ArcGIS Pro to select a random sample of features from a feature class.

# Import system modules
import arcpy

# Set environment workspace
arcpy.env.workspace = r"C:\USAData\Data.gdb"

# Set local variables
in_layer_or_view = "Cities"
sampling_method = "AUTO_CALCULATE"
confidence_level = 98
margin_of_error = 5
out_file = r"C:\USAData\Cities_Sample.json"

# Generate a random sample of features
arcpy.SelectRandomSample_Reviewer(in_layer_or_view, sampling_method, confidence_level, margin_of_error, out_file)

ライセンス情報

  • Basic: 次のものが必要 Data Reviewer
  • Standard: 次のものが必要 Data Reviewer
  • Advanced: 次のものが必要 Data Reviewer

関連トピック