ランダムサンプルの選択 (Select Random Sample) (Data Reviewer)—ArcGIS Pro

Data Reviewer のライセンスで利用可能。

サマリー

指定したサンプリング方法に基づいて、入力フィーチャまたは行のランダムサンプルを選択します。

マップフレーム内の入力レイヤーで行われた選択セットが出力されます。ツールでは、選択されたオブジェクト ID (OID) と選択セットに使用された SQL 式を記録した .json ファイルを作成することもできます。選択セットは、フィーチャの参照ツール (目視レビューツール) とデータチェックの実行ツールのワークフローで使用できます。

使用法

[サンプリング方法] パラメーターには、次のオプションがあります:
- [固定数] - 選択されるレコード数は、[レコード数] パラメーターの値に基づきます。
- [割合] - 選択されるレコード数は、[レコードの割合] パラメーターの値に基づきます。
- [自動計算] - 選択されるレコード数は、[信頼度] および [許容誤差範囲] パラメーターの値を使用した計算に基づきます。
[サンプリング方法] パラメーターの [自動計算] オプションでは、次の変数を使用してレコード数を計算します:
```
z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) n=((z/m)^2)*(p*(1-p)) n'=(n*N)/(n+(N-1))
```
- 目的の信頼度の Z 統計 (z)。 Z 統計は、信頼度変数と scipy.stats モジュール z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) を使用して計算されます。
- 信頼区間における許容誤差範囲 (m)。
- 特定の割合のレコードの合格または不合格に関する過去の知識がないため、確率 (p) は最も高くて 0.5 になります。レコードの合格と不合格の確率が等しいため、分散の式で使用する最も保守的な値は 0.5 です。
- 母集団サイズ (N) は、フィーチャレイヤーまたはテーブル内のレコードの総数です。
ランダム OID は、random Python モジュール random.sample(population, k) を使用して選択されます。ここで population は OID 値のリスト、k はサンプルのサイズです。
このツールの出力は、[入力行] パラメーターの値からランダムに選択されたレコードセットであり、[サンプリング方法] パラメーターの値に基づいています。
オプションの [出力ファイル] パラメーターを使用して、次を含む .json ファイルを作成します:
- ツールが実行された日時
- 入力が取得されたワークスペース
- 入力フィーチャレイヤーまたはテーブルの名前
- 選択したレコードの総数
- 選択したレコードの OID
- 選択に使用された SQL 式
[選択レコードを使用] 切り替えボタンがオフかどうかにかかわらず、[入力行] パラメーターで行われたすべての選択セットが実装されます。
このツールを実行するには、フィーチャレイヤーまたはテーブルに ObjectID フィールドが必要です。
[選択レコードを使用] 切り替えボタンがオフの場合、[出力ファイル] パラメーター値には、データセット全体に基づくフィーチャのランダム選択が記録されます。ただし、定義クエリーが適用されている場合、そのクエリーに整合するフィーチャまたは行のみがマップフレーム内で選択されます。

パラメーター

ラベル	説明	データタイプ
入力行	選択を適用するデータ。	Feature Layer; Table View
サンプリング方法	使用するサンプリング方法を指定します。固定数—選択されるレコード数は、レコード数パラメーターの値に基づきます。パーセンテージ—選択されるレコード数は、レコードの割合パラメーターの値に基づきます。自動計算—選択されるレコード数は、信頼度および許容誤差範囲パラメーターの値を使用した計算に基づきます。	String
レコード数 (オプション)	選択されるレコードの数。このパラメーターは、[サンプリング方法] パラメーターの値が [固定数] の場合に有効です。	Long
レコードの割合 (オプション)	入力データ内で選択されるレコードの割合。このパラメーターは、[サンプリング方法] パラメーターの値が [割合] の場合に有効です。	Long
信頼度 (オプション)	信頼度は、サンプルサイズが統計的に有意である尤度をパーセンテージで入力します (例: 98、95)。このパラメーターは Z 統計 (z) の計算に使用されます。 Z 統計は、scipy.stats モジュール z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) を使用して計算できます。このパラメーターは、[サンプリング方法] パラメーターの値が [自動計算] の場合に有効です。	Long
許容誤差範囲 (オプション)	信頼区間における許容誤差範囲。8 や 5 などのパーセンテージで入力します。このパラメーターは、計算済みの Z 統計 (z) を使用し、次の式で実際のサンプルサイズ (n') を計算します: n=((z/m)^2)(p(1-p)) から n'=(n*N)/(n+(N-1))。このパラメーターは、[サンプリング方法] パラメーターの値が [自動計算] の場合に有効です。	Long
出力ファイル (オプション)	選択したデータのレコードが格納される出力 .json ファイル。	File

派生した出力

ラベル	説明	データタイプ
更新された行	選択が適用された状態の更新された入力。	Feature Layer; Table View

arcpy.Reviewer.SelectRandomSample(in_layer_or_view, sample_method, {number_of_records}, {percentage_of_records}, {confidence_level}, {margin_of_error}, {out_file})

名前	説明	データタイプ
in_layer_or_view	選択を適用するデータ。	Feature Layer; Table View
sample_method	使用するサンプリング方法を指定します。 FIXED_NUMBER—選択されるレコード数は、レコード数パラメーターの値に基づきます。 PERCENTAGE—選択されるレコード数は、レコードの割合パラメーターの値に基づきます。 AUTO_CALCULATE—選択されるレコード数は、信頼度および許容誤差範囲パラメーターの値を使用した計算に基づきます。	String
number_of_records (オプション)	選択されるレコードの数。このパラメーターは、sample_method パラメーターの値が FIXED_NUMBER の場合に有効です。	Long
percentage_of_records (オプション)	入力データ内で選択されるレコードの割合。このパラメーターは、sample_method パラメーターの値が PERCENTAGE の場合に有効です。	Long
confidence_level (オプション)	信頼度は、サンプルサイズが統計的に有意である尤度をパーセンテージで入力します (例: 98、95)。このパラメーターは Z 統計 (z) の計算に使用されます。 Z 統計は、scipy.stats モジュール z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) を使用して計算できます。このパラメーターは、sample_method パラメーターの値が AUTO_CALCULATE の場合に有効です。	Long
margin_of_error (オプション)	信頼区間における許容誤差範囲。8 や 5 などのパーセンテージで入力します。このパラメーターは、計算済みの Z 統計 (z) を使用し、次の式で実際のサンプルサイズ (n') を計算します: n=((z/m)^2)(p(1-p)) から n'=(n*N)/(n+(N-1))。このパラメーターは、sample_method パラメーターの値が AUTO_CALCULATE の場合に有効です。	Long
out_file (オプション)	選択したデータのレコードが格納される出力 .json ファイル。	File

派生した出力

名前	説明	データタイプ
out_layer_or_view	選択が適用された状態の更新された入力。	Feature Layer; Table View

コードのサンプル

SelectRandomSample の例 1 (Python ウィンドウ)

次の Python ウィンドウスクリプトは、SelectRandomSample 関数の使用方法を示しています。

import arcpy
arcpy.env.workspace = r"C:\USAData\Data.gdb"
arcpy.SelectRandomSample_Reviewer("Cities", "FIXED_NUMBER", number_of_records = 35, out_file = "C:\\USAData\\Cities_Sample.json")

SelectRandomSample の例 2 (スタンドアロンスクリプト)

次のスタンドアロンスクリプトは、Cities フィーチャレイヤー内のフィーチャのランダムな選択セットを作成します。

# Name: SelectRandomSample_Example.py
# Description: Use the SelectRandomSample tool in ArcGIS Pro to select a random sample of features from a feature class.

# Import system modules
import arcpy

# Set environment workspace
arcpy.env.workspace = r"C:\USAData\Data.gdb"

# Set local variables
in_layer_or_view = "Cities"
sampling_method = "AUTO_CALCULATE"
confidence_level = 98
margin_of_error = 5
out_file = r"C:\USAData\Cities_Sample.json"

# Generate a random sample of features
arcpy.SelectRandomSample_Reviewer(in_layer_or_view, sampling_method, confidence_level, margin_of_error, out_file)

環境

現在のワークスペース

ライセンス情報

Basic: 次のものが必要 Data Reviewer
Standard: 次のものが必要 Data Reviewer
Advanced: 次のものが必要 Data Reviewer

サマリー

使用法

パラメーター

派生した出力

派生した出力

コードのサンプル

環境

ライセンス情報

関連トピック

このトピックの内容