EBK 回帰予測 (EBK Regression Prediction) (Geostatistical Analyst)

Geostatistical Analyst のライセンスで利用可能。

サマリー

EBK 回帰予測は、内挿するデータの値に影響することが知られている説明変数ラスターを使用して [経験ベイズ クリギング (Empirical Bayesian Kriging)] を実行する地球統計学の内挿方法です。 この方法は、クリギングを回帰分析と組み合わせて、単独で使用するよりも正確な予測を作成します。

EBK 回帰予測の詳細

使用法

  • このツールは推定マップ出力のみサポートしています。 標準誤差、分位、確率マップを作成するには、地球統計レイヤーを出力し、[地球統計レイヤー → ラスター (GA Layer To Rasters)] を使用してラスター (複数可) に変換します。

  • このクリギング方法を使用すると、適度に非定常な入力データを処理できます。

  • この内挿方法では、標準円形およびスムージング円形による [検索近傍] のみ実行できます。

  • [入力説明変数ラスター] に NoData セルが多い場合、[出力地球統計レイヤー] がマップで視覚化できない場合があります。 これは問題を示すものではなく、計算は正しく実行されています。 出力を視覚化するには、[地球統計レイヤー → ラスター (GA Layer To Rasters)] または [地球統計レイヤー → グリッド (GA Layer To Grid)] を使用して地球統計レイヤーをラスターに変換します。 また、[出力推定ラスター] パラメーターを使用して、このツールから直接ラスターを出力することもできます。

  • [入力従属変数フィーチャ] が地理座標系を使用している場合、すべての距離は弦距離を使用して計算されます。 詳細については、「経験ベイズ クリギングとは」トピックの「地理座標を使用しているデータの距離計算」をご参照ください。

パラメーター

ラベル説明データ タイプ
入力従属変数フィーチャ

内挿されるフィールドを含む入力ポイント フィーチャ。

Feature Layer
従属変数フィールド

従属変数の値を含む [入力従属変数フィーチャ] のフィールド。 このフィールドが内挿されます。

Field
入力説明変数ラスター

回帰モデルの構築に使用される説明変数を表す入力ラスター。 これらのラスターは、従属変数の値に影響することが知られている変数を表している必要があります。 たとえば、温度データを内挿する場合、温度は標高の影響を受けるため、標高ラスターを説明変数として使用する必要があります。 最大で 62 個の説明ラスターを使用できます。

Raster Layer; Mosaic Layer
出力地球統計レイヤー

内挿の結果を表示する出力地球統計レイヤー。

Geostatistical Layer
出力推定ラスター
(オプション)

内挿の結果を表示する出力ラスター。 デフォルトのセル サイズは、[入力説明変数ラスター] の最大セル サイズになります。 別のセル サイズを設定するには、セル サイズ環境設定を使用します。

Raster Dataset
出力診断フィーチャクラス
(オプション)

各ローカル モデルの領域を表し、ローカル モデルの診断情報を示すフィールドを含む出力ポリゴン フィーチャクラス。 各サブセットに対して、サブセット内のポイントを囲むポリゴンが作成されるため、各サブセットで使用されたポイントを簡単に識別できます。 たとえば、10 個のローカル モデルが存在する場合、この出力には 10 個のポリゴンが含まれます。 フィーチャクラスには、次のフィールドが含まれます。

  • [主成分数] (PrincComps) - 説明変数として使用された主成分の数。 この値は、常に説明変数ラスターの数以下になります。
  • [分散の割合] (PercVar) - 主成分が取り込む分散の割合。 この値は、以下の [分散の最小累積割合] パラメーターで指定した値以上になります。
  • [RMS 誤差] (RMSE) - 交差検証の平均二乗誤差の平方根。 この値が小さいほど、モデルの適合度が向上します。
  • [90 パーセント間隔] (Perc90) - 90 パーセントの交差検証信頼区間に含まれるデータ ポイントの割合。 この値が 90 に近いのが理想的です。 90 より有意に小さい値は、標準誤差が過小に推定されていることを示しています。 90 より有意に大きい値は、標準誤差が過大に推定されていることを示しています。
  • [95 パーセント間隔] (Perc95) - 95 パーセントの交差検証信頼区間に含まれるデータ ポイントの割合。 この値が 95 に近いのが理想的です。 95 より有意に小さい値は、標準誤差が過小に推定されていることを示しています。 95 より有意に大きい値は、標準誤差が過大に推定されていることを示しています。
  • [平均絶対誤差] (MeanAbsErr) - 交差検証誤差の絶対値の平均値。 この値は可能な限り小さくする必要があります。 [RMS 誤差] と似ていますが、極値による影響は少なくなります。
  • [平均誤差] (MeanError) - 交差検証誤差の平均値。 この値は 0 に近い必要があります。 0 と有意に異なる値は、推定に偏りがあることを示しています。
  • [CRPS] (CRPS) - 連続的ランク付け確率スコア (CRPS) は、各観測データ値に対する推定累積分布関数からの偏差を計測する診断です。 この値は可能な限り小さくする必要があります。 この診断は、単一ポイントの推定ではなく、完全な分布とデータを比較するため、交差検証診断よりも優れている点がいくつもあります。
Feature Class
従属変数測定エラー フィールド
(オプション)

従属変数フィーチャ内の各ポイントの測定誤差を指定するフィールド。 各ポイントで、このフィールドの値は、ポイントの測定値のいずれかの標準偏差に対応する必要があります。 各ポイントで測定誤差の値が同じでない場合は、このフィールドを使用します。

測定誤差が一定しない場合の一般的な原因は、データがさまざまなデバイスで測定されていることです。 精度がより高いデバイスで測定すると、測定誤差は小さくなります。 たとえば、測定値を 1 度単位で丸める温度計もあれば、0.1 度単位で丸める温度計もあります。 多くの場合、測定値のばらつきは、測定デバイスのメーカーから提供されますが、経験則からわかっている場合もあります。

測定誤差の値が存在しない場合、または測定誤差の値が不明な場合は、このパラメーターを空のままにしておきます。

Field
分散の最小累積割合
(オプション)

説明変数ラスターの主成分の分散の最小累積割合を定義します。 回帰モデルの構築前に、説明変数の主成分が計算され、それらの主成分が回帰の説明変数として使用されます。 各主成分は、説明変数の分散の特定の割合を取り込みます。このパラメーターは、各ローカル モデルの主成分によって取り込まれるべき分散の最小割合をコントロールします。 たとえば、値を 75 に指定した場合、説明変数の分散の 75% 以上を取り込むのに必要な最小数の主成分が使用されます。

主成分はすべて相互に無相関であるため、主成分を使用することで多重共線性 (互いに相関する説明変数) の問題を解決できます。 すべての説明変数に含まれる情報の多くは、わずか数個の主成分で取り込むことができます。 有用性の低い主成分を破棄することで、精度を大幅に低下させずに、モデルの計算を安定的かつ効率的に実行できます。

主成分を計算するには、説明変数にばらつきが存在する必要があるため、[入力説明変数ラスター] のサブセット内に定数値が含まれている場合、これらの定数ラスターはそのサブセットの主成分の計算には使用されません。 サブセット内のすべての説明変数ラスターに定数値が含まれている場合、[出力診断フィーチャクラス] には、0 個の主成分が使用され、0% のばらつきが取り込まれたことが報告されます。

Double
サブセット ポリゴン フィーチャ
(オプション)

ローカル モデルが計算される場所を定義するポリゴン フィーチャ。 ローカル モデルでは、各ポリゴン内のポイントが使用されます。 独立変数の値が既知の地域によって変化することがわかっている場合は、このパラメーターが便利です。 たとえば、これらのポリゴンを使用して、区域によって保健方針が変わる保健所の管轄区域を表すことができます。

また、[サブセット ポリゴンの生成 (Generate Subset Polygons)] ツールを使用して、サブセット ポリゴンを作成することもできます。 このツールで作成されるポリゴンは、重複しないコンパクトなポリゴンになります。

Feature Layer
従属変数変換タイプ
(オプション)

入力データに適用される変換のタイプ。

  • なし変換を適用しません。 これがデフォルトです。
  • 経験経験基底関数を使用した乗法的スキュー変換。
  • 対数経験対数経験基底関数を使用した乗法的スキュー変換。 すべてのデータは正でなければなりません。 このオプションを選択した場合、すべての推定値は正の値になります。
String
セミバリオグラム モデル タイプ
(オプション)

内挿に使用されるセミバリオグラム モデル。

  • 指数指数セミバリオグラム
  • ナゲットナゲット セミバリオグラム
  • WhittleWhittle セミバリオグラム
  • K-ベッセルK-ベッセル セミバリオグラム
String
各ローカル モデルの最大ポイント数
(オプション)

入力データは、この数を超えるポイントを含まないサブセットに自動的に分割されます。 [サブセット ポリゴン フィーチャ] が指定されている場合、このパラメーターの値は無視されます。

Long
ローカル モデル エリア オーバーラップ ファクター
(オプション)

ローカル モデル (サブセット) 間のオーバーラップ度合いを表す係数。 各入力ポイントはいくつかのサブセットに分類できます。このオーバーラップ ファクターは、各ポイントが分類されるサブセットの平均値を指定します。 オーバーラップ ファクターの値を高くすると、出力サーフェスがより滑らかになりますが、処理時間も増加します。 値は、1 ~ 5 の間でなければなりません [サブセット ポリゴン フィーチャ] が指定されている場合、このパラメーターの値は無視されます。

Double
シミュレーションの回数
(オプション)

各ローカル モデルのセミバリオグラムのシミュレート回数。 使用するシミュレーションの回数を多くすると、モデルの計算はより安定しますが、モデルでの計算時間が長くなります。

Long
検索近傍
(オプション)

出力の制御に使用する周辺のポイントを定義します。 標準がデフォルトです。

標準円形

  • [最大近傍数] - 未知の位置の値を推定する際に使用される最大近傍数。
  • [最小近傍数] - 未知の位置の値を推定する際に使用される最小近傍数。
  • [セクター タイプ] - 近傍のジオメトリ。
    • [1 セクター] - 単一の楕円。
    • [4 セクター] - 4 つのセクターに分割された楕円。
    • [4 セクター (回転)] - 4 つのセクターに分割され、45 度回転した楕円。
    • [8 セクター] - 8 つのセクターに分割された楕円。
  • [角度] - 変動ウィンドウの軸 (円) または長軸 (楕円) の回転角度。
  • [半径] - 検索円の半径の長さ。

スムージング円形

  • [スムージング係数] - スムージング内挿オプションを使用すると、外側の楕円と内側の楕円が、長軸にスムージング係数を掛けた距離に作成されます。 最小楕円の外側かつ最大楕円の内側にあるポイントは、シグモイド関数を使用して 0 〜 1 の値で重み付けされます。
  • [半径] - 検索円の半径の長さ。
Geostatistical Search Neighborhood

arcpy.ga.EBKRegressionPrediction(in_features, dependent_field, in_explanatory_rasters, out_ga_layer, {out_raster}, {out_diagnostic_feature_class}, {measurement_error_field}, {min_cumulative_variance}, {in_subset_features}, {transformation_type}, {semivariogram_model_type}, {max_local_points}, {overlap_factor}, {number_simulations}, {search_neighborhood})
名前説明データ タイプ
in_features

内挿されるフィールドを含む入力ポイント フィーチャ。

Feature Layer
dependent_field

従属変数の値を含む [入力従属変数フィーチャ] のフィールド。 このフィールドが内挿されます。

Field
in_explanatory_rasters
[[in_explanatory_raster,…],...]

回帰モデルの構築に使用される説明変数を表す入力ラスター。 これらのラスターは、従属変数の値に影響することが知られている変数を表している必要があります。 たとえば、温度データを内挿する場合、温度は標高の影響を受けるため、標高ラスターを説明変数として使用する必要があります。 最大で 62 個の説明ラスターを使用できます。

Raster Layer; Mosaic Layer
out_ga_layer

内挿の結果を表示する出力地球統計レイヤー。

Geostatistical Layer
out_raster
(オプション)

内挿の結果を表示する出力ラスター。 デフォルトのセル サイズは、[入力説明変数ラスター] の最大セル サイズになります。 別のセル サイズを設定するには、セル サイズ環境設定を使用します。

Raster Dataset
out_diagnostic_feature_class
(オプション)

各ローカル モデルの領域を表し、ローカル モデルの診断情報を示すフィールドを含む出力ポリゴン フィーチャクラス。 各サブセットに対して、サブセット内のポイントを囲むポリゴンが作成されるため、各サブセットで使用されたポイントを簡単に識別できます。 たとえば、10 個のローカル モデルが存在する場合、この出力には 10 個のポリゴンが含まれます。 フィーチャクラスには、次のフィールドが含まれます。

  • [主成分数] (PrincComps) - 説明変数として使用された主成分の数。 この値は、常に説明変数ラスターの数以下になります。
  • [分散の割合] (PercVar) - 主成分が取り込む分散の割合。 この値は、以下の [分散の最小累積割合] パラメーターで指定した値以上になります。
  • [RMS 誤差] (RMSE) - 交差検証の平均二乗誤差の平方根。 この値が小さいほど、モデルの適合度が向上します。
  • [90 パーセント間隔] (Perc90) - 90 パーセントの交差検証信頼区間に含まれるデータ ポイントの割合。 この値が 90 に近いのが理想的です。 90 より有意に小さい値は、標準誤差が過小に推定されていることを示しています。 90 より有意に大きい値は、標準誤差が過大に推定されていることを示しています。
  • [95 パーセント間隔] (Perc95) - 95 パーセントの交差検証信頼区間に含まれるデータ ポイントの割合。 この値が 95 に近いのが理想的です。 95 より有意に小さい値は、標準誤差が過小に推定されていることを示しています。 95 より有意に大きい値は、標準誤差が過大に推定されていることを示しています。
  • [平均絶対誤差] (MeanAbsErr) - 交差検証誤差の絶対値の平均値。 この値は可能な限り小さくする必要があります。 [RMS 誤差] と似ていますが、極値による影響は少なくなります。
  • [平均誤差] (MeanError) - 交差検証誤差の平均値。 この値は 0 に近い必要があります。 0 と有意に異なる値は、推定に偏りがあることを示しています。
  • [CRPS] (CRPS) - 連続的ランク付け確率スコア (CRPS) は、各観測データ値に対する推定累積分布関数からの偏差を計測する診断です。 この値は可能な限り小さくする必要があります。 この診断は、単一ポイントの推定ではなく、完全な分布とデータを比較するため、交差検証診断よりも優れている点がいくつもあります。
Feature Class
measurement_error_field
(オプション)

従属変数フィーチャ内の各ポイントの測定誤差を指定するフィールド。 各ポイントで、このフィールドの値は、ポイントの測定値のいずれかの標準偏差に対応する必要があります。 各ポイントで測定誤差の値が同じでない場合は、このフィールドを使用します。

測定誤差が一定しない場合の一般的な原因は、データがさまざまなデバイスで測定されていることです。 精度がより高いデバイスで測定すると、測定誤差は小さくなります。 たとえば、測定値を 1 度単位で丸める温度計もあれば、0.1 度単位で丸める温度計もあります。 多くの場合、測定値のばらつきは、測定デバイスのメーカーから提供されますが、経験則からわかっている場合もあります。

測定誤差の値が存在しない場合、または測定誤差の値が不明な場合は、このパラメーターを空のままにしておきます。

Field
min_cumulative_variance
(オプション)

説明変数ラスターの主成分の分散の最小累積割合を定義します。 回帰モデルの構築前に、説明変数の主成分が計算され、それらの主成分が回帰の説明変数として使用されます。 各主成分は、説明変数の分散の特定の割合を取り込みます。このパラメーターは、各ローカル モデルの主成分によって取り込まれるべき分散の最小割合をコントロールします。 たとえば、値を 75 に指定した場合、説明変数の分散の 75% 以上を取り込むのに必要な最小数の主成分が使用されます。

主成分はすべて相互に無相関であるため、主成分を使用することで多重共線性 (互いに相関する説明変数) の問題を解決できます。 すべての説明変数に含まれる情報の多くは、わずか数個の主成分で取り込むことができます。 有用性の低い主成分を破棄することで、精度を大幅に低下させずに、モデルの計算を安定的かつ効率的に実行できます。

主成分を計算するには、説明変数にばらつきが存在する必要があるため、[入力説明変数ラスター] のサブセット内に定数値が含まれている場合、これらの定数ラスターはそのサブセットの主成分の計算には使用されません。 サブセット内のすべての説明変数ラスターに定数値が含まれている場合、[出力診断フィーチャクラス] には、0 個の主成分が使用され、0% のばらつきが取り込まれたことが報告されます。

Double
in_subset_features
(オプション)

ローカル モデルが計算される場所を定義するポリゴン フィーチャ。 ローカル モデルでは、各ポリゴン内のポイントが使用されます。 独立変数の値が既知の地域によって変化することがわかっている場合は、このパラメーターが便利です。 たとえば、これらのポリゴンを使用して、区域によって保健方針が変わる保健所の管轄区域を表すことができます。

また、[サブセット ポリゴンの生成 (Generate Subset Polygons)] ツールを使用して、サブセット ポリゴンを作成することもできます。 このツールで作成されるポリゴンは、重複しないコンパクトなポリゴンになります。

Feature Layer
transformation_type
(オプション)

入力データに適用される変換のタイプ。

  • NONE変換を適用しません。 これがデフォルトです。
  • EMPIRICAL経験基底関数を使用した乗法的スキュー変換。
  • LOGEMPIRICAL対数経験基底関数を使用した乗法的スキュー変換。 すべてのデータは正でなければなりません。 このオプションを選択した場合、すべての推定値は正の値になります。
String
semivariogram_model_type
(オプション)

内挿に使用されるセミバリオグラム モデル。

EBK 回帰予測でのセミバリオグラム モデルの詳細

  • EXPONENTIAL指数セミバリオグラム
  • NUGGETナゲット セミバリオグラム
  • WHITTLEWhittle セミバリオグラム
  • K_BESSELK-ベッセル セミバリオグラム
String
max_local_points
(オプション)

入力データは、この数を超えるポイントを含まないサブセットに自動的に分割されます。 [サブセット ポリゴン フィーチャ] が指定されている場合、このパラメーターの値は無視されます。

Long
overlap_factor
(オプション)

ローカル モデル (サブセット) 間のオーバーラップ度合いを表す係数。 各入力ポイントはいくつかのサブセットに分類できます。このオーバーラップ ファクターは、各ポイントが分類されるサブセットの平均値を指定します。 オーバーラップ ファクターの値を高くすると、出力サーフェスがより滑らかになりますが、処理時間も増加します。 値は、1 ~ 5 の間でなければなりません [サブセット ポリゴン フィーチャ] が指定されている場合、このパラメーターの値は無視されます。

Double
number_simulations
(オプション)

各ローカル モデルのセミバリオグラムのシミュレート回数。 使用するシミュレーションの回数を多くすると、モデルの計算はより安定しますが、モデルでの計算時間が長くなります。

Long
search_neighborhood
(オプション)

出力の制御に使用する周辺のポイントを定義します。 標準がデフォルトです。

検索近傍クラスには、SearchNeighborhoodStandardCircularSearchNeighborhoodSmoothCircular があります。

標準円形

  • radius - 検索円の半径の長さ。
  • angle - 変動ウィンドウの軸 (円) または長軸 (楕円) の回転角度。
  • nbrMax - 未知の位置の値を推定する際に使用される最大近傍数。
  • nbrMin - 未知の位置の値を推定する際に使用される最小近傍数。
  • sectorType - 近傍のジオメトリ。
    • ONE_SECTOR - 単一の楕円。
    • FOUR_SECTORS - 4 つのセクターに分割された楕円。
    • FOUR_SECTORS_SHIFTED - 4 つのセクターに分割され、45 度回転した楕円。
    • EIGHT_SECTORS - 8 つのセクターに分割された楕円。

スムージング円形

  • radius - 検索円の半径の長さ。
  • smoothFactor - スムージング内挿オプションを使用すると、外側の楕円と内側の楕円が、長軸にスムージング係数を掛けた距離に作成されます。 最小楕円の外側かつ最大楕円の内側にあるポイントは、シグモイド関数を使用して 0 〜 1 の値で重み付けされます。
Geostatistical Search Neighborhood

コードのサンプル

EBKRegressionPrediction の例 1 (Python ウィンドウ)

説明変数ラスターを使用して、ポイント フィーチャクラスを内挿します。

import arcpy
arcpy.EBKRegressionPrediction_ga("HousingSales_Points", "SalePrice",
                ["AREASQFEET", "NUMBATHROOMS", "NUMBEDROOMS","TOTALROOMS"],
                "out_ga_layer", None, None, None, 95, None, "LOGEMPIRICAL",
                "EXPONENTIAL", 100, 1, 100, None)
EBKRegressionPrediction の例 2 (スタンドアロン スクリプト)

説明変数ラスターを使用して、ポイント フィーチャクラスを内挿します。

# Name: EBKRegressionPrediction_Example_02.py
# Description: Interpolates housing prices using EBK Regression Prediction
# Requirements: Geostatistical Analyst Extension
# Author: Esri

# Import system modules
import arcpy

# Set environment settings
arcpy.env.workspace = "C:/gaexamples/data.gdb"

# Set local variables
inDepFeatures = "HousingSales_Points"
inDepField = "SalePrice"
inExplanRasters = ["AREASQFEET", "NUMBATHROOMS", "NUMBEDROOMS","TOTALROOMS"]
outLayer = "outEBKRP_layer"
outRaster = "outEBKRP_raster"
outDiagFeatures = "outEBKRP_features"
inDepMeField = ""
minCumVariance = 97.5
outSubsetFeatures = ""
depTransform = ""
semiVariogram= "K_BESSEL"
maxLocalPoints = 50
overlapFactor = 1
numberSinulations = 200
radius = 100000
searchNeighbourhood = arcpy.SearchNeighborhoodStandardCircular(radius)

# Check out the ArcGIS Geostatistical Analyst extension license
arcpy.CheckOutExtension("GeoStats")

# Execute EBKRegressionPrediction
arcpy.EBKRegressionPrediction_ga(inDepFeatures, inDepField, inExplanRasters,
                outLayer, outRaster, outDiagFeatures, inDepMeField, minCumVariance,
                outSubsetFeatures, depTransform, semiVariogram, maxLocalPoints,
                overlapFactor, numberSinulations, searchNeighbourhood)

ライセンス情報

  • Basic: 次のものが必要 Geostatistical Analyst
  • Standard: 次のものが必要 Geostatistical Analyst
  • Advanced: 次のものが必要 Geostatistical Analyst

関連トピック