フォレストベース予測 (Forest-based Forecast) (時空間パターン マイニング)

概要

Leo Breiman のランダム フォレスト アルゴリズムを転用して、時空間キューブの各位置の未来値を予測します。フォレスト回帰モデルは、時空間キューブの各位置でタイム ウィンドウを使用してトレーニングされます。

[フォレストベース予測 (Forest-based Forecast)] ツールの詳細

フォレスト モデルを使用した人口予測
時空間キューブの未来値を予測します。

使用法

  • このツールでは、[ポイントの集約による時空間キューブの作成 (Create Space Time Cube By Aggregating Points)] ツール、[定義済みのフィーチャから時空間キューブを作成 (Create Space Time Cube From Defined Features)] ツール、および [多次元ラスター レイヤーから時空間キューブを作成 (Create Space Time Cube from Multidimensional Raster Layer)] ツールによって作成された netCDF ファイルを使用できます。

  • 時系列予測 ツールセットの他の予測ツールと比較すると、このツールは最も複雑ですが、データに関する前提が最も少なくて済みます。単純な数学関数でモデル化することが難しい複雑な形状や傾向を持つ時系列や、他の方法の前提を満たさない場合にお勧めします。

  • [位置による予測評価 (Evaluate Forecasts by Location)] ツールを使用すると、予測された複数の時空間キューブを比較および結合できます。これによって、別々の予測ツールやパラメーターを使用して複数の予測キューブを作成し、予測 RMSE (二乗平均平方根誤差) または検証 RMSE を使用して場所ごとに最適な予測をツールで判定できます。

  • [入力時空間キューブ] の各位置について、ツールは異なる目的に対応するよう 2 つのモデルを構築します。

    • 予測モデル - このモデルは、時空間キューブの将来値予測に使用されます。時系列の値を使用してフォレストを構築し、このフォレストを使用して未来の時間ステップの値を予測します。時空間キューブの値に対するフォレスト モデルの適合の度合は、Forecast RMSE の値によって計測されます。
    • 検証モデル - このモデルは、予測モデルを検証し、未来値の精度をテストするために使用されます。[検証で除外する時間ステップの数] パラメーターに 0 を上回る数字が指定された場合、このモデルは、除外されなかった時間ステップを使用して構築され、除外された時間ステップの値の予測に使用されます。これにより、フォレストがどの程度正確に未来値を予測できるかを確認できます。除外された値に対する予測値の適合の度合は、Validation RMSE の値によって計測されます。

    予測モデル、検証モデル、および RMSE 統計の詳細

  • [出力フィーチャ][コンテンツ] ウィンドウに追加され、最終的に予測された時間ステップに基づいてレンダリングされます。

  • このツールは、ジオプロセシング メッセージとポップアップ チャートを作成するので、予測結果の理解と視覚化に役立ちます。メッセージには、時空間キューブの構造と、RMSE 値および季節の長さの統計情報サマリーに関する情報が含まれます。[マップ操作] ナビゲーション ツールを使用してフィーチャをクリックすると、その場所の時空間キューブ、適合フォレスト値、予測値、信頼区間などの値を表示した [ポップアップ] ウィンドウに、ライン チャートが表示されます。

  • 検証のとき、どの程度の時間ステップを除外するかは重要な選択です。除外する時間ステップが多いほど、検証モデルを推定するため残る時間ステップは少なくなります。ただし、除外する時間ステップが少なすぎると、検証 RMSE は少量のデータを使用して推定されることになり、誤解を招きやすくなります。検証モデルを推定するため十分な時間ステップを残しながら、できるだけ多くの時間ステップを除外することをお勧めします。また、時空間キューブに十分な時間ステップが存在するなら、最低でも予測に使用する時間ステップと同じ数の時間ステップを検証用に保持することをお勧めします。

構文

ForestBasedForecast(in_cube, analysis_variable, output_features, {output_cube}, {number_of_time_steps_to_forecast}, {time_window}, {number_for_validation}, {number_of_trees}, {minimum_leaf_size}, {maximum_depth}, {sample_size}, {forecast_approach})
パラメーター説明データ タイプ
in_cube

将来の時間ステップについて予測する変数を含む netCDF キューブ。このファイルは、*.nc ファイル拡張子が付加され、[ポイントの集約による時空間キューブの作成 (Create Space Time Cube By Aggregating Points)] ツール、[定義済みの場所から時空間キューブを作成 (Create Space Time Cube From Defined Locations)] ツール、または [多次元ラスター レイヤーから時空間キューブを作成 (Create Space Time Cube from Multidimensional Raster Layer)] ツールで作成されている必要があります。

File
analysis_variable

将来の時間ステップについて予測される、netCDF ファイル内の数値変数。

String
output_features

フィールドに予測値が格納された時空間キューブ内のすべての位置の出力フィーチャクラス。レイヤーには最終時間ステップの予測と、各位置の時系列、予測、および 90% の信頼区間を示すポップアップ チャートが表示されます。

Feature Class
output_cube
(オプション)

入力時空間キューブの値を含み、予測された時間ステップが追加された、新しい時空間キューブ (*.nc ファイル)。[時空間キューブを 3D で視覚化 (Visualize Space Time Cube in 3D)] ツールを使用して、観測および予測されたすべての値を同時に参照できます。

File
number_of_time_steps_to_forecast
(オプション)

予測する時間ステップ数を指定する正の整数。この値は、入力時空間キューブの合計時間ステップ数の 50% より大きくできません。デフォルト値は 1 時間ステップです。

Long
time_window
(オプション)

フォレストをトレーニングする際に使用する、以前の時間ステップの数。データに季節性 (繰り返しサイクル) がある場合は、このパラメーターに 1 サイクルに対応する時間ステップの数を入力します。この値は、入力された時空間キューブの時間ステップ数の 1/3 を上回ることはできません。空のままにすると、スペクトル密度関数を使用して、各位置についてタイム ウィンドウが見積もられます。

Long
number_for_validation
(オプション)

各時系列の最後で、検証のため除外する時間ステップ数。デフォルト値は入力時間ステップ数の 10% (端数切り捨て) で、この値は時間ステップ数の 25% より大きくできません。値 0 を指定すると、時間ステップは一切除外されません。

Long
number_of_trees
(オプション)

フォレスト モデル内で作成するツリーの数。通常、ツリーの数を多くすると、モデル予測の精度は上がりますが、そのモデルでの計算時間が長くなります。ツリーのデフォルト数は 100 です。この値は最低 1 、最大 1,000 です。

Long
minimum_leaf_size
(オプション)

リーフを維持するために最低限必要な観測数 (これ以上分割できないツリー上のターミナル ノード)。大規模なデータの場合は、この数を増やすと、このツールの実行時間が短くなります。

Long
maximum_depth
(オプション)

ツリーの下に作成される分割の最大数。最大ツリー階層の値を大きくすると、さらに多くの分割が作成されるため、モデルの過剰適合の可能性が高くなります。空のままにすると、モデルが作成したツリーの数と時間ステップウィンドウのサイズに基づき、ツールが値を決定します。

Long
sample_size
(オプション)

予測モデルの適合に使用するトレーニング データの割合。トレーニング データは、タイム ウィンドウを使用して構築された、関連する説明変数と独立変数から成ります。残りのトレーニング データはすべて、予測モデルのパラメーターの最適化に使用されます。デフォルトは 100 パーセントです。

フォレスト予測モデルのトレーニングの詳細

Long
forecast_approach
(オプション)

各位置のフォレスト モデルのトレーニングの際に説明変数と独立変数を表示する方法を指定します。

予測に使用するフォレストをトレーニングするには、タイム ウィンドウを使用して説明変数と独立変数のセットを作成する必要があります。このパラメーターを使用して、これらの変数が線形にトレンド除去されるかどうか、独立変数が未加工の値によって表されるか線形回帰モデルの残差によって表されるか、などを指定します。この線形回帰モデルは、説明変数としてタイム ウィンドウのすべての時間ステップを使用し、独立変数として後続の時間ステップを使用します。残差は、線形回帰に基づいて予測された値を、独立変数の未加工の値から減算することによって計算されます。

[予測方法] パラメーターの詳細

  • VALUE タイム ウィンドウ内の値はトレンド除去されず、独立変数は未加工の値によって表されます。
  • VALUE_DETREND タイム ウィンドウ内の値は線形にトレンド除去され、独立変数はトレンド除去された値によって表されます。これがデフォルトです。
  • RESIDUAL タイム ウィンドウ内の値はトレンド除去されず、独立変数は、タイム ウィンドウ内の値を説明変数として使用した線形回帰モデルの残差によって表されます。
  • RESIDUAL_DETREND タイム ウィンドウ内の値は線形にトレンド除去され、独立変数は、タイム ウィンドウ内のトレンド除去された値を説明変数として使用した線形回帰モデルの残差によって表されます。
String

コードのサンプル

ForestBasedForecast (フォレストベース予測) の例 1 (Python ウィンドウ)

次の Python スクリプトは、[ForestBasedForecast] ツールの使用方法を示します。

import arcpy
arcpy.env.workspace = "C:/Analysis"
# Forecast four time steps using a random forest with detrending.
arcpy.stpm.ForestBasedForecast("CarTheft.nc","Cars_NONE_ZEROS", 
                               "Analysis.gdb/Forecasts", "outForecastCube.nc"
                               4, 3, 5, 100, "", "", 100, "VALUE_DETREND")
ForestBasedForecast (フォレストベース予測) の例 2 (スタンドアロン スクリプト)

次の Python スクリプトで、ForestBasedForecast ツールを使用して自動車窃盗件数を予測する方法を示します。

# Forecast car thefts using a random forest.
# Import system modules.
import arcpy
# Set property to overwrite existing output, by default.
arcpy.env.overwriteOutput = True
# Set workspace.
workspace = r"C:\Analysis"
arcpy.env.workspace = workspace
# Forecast three time steps using a random forest based on change.
arcpy.stpm.ForestBasedForecast("CarTheft.nc","Cars_NONE_ZEROS", 
                               "Analysis.gdb/Forecasts", "outForecastCube.nc"
                               4, 3, 5, 100, "", "", 100, "CHANGE")
# Create a feature class visualizing the forecasts.
arcpy.stpm.VisualizeSpaceTimeCube3D("outForecastCube.nc", "Cars_NONE_ZEROS", 
                                    "VALUE", "Analysis.gdb/ForecastsFC")

ライセンス情報

  • Basic: はい
  • Standard: はい
  • Advanced: はい

関連トピック