[カーブ フィット予測 (Curve Fit Forecast)] ツールは、シンプルなカーブ フィッティングを使用して時系列をモデル化し、時空間キューブ内のすべての位置で未来の値を予測します。たとえば、毎年の人口を含む時空間キューブを使用すると、このツールは、来年以降の人口を予測できます。主な出力は、最終的に予測された時間ステップのマップ、情報メッセージ、およびポップアップ チャートです。追加された予測値と共に元のキューブからのデータを含んでいる新しい時空間キューブを作成することもできます。
このツールは、カーブを [入力時空間キューブ] 内の各位置にフィッティングし、このカーブを未来の時間ステップに外挿することによって、時系列を予測します。カーブは、線形、放物線、S 字型 (ゴンペルツ)、または指数関数のいずれかです。時空間キューブの各位置で同じ曲線タイプを使用するか、各位置に最も良く適合する曲線タイプをツールに設定させることができます。
曲線タイプおよび適用例
このツールは、[曲線タイプ] パラメーターで指定できる 4 つの曲線タイプをサポートします。次の図は、4 つの曲線タイプの各々の典型的な例を示しています。
- 線形 - 各時系列が、直線を使用してモデル化されます。
- 方程式: 。Xt は時間 t での時系列の値、a および b は、最小二乗推定を使用してデータから推定されます。
- 適用例: 線形曲線タイプは、時間と共に徐々に増加または減少するデータに役立ちます。たとえば、このツールを使用して、人口増加がほぼ線形である、開発段階にある間のコミュニティの人口を予測することができます。
- 放物線 - 各時系列が、放物線 (二次曲線とも呼ばれる) を使用してモデル化されます。
- 方程式: 。Xt は時間 t での時系列の値、a、b、および c は、最小二乗推定を使用してデータから推定されます。
- 適用例: 放物線曲線タイプは、増加の後に減少するか、減少の後に増加する、時間と共に方向が変化するデータに役立ちます。他のすべての曲線タイプは、時間と共に値が継続的に増加または減少することを仮定します。
- 指数関数 - 各時系列が、指数曲線 (幾何学曲線とも呼ばれる) を使用してモデル化されます。
- 方程式: 。Xt は時間 t での時系列の値、a、b、および k は、最小二乗推定を使用してデータから推定されます。値 k は、時系列により良く適合するように、指数曲線をシフトさせます。
- 適用例: 指数関数曲線タイプは、時間と共に急速に増加または減少するデータに役立ちます。たとえば、指数曲線を使用して、開発中の地域内の人口における急速な増加の期間をモデル化できます。
- S 字型 (ゴンペルツ) - 各時系列が、ゴンペルツ曲線を使用してモデル化されます。これらの曲線は、S 字の形状をしており、曲線上に下限および上限を伴います。
- 方程式: 。Xt は時間 t での時系列の値、a、b、c、および k は、最小二乗推定を使用してデータから推定されます。値 a および k は非負である必要があります。値 k は、時系列により良く適合するようにゴンペルツ曲線をシフトさせ、時系列の最大値の 10 倍を超えません。
- 適用例: ゴンペルツ曲線タイプは、容量制約を伴う増加をモデル化するのに役立ちます。人口は、多くの場合、緩やかな増加から始まり、その後、人口密度が産業を支えるのに十分になった後に、急速に増加します。その後、人口密度が地域が維持できる限界に近づくにつれて、人口増加が再び緩やかになります。
デフォルトでは、[曲線タイプ] パラメーターは [自動検出] オプションを使用し、このオプションは、4 つの曲線タイプをすべてフィッティングし、各位置での時系列に関する最良の予測を提供する曲線タイプを識別します。このオプションを選択した場合、時空間キューブ内の異なる位置が、異なる曲線タイプを使用することがあります。検証 RMSE (二乗平均平方根誤差) が最小になる曲線タイプが各位置で使用されますが、検証のために時間ステップが差し引かれない場合、代わりに予測 RMSE が使用されます。これらの統計情報は、両方とも [出力フィーチャ] にフィールドとして保存され、次のセクションで詳細に説明されます。
予測および検証
このツールは、各時系列を予測するときに、2 つのモデルを構築します。1 つ目は、未来の時間ステップの値を予測するために使用される予測モデルです。2 つ目は、予測値を検証するために使用される検証モデルです。
予測モデル
予測モデルは、時空間キューブの各位置で、選択された曲線タイプを時系列の値にフィッティングすることによって、構築されます。その後、未来のタイム スライスの値を予測するために、このカーブが未来に向かって外挿されます。各時系列へのカーブの適合は、予測 RMSE によって計測されます。予測 RMSE は、カーブと時系列の値の間の平均二乗差の平方根に等しくなります。
。T は時間ステップの数、ct はカーブの値、rt は時間 t での時系列の未処理の値です。
以下の図は、時系列にフィッティングされたゴンペルツ曲線と共に時系列の未処理の値を示しています。予測 RMSE は、これら 2 つの時系列が互いにどのくらい異なっているかを計測します。
予測 RMSE は、カーブが未処理の時系列の値にどの程度良く適合するかのみを計測します。予測 RMSE は、予測モデルが未来の値を実際にどの程度良く予測するかを計測しません。曲線が時系列に厳密に適合するが、外挿された場合の正確な予測を提供しないということがよくあります。検証モデルによって、この問題に対処します。
検証モデル
検証モデルは、予測モデルが各時系列の未来の値をどの程度良く予測できるかを決定するために使用されます。検証モデルは、各時系列の最後の時間ステップの一部を除外し、除外されなかったデータに対してカーブをフィッティングすることによって構築されます。次にこのカーブが、差し引かれたデータの値を予測するために使用され、それらの予測値が、隠された未処理の値と比較されます。デフォルトでは、時間ステップの 10 パーセントが検証のために差し引かれますが、[検証で除外する時間ステップ数] パラメーターを使用して、この数を変更できます。除外される時間ステップの数は、時間ステップ数の 25 パーセントを超えることができず、0 を指定した場合、検証は実行されません。予測の精度は検証 RMSE 統計値を計算することによって計測され、検証 RMSE 統計値は、除外された時間ステップの予測値と未処理の値の間の平均二乗差の平方根に等しくなります。
。T は時間ステップの数、m は検証のために差し引かれた時間ステップの数、ct は最初の T-m 個の時間ステップから予測された値、rt は時間 t で検証のために差し引かれた時系列の未処理の値です。
以下の図は、時系列の前半にフィッティングされ、時系列の後半を予測するように外挿されたゴンペルツ曲線を示しています。検証 RMSE は、差し引かれた時間ステップで、予測値が未処理の値とどのくらい異なっているかを計測します。
検証モデルは、予測値を未処理の値と直接比較して、カーブがどの程度良く予測できるかを計測できるため、重要です。検証モデルは、予測するために実際には使用されず、予測モデルを正当化するために使用されます。
メモ:
時系列の予測における検証は、交差検証と呼ばれる一般的手法に類似しているが、同一ではありません。予測の検証が、検証のために最後の時間ステップを常に除外し、交差検証が、データのランダムなサブセットを除外するか、各値を連続的に除外するという点が、異なっています。
解釈
予測 RMSE および検証 RMSE の値を解釈する場合、いくつかの考慮事項があります。
- これらの RMSE 値は、異なるもの計測するため、互いに直接比較できません。予測 RMSE は、未処理の時系列の値へのカーブの適合を計測し、検証 RMSE は、カーブが未来の値をどの程度良く予測できるかを計測します。予測 RMSE は、より多くのデータを使用し、外挿を行わないため、検証 RMSE よりも通常は小さくなります。
- 両方の RMSE 値は、データの単位を使用します。たとえば、データが摂氏温度での気温測定値である場合、50 の検証 RMSE は、予測値が、平均で約 50 度、真の値と異なっているということを意味するため、非常に大きい値です。しかし、データが大規模小売店の米国ドル単位での収入である場合、同じ 50 の検証 RMSE は、予測された毎日の収入が平均で 1 日につき 50 ドルしか真の値と異なっていないということを意味するため、非常に小さい値です。
ツールの出力
このツールの主な出力は、フィールドとして格納された他のすべての時間ステップの予測と共に、最終的に予測された時間ステップによってシンボル表示された [入力時空間キューブ] 内の各位置を表示する、2D フィーチャクラスです。各位置は独立して予測され、空間リレーションシップは考慮されませんが、マップは、類似する時系列と共に、エリアの空間パターンを表示することができます。
ポップアップ チャート
[マップ操作] ナビゲーション ツールを使用してマップ上のいずれかのフィーチャをクリックすると、フィッティングされたカーブおよび予測値と共に時空間キューブの値を示すチャートが [ポップアップ] ウィンドウに表示されます。時空間キューブの値は青色で表示され、青色のラインで接続されます。当てはめ値はオレンジ色で表示され、カーブを表すオレンジ色の破線で接続されます。予測値はオレンジ色で表示され、カーブの外挿および予測を表すオレンジ色の実線で接続されます。チャート内のいずれかのポイントの上にポインターを置き、そのポイントの日付および値を参照することができます。
メモ:
出力フィーチャがシェープファイル (*.shp) として保存された場合、ポップアップ チャートは作成されません。
ジオプロセシング メッセージ
このツールは、ツールの実行に関する情報を含む複数のメッセージを提供します。これらのメッセージは、3 つのメイン セクションを含んでいます。
[入力時空間キューブの詳細] セクションは、時間ステップの間隔、時間ステップの数、位置の数、および時空間ビンの数に関する情報と共に、入力時空間キューブのプロパティを表示します。この 1 番目に表示されるプロパティは、キューブが最初にどのように作成されたかによって決まるため、キューブごとに情報が変わります。
[解析の詳細] セクションは、予測された時間ステップの数、検証のために除外された時間ステップの数、および予測された時間ステップに関する情報を含む、予測結果のプロパティを表示します。
[位置全体の精度のサマリー] セクションは、すべての位置にわたる予測 RMSE および検証 RMSE の要約統計量を表示します。値ごとに、最小値、最大値、平均値、中央値、および標準偏差が表示されます。
[選択された曲線タイプのサマリー] セクションは、[曲線タイプ] パラメーターで [自動検出] を選択した場合に表示されます。このセクションは、4 つの曲線タイプの各々について、選択された位置の数および位置のパーセントを表示します。
メモ:
ジオプロセシング メッセージは、ツールの実行中に [ジオプロセシング] ウィンドウの下部に表示されます。このメッセージにアクセスするには、[ジオプロセシング] ウィンドウでプログレス バーの上にカーソルを置くか、ポップアップ ボタン をクリックするか、メッセージ セクションを展開します。ジオプロセシング履歴を使用して、以前に実行したツールのメッセージにアクセスすることもできます。
出力フィーチャのフィールド
[Object ID]、ジオメトリ フィールド、およびポップアップ チャートを含んでいるフィールドに加えて、[出力フィーチャ] は以下のフィールドを含みます。
- ロケーション ID (LOCATION) (LOCATION) - 時空間キューブの対応する位置のロケーション ID。
- (時間ステップ) での (解析変数) の予測 (FCAST_1、FCAST_2 など) - 各フィーチャの時間ステップの予測値。フィールド エイリアスに、[解析変数] の名前および予測の日付が表示されます。このタイプのフィールドは、予測される時間ステップごとに作成されます。
- 予測二乗平均平方根誤差 (F_RMSE) - 予測 RMSE。
- 検証二乗平均平方根誤差 (V_RMSE) - 検証 RMSE。検証のために時間ステップが除外されなかった場合、このフィールドは作成されません。
- 予測方法 (METHOD) - その位置で使用された曲線タイプ。このフィールドは、[自動検出] オプションを使用する場合に、位置の曲線タイプを識別するために使用できます。
- 予測方程式 (EQUATION) - その位置での予測カーブの方程式を表示するテキスト フィールド。[自動検出] オプションを使用する場合、このフィールドは作成されません。
出力時空間キューブ
[出力時空間キューブ] を指定した場合、出力キューブは、入力時空間キューブからの元の値のすべてを、追加された予測値と共に含みます。新しい時空間キューブは、[時空間キューブを 2D で視覚化 (Visualization Space Time Cube in 2D)] ツールまたは [時空間キューブを 3D で視覚化 (Visualize Space Time Cube in 3D)] ツールを使用して表示することができ、[時空間ホット スポット分析 (Emerging Hot Spot Analysis)]、[時系列クラスタリング (Time Series Clustering)] などの [時空間パターン マイニング] ツールボックスのツールへの入力として使用できます。
複数の予測された時空間キューブを、[位置による予測評価 (Evaluate Forecasts by Location)] ツールを使用して比較し、マージすることができます。これによって、異なる予測ツールおよびパラメーターを使用して複数の予測キューブを作成することができ、ツールは、予測 RMSE または検証 RMSE のいずれかを使用して、位置ごとに最適な予測を識別します。
ベスト プラクティスおよび制限
このツールが自分のデータに適しているかどうか、およびどのパラメーターを選択するべきかを判断する場合、いくつかのことを考慮する必要があります。
- [時系列予測] ツールセットの他の予測ツールと比較して、このツールは、最もシンプルであり、強い季節性を示さない予測可能な傾向に従う時系列に、最も適しています。データが複雑な傾向に従うか、強い季節サイクルを示す場合は、他の予測ツールを使用することをお勧めします。
- 検証のために除外する時間ステップの数を決定することは重要です。より多くの時間ステップを除外するほど、検証モデルを推定するために残される時間ステップが少なくなります。しかし、除外する時間ステップが少なすぎると、少量のデータを使用して検証 RMSE が推定され、判断を誤らせることがあります。検証モデルを推定するのに十分な時間ステップを維持しながら、できるだけ多くの時間ステップを除外することをお勧めします。時空間キューブが十分な数の時間ステップを含んでいる場合は、少なくとも、予測しようとする時間ステップの数と同程度の数の時間ステップを検証のために差し引くこともお勧めします。
- このツールは、予測値に関して信頼区間を生成しません。
参考資料
シンプルなカーブ フィッティングを使用した予測の詳細については、次のテキストブックをご参照ください。
- Klosterman, R. E., Brooks, K., Drucker, J., Feser, E., & Renski, H. (2018). Planning support methods: Urban and regional analysis and projection. Rowman & Littlefield. ISBN: 1442220309