[カーブ フィット予測 (Curve Fit Forecast)] ツールは、シンプルなカーブ フィッティングを使用して時系列をモデル化し、時空間キューブ内のすべての位置で未来の値を予測します。たとえば、毎年の人口を含む時空間キューブを使用すると、このツールは、来年以降の人口を予測できます。主な出力は、最終的に予測された時間ステップのマップ、情報メッセージ、およびポップアップ チャートです。追加された予測値と共に元のキューブからのデータを含んでいる新しい時空間キューブを作成することもできます。
このツールは、カーブを [入力時空間キューブ] 内の各位置にフィッティングし、このカーブを未来の時間ステップに外挿することによって、時系列を予測します。カーブは、線形、放物線、S 字型 (ゴンペルツ)、または指数関数のいずれかです。時空間キューブの各位置で同じ曲線タイプを使用するか、各位置に最も良く適合する曲線タイプをツールに設定させることができます。また、各時系列の外れ値を検出するよう選択して、適合曲線から著しく逸脱する位置と時間を特定することもできます。
曲線タイプおよび適用例
このツールは、[曲線タイプ] パラメーターで指定できる 4 つの曲線タイプをサポートします。次の図は、4 つの曲線タイプの各々の典型的な例を示しています。
- 線形 - 各時系列が、直線を使用してモデル化されます。
- 方程式: 。Xt は時間 t での時系列の値、a および b は、最小二乗推定を使用してデータから推定されます。
- 適用例: 線形曲線タイプは、時間と共に徐々に増加または減少するデータに役立ちます。たとえば、このツールを使用して、人口増加がほぼ線形である、開発段階にある間のコミュニティの人口を予測することができます。
- 放物線 - 各時系列は、二次曲線とも呼ばれる放物線を使用してモデル化されます。
- 方程式: 、この Xt は時間 t での時系列の値、a、b、c は最小二乗推定を使用してデータから推定されます。
- 適用例: 放物線曲線タイプは、時間経過に伴って増加から減少または減少から増加へと方向を変化するデータに有効です。他のすべての曲線タイプは、時間と共に値が継続的に増加または減少することを仮定します。
- 指数 - 各時系列が、指数曲線 (幾何学曲線とも呼ばれる) を使用してモデル化されます。
- 方程式: 。Xt は時間 t での時系列の値、a、b、および k は、最小二乗推定を使用してデータから推定されます。値 k は、時系列により良く適合するように、指数曲線をシフトさせます。
- 適用例: 指数関数曲線タイプは、時間と共に急速に増加または減少するデータに役立ちます。たとえば、指数曲線を使用して、開発中の地域内の人口における急速な増加の期間をモデル化できます。
- S 字型 (ゴンペルツ) - 各時系列は、ゴンペルツ曲線を使用してモデル化されます。これらの曲線は、S 字の形状をしており、曲線上に下限および上限を伴います。
- 方程式: 。Xt は時間 t での時系列の値、a、b、c、および k は、最小二乗推定を使用してデータから推定されます。値 a および k は非負である必要があります。値 k により、ゴンペルツ曲線が時系列によくフィットして、時系列の最大値の 10 倍を超えないようにシフトします。
- 適用例: ゴンペルツ曲線タイプは、許容値による制限がある増加のモデリングに有効です。人口は、多くの場合、緩やかな増加から始まり、その後、人口密度が産業を支えるのに十分になった後に、急速に増加します。その後、人口密度が地域が維持できる限界に近づくにつれて、人口増加が再び緩やかになります。
デフォルトでは、[曲線タイプ] パラメーターは [自動検出] オプションを使用し、このオプションは、4 つの曲線タイプをすべてフィッティングし、各位置での時系列に関する最良の予測を提供する曲線タイプを識別します。このオプションを選択した場合、時空間キューブ内の異なる位置が、異なる曲線タイプを使用することがあります。検証 RMSE (二乗平均平方根誤差) が最小になる曲線タイプが各位置で使用されますが、検証のために時間ステップが差し引かれない場合、代わりに予測 RMSE が使用されます。これらの統計情報は、両方とも [出力フィーチャ] にフィールドとして保存され、次のセクションで詳細に説明されます。
予測および検証
このツールは、各時系列を予測するときに、2 つのモデルを構築します。1 つ目は予測モデルです。これは将来時間ステップの値を予測するために使用します。2 つ目は検証モデルです。これは予測値の整合性を検証するために使用します。
予測モデル
予測モデルは、時空間キューブの各位置で、選択された曲線タイプを時系列の値にフィッティングすることによって、構築されます。その後、未来のタイム スライスの値を予測するために、このカーブが未来に向かって外挿されます。各時系列へのカーブの適合は、予測 RMSE によって計測されます。予測 RMSE は、カーブと時系列の値の間の平均二乗差の平方根に等しくなります。
。T は時間ステップの数、ct はカーブの値、rt は時間 t での時系列の未処理の値です。
次の図は、時系列に適合された ゴンペルツ曲線に沿った時系列の未処理の値を示しています。予測 RMSE は、これら 2 つの時系列が互いにどのくらい異なっているかを計測します。
予測 RMSE は、カーブが未処理の時系列の値にどの程度良く適合するかのみを計測します。予測 RMSE は、予測モデルが未来の値を実際にどの程度良く予測するかを計測しません。曲線が時系列に厳密に適合するが、外挿された場合の正確な予測を提供しないということがよくあります。この問題は検証モデルによって解決します。
検証モデル
検証モデルは、各時系列の将来値に対する予測モデルの予測精度を決定するために使用します。検証モデルは、各時系列の最後の時間ステップの一部を除外し、除外されなかったデータに対してカーブをフィッティングすることによって構築されます。次にこのカーブが、差し引かれたデータの値を予測するために使用され、それらの予測値が、隠された未処理の値と比較されます。デフォルトでは、時間ステップの 10 パーセントが検証で保留されますが、この数は [検証で除外する時間ステップ数] パラメーターを使用して変更できます。除外した時間ステップ数は時間ステップの 25 パーセントを超えることはなく、0 が指定された場合は検証は実施されません。予測精度は、検証 RMSE の統計情報を計算することで測定します。これは、除外した時間ステップの予測値と raw 値における平均自乗差の平方根と同等です。
時間ステップ数が T、検証で保留した時間ステップ数が m、1 つ目の T-m 時間ステップにおいて予測した値が ct、時間 t における検証で保留した時系列の raw 値が rt の です。
次の図は、時系列の前半に適合され、時系列の後半を予測するために外挿された ゴンペルツ曲線を示しています。検証 RMSE は、予測値と保留された時間ステップにおける raw 値との差を測定します。
予測値と未処理の値を直接比較して、曲線の予測精度を測定できるため、検証モデルは重要です。検証モデルは、予測するために実際には使用されず、予測モデルを正当化するために使用されます。
メモ:
時系列予測における検証も同様ですが、相互検証という共通テクニックとは異なるものです。予測における検証では常に検証で最終時間ステップを除外しますが、相互検証ではデータのランダムなサブセットまたは各値を順番に除外します。
解釈
予測 RMSE および検証 RMSE の値を解釈する際には、いくつかの注意事項があります。
- これらの RMSE 値は、異なるもの計測するため、互いに直接比較できません。予測 RMSE は、未処理の時系列の値へのカーブの適合を計測し、検証 RMSE は、カーブが未来の値をどの程度良く予測できるかを計測します。予測 RMSE は検証 RMSE よりも多くのデータを使用し、また外挿しないため、通常は検証 RMSE よりも小さくなります。
- 両方の RMSE 値は、データの単位を使用します。たとえば、データが摂氏温度計測値の場合、検証 RMSE の 50 は、予測値が真の値から平均で約 50 度違うことを意味するため、非常に高い値です。ただし、データが大規模な小売店における米ドルの日割り収益の場合、同じ検証 RMSE の 50 は、予測した日割り収益は真の値から一日平均 $50 だけ異なることを意味するため、非常に低い値です。
時系列の外れ値の特定
時系列データの外れ値は、その時系列の他の値のパターンおよび傾向と著しく異なる値です。たとえば、休日前後のオンラインショッピングや豪雨時の交通事故の高い件数は、時系列の外れ値として検出される可能性があります。数値の小数部分の欠落などの単純なデータ入力エラーも、よくある外れ値の原因の 1 つです。時系列予測における外れ値の特定は重要です。外れ値は、将来値の予測に使用される予測モデルに影響するからです。ある場所の時系列の少数の外れ値であっても、予測の精度と信頼性を著しく損なう可能性があります。外れ値の位置、特に時系列の最初または最後の方にある外れ値は、誤った予測になる可能性があります。そのような位置の特定は、各位置の予測値をどう信頼するかを判断する助けになります。
外れ値は、単に raw 値によって判定されるのではなく、予測モデルの適合値からの逸脱の程度によって判定されます。つまり、値が外れ値であると判定されるか否かは状況に依存し、場所と時間によって異なります。予測モデルは、時系列全体に基づいて予測値を定義します。外れ値は、このベースラインから著しく外れた値です。たとえば、年平均気温の時系列について考えてみましょう。この数十年で平均気温は上昇しているので、気温の適合予測モデルも、この上昇を反映して上昇します。これは、1950 年に典型的と見なされて外れ値とは判定されない気温が、2020 年には外れ値と見なされる可能性があるということです。つまり、1950 年の典型的な気温は、2020 年の基準では非常に低いと見なされます。
各場所の時系列の外れ値は、[外れ値の特定] パラメーターを使用して検出することができます。このパラメーターを指定すると、各位置で Generalized ESD (Extreme Studentized Deviate) テストが実行され、時系列の外れ値が検査されます。テストの信頼度は、[信頼度] パラメーターで指定でき、デフォルトでは 90% が使用されます。Generalized ESD テストは、各位置で、1 つの外れ値、2 つの外れ値、3 つの外れ値、というように繰り返され、[外れ値の最大数] パラメーターの値 (デフォルトは時間ステップの 5%、端数切り捨て) に達するまで検査を行い、結果として統計的に有意な外れ値の最大数を返します。各場所の外れ値の数は、出力フィーチャの属性テーブルで確認できます。また個々の外れ値は、次のセクションで説明する時系列のポップアップ チャートで確認できます。
ツールの出力
このツールの 1 次出力は、フィールドとして保存されたその他の全時間ステップの予測を使った最終予測時間ステップによってシンボル化された [入力時空間キューブ] にそれぞれの場所を表示する 2D フィーチャクラスです。各位置は独立して予測され、空間リレーションシップは考慮されませんが、マップは、類似する時系列と共に、エリアの空間パターンを表示することができます。
ポップアップ チャート
[マップ操作] ナビゲーション ツールを使用してマップ上のいずれかのフィーチャをクリックすると、フィッティングされたカーブおよび予測値と共に時空間キューブの値を示すチャートが [ポップアップ] ウィンドウに表示されます。時空間キューブの値は青色で表示され、青色のラインで接続されます。当てはめ値はオレンジ色で表示され、カーブを表すオレンジ色の破線で接続されます。予測値はオレンジ色で表示され、カーブの外挿および予測を表すオレンジ色の実線で接続されます。チャート内のいずれかのポイントの上にポインターを置き、そのポイントの日付および値を参照することができます。さらに、時系列の外れ値を検出するよう選択した場合、外れ値は大きな紫色の点で表示されます。
メモ:
出力フィーチャがシェープファイル (*.shp) として保存された場合、ポップアップ チャートは作成されません。
ジオプロセシング メッセージ
このツールは、ツールの実行に関する情報を含む複数のメッセージを提供します。これらのメッセージは、3 つのメイン セクションを含んでいます。
[入力時空間キューブの詳細] セクションは、時間ステップの間隔、時間ステップの数、位置の数、および時空間ビンの数に関する情報と共に、入力時空間キューブのプロパティを表示します。この 1 番目に表示されるプロパティは、キューブが最初にどのように作成されたかによって決まるため、キューブごとに情報が変わります。
[解析の詳細] セクションは、予測された時間ステップの数、検証のために除外された時間ステップの数、および予測された時間ステップに関する情報を含む、予測結果のプロパティを表示します。
[位置全体の精度のサマリー] セクションには、すべての場所における予測 RMSE および検証 RMSE のサマリー統計情報が表示されます。それぞれの値について、最小値、最大値、平均値、中央値、および標準偏差が表示されます。
[選択された曲線タイプのサマリー] セクションは、[曲線タイプ] パラメーターで [自動検出] を選択した場合に表示されます。このセクションは、4 つの曲線タイプの各々について、選択された位置の数および位置のパーセントを表示します。
[外れ値オプション] パラメーターを使用して時系列の外れ値を検出するよう選択すると、[時系列の外れ値サマリー] セクションが表示されます。このセクションには、外れ値を含む場所の数とパーセンテージ、最も多く外れ値を含む時間ステップ、位置別および時間ステップ別の外れ値の数のサマリー統計などの情報が表示されます。
メモ:
ジオプロセシング メッセージは、ツールの実行中に [ジオプロセシング] ウィンドウの下部に表示されます。このメッセージにアクセスするには、[ジオプロセシング] ウィンドウでプログレス バーの上にカーソルを置くか、ポップアップ ボタン をクリックするか、メッセージ セクションを展開します。ジオプロセシング履歴を使用して、以前に実行したツールのメッセージにアクセスすることもできます。
出力フィーチャのフィールド
[Object ID]、ジオメトリ フィールド、およびポップアップ チャートを含んでいるフィールドに加えて、[出力フィーチャ] は以下のフィールドを含みます。
- [ロケーション ID] (LOCATION) - 時空間キューブの対応する場所のロケーション ID です。
- [(時間ステップ) の (解析変数) の予測] (FCAST_1、FCAST_2など) - 各将来時間ステップにおける予測値です。フィールド エイリアスは [解析変数] の名前と予測日を表示します。このタイプのフィールドは、予測される時間ステップごとに作成されます。
- [予測二乗平均平方根誤差] (F_RMSE) - 予測 RMSE です。
- [検証二乗平均平方根誤差] (V_RMSE) - 検証 RMSE です。検証で除外した時間ステップがない場合、このフィールドは作成されません。
- 予測方法 (METHOD) - その位置で使用された曲線タイプ。このフィールドは、[自動検出] オプションを使用する場合に、位置の曲線タイプを識別するために使用できます。
- 予測方程式 (EQUATION) - その位置での予測カーブの方程式を表示するテキスト フィールド。[自動検出] オプションを使用する場合、このフィールドは作成されません。
- [モデル適合外れ値の数] (N_OUTLIERS) - その場所の時系列で検出された外れ値の数。このフィールドは、[外れ値オプション] パラメーターを使用して外れ値を検出するよう選択した場合のみ表示されます。
出力時空間キューブ
[出力時空間キューブ] を指定した場合、出力キューブは、入力時空間キューブからの元の値のすべてを、追加された予測値と共に含みます。新しい時空間キューブは、[時空間キューブを 2D で視覚化 (Visualization Space Time Cube in 2D)] ツールまたは [時空間キューブを 3D で視覚化 (Visualize Space Time Cube in 3D)] ツールを使用して表示することができ、[時空間ホット スポット分析 (Emerging Hot Spot Analysis)]、[時系列クラスタリング (Time Series Clustering)] などの [時空間パターン マイニング] ツールボックスのツールへの入力として使用できます。
複数の予測された時空間キューブを、[位置による予測評価 (Evaluate Forecasts by Location)] ツールを使用して比較し、マージすることができます。これにより、さまざまな予測ツールとパラメーターを使用して複数の予測キューブを作成できます。ツールは、予測または検証 RMSE を使用して位置ごとに最適な予測を特定します。
ベスト プラクティスおよび制限
このツールが自分のデータに適しているかどうか、およびどのパラメーターを選択するべきかを判断する場合、いくつかのことを考慮する必要があります。
- [時系列予測] ツールセットの他の予測ツールと比較して、このツールは、最もシンプルであり、強い季節性を示さない予測可能な傾向に従う時系列に、最も適しています。データが複雑な傾向に従うか、強い季節サイクルを示す場合は、他の予測ツールを使用することをお勧めします。
- 検証で除外する時間ステップの数を決定することは重要なポイントです。除外する時間ステップを増やすと、検証モデルを推定する時間ステップが少なくなってしまいます。ただし、除外した時間ステップが少なすぎる場合、検証 RMSE は少ないデータ量を使用して推定を行うため、間違いやすくなります。検証モデルを推定するために十分な数の時間ステップを維持しつつ可能な限り多くの時間ステップを除外することをお勧めします。また、時空間キューブに十分な時間ステップがある場合は、少なくとも予測する時間ステップ数と同じ数の検証における時間ステップを保留することをお勧めします。
- このツールは、予測値に関して信頼区間を生成しません。
参考資料
シンプルなカーブ フィッティングを使用した予測の詳細については、次のテキストブックをご参照ください。
- Klosterman, R. E., Brooks, K., Drucker, J., Feser, E., & Renski, H. (2018). Planning support methods: Urban and regional analysis and projection. Rowman & Littlefield. ISBN: 1442220309