時空間キューブを作成して、時系列解析、統合された時空間パターン解析、および強力な 2D および 3D 視覚化手法の形式で、時空間データを視覚化し、解析することができます。解析用の時空間キューブを作成するには、[ポイントの集約による時空間キューブの作成 (Create Space Time Cube By Aggregating Points)]、[定義済みの位置から時空間キューブを作成 (Create Space Time Cube From Defined Locations)]、[多次元ラスター レイヤーから時空間キューブを作成 (Create Space Time Cube From Multidimensional Raster Layer)] の 3 つのツールを使用できます。最初の 2 つのツールは、集約されたインシデント ポイント、または関連する時空間属性を持つ定義済みフィーチャのいずれかを含む時空間ビンを生成することによって、タイムスタンプ付きフィーチャを netCDF データ キューブに構造化します。3 つ目のツールは、時間対応の多次元ラスター レイヤーを時空間キューブに変換し、それ以外の時空間集約は行いません。
分析範囲全体の位置で時空間パターンを理解するために空間的に集約したいタイムスタンプ付きポイント フィーチャが存在する場合は、[ポイントの集約による時空間キューブの作成 (Create Space Time Cube By Aggregating Points)] ツールを使用します。このツールによって、グリッド キューブ (フィッシュネットまたは六角形)、または集約ポリゴンとして入力した定義済みの位置によって構造化されたキューブのいずれかが生成されます。キューブの各ビンの中でポイントがカウントされ、[集計フィールド] 統計情報が計算され、Mann-Kendall 統計を使用して各位置での時間経過に伴うビンの値の傾向が計測されます。フィッシュネットまたは六角形グリッドを使用して集約すると、グリッド キューブが作成されます。定義済み位置のセットを集約ポリゴンとして使用して集約すると、定義済み位置のキューブが作成されます。[ポイントの集約による時空間キューブの作成 (Create Space Time Cube By Aggregating Points)] は、ポイント データが犯罪や顧客販売などのインシデントを表し、それらのインシデントを、警察担当記者または販売地域を表すグリッドまたはポリゴンのセットに集約する場合に、最も一般的です。
時間経過に伴って変化しないフィーチャの位置、およびパネル データや場所データなどの時間をかけて収集された属性値または測定値が存在する場合は、[定義済みの位置から時空間キューブを作成 (Create Space Time Cube From Defined Locations)] ツールを使用します。このツールは、それらの定義済みの位置を使用して構造化されたキューブを生成します。このキューブは、期間ごとの属性の 1 セット (時間集約を選択しない場合)、または選択された属性に関する各期間での要約統計量 (時間集約を選択した場合) のいずれかを含んでいます。定義済み位置のキューブの各ビンの中で、その期間のそのビンに関する観測の数および [変数] または [集計フィールド] 統計情報が計算され、Mann-Kendall 統計を使用して各位置での時間経過に伴うビンの値の傾向が計測されます。
多次元ラスターがあり、[時空間パターン マイニング] ツールボックスのツールを使用して時空間解析を実行する場合には、[多次元ラスター レイヤーから時空間キューブを作成 (Create Space Time Cube From Multidimensional Raster Layer)] ツールを使用して、多次元ラスターを時空間キューブに変換します。出力時空間キューブの時空間分解能は多次元ラスターと同じであり、各ディメンションの各ラスター セルが 1 つの時空間ビンに変換されます。時間の経過による値の傾向は、Mann-Kendall 統計で解析します。このトピックのほとんどの情報はこのツールにはあてはまりません。時空間キューブの構造は多次元ラスターの構造によって定義され、変更することができないからです。
キューブの構造の設定
ほとんどの場合、キューブのビン ディメンションを定義する方法はおわかりだと思います。答えを得ようとしている特定の質問に対して、どれが適切なディメンションであるかを検討することをお勧めします。たとえば、犯罪の発生を調べている場合、都市ブロックのサイズである 400 メートルつまり 0.25 マイルのビンにポイントを集約することにしたとします。1 年全体のデータを持っている場合は、1 か月ごとまたは 1 週間ごとのイベント集約に関して、傾向を調べようと思うかもしれません。
グリッド キューブ
キューブ構造にはロウ、カラム、および時間ステップが含まれます。ロウ数とカラム数と時間ステップ数を掛け合わせると、キューブ内のビンの総数がわかります。ロウとカラムによってキューブの空間範囲が決まり、時間ステップによって時間範囲が決まります。
定義済み位置のキューブ
キューブ構造には、フィーチャおよび時間ステップが含まれています。フィーチャ数と時間ステップ数を掛け合わせると、キューブ内のビンの総数がわかります。フィーチャによってキューブの空間範囲が決まり、時間ステップによって時間範囲が決まります。
多次元ラスター レイヤー キューブ
キューブ構造には、多次元ラスター レイヤーのセルおよびディメンション数と同じ数のフィーチャと時間ディメンションが含まれます。
空間構造
グリッド キューブの空間的デフォルト
グリッド キューブの特定のグリッド サイズについて強い根拠がない場合がありますが、そのような場合は [距離間隔] パラメーターを空白のままにして、ツールでデフォルト値が計算されるようにすることができます。
[入力フィーチャ] 範囲 (最大範囲) の最も長い側の距離を最初に決定することによって、デフォルトのビンの距離が計算されます。設定されたビンの距離は、最大範囲を 100 で割った値か、[入力フィーチャ] の空間分布に基づくアルゴリズムによる値のうちの大きい方になります。
定義済み位置のキューブの空間構造
定義済み位置のキューブの空間構造は、入力された位置になります。
多次元ラスター レイヤー キューブの空間構造
キューブの空間構造は、多次元ラスター レイヤーの空間範囲と分解能によって定義されます。
時間構造
グリッド キューブの時間的デフォルト
特定の時間ステップ間隔について強い根拠がない場合がありますが、そのような場合は [時間ステップ間隔] パラメーターを空白のままにして、ツールでデフォルト値が計算されるようにすることができます。デフォルトの時間ステップ間隔は、時間ステップ間隔の最適な数および幅の決定に使用される 2 つの異なるアルゴリズムに基づきます。これらのアルゴリズムからの最小数値結果が 10 より大きい場合は、その値が時間ステップ間隔のデフォルト値に使用されます。両方の数値結果が 10 未満の場合は、10 が時間ステップ間隔のデフォルト値になります。
定義済み位置のキューブの時間構造
定義済み位置のキューブの時間構造を指定する必要があります。たとえば、データが 5 年ごとに収集される場合、その間隔を [時間ステップの間隔] パラメーターで指定します。
定義済み位置のキューブ内で時間的に集約することもできます。たとえば、湿度の読み取り値を 5 分ごとに記録する場所が存在する場合、[時間集約] を使用してそれらの読み取り値をまとめ、1 時間ごとの平均値を求めることに意味がある場合があります。
時間集約を選択した場合、集約されたフィーチャの数を各ビンにマッピングすることによって、集約を評価できます。たとえば、5 分ごとに収集されたデータが存在し、1 時間ごとの平均値に集約する場合に、各ビン内で 1 時間ごとに集約された 12 個のフィーチャを確認することを期待しているとします。[時空間キューブを 3D で視覚化 (Visualize Space Time Cube in 3D)] ツールを使用して [時間集約数] を [キューブの変数] にマッピングし、12 未満の値を含む複数のビンが存在することを確認した場合、それは、湿度の読み取り値の一部が存在しないことを示しています。これは必ずしも問題ではありませんが、センサーのいずれかに問題が発生した可能性があるかどうか、または位置に、解析に含める必要のある時間経過に伴う欠落データが過剰に存在するかどうかを理解するうえで役立ちます。
多次元ラスター レイヤー キューブの時間構造
キューブの時間構造は、多次元ラスター レイヤーの時間ディメンションによって定義されます。
時間ステップの配列
時間集約を伴わない定義済み位置のキューブを作成する場合、唯一の考慮事項は、レコードが各ビン内に確実に 1 つだけ含まれるように、[時間ステップの間隔]、[時間ステップの配列]、および [基準時間] 値を選択することです。時間的バイアスの問題は存在しません。
集約を行わず、毎月の時間ステップ間隔を作成し、収集手順のためにデータが月の 1 日目から 6 日目までに含まれる場合、[時間ステップの配列] で [基準時間] オプションを選択し、前後 1 か月の間に各データ ポイントが含まれる日付を選択することをお勧めします。たとえば、1/1、2/3、3/2、4/1、および 5/3 にデータが存在する場合、データセット内のいずれかの月の 1 日目を基準時間に選択すると、生成されたキューブにすべてのデータが適切に含まれることが保証されます。
データを時空間キューブに集約する場合、[時間ステップの配列] は、集約の開始と終了を決定するため、考慮するべき重要なパラメーターになります。以下の例をご参照ください。
上記の図は、2015 年 9 月 3 日から 2015 年 9 月 12 日までのデータセットを表しています。このデータセットを使用して、さまざまなパラメーター オプションの意味を調べていきます。
終了時間
たとえば、[時間ステップの配列] の [終了時間] の値で、[時間ステップの間隔] を 3 日に設定した場合、ビニングは最後のデータ ポイントを使用して開始し、すべてのデータ ポイントが時間ステップ内に配置されるまで、3 日ずつ前に戻ります。
選択した [時間ステップの間隔] の値に応じて、期間全体にデータがない時間ステップが時空間キューブの最初に作成される可能性があるので注意してください。上の例では、9/3 までデータが存在しなくても、最初の時間ステップに 9/1 と 9/2 が含められることがわかります。これらの空の日は時間ステップの一部になりますが、関連付けられたデータはありません。これにより、時間的偏りのある時間ステップは他の時間ステップよりポイントが大幅に少ないため、結果に偏りが生じて、集約方式の結果が不自然になる可能性があります。レポートは、最初または最後の時間ステップに時間的バイアスがあるかどうかを示します。この場合、最初の時間ステップの 3 日のうち 2 日はデータがありません。そのため、時間的バイアスは 66% です。
[終了時間] は [時間ステップの配列] のデフォルトのオプションです。多くの分析が直近のデータを対象の中心としているため、キューブの最初にこのバイアスを設定することは適切です。別の解決策としては、すべての時間的バイアスを完全に取り除く方法があります。これは、期間で偏りが生じないように、[時間ステップの間隔] によってデータを均等に分割します。これには、最初の期間の外部に配置されるポイント データセットの一部を除外するデータの選択セットを作成します。この例では、9/3 より前に配置されるデータを除くすべてのデータを選択すると、問題を解決できます。レポートは、最初と最後の時間ステップの期間を表示します。この情報を使用して、除外する時点を決定できます。
また、前に戻るプロセスにおいて、最後のビンの開始時点に最初のデータ ポイントが配置される場合、その最初のデータ ポイントはそのビンに含められないことにも注意してください。これは、[時間ステップの配列] の [終了時間] 値では、各ビンには所定のビンの最後の日付は含まれますが、最初の日付は含まれないためです。そのため、この場合、最初のデータ ポイントが含まれるように、ビンを追加する必要があります。
開始時間
たとえば、[時間ステップの配列] の [開始時間] の値で、[時間ステップの間隔] を 3 日に設定した場合、ビニングは最初のデータ ポイントを使用して開始し、すべてのデータ ポイントが時間ステップ内に配置されるまで、3 日ずつ先に進みます。
いくつかの注意点があります。[時間ステップの配列] の [開始時間] 値で選択した [時間ステップの間隔] に応じて、期間全体でデータがない時間ステップが時空間キューブの最後に作成される可能性があるので注意してください。上の例では、9/12 以降のデータが存在しなくても、最後の時間ステップに 9/13 と 9/14 が含められることがわかります。これらの空の日は時間ステップの一部になりますが、関連付けられたデータはありません。これにより、時間的偏りのある時間ステップは他の時間ステップよりポイントが大幅に少ないため、結果に偏りが生じて、集約方式の結果が不自然になる可能性があります。レポートは、最初または最後の時間ステップに時間的バイアスがあるかどうかを示します。この場合、最後の時間ステップの 3 日のうち 2 日はデータがありません。そのため、時間的バイアスは 66% です。直近のデータを対象にする分析が大きな影響を受けるため、これは、[時間ステップの配列] の [開始時間] 値を選択する場合に特に問題になります。解決策としては、期間で偏りが生じないように、[時間ステップの間隔] によってデータを均等に分割します。これには、最後の期間の外部に配置されるポイント データセットの一部を除外するデータの選択セットを作成します。この例では、9/12 より後に配置されるデータを除くすべてのデータを選択すると、問題を解決できます。データセットの最初から 2 日を除外する方法もあります。こうすることで、時間ステップ内でデータを均等に配置できます。レポートは、最初と最後の時間ステップの期間を表示します。この情報を使用して、除外する時点を決定できます。
また、先に進むプロセスにおいて、最後の時間ステップの終了時点に最後のデータ ポイントが配置される場合、その最後のデータ ポイントはそのビンに含められないことにも注意してください。これは、[時間ステップの配列] の [開始時間] 値では、各ビンには所定のビンの最初の日付は含まれますが、最後の日付は含まれないためです。そのため、この場合、最後のデータ ポイントが含まれるように、ビンを追加する必要があります。
基準時間
[時間ステップの配列] の [基準時間] 値では、日付を指定してキューブの時間ステップの開始または終了を決定します。
データセットの範囲の後、最後のデータ ポイント、またはデータセットの中間に配置される [基準時間] 値を選択した場合、以下の図のように、その時間が時間ステップの最後のデータ ポイントとして扱われ、横に配置されるその他すべてのビンは、[時間ステップの配列] を使用して、すべてのデータがカバーされるまで作成されます。
データセットの範囲の前、または最初のデータ ポイントに配置される [基準時間] 値を選択した場合、その時間は時間ステップの最初のデータ ポイントとして扱われ、横に配置されるその他すべてのビンは [時間ステップの配列] の [開始時間] 値を使用して、すべてのデータがカバーされるまで作成されます。以下の図をご参照ください。
[基準時間] 値をデータの時間範囲の前または後に選択すると、すべてまたは一部が空のビンが作成され、分析の偏りが生じることがあります。
グリッド キューブ用のテンプレート キューブ
注意:
テンプレート キューブは、定義済み位置のキューブとともに使用できません。テンプレート キューブは、グリッド キューブにのみ適用できます。
[テンプレート キューブ] 値を選択することは、[時間ステップの配列] オプションと関係があります。[入力フィーチャ] の期間の前または後に配置される [テンプレート キューブ] 値を選択したとき、テンプレート キューブの [時間ステップの配列] を使用して、すべてのデータが時間ステップによってカバーされるまで、時間ステップが追加されます。結果の時空間キューブには、[テンプレート キューブ] 値が [入力フィーチャ] と重ならない時間に、空のキューブができます。これにより、解析結果に偏りが生じる可能性があります。テンプレート キューブが入力フィーチャと重なる場合、結果の時空間キューブは、テンプレート キューブの時間範囲をカバーし、テンプレート キューブの時間ステップの配列を使用して、すべての入力フィーチャをカバーするまで拡張します。以下の図は、テンプレート キューブを青、結果の時空間キューブをオレンジで示しています。
[テンプレート キューブ] オプションを使用して新しい時空間キューブを作成する場合、すべてのデータがカバーされるまでテンプレート キューブの時間範囲が拡大します。これにより、去年のキューブを使用して、去年のデータと今年のデータを含むキューブを作成できます。テンプレート キューブの空間範囲の扱われ方は異なります。テンプレート キューブの空間範囲外にあるデータはすべて分析から除外されます。テンプレート キューブと作成される時空間キューブの空間範囲は同じになります。発生し得る変化は、テンプレート キューブの作成時には存在しなかった新しいフィーチャが現れた場合に、空間範囲内で以前データのなかった場所がデータのある場所になることだけです。
属性
ポイントの集約
ポイントを集約してキューブを作成する場合、グリッド キューブか定義済み位置のキューブかにかかわらず、各ビン内のポイント数を指定する COUNT フィールドが必ず計算されます。COUNT フィールドに加えて、各ビン内の属性を集計することもできます。複数の統計情報とフィールドの組み合わせを指定できます。すべての統計情報計算から NULL 値が除外されます。 [集計フィールド] を選択する場合、すべての時間ステップで、各位置には属性ごとに値が存在している必要があります。[空のビンの補完] パラメーターを使用して、ツールが空のビン (ポイントが存在せず、そのため属性値がないビン) を埋める方法を選択できます。複数のオプションを使用することができ、集計対象のフィールドごとに異なる入力タイプを選択できます。評価基準に基づいて値が指定できないビンは、その場所全体が分析から除外されます。空間近傍の平均値を使用して空のビンを埋めるには、最低 4 つの近傍が必要です。また、時空間近傍の平均値を使用して空のビンを埋めるには、最低 13 の近傍が必要です。
定義済みの位置
定義済みの位置から時間集約を伴わないキューブを作成する際に、データセット内の特定の期間に NULL 値または欠落フィーチャが存在し、それらの位置を削除したくない場合は、キューブに含めるデータから変数を選択し、最も適切な [空のビンの補完] オプションを選択します。
定義済みの位置から時間集約を伴うキューブを作成する場合、生成されるキューブに含める [集計フィールド] を選択し、それらの集計に使用される [統計情報] タイプを選択する必要があります。各位置には、すべての時間ステップで値が存在する必要があるため、[統計情報] タイプを選択することに加えて、[空のビンの補完] パラメーターを使用して時系列を完成させる方法を選択する必要もあります。複数のオプションを使用することができ、集計対象のフィールドごとに異なる入力タイプを選択できます。
統計情報タイプ (定義済み位置とポイント キューブの集約)
使用できる統計情報タイプは次のとおりです。
- 合計 - 各ビン内の指定されたフィールドの値の合計を追加します。
- 平均値 - 各ビン内の指定されたフィールドの平均を計算します。
- 最小値 - 各ビン内の指定されたフィールドのすべてのレコードの中で最も小さい値を検出します。
- 最大値 - 各ビン内の指定されたフィールドのすべてのレコードの中で最も大きい値を検出します。
- 標準偏差 - 各ビン内の指定されたフィールドの値の標準偏差を検出します。
- 中央値 - 各ビン内の指定されたフィールドのすべてのレコードを並べ替えたときの、中央の値を検出します。
注意:
いずれかの集計フィールドに NULL 値が存在する場合、そのフィーチャは解析から除外されます。解析方法の一環として各ビン内のポイント数を設定する場合、カウント用 (集計フィールドなし) と集計フィールド用に別々のキューブを作成することを検討してください。それぞれの集計フィールドで、NULL 値のセットが異なる場合も、各集計フィールドに対して別々のキューブを作成することを検討してください。
空のビンの補完 (すべてのキューブ用)
使用できる入力タイプは次のとおりです。
- [ゼロ] - 空のビンをゼロで埋めます。
- [空間近傍] - 空のビンを空間近傍の平均値で埋めます。
- [時空間近傍] - 空のビンを時空間近傍の平均値で埋めます。
- [時系列トレンド] - 空のビンを内挿された一変量スプライン アルゴリズムを使用して埋めます。
さらに、[定義済みの位置から時空間キューブを作成 (Create Space Time Cube From Defined Locations)] ツールを使用する場合、上記のオプションのいずれかを使用して時系列を埋めず、完全な時系列を持たない、[位置の削除] を行う追加オプションがあります。
結果の解析
メッセージ
netCDF ファイルに加えて、時空間キューブのディメンションとコンテンツについてまとめたメッセージが、ツールの実行中に [ジオプロセシング] ウィンドウの下部に表示されます。このメッセージにアクセスするには、[ジオプロセシング] ウィンドウで進行状況バーにカーソルを合わせるか、ポップアップ ボタン をクリックするか、メッセージ セクションを展開します。ジオプロセシング履歴を介して、以前に実行したツールのメッセージにアクセスすることもできます。
グリッド キューブでは、少なくとも 1 つの時間ステップ間隔のデータを持つ位置だけが解析に含められますが、それらの位置はすべての時間ステップにわたって解析されます。グリッド キューブでポイントのカウントが計算される場合、ポイントが存在しないビンについてはゼロ カウントと見なされますが、関連付けられている位置は、少なくとも 1 つの時間ステップ間隔において少なくとも 1 つのポイントを持っています。少なくとも 1 つの時間ステップ間隔のデータを持つ位置では、その位置に関連付けられたゼロの割合に関する情報が散在性としてメッセージに書き込まれます。
定義済み位置の場合、完全な時系列が存在するすべての位置が、その時系列全体がゼロで構成されていても、定義済み位置のキューブに含まれます。これは、ポイントを定義済み位置に集約したかどうか検討する場合に特に重要になります。
出力メッセージの最後に、全体のデータの傾向に関する情報があります。この傾向は、非空間時系列分析に基づいています。この情報は、入力によって示されるイベントが時間経過に伴って増加しているか、減少しているかという全体的な質問の回答となっています。この回答を得るために、Mann-Kendall 統計を使用して、各時間ステップ間隔におけるすべての位置が、時系列として一緒に解析されます。
トレンド解析
データを持つ各場所に対して、独立したビン時系列テストとして Mann-Kendall 傾向検定が実行されます。Mann-Kendall 統計は、ビン カウントまたは値とそのタイム シーケンスのランク相関分析です。最初の期間のビンの値が、2 番目の期間のビンの値と比較されます。最初の値が 2 番目より小さい場合、結果は +1 です。最初の値が 2 番目より大きい場合、結果は -1 です。2 つの値が同じ場合、結果はゼロです。比較された各期間ペアの結果が、集計されます。期待される集計はゼロです。これは、値に時間経過に伴う傾向がないことを示します。ビンの時系列の値の変化、カウントが同じであった回数、および期間の数に基づいて、観測された集計が期待される集計 (ゼロ) と比較され、相違が統計的に有意であるかどうかが調べられます。各ビンの時系列の傾向は、Z スコアおよび p 値として記録されます。小さな p 値は、その傾向が統計的に有意であることを示します。Z スコアに関連付けられている記号によって、その傾向がビンの値の増加であるか (正の Z スコア)、ビンの値の減少であるか (負の Z スコア) が決まります。傾向の結果を視覚化する方法については、「時空間キューブの視覚化」をご参照ください。
可視化
[ユーティリティ] ツールセット内のツールを使用するか、Space Time Cube Explorer をダウンロードすることによって、2D または 3D のいずれかで時空間キューブ データを視覚化できます。Space Time Cube Explorer は、3 次元時空間パターン マイニング解析結果をすばやく視覚化および調査します。このアドインは、時空間キューブを入力として受け取り、複数の方法で視覚化できるレイヤーを作成します。使用可能な多くの表示オプションがあり、それらはすべて、時空間キューブおよび解析結果の調査を直感的にする設定済みのシンボルと範囲、およびタイム スライダーを備えています。このアドインは、www.esriurl.com/SpaceTimeCubeExplorer からダウンロードできます。時空間キューブの 3D ビジュアライゼーションは、Web シーンとして表示し、ストーリー マップで共有することもできます。
参考資料
時空間キューブの作成、視覚化、および分析では、UCAR/Unidata によって開発された netCDF ソフトウェアを利用します。Unidata および NetCDF (Network Common Data Form) プロジェクトの詳細をご参照ください。
ヒストグラムのビン幅の最適化の詳細については、以下をご参照ください。
- Shimazaki H. and S. Shinomoto, "A method for selecting the bin size of a time histogram," Neural Computation Vol. 19(6), (2007): 1503–1527.
- Terrell, G. and D. Scott, "Oversmoothed Nonparametric Density Estimates," Journal of the American Statistical Association Vol. 80(389), (1985): 209-214.
- Online Statistics Education: A Multimedia Course of Study (http://onlinestatbook.com/). プロジェクト リーダー: David M. Lane、Rice University (第 2 章「Graphing Distributions, Histograms」)。
Mann-Kendall トレンド テストの詳細については、以下をご参照ください。
- Hamed, K. H., "Exact distribution of the Mann-Kendall trend test statistic for persistent data," Journal of Hydrology (2009): 86-94.
- Kendall, M. G. and J. D. Gibbons, Rank correlation methods, fifth ed., (1990) Griffin, London.
- Mann, H. B., "Nonparametric tests against trend," Econometrica Vol. 13, (1945): 245-259.