ビッグ データ コネクション

BDC (Big Data Connection) を使うと、データ ソースへすばやく接続してサイズの大きいデータセットを可視化したり解析したりできます。BDC はデータやデータのフォーマットを操作する際の機能や柔軟性を提供します。

BDC は 1 つ以上のデータセットのフォルダーを参照します。BDC 内のデータセットはジオプロセシング ツールへの入力フィーチャ データ (ポイント、ポリライン、ポリゴン、および表形式のデータ) として使用します。BDC を作成すると、*.bdc ファイルが作成されます。このファイルは、BDC 内のデータセットやジオメトリおよび時間情報を含んだスキーマをまとめたデータセットのディレクトリを示します。ジオプロセシング ツール内で BDC データセットを参照してマップ上の BDC データセットを閲覧できます。BDC の適切な使用例を次に示します:

  • 大きなエリアを表す複数のシェープファイルがあるとします。各シェープファイルはエリアのサブセットを表し、すべてのシェープファイルをあわせて使いたい場合に BDC を使用します。
  • 新しい *.csv ファイルを温度計測とあわせて毎日受け取るとします。新しい *.csv ファイルを既存の *.csv ファイルとあわせてデータセットの一部に含めたい場合に BDC を使用します。
  • イベントの時間を表す複数フィールドを含むデータを使うとします。時間を表すフィールドをすべて使いたい場合に BDC を使用します。
  • パーケット ファイルを使う場合に BDC を使用します。

BDC をジオプロセシング ツールへの入力として使用すべき理由を次に示します:

  • 同一のスキーマとファイル タイプの複数のデータセットを 1 つのデータセットとして表せます。
  • BDC は、解析が実行されたときにデータにアクセスします。このため、データを再登録または公開する必要なく、データを BDC 内の既存のデータセットに継続して追加できます。
  • 表示されるデータセットを削除、追加、または更新する際に BDC を変更できます。
  • BDC は、時間とジオメトリの定義方法に関して柔軟であり、1 つのデータセットを対象とする複数の時間形式に対応できます。

サポートするデータ形式

ビッグ データ コネクションは次のデータセットをサポートしています。

  • 区切りファイル (*.csv、*.tsv、および *.txt)
  • シェープファイル (*.shp)
  • パーケット ファイル (*.gz.parquet)
    メモ:

    暗号化されていないパーケット ファイルのみをサポートしています。

  • ORC ファイル (*orc.crc)

GeoAnalytics Desktop ツール 内で BDC を使う場合、すべての入力形式をサポートしています。BDC データセットを他のジオプロセシング ツールで使う場合、区切りファイルとシェープファイルのみをサポートしています。

BDC ファイルを使用した解析についての詳細

ビッグ データ コネクションの用語

BDC の操作において共通する用語の一覧を次の表に示します。

用語説明

ビッグ データ コネクション

BDC ファイルを表す項目です。BDC はデータセットを閲覧するために展開したり、ジオプロセシング ツールで使用するために参照したりできます。このコネクション ファイルは BDC ファイルの ArcGIS Pro インターフェイスです。

ビッグ データ コネクション ファイル

このファイル (*.bdc) は、[ビッグ データ コネクションの作成 (Create Big Data Connection)] ツールを使って BDC を作成する際に生成され、格納されます。このファイルには BDC に含まれているデータセットとスキーマおよびジオメトリと時間プロパティに関する情報が含まれています。このファイルを ArcGIS Pro で閲覧すると、BDC 項目として表示されます。

ビッグ データ コネクション ファイルの詳細

ビッグ データ コネクション データセット

BDC 内のデータセットです。このデータセットはマップに追加したり、ジオプロセシング ツールへの入力として使用したりできます。

ソースの場所

BDC として登録されたフォルダーの場所です。この場所には BDC データセットを表す 1 つ以上のフォルダーが含まれています。このフォルダーはビッグ データ コネクション ツールによって変更されません。

ソース データ

BDC 内に登録されたデータセットです。BDC を使用する際、ソース データは変更されません。このデータはビッグ データ コネクション ツールによって変更されません。

BDC を使用する

BDC を作成して使用するには、次の手順に従います:

  1. 入力データを構成します。
  2. BDC を設定します。
  3. BDC データセットを可視化します。
  4. BDC データセットを解析に使用します。

入力データを構成する

データセットを BDC 内で入力として使用するには、データを正しく構成する必要があります。BDC 用データを作成するには、登録する単一のソース フォルダー内にあるサブフォルダーとしてデータセットをフォーマットします。このソース フォルダーで、サブフォルダーの名前はデータセット名を表します。

3 つのデータセット サブフォルダーを持つ 1 つのソース フォルダー
それぞれがデータセットを表す 3 つのサブフォルダーを持つソース フォルダーを示します。

上に示す画像は BDC の正しい構造を表します。ソース フォルダーが登録されており、ソース フォルダー内の各サブフォルダーはデータセットを表します。この例では、ソース フォルダーを登録し、データセット-1、データセット-2、データセット-3 の 3 つのデータセットが BDC 内に含まれています。

データセットのサブフォルダーでは、データを自由に構成できます。サブフォルダーに複数のフォルダーやファイルが含まれている場合、サブフォルダーのすべてのコンテンツが 1 つのデータセットとして読み込まれ、同じスキーマとファイル タイプを共有する必要があります。

メモ:

データセット フォルダー内のファイルはすべて同じスキーマを持っています。ファイルが異なるスキーマを持っている場合、そのファイルは可視化および解析で正しく使用されません。

次の画像は、構成とファイル コンテンツの異なる 3 つのデータセットを示します:

ソース フォルダーとコンテンツの例
ソース フォルダー、3 つのデータセット フォルダー、およびそれらのコンテンツの登録例を示します。

この例では、同じ 3 つのデータセット フォルダーが異なるコンテンツを持っています。それぞれのデータセットについて説明します:

  • データセット-1 - このデータセットは D1-1 という 1 つのファイルから構成されます。データセット-1 を可視化や解析に使用する場合、1 つのシェープファイルを使用します。
  • データセット-2 - このデータセットは D2-1 および D2-2 という 2 つのテキスト ファイルから構成されます。データセット-2 を可視化や解析に使用する場合、両方のテキスト ファイルを使用します。
  • データセット-3 - このデータセットは D3-フォルダー-1 および D3-フォルダー-2 という 2 つのフォルダーから構成されます。各フォルダーにはそれぞれ D3-1 と D3-2 という 1 つのデータセットが含まれています。データセット-3 を可視化や解析に使用する場合、D3-1 と D3-2 の両方を使用します。

データの構成方法についての例を示します。可視化や解析におけるデータの使用方法にかかわらず、ファイルやフォルダーの数は同じです。各データセット フォルダーへサブフォルダーを追加したり削除することに利点はなく、そのレベルのフォルダー構成は任意のものです。

BDC を設定する

BDC を使うためには、まず BDC を作成する必要があります。BDC を作成するには、[ビッグ データ コネクション作成 (Create Big Data Connection)] ジオプロセシング ツールを使用します。

BDC 内のデータセットを探しているとき、次の 2 つの問題が起きることがあります:

  • 予期していたデータセットが見当たらない。この場合、サブフォルダーを含むソース フォルダーとして指定したパスが正しく、データ タイプをサポートしていることを確認します。
  • 1 つ以上のデータセットが登録できない。データセットを登録できない場合、次の点を確認します。

    問題解決策

    データセットが予期した形式ではない。

    ファイルを開き、予期した形式であるか確認します。データが正しく構成されていない場合、更新して再度登録します。

    *.csv ファイルにはデータについて数行の記述とサマリーがあるのみで、残りは空白行となっています。

    フォルダー内にあるデータセットのスキーマが一致しない。

    データセット フォルダー内のファイルはすべて同じスキーマを持つ必要があります。ファイルを開き、スキーマを比較します。一致しないスキーマがあれば削除し、データセットを再度登録します。

    ある *.csv ファイルは 10 個のフィールドがあり、別のファイルは 8 個のフィールドがある。

    フォルダー内にあるデータセットのファイル タイプが一致しない。

    データセット フォルダー内のファイルはすべて同じエクステンション (ファイル タイプ) である必要があります。データ ソースがある場所のファイル タイプを確認し、適切でないファイルは削除または移動します。

    シェープファイルのデータセットがパーケット ファイルと同じフォルダーにある。

    認識されないフィールド形式がある。

    ORC やパーケットが予期しない形式の場合に起こることがあります。有効なフィールド形式を使用してください。

    不明なフィールド形式のパーケット ファイルがある。

区切り文字で区切られたファイルを使用して BDC を作成し、ヘッダー行が表示されない場合は、ヘッダー行が無効である可能性があります。すべてのフィールドにヘッダーがあり、どれも空でないことを確認します。必要に応じ、[ビッグ データ コネクション データセット プロパティの更新 (Update Big Data Connection Dataset Properties) ツール] ツールを使用してフィールド名を更新できます。

BDC を作成する際、各データセットそれぞれにスキーマ、ジオメトリ、および時間が見つかります。データセットでこれらの値を表示する方法は変更されることが多いです。各データセットが正しくジオメトリや、時間、フィールドを表示しているか確認するには、[データセットの記述 (Describe Dataset)] ジオプロセシング ツールを使用します。たとえば、データセットをレビューする際に次の変更を 1 つ以上、BDC 内の 1 つ以上のデータセットに対して行う場合は以下のようにします:

  • 区切りデータセットのフィールド名を変更します。
  • 解析で表示するフィールドを変更します。
  • ジオメトリまたは時間を表すために使用するフィールドを変更します。
  • データセットへフィールドを追加します。
  • データセットにエイリアスを追加します。
  • 解析しないデータセットを BDC から削除します。
  • BDC を更新し、新規に追加されたデータセット (ソース フォルダー内の新しいサブフォルダー) を含めます。

これらオプションの変更を行うと、次のツールを自由に組み合わせて使用できます:

BDC データセットを可視化する

区切りおよびシェープファイルベースの BDC データセットをマップ上に可視化できます。

メモ:
パーケットまたは ORC ソース ファイルを使用する BDC デフォルトは可視化できません。

データセットをマップへ追加するには、[カタログ] ウィンドウで BDC 項目を探し、クリックしてデータセットを展開、データセットをマップへ追加します。

ビッグ データ コネクション データセットはマップ ビューアーでの簡素化されたエクスペリエンスを提供しますが、次の制限事項があります。

  • BDC データセットを可視化する際、BDC データセット プロパティの時間プロパティが新しいレイヤーで自動的に設定されない。データセットを時間で可視化するには、マップにデータセットを追加した後にレイヤーの時間プロパティを設定します。
  • 区切り文字で区切られたファイルを描画すると、BDC データセットの空間参照のフル範囲に拡大される。
  • 既存の BDC データセットに新しいレコードを追加すると (たとえば、既存の BDC の CSV ファイルに新しい行を追加するなど)、ArcGIS Pro を再起動するまで新しいレコードは描画されない。
  • 既存の BDC データセットに新しいファイルを追加すると (たとえば、既存の BDC に新しい CSV ファイルを追加するなど)、ArcGIS Pro を再起動するまで新しいレコードは描画されない。

BDC データセットを解析に使用する

BDC データセットを GeoAnalytics Desktop への入力として使用する場合、解析はデータを読み取り、お使いのコンピューターのコア間で並列に実行するよう最適化されます。その他すべてのジオプロセシング ツールについては、BDC データセットの読み取りと処理は並列で実行するよう最適化されず、シングルスレッドで順番に処理されます。

区切りファイルまたはシェープファイル ベースのビッグ データ コネクション データセットはほとんどのジオプロセシング ツールで使用できます。

メモ:
パーケットと ORC ソース ファイルを使用する BDC データセットは、GeoAnalytics Desktop ツールでのみ使用できます。

BDC データセットが GeoAnalytics Desktop ツールへの入力として使用されている場合、選択を BDC データセットに適用することはできません。

ジオプロセシング ツールで BDC データセットを使用するには、BDC データセットをマップに追加し、パラメーター選択リストからレイヤー名を選択するか、参照ボタンを使用して BDC ワークスペースに移動し、入力データセットを選択します。次に示すツールは入力 BDC ファイルをサポートしていません:

  • GeoAnalytics Server、標準フィーチャ解析、および ArcGIS Online 解析ツールを含むサービス ベースのツール
  • [フィールド演算 (Calculate Field)][最近接 (Near)] などの入力データセットを変更するツール

関連トピック