ビッグ データ コネクションとは

BDC (Big Data Connection) を使うと、データ ソースへすばやく接続してサイズの大きいデータセットを可視化したり解析したりできます。 BDC はデータやデータのフォーマットを操作する際の機能や柔軟性を提供します。

BDC は 1 つ以上のデータセットのフォルダーを参照します。 BDC 内のデータセットはジオプロセシング ツールへの入力フィーチャ データ (ポイント、ポリライン、ポリゴン、および表形式のデータ) として使用します。 BDC を作成すると、*.bdc ファイルが作成されます。 このファイルは、BDC 内のデータセットやジオメトリおよび時間情報を含んだスキーマをまとめたデータセットのディレクトリを示します。 ジオプロセシング ツール内で BDC データセットを参照してマップ上の BDC データセットを閲覧できます。 BDC の適切な使用例を次に示します:

  • 大きなエリアを表す複数のシェープファイルがあるとします。 各シェープファイルはエリアのサブセットを表し、すべてのシェープファイルをあわせて使いたい場合に BDC を使用します。
  • 新しい *.csv ファイルを温度計測とあわせて毎日受け取るとします。 新しい *.csv ファイルを既存の *.csv ファイルとあわせてデータセットの一部に含めたい場合に BDC を使用します。
  • イベントの時間を表す複数フィールドを含むデータを使うとします。 時間を表すフィールドをすべて使いたい場合に BDC を使用します。
  • パーケット ファイルを使う場合に BDC を使用します。

BDC をジオプロセシング ツールへの入力として使用すべき理由を次に示します:

  • 同一のスキーマとファイル タイプの複数のデータセットを 1 つのデータセットとして表せます。
  • BDC は、解析が実行されたときにデータにアクセスします。このため、データを再登録または公開する必要なく、データを BDC 内の既存のデータセットに継続して追加できます。
  • 表示されるデータセットを削除、追加、または更新する際に BDC を変更できます。
  • BDC は、時間とジオメトリの定義方法に関して柔軟であり、1 つのデータセットを対象とする複数の時間形式に対応できます。

サポートするデータ形式

ビッグ データ コネクションは次のデータセットをサポートしています。

  • 区切りファイル (*.csv、*.tsv、および *.txt)
  • シェープファイル (*.shp)
  • パーケット ファイル (*.gz.parquet)
    注意:

    暗号化されていないパーケット ファイルのみをサポートしています。

  • ORC ファイル (*orc.crc)

GeoAnalytics Desktop ツール 内で BDC を使う場合、すべての入力形式をサポートしています。 BDC データセットを他のジオプロセシング ツールで使う場合、区切りファイルとシェープファイルのみをサポートしています。

BDC ファイルを使用した解析についての詳細

ビッグ データ コネクションの用語

BDC の操作において共通する用語の一覧を次の表に示します。

用語説明

ビッグ データ コネクション

BDC ファイルを表す項目です。 BDC はデータセットを閲覧するために展開したり、ジオプロセシング ツールで使用するために参照したりできます。 このコネクション ファイルは BDC ファイルの ArcGIS Pro インターフェイスです。

ビッグ データ コネクション ファイル

このファイル (*.bdc) は、[ビッグ データ コネクションの作成 (Create Big Data Connection)] ツールを使って BDC を作成する際に生成され、格納されます。 このファイルには BDC に含まれているデータセットとスキーマおよびジオメトリと時間プロパティに関する情報が含まれています。 このファイルを ArcGIS Pro で閲覧すると、BDC 項目として表示されます。

ビッグ データ コネクション ファイルの詳細

ビッグ データ コネクション データセット

BDC 内のデータセットです。 このデータセットはマップに追加したり、ジオプロセシング ツールへの入力として使用したりできます。

ソースの場所

BDC として登録されたフォルダーの場所です。 この場所には BDC データセットを表す 1 つ以上のフォルダーが含まれています。 このフォルダーはビッグ データ コネクション ツールによって変更されません。

ソース データ

BDC 内に登録されたデータセットです。 BDC を使用する際、ソース データは変更されません。 このデータはビッグ データ コネクション ツールによって変更されません。

入力データの構成

データセットを BDC 内で入力として使用するには、データを正しく構成する必要があります。 BDC 用データを作成するには、登録する単一のソース フォルダー内にあるサブフォルダーとしてデータセットをフォーマットします。 このソース フォルダーで、サブフォルダーの名前はデータセット名を表します。

3 つのデータセット サブフォルダーを持つ 1 つのソース フォルダー
それぞれがデータセットを表す 3 つのサブフォルダーを持つソース フォルダーを示します。

上に示す画像は BDC の正しい構造を表します。 ソース フォルダーが登録されており、ソース フォルダー内の各サブフォルダーはデータセットを表します。 この例では、ソース フォルダーを登録し、データセット-1、データセット-2、データセット-3 の 3 つのデータセットが BDC 内に含まれています。

データセットのサブフォルダーでは、データを自由に構成できます。 サブフォルダーに複数のフォルダーやファイルが含まれている場合、サブフォルダーのすべてのコンテンツが 1 つのデータセットとして読み込まれ、同じスキーマとファイル タイプを共有する必要があります。

注意:

データセット フォルダー内のファイルはすべて同じスキーマを持っています。 ファイルが異なるスキーマを持っている場合、そのファイルは可視化および解析で正しく使用されません。

次の画像は、構成とファイル コンテンツの異なる 3 つのデータセットを示します:

ソース フォルダーとコンテンツの例
ソース フォルダー、3 つのデータセット フォルダー、およびそれらのコンテンツの登録例を示します。

この例では、同じ 3 つのデータセット フォルダーが異なるコンテンツを持っています。 それぞれのデータセットについて説明します:

  • データセット-1 - このデータセットは D1-1 という 1 つのファイルから構成されます。 データセット-1 を可視化や解析に使用する場合、1 つのシェープファイルを使用します。
  • データセット-2 - このデータセットは D2-1 および D2-2 という 2 つのテキスト ファイルから構成されます。 データセット-2 を可視化や解析に使用する場合、両方のテキスト ファイルを使用します。
  • データセット-3 - このデータセットは D3-フォルダー-1 および D3-フォルダー-2 という 2 つのフォルダーから構成されます。各フォルダーにはそれぞれ D3-1 と D3-2 という 1 つのデータセットが含まれています。 データセット-3 を可視化や解析に使用する場合、D3-1 と D3-2 の両方を使用します。

データの構成方法についての例を示します。 可視化や解析におけるデータの使用方法にかかわらず、ファイルやフォルダーの数は同じです。 各データセット フォルダーへサブフォルダーを追加したり削除することに利点はなく、そのレベルのフォルダー構成は任意のものです。

ビッグ データ コネクションの使用を開始するには、「ビッグ データ コネクションの使用」をご参照ください。

関連トピック