ビッグ データ コネクションの作成 (Create Big Data Connection) (GeoAnalytics Desktop)

概要

ビッグ データ コネクション ファイル (.bdc) とアイテムを作成します。ビッグ データ コネクション (BDC) に登録されているデータセットは、GeoAnalytics Desktop ツールや、他のジオプロセシング ツールへの入力として使用できます。

使用法

  • このツールを使用して 1 つ以上のデータセットと接続し、ジオプロセシング ツールへの入力として使用できます。

  • ビッグ データ コネクションは次のデータセットをサポートしています。

    • 区切りファイル (*.csv、*.tsv、および *.txt)
    • シェープファイル (*.shp)
    • パーケット ファイル (*.gz.parquet)
      メモ:

      暗号化されていないパーケット ファイルのみをサポートしています。

    • ORC ファイル (*orc.crc)

    サポートされているファイル タイプの詳細については、「ビッグ データ コネクション ツール設定の概要」をご参照ください。

  • データセットを BDC 内で入力として使用するには、データを正しく構成する必要があります。BDC 用データを作成するには、登録する単一のソース フォルダー内にあるサブフォルダーとしてデータセットをフォーマットします。このソース フォルダーで、サブフォルダーの名前はデータセット名を表します。

    3 つのデータセット サブフォルダーを持つ 1 つのソース フォルダー
    それぞれがデータセットを表す 3 つのサブフォルダーを持つソース フォルダーを示します。

    上に示す画像は BDC の正しい構造を表します。ソース フォルダーが登録されており、ソース フォルダー内の各サブフォルダーはデータセットを表します。この例では、ソース フォルダーを登録し、データセット-1、データセット-2、データセット-3 の 3 つのデータセットが BDC 内に含まれています。

    ビッグ データ コネクションの構造化」の詳細

  • [データ ソース フォルダー] パラメーターを使用して、BDC を作成する元の場所を指定します。

  • BDC は自分のコンピューターにローカルにも、ネットワーク ドライブにも保存できます。BDC を共有する場合、ソースの場所がすべてのユーザーからアクセス可能なことを確認してください。ソース フォルダーには BDC を保存しないことをお勧めします。

  • プロジェクトの BDC にアクセスするには、保存されている BDC の場所をフォルダー接続として追加します。

  • ジオメトリまたは時間の表示設定では、ジオメトリや時間がデータセットから削除されることはありません。時間とジオメトリの設定は常に適用されます。たとえば、[latitude] と [longitude] の 2 つのフィールドによって表されるジオメトリでデータセットを指し示すには、データセットで表示設定は次のように働きます。

    • [表示] - [latitude] と [longitude] のフィールドは、ジオプロセシング ツールのパラメーターおよび結果として使用できます。
    • [非表示] - [latitude] と [longitude] のフィールドは、ジオプロセシング ツールのパラメーターおよび出力結果として使用できません。

    いずれの場合も、データセットのジオメトリは [latitude] と [longitude] のフィールドで定義されます。

  • ジオメトリを WKT などの長い文字列値で表す場合、ジオメトリのフィールドは [非表示] に設定することをお勧めします。

  • *.bdc ファイルを手動で変更することはお勧めしません。*.bdc ファイルには次のプロパティがあります。

    • コネクション情報 - ソースのパス
    • データセット情報 - データセットの名前、タイプ、フィールド、ジオメトリなど

  • ツールのメッセージには、見つかったデータベースとそのステータスに関する次の情報が含まれています。

    • 成功 - 見つかって BDC に追加された新しいデータセット
    • 失敗 - BDC に追加されなかったデータセット

    BDC 内のデータセットを探しているとき、次の 2 つの問題が起きることがあります:

    • 予期していたデータセットが見当たらない。この場合、サブフォルダーを含むソース フォルダーとして指定したパスが正しく、データ タイプをサポートしていることを確認します。
    • 1 つ以上のデータセットが登録できない。データセットを登録できない場合、次の点を確認します。

      問題ソリューション

      データセットが予期した形式ではない。

      ファイルを開き、予期した形式であるか確認します。データが正しく構成されていない場合、更新して再度登録します。

      *.csv ファイルにはデータについて数行の記述とサマリーがあるのみで、残りは空白行となっています。

      フォルダー内にあるデータセットのスキーマが一致しない。

      データセット フォルダー内のファイルはすべて同じスキーマを持つ必要があります。ファイルを開き、スキーマを比較します。一致しないスキーマがあれば削除し、データセットを再度登録します。

      ある *.csv ファイルは 10 個のフィールドがあり、別のファイルは 8 個のフィールドがある。

      フォルダー内にあるデータセットのファイル タイプが一致しない。

      データセット フォルダー内のファイルはすべて同じエクステンション (ファイル タイプ) である必要があります。データ ソースがある場所のファイル タイプを確認し、適切でないファイルは削除または移動します。

      シェープファイルのデータセットがパーケット ファイルと同じフォルダーにある。

      認識されないフィールド形式がある。

      ORC やパーケットが予期しない形式の場合に起こることがあります。有効なフィールド形式を使用してください。

      不明なフィールド形式のパーケット ファイルがある。

    BDC ファイルへのデータセット追加が失敗する理由の詳細

  • BDC を作成したら、次のツールを使用してコネクション情報とデータセットを変更できます。

  • ジオプロセシング ツールは、Spark を活用しています。ビッグ データ コネクションとその使用方法の詳細については、「「ビッグ データ コネクション」をご参照ください。

構文

CreateBDC({bdc_location}, bdc_name, connection_type, {data_source_folder}, {visible_geometry}, {visible_time})
パラメーター説明データ タイプ
bdc_location
(オプション)

*.bdc ファイルの作成されるフォルダー。

Folder
bdc_name

作成する *.bdc ファイルの名前。

String
connection_type

作成するコネクションのタイプ。

  • FOLDERファイル システムの場所に接続します。これがデフォルトです。
String
data_source_folder
(オプション)

BDC に登録するデータセットを含むフォルダー。

Folder
visible_geometry
(オプション)

BDC ファイルを他のジオプロセシング ツールの入力として使用するとき、ジオメトリを指定するため使用されるフィールドをフィールドとして表示するかどうかを指定します。ジオメトリ フィールドが非表示のときでも、ジオメトリはデータセットに適用されます。ジオメトリの表示設定は、BDC で変更できます。

  • GEOMETRY_VISIBLEジオメトリ フィールドは分析用フィールドとして含められます。これがデフォルトです。
  • GEOMETRY_NOT_VISIBLEジオメトリ フィールドは分析用フィールドとして含められません。
Boolean
visible_time
(オプション)

BDC ファイルを他のジオプロセシング ツールの入力として使用するとき、時間を指定するため使用されるフィールドをフィールドとして表示するかどうかを指定します。時間フィールドが非表示のときでも、時間はデータセットに適用されます。時間の表示設定は、BDC で変更できます。

  • TIME_VISIBLE時間フィールドは分析用フィールドとして含められます。これがデフォルトです。
  • TIME_NOT_VISIBLE時間フィールドは分析用フィールドとして含められません。
Boolean

派生した出力

名前説明データ タイプ
output_bdc

作成される *.bdc ファイル。

ファイル

コードのサンプル

CreateBDC (スタンドアロンのスクリプト)

次の Python スクリプトは、CreateBDC 関数の使用方法を示しています。

# Name: CreateBigDataConnection.py
# Description: Establishes a connection to a folder location containing one or 
#              more datasets. Datasets will be used as input to GeoAnalytics 
#              Desktop Tools.
#
# Requirements: ArcGIS Pro Advanced License
# Import system modules
import arcpy
# Set local variables
sourceFolder = r"\\FileShare\MyLargeDatasets"
outName = "my_new_BigDataConnection"
outFolder = r"c:\Projects\MyProjectFolder"
time = "TIME_NOT_VISIBLE"
geometry = "GEOMETRY_VISIBLE"
# Execute Create Big Data Connection
arcpy.gapro.CreateBDC(outFolder, outName, "FOLDER", sourceFolder, geometry, time)

環境

このツールは、ジオプロセシング環境を使用しません。

ライセンス情報

  • Basic: いいえ
  • Standard: いいえ
  • Advanced: はい

関連トピック