创建大数据连接 (GeoAnalytics Desktop)

描述

创建大数据连接文件 (.bdc) 和项目。在大数据连接 (BDC) 中注册的数据集可用作 GeoAnalytics Desktop 工具和其他地理处理工具的输入。

使用方法

  • 使用此工具可以建立与一个或多个数据集的连接,您可以将其用作地理处理工具的输入。

  • 大数据连接支持以下数据集:

    • 分隔文件(例如 .csv.tsv.txt
    • Shapefile (.shp)
    • Parquet 文件 (.gz.parquet)
      注:

      仅支持未加密的 parquet 文件。

    • ORC 文件 (orc.crc)

    要了解有关受支持文件类型的详细信息,请参阅大数据连接工具集概述

  • 要将数据集用作 BDC 中的输入,必须正确构建数据。要准备 BDC 的数据,需要将数据集格式化为您所注册的单个文件夹下的子文件夹。在此源文件夹中,子文件夹的名称表示数据集名称。

    其中包含三个数据集子文件夹的源文件夹
    显示了一个包含三个子文件夹的源文件夹,其中每个子文件夹表示一个数据集。

    上图显示了 BDC 的正确结构。源文件夹已注册,且源文件夹中的每个子文件夹都表示一个数据集。在本示例中,您将注册源文件夹以及将包含在 BDC 中的三个数据集:Dataset-1、Dataset-2 和 Dataset-3。

    了解有关构建大数据连接的详细信息

  • 使用数据源文件夹参数指定您要从中创建 BDC 的源位置。

  • BDC 可以存储在本地计算机或网络驱动器上。如果要共享 BDC,请确保所有用户都可以访问所使用的源位置。建议您不要将 BDC 存储在源文件夹中。

  • 要访问工程中的 BDC,请将存储 BDC 的位置添加为文件夹连接。

  • 设置几何或时间可见性不会从数据集中移除几何或时间。应始终应用时间和几何设置。例如,如果您点数据集中的几何由两个字段(latitudelongitude)表示,则以下情况概述了可见性设置将如何与数据集搭配使用:

    • 可见 - latitudelongitude 字段将在地理处理工具的参数和结果中可用。
    • 不可见 - latitudelongitude 字段将无法在地理处理工具的参数和输出结果中使用。

    在这两种情况下,数据集中的几何都将由 latitudelongitude 字段定义。

  • 当使用长字符串值(例如 WKT)表示几何时,建议将几何字段设置为“不可见”。

  • 不建议手动修改 .bdc 文件。.bdc 文件包含以下属性:

    • 连接信息 - 源路径
    • 数据集信息 - 数据集名称和类型、字段、几何和时间

  • 工具消息将包含以下发现的数据集及其状态的相关信息:

    • 成功 - 已发现新数据集并已将其添加到 BDC
    • 失败 - 数据集未成功添加到 BDC

    在 BDC 中发现数据集时,您可能会遇到以下两个问题之一:

    • 预期的数据集丢失。在这种情况下,请确认您针对包含子文件夹的源文件夹所指定的路径是否正确,以及是否为受支持的数据类型。
    • 一个或多个数据集注册失败。如果数据集注册失败,您可能会注意到以下一些问题:

      问题解决方案示例

      数据集未采用预期格式。

      打开文件,以查看其是否按预期显示。如果数据结构不正确,请更新并重试。

      .csv 文件只有很少的几行以及一个数据摘要,之后将仅为空行。

      文件夹中的数据集方案不匹配。

      数据集文件夹中的所有文件必须具有相同方案。打开文件,对方案进行比较。解决所有不匹配的方案,然后重新尝试注册数据集。

      您有一个包含 10 个字段的 .csv 文件,而另一个文件包含 8 个字段。

      文件夹中数据集的文件类型不匹配。

      数据集文件夹中的所有文件都必须具有相同的扩展名(文件类型)。检查数据源位置的文件类型,然后移除或重新放置任何放错位置的文件。

      Shapefile 数据集与 parquet 文件位于同一文件夹中。

      存在无法识别的字段格式。

      这不太可能发生,但是如果 ORC 和 parquet 使用异常格式,则可能会发生此类情况。确保使用有效的字段格式。

      存在包含未知字段格式的 parquet 文件。

    了解有关数据集无法添加到 BDC 文件的详细原因

  • 创建 BDC 后,可以使用以下工具修改连接信息和数据集:

  • 此地理处理工具由 Spark 作为支持。有关大数据连接及其使用方法的详细信息,请参阅大数据连接

语法

CreateBDC({bdc_location}, bdc_name, connection_type, {data_source_folder}, {visible_geometry}, {visible_time})
参数说明数据类型
bdc_location
(可选)

将在其中创建 .bdc 文件的文件夹。

Folder
bdc_name

要创建的 .bdc 文件的名称。

String
connection_type

指定要创建的连接类型。

  • FOLDER连接到文件系统位置。这是默认设置。
String
data_source_folder
(可选)

包含要在 BDC 中注册的数据集的文件夹。

Folder
visible_geometry
(可选)

指定当将 BDC 文件用作其他地理处理工具的输入时,用于指定几何的字段是否将作为字段可见。当几何字段不可见时,几何仍应用于数据集。可以在 BDC 中修改几何可见性设置。

  • GEOMETRY_VISIBLE几何字段将作为分析字段包括在内。这是默认设置。
  • GEOMETRY_NOT_VISIBLE几何字段不会作为分析字段包括在内。
Boolean
visible_time
(可选)

指定当将 BDC 文件用作其他地理处理工具的输入时,用于指定时间的字段是否将作为字段可见。当时间字段不可见时,时间仍应用于数据集。可以在 BDC 中修改时间可见性设置。

  • TIME_VISIBLE时间字段将作为分析字段包括在内。这是默认设置。
  • TIME_NOT_VISIBLE时间字段不会作为分析字段包括在内。
Boolean

派生输出

名称说明数据类型
output_bdc

创建的 .bdc 文件。

文件

代码示例

CreateBDC(独立脚本)

以下 Python 脚本演示了如何使用 CreateBDC 函数。

# Name: CreateBigDataConnection.py
# Description: Establishes a connection to a folder location containing one or 
#              more datasets. Datasets will be used as input to GeoAnalytics 
#              Desktop Tools.
#
# Requirements: ArcGIS Pro Advanced License
# Import system modules
import arcpy
# Set local variables
sourceFolder = r"\\FileShare\MyLargeDatasets"
outName = "my_new_BigDataConnection"
outFolder = r"c:\Projects\MyProjectFolder"
time = "TIME_NOT_VISIBLE"
geometry = "GEOMETRY_VISIBLE"
# Execute Create Big Data Connection
arcpy.gapro.CreateBDC(outFolder, outName, "FOLDER", sourceFolder, geometry, time)

环境

此工具不使用任何地理处理环境。

许可信息

  • Basic: 否
  • Standard: 否
  • Advanced: 是

相关主题