描述
创建大数据连接文件 (.bdc) 和项目。在大数据连接 (BDC) 中注册的数据集可用作 GeoAnalytics Desktop 工具和其他地理处理工具的输入。
使用方法
使用此工具可以建立与一个或多个数据集的连接,您可以将其用作地理处理工具的输入。
大数据连接支持以下数据集:
- 分隔文件(例如 .csv、.tsv 和 .txt)
- Shapefile (.shp)
- Parquet 文件 (.gz.parquet)
注:
仅支持未加密的 parquet 文件。
- ORC 文件 (orc.crc)
要了解有关受支持文件类型的详细信息,请参阅大数据连接工具集概述。
要将数据集用作 BDC 中的输入,必须正确构建数据。要准备 BDC 的数据,需要将数据集格式化为您所注册的单个文件夹下的子文件夹。在此源文件夹中,子文件夹的名称表示数据集名称。
上图显示了 BDC 的正确结构。源文件夹已注册,且源文件夹中的每个子文件夹都表示一个数据集。在本示例中,您将注册源文件夹以及将包含在 BDC 中的三个数据集:Dataset-1、Dataset-2 和 Dataset-3。
使用数据源文件夹参数指定您要从中创建 BDC 的源位置。
BDC 可以存储在本地计算机或网络驱动器上。如果要共享 BDC,请确保所有用户都可以访问所使用的源位置。建议您不要将 BDC 存储在源文件夹中。
要访问工程中的 BDC,请将存储 BDC 的位置添加为文件夹连接。
设置几何或时间可见性不会从数据集中移除几何或时间。应始终应用时间和几何设置。例如,如果您点数据集中的几何由两个字段(latitude 和 longitude)表示,则以下情况概述了可见性设置将如何与数据集搭配使用:
- 可见 - latitude 和 longitude 字段将在地理处理工具的参数和结果中可用。
- 不可见 - latitude 和 longitude 字段将无法在地理处理工具的参数和输出结果中使用。
在这两种情况下,数据集中的几何都将由 latitude 和 longitude 字段定义。
当使用长字符串值(例如 WKT)表示几何时,建议将几何字段设置为“不可见”。
不建议手动修改 .bdc 文件。.bdc 文件包含以下属性:
- 连接信息 - 源路径
- 数据集信息 - 数据集名称和类型、字段、几何和时间
工具消息将包含以下发现的数据集及其状态的相关信息:
- 成功 - 已发现新数据集并已将其添加到 BDC
- 失败 - 数据集未成功添加到 BDC
在 BDC 中发现数据集时,您可能会遇到以下两个问题之一:
- 预期的数据集丢失。在这种情况下,请确认您针对包含子文件夹的源文件夹所指定的路径是否正确,以及是否为受支持的数据类型。
- 一个或多个数据集注册失败。如果数据集注册失败,您可能会注意到以下一些问题:
问题 解决方案 示例 数据集未采用预期格式。
打开文件,以查看其是否按预期显示。如果数据结构不正确,请更新并重试。
.csv 文件只有很少的几行以及一个数据摘要,之后将仅为空行。
文件夹中的数据集方案不匹配。
数据集文件夹中的所有文件必须具有相同方案。打开文件,对方案进行比较。解决所有不匹配的方案,然后重新尝试注册数据集。
您有一个包含 10 个字段的 .csv 文件,而另一个文件包含 8 个字段。
文件夹中数据集的文件类型不匹配。
数据集文件夹中的所有文件都必须具有相同的扩展名(文件类型)。检查数据源位置的文件类型,然后移除或重新放置任何放错位置的文件。
Shapefile 数据集与 parquet 文件位于同一文件夹中。
存在无法识别的字段格式。
这不太可能发生,但是如果 ORC 和 parquet 使用异常格式,则可能会发生此类情况。确保使用有效的字段格式。
存在包含未知字段格式的 parquet 文件。
创建 BDC 后,可以使用以下工具修改连接信息和数据集:
- 从大数据连接复制数据集 - 将数据集从 BDC 复制到要素类。
- 从大数据连接预览数据集 - 创建现有 BDC 数据集的视图。
- 刷新大数据连接 - 检查是否有新数据集并将其添加到 BDC。
- 从大数据连接移除数据集 - 从 BDC 移除数据集。
- 更新大数据连接数据集属性 - 修改单个 BDC 数据集的属性。
- 从大数据连接预览数据集 - 预览数据集中的前十个要素以验证其是否已正确注册。
- 描述数据集 - 验证数据集的显示是否符合预期。
此地理处理工具由 Spark 作为支持。有关大数据连接及其使用方法的详细信息,请参阅大数据连接。
语法
CreateBDC({bdc_location}, bdc_name, connection_type, {data_source_folder}, {visible_geometry}, {visible_time})
参数 | 说明 | 数据类型 |
bdc_location (可选) | 将在其中创建 .bdc 文件的文件夹。 | Folder |
bdc_name | 要创建的 .bdc 文件的名称。 | String |
connection_type | 指定要创建的连接类型。
| String |
data_source_folder (可选) | 包含要在 BDC 中注册的数据集的文件夹。 | Folder |
visible_geometry (可选) | 指定当将 BDC 文件用作其他地理处理工具的输入时,用于指定几何的字段是否将作为字段可见。当几何字段不可见时,几何仍应用于数据集。可以在 BDC 中修改几何可见性设置。
| Boolean |
visible_time (可选) | 指定当将 BDC 文件用作其他地理处理工具的输入时,用于指定时间的字段是否将作为字段可见。当时间字段不可见时,时间仍应用于数据集。可以在 BDC 中修改时间可见性设置。
| Boolean |
派生输出
名称 | 说明 | 数据类型 |
output_bdc | 创建的 .bdc 文件。 | 文件 |
代码示例
以下 Python 脚本演示了如何使用 CreateBDC 函数。
# Name: CreateBigDataConnection.py
# Description: Establishes a connection to a folder location containing one or
# more datasets. Datasets will be used as input to GeoAnalytics
# Desktop Tools.
#
# Requirements: ArcGIS Pro Advanced License
# Import system modules
import arcpy
# Set local variables
sourceFolder = r"\\FileShare\MyLargeDatasets"
outName = "my_new_BigDataConnection"
outFolder = r"c:\Projects\MyProjectFolder"
time = "TIME_NOT_VISIBLE"
geometry = "GEOMETRY_VISIBLE"
# Execute Create Big Data Connection
arcpy.gapro.CreateBDC(outFolder, outName, "FOLDER", sourceFolder, geometry, time)
环境
许可信息
- Basic: 否
- Standard: 否
- Advanced: 是