大数据连接 (BDC) 可让您快速连接到数据源,以可视化和分析大型数据集。BDC 提供了用于处理数据及其格式的功能和灵活性。
BDC 可引用一个或多个数据集的文件夹。BDC 中的数据集将用作地理处理工具的输入要素数据(点、线、面和表格数据)。创建 BDC 时,将会创建 .bdc 文件。该文件指向概述了 BDC 中数据集及其方案的数据集目录,其中包括几何和时间信息。您可以在地理处理工具中浏览 BDC 数据集,并在地图上查看 BDC 数据集。以下是适合使用 BDC 的示例:
- 您有多个表示一个大型区域的 shapefile。每个 shapefile 表示该区域的一个子集,且您希望将所有 shapefile 一起使用。
- 您每天收到一个包含温度测量值的新 .csv 文件。您要将新 .csv 文件包含在现有 .csv 文件中作为其数据集的一部分。
- 您使用的数据具有多个表示事件时间的字段。您想使用所有字段来表示时间。
- 您有要使用的 parquet 文件。
以下是将 BDC 用作地理处理工具输入的原因:
- 您可以将具有相同方案和文件类型的多个数据集表示为一个数据集。
- BDC 可在运行分析时访问数据,以便您可以继续将数据添加到 BDC 的现有数据集,而无需重新注册或发布数据。
- 您可以修改 BDC 来移除、添加数据集或更新数据集的可见性。
- BDC 在时间和几何的定义方式上非常灵活,允许在单个数据集上使用多种时间格式。
支持的数据格式
大数据连接支持以下数据集:
- 分隔文件(例如 .csv、.tsv 和 .txt)
- Shapefile (.shp)
- Parquet 文件 (.gz.parquet)
注:
仅支持未加密的 parquet 文件。
- ORC 文件 (orc.crc)
如果在 GeoAnalytics Desktop 工具中使用 BDC,则支持所有输入格式。如果在任何其他地理处理工具中使用 BDC 数据集,则仅支持分隔文件和 shapefile。
大数据连接术语
下表列出了使用 BDC 时的常用术语。
术语 | 说明 |
---|---|
大数据连接 | 表示 BDC 文件的项目。该 BDC 可以展开以查看数据集,同时也可以进行浏览以便在地理处理工具中使用。该连接文件是 BDC 文件的 ArcGIS Pro 界面。 |
大数据连接文件 | 使用创建大数据连接工具创建 BDC 时所创建并存储的文件 (.bdc)。该文件将包含有关所含数据集和方案以及几何和时间属性的信息。当您在 ArcGIS Pro 中查看此文件时,它将显示为一个 BDC 项目。 |
大数据连接数据集 | BDC 中的数据集。您可以将此数据集添加到地图上,或将其用作地理处理工具的输入。 |
源位置 | 已注册为 BDC 的文件夹位置。此位置包含一个或多个表示 BDC 数据集的文件夹。大数据连接工具不会修改此文件夹。 |
源数据 | 在 BDC 中注册的数据集。使用 BDC 时,不会修改源数据。大数据连接工具不会修改此数据。 |
使用 BDC
要准备和使用 BDC,需要执行以下步骤:
- 构建输入数据。
- 配置 BDC。
- 可视化 BDC 数据集。
- 在分析中使用 BDC 数据集。
构建输入数据
要将数据集用作 BDC 中的输入,必须正确构建数据。要准备 BDC 的数据,需要将数据集格式化为您所注册的单个文件夹下的子文件夹。在此源文件夹中,子文件夹的名称表示数据集名称。
上图显示了 BDC 的正确结构。源文件夹已注册,且源文件夹中的每个子文件夹都表示一个数据集。在本示例中,您将注册源文件夹以及将包含在 BDC 中的三个数据集:Dataset-1、Dataset-2 和 Dataset-3。
在数据集子文件夹中,您可以根据需要构建数据。如果子文件夹包含多个文件夹或文件,则所有子文件夹的内容将作为一个数据集进行读取,且它们必须共享相同方案和文件类型。
注:
数据集文件夹中的所有文件都具有相同方案。如果文件具有不同方案,则无法直接在可视化和分析中正确使用该文件。
在本示例中,相同的三个数据集文件夹具有不同的内容。下面将对每个数据集做以描述:
- Dataset-1 - 此数据集由单个文件组成:D1-1。使用 Dataset-1 进行可视化或分析时,将使用单个 shapefile。
- Dataset-2 - 此数据集由以下两个文本文件组成:D2-1 和 D2-2。使用 Dataset-2 进行可视化或分析时,将同时使用这两个文本文件。
- Dataset-3 - 该数据集由两个文件夹组成:D3-Folder-1 和 D3-Folder-2,且每个文件夹都包含一个数据集 D3-1 和 D3-2。使用 Dataset-3 进行可视化或分析时,将同时使用 D3-1 和 D3-2。
这些是数据构建方法的示例。文件或文件夹的数量不会改变数据在可视化或分析时的使用方式。向每个数据集文件夹添加子文件夹,或者从数据集文件夹中移除子文件夹都没有任何优势;可选择在该级别上构建文件夹。
配置 BDC
要开始使用 BDC,您需要先创建一个 BDC。要创建 BDC,请使用创建大数据连接地理处理工具。
在 BDC 中发现数据集时,您可能会遇到以下两个问题之一:
- 预期的数据集丢失。在这种情况下,请确认您指定作为包含子文件夹的源文件夹的路径是否正确,以及是否为受支持的数据类型。
- 一个或多个数据集注册失败。如果数据集注册失败,您可能会注意到以下一些问题:
问题 解决方案 示例 数据集未采用预期格式。
打开文件,以查看其是否按预期显示。如果数据结构不正确,请更新并重试。
.csv 文件只有很少的几行以及一个数据摘要,之后将仅为空行。
文件夹中的数据集方案不匹配。
数据集文件夹中的所有文件必须具有相同方案。打开文件,对方案进行比较。解决所有不匹配的方案,然后重新尝试注册数据集。
您有一个包含 10 个字段的 .csv 文件,而另一个文件包含 8 个字段。
文件夹中数据集的文件类型不匹配。
数据集文件夹中的所有文件都必须具有相同的扩展名(文件类型)。检查数据源位置的文件类型,然后移除或重新放置任何放错位置的文件。
Shapefile 数据集与 parquet 文件位于同一文件夹中。
存在无法识别的字段格式。
这不太可能发生,但是如果 ORC 和 parquet 使用异常格式,则可能会发生此类情况。确保使用有效的字段格式。
存在包含未知字段格式的 parquet 文件。
如果使用分隔文件创建 BDC,但看不到标题行,则标题行可能无效。确保所有字段都具有标题,并且所有字段都不为空。如有必要,可使用更新大数据连接数据集属性工具更新字段名称。
创建 BDC 时,将会发现每个数据集的方案、几何和时间。通常,您可以更改使用数据集表示这些值的方式。要验证每个数据集是否正确表示几何、时间和字段,请使用描述数据集地理处理工具。例如,在查看数据集时,您可能想要对 BDC 中的一个或多个数据集进行以下一项或多项更改:
- 更改分隔数据集的字段名称。
- 修改将显示哪些字段进行分析。
- 更改用于表示几何或时间的字段。
- 将过滤器添加到数据集。
- 将别名添加到数据集。
- 从 BDC 中移除没有兴趣进行分析的数据集。
- 刷新 BDC 以包括新添加的数据集(源文件夹下的新子文件夹)。
要进行这些可选更改,您可以使用下列工具的任意组合:
- 从大数据连接复制数据集 - 将数据集从 BDC 复制到要素类。
- 从大数据连接预览数据集 - 创建现有 BDC 数据集的视图。
- 刷新大数据连接 - 检查是否有新数据集并将其添加到 BDC。
- 从大数据连接移除数据集 - 从 BDC 移除数据集。
- 更新大数据连接数据集属性 - 修改单个 BDC 数据集的属性。
- 从大数据连接预览数据集 - 预览数据集中的前十个要素以验证其是否已正确注册。
- 描述数据集 - 验证数据集的显示是否符合预期。
可视化 BDC 数据集
基于分隔和基于 shapefile 的 BDC 数据集可以在地图上进行可视化。
注:
无法可视化使用 parquet 和 ORC 源文件的 BDC 数据集。要将数据集添加到地图,请在目录窗格中定位 BDC 项,单击以展开数据集,然后将数据集添加到地图。
大数据连接数据集在地图查看器中进行了简化,具有以下限制:
- 可视化 BDC 数据集时,不会在新图层中自动设置 BDC 数据集属性中的时间属性。要随时间可视化数据集,请在将数据集添加到地图后设置图层的时间属性。
- 绘制分隔文件时,将缩放到 BDC 数据集的空间参考的全图范围。
- 如果将新记录添加到现有 BDC 数据集,例如,将新行添加到现有 BDC 中的 CSV 文件,则不会绘制新记录,除非重新启动 ArcGIS Pro。
- 如果将新文件添加到现有 BDC 数据集,例如,将新 CSV 文件添加到现有 BDC 数据集,则不会绘制新记录,除非重新启动 ArcGIS Pro。
在分析中使用 BDC 数据集
当 BDC 数据集用作 GeoAnalytics Desktop 工具的输入时,分析将进行优化以读取数据并在多台计算机内核中并行运行。对于所有其他地理处理工具,BDC 数据集读取和处理未优化以并行运行,而是串行和单线程运行。
基于分隔文件或 shapefile 的大数据连接数据集在大多数地理处理工具中都可以使用。
注:
使用 parquet 和 ORC 源文件的 BDC 数据集只能在 GeoAnalytics Desktop 工具中使用。如果将 BDC 数据集用作 GeoAnalytics Desktop 工具的输入,则无法将选择内容应用于 BDC 数据集。
要在地理处理工具中使用 BDC 数据集,请将 BDC 数据集添加到地图,然后从参数选择列表中选择图层名称,或使用浏览按钮浏览至 BDC 工作空间,然后选择输入数据集。以下工具不支持输入 BDC 文件:
- 基于服务的工具,包括 GeoAnalytics Server,标准要素分析和 ArcGIS Online 分析工具
- 用于修改计算字段和邻近等输入数据集的工具