大数据连接

大数据连接 (BDC) 可让您快速连接到数据源,以可视化和分析大型数据集。BDC 提供了用于处理数据及其格式的功能和灵活性。

BDC 可引用一个或多个数据集的文件夹。BDC 中的数据集将用作地理处理工具的输入要素数据(点、线、面和表格数据)。创建 BDC 时,将会创建 .bdc 文件。该文件指向概述了 BDC 中数据集及其方案的数据集目录,其中包括几何和时间信息。您可以在地理处理工具中浏览 BDC 数据集,并在地图上查看 BDC 数据集。以下是适合使用 BDC 的示例:

  • 您有多个表示一个大型区域的 shapefile。每个 shapefile 表示该区域的一个子集,且您希望将所有 shapefile 一起使用。
  • 您每天收到一个包含温度测量值的新 .csv 文件。您要将新 .csv 文件包含在现有 .csv 文件中作为其数据集的一部分。
  • 您使用的数据具有多个表示事件时间的字段。您想使用所有字段来表示时间。
  • 您有要使用的 parquet 文件。

以下是将 BDC 用作地理处理工具输入的原因:

  • 您可以将具有相同方案和文件类型的多个数据集表示为一个数据集。
  • BDC 可在运行分析时访问数据,以便您可以继续将数据添加到 BDC 的现有数据集,而无需重新注册或发布数据。
  • 您可以修改 BDC 来移除、添加数据集或更新数据集的可见性。
  • BDC 在时间和几何的定义方式上非常灵活,允许在单个数据集上使用多种时间格式。

支持的数据格式

大数据连接支持以下数据集:

  • 分隔文件(例如 .csv.tsv.txt
  • Shapefile (.shp)
  • Parquet 文件 (.gz.parquet)
    注:

    仅支持未加密的 parquet 文件。

  • ORC 文件 (orc.crc)

如果在 GeoAnalytics Desktop 工具中使用 BDC,则支持所有输入格式。如果在任何其他地理处理工具中使用 BDC 数据集,则仅支持分隔文件和 shapefile。

了解有关使用 BDC 文件进行分析的详细信息

大数据连接术语

下表列出了使用 BDC 时的常用术语。

术语说明

大数据连接

表示 BDC 文件的项目。该 BDC 可以展开以查看数据集,同时也可以进行浏览以便在地理处理工具中使用。该连接文件是 BDC 文件的 ArcGIS Pro 界面。

大数据连接文件

使用创建大数据连接工具创建 BDC 时所创建并存储的文件 (.bdc)。该文件将包含有关所含数据集和方案以及几何和时间属性的信息。当您在 ArcGIS Pro 中查看此文件时,它将显示为一个 BDC 项目。

了解有关大数据连接文件的详细信息

大数据连接数据集

BDC 中的数据集。您可以将此数据集添加到地图上,或将其用作地理处理工具的输入。

源位置

已注册为 BDC 的文件夹位置。此位置包含一个或多个表示 BDC 数据集的文件夹。大数据连接工具不会修改此文件夹。

源数据

在 BDC 中注册的数据集。使用 BDC 时,不会修改源数据。大数据连接工具不会修改此数据。

使用 BDC

要准备和使用 BDC,需要执行以下步骤:

  1. 构建输入数据。
  2. 配置 BDC。
  3. 可视化 BDC 数据集。
  4. 在分析中使用 BDC 数据集。

构建输入数据

要将数据集用作 BDC 中的输入,必须正确构建数据。要准备 BDC 的数据,需要将数据集格式化为您所注册的单个文件夹下的子文件夹。在此源文件夹中,子文件夹的名称表示数据集名称。

其中包含三个数据集子文件夹的源文件夹
显示了一个包含三个子文件夹的源文件夹,其中每个子文件夹表示一个数据集。

上图显示了 BDC 的正确结构。源文件夹已注册,且源文件夹中的每个子文件夹都表示一个数据集。在本示例中,您将注册源文件夹以及将包含在 BDC 中的三个数据集:Dataset-1、Dataset-2 和 Dataset-3。

在数据集子文件夹中,您可以根据需要构建数据。如果子文件夹包含多个文件夹或文件,则所有子文件夹的内容将作为一个数据集进行读取,且它们必须共享相同方案和文件类型。

注:

数据集文件夹中的所有文件都具有相同方案。如果文件具有不同方案,则无法直接在可视化和分析中正确使用该文件。

下图显示了三个具有不同结构和文件内容的数据集:

示例源文件夹和内容
显示了包含一个源文件夹、三个数据集文件夹及其内容的示例注册。

在本示例中,相同的三个数据集文件夹具有不同的内容。下面将对每个数据集做以描述:

  • Dataset-1 - 此数据集由单个文件组成:D1-1。使用 Dataset-1 进行可视化或分析时,将使用单个 shapefile。
  • Dataset-2 - 此数据集由以下两个文本文件组成:D2-1 和 D2-2。使用 Dataset-2 进行可视化或分析时,将同时使用这两个文本文件。
  • Dataset-3 - 该数据集由两个文件夹组成:D3-Folder-1 和 D3-Folder-2,且每个文件夹都包含一个数据集 D3-1 和 D3-2。使用 Dataset-3 进行可视化或分析时,将同时使用 D3-1 和 D3-2。

这些是数据构建方法的示例。文件或文件夹的数量不会改变数据在可视化或分析时的使用方式。向每个数据集文件夹添加子文件夹,或者从数据集文件夹中移除子文件夹都没有任何优势;可选择在该级别上构建文件夹。

配置 BDC

要开始使用 BDC,您需要先创建一个 BDC。要创建 BDC,请使用创建大数据连接地理处理工具。

在 BDC 中发现数据集时,您可能会遇到以下两个问题之一:

  • 预期的数据集丢失。在这种情况下,请确认您指定作为包含子文件夹的源文件夹的路径是否正确,以及是否为受支持的数据类型。
  • 一个或多个数据集注册失败。如果数据集注册失败,您可能会注意到以下一些问题:

    问题解决方案示例

    数据集未采用预期格式。

    打开文件,以查看其是否按预期显示。如果数据结构不正确,请更新并重试。

    .csv 文件只有很少的几行以及一个数据摘要,之后将仅为空行。

    文件夹中的数据集方案不匹配。

    数据集文件夹中的所有文件必须具有相同方案。打开文件,对方案进行比较。解决所有不匹配的方案,然后重新尝试注册数据集。

    您有一个包含 10 个字段的 .csv 文件,而另一个文件包含 8 个字段。

    文件夹中数据集的文件类型不匹配。

    数据集文件夹中的所有文件都必须具有相同的扩展名(文件类型)。检查数据源位置的文件类型,然后移除或重新放置任何放错位置的文件。

    Shapefile 数据集与 parquet 文件位于同一文件夹中。

    存在无法识别的字段格式。

    这不太可能发生,但是如果 ORC 和 parquet 使用异常格式,则可能会发生此类情况。确保使用有效的字段格式。

    存在包含未知字段格式的 parquet 文件。

如果使用分隔文件创建 BDC,但看不到标题行,则标题行可能无效。确保所有字段都具有标题,并且所有字段都不为空。如有必要,可使用更新大数据连接数据集属性工具更新字段名称。

创建 BDC 时,将会发现每个数据集的方案、几何和时间。通常,您可以更改使用数据集表示这些值的方式。要验证每个数据集是否正确表示几何、时间和字段,请使用描述数据集地理处理工具。例如,在查看数据集时,您可能想要对 BDC 中的一个或多个数据集进行以下一项或多项更改:

  • 更改分隔数据集的字段名称。
  • 修改将显示哪些字段进行分析。
  • 更改用于表示几何或时间的字段。
  • 将过滤器添加到数据集。
  • 将别名添加到数据集。
  • 从 BDC 中移除没有兴趣进行分析的数据集。
  • 刷新 BDC 以包括新添加的数据集(源文件夹下的新子文件夹)。

要进行这些可选更改,您可以使用下列工具的任意组合:

可视化 BDC 数据集

基于分隔和基于 shapefile 的 BDC 数据集可以在地图上进行可视化。

注:
无法可视化使用 parquet 和 ORC 源文件的 BDC 数据集。

要将数据集添加到地图,请在目录窗格中定位 BDC 项,单击以展开数据集,然后将数据集添加到地图。

大数据连接数据集在地图查看器中进行了简化,具有以下限制:

  • 可视化 BDC 数据集时,不会在新图层中自动设置 BDC 数据集属性中的时间属性。要随时间可视化数据集,请在将数据集添加到地图后设置图层的时间属性
  • 绘制分隔文件时,将缩放到 BDC 数据集的空间参考的全图范围。
  • 如果将新记录添加到现有 BDC 数据集,例如,将新行添加到现有 BDC 中的 CSV 文件,则不会绘制新记录,除非重新启动 ArcGIS Pro
  • 如果将新文件添加到现有 BDC 数据集,例如,将新 CSV 文件添加到现有 BDC 数据集,则不会绘制新记录,除非重新启动 ArcGIS Pro

在分析中使用 BDC 数据集

当 BDC 数据集用作 GeoAnalytics Desktop 工具的输入时,分析将进行优化以读取数据并在多台计算机内核中并行运行。对于所有其他地理处理工具,BDC 数据集读取和处理未优化以并行运行,而是串行和单线程运行。

基于分隔文件或 shapefile 的大数据连接数据集在大多数地理处理工具中都可以使用。

注:
使用 parquet 和 ORC 源文件的 BDC 数据集只能在 GeoAnalytics Desktop 工具中使用。

如果将 BDC 数据集用作 GeoAnalytics Desktop 工具的输入,则无法将选择内容应用于 BDC 数据集。

要在地理处理工具中使用 BDC 数据集,请将 BDC 数据集添加到地图,然后从参数选择列表中选择图层名称,或使用浏览按钮浏览至 BDC 工作空间,然后选择输入数据集。以下工具不支持输入 BDC 文件:

相关主题