什么是大数据连接?

大数据连接 (BDC) 可让您快速连接到数据源,以可视化和分析大型数据集。 BDC 提供了用于处理数据及其格式的功能和灵活性。

BDC 可引用一个或多个数据集的文件夹。 BDC 中的数据集将用作地理处理工具的输入要素数据(点、线、面和表格数据)。 创建 BDC 时,将会创建 .bdc 文件。 该文件指向概述了 BDC 中数据集及其方案的数据集目录,其中包括几何和时间信息。 您可以在地理处理工具中浏览 BDC 数据集,并在地图上查看 BDC 数据集。 以下是适合使用 BDC 的示例:

  • 您有多个表示一个大型区域的 shapefile。 每个 shapefile 表示该区域的一个子集,且您希望将所有 shapefile 一起使用。
  • 您每天收到一个包含温度测量值的新 .csv 文件。 您要将新 .csv 文件包含在现有 .csv 文件中作为其数据集的一部分。
  • 您使用的数据具有多个表示事件时间的字段。 您想使用所有字段来表示时间。
  • 您有要使用的 parquet 文件。

以下是将 BDC 用作地理处理工具输入的原因:

  • 您可以将具有相同方案和文件类型的多个数据集表示为一个数据集。
  • BDC 可在运行分析时访问数据,以便您可以继续将数据添加到 BDC 的现有数据集,而无需重新注册或发布数据。
  • 您可以修改 BDC 来移除、添加数据集或更新数据集的可见性。
  • BDC 在时间和几何的定义方式上非常灵活,允许在单个数据集上使用多种时间格式。

支持的数据格式

大数据连接支持以下数据集:

  • 分隔文件(例如 .csv.tsv.txt
  • Shapefile (.shp)
  • Parquet 文件 (.gz.parquet)
    注:

    仅支持未加密的 parquet 文件。

  • ORC 文件 (orc.crc)

如果在 GeoAnalytics Desktop 工具中使用 BDC,则支持所有输入格式。 如果在任何其他地理处理工具中使用 BDC 数据集,则仅支持分隔文件和 shapefile。

了解有关使用 BDC 文件进行分析的详细信息

大数据连接术语

下表列出了使用 BDC 时的常用术语。

术语描述

大数据连接

表示 BDC 文件的项目。 该 BDC 可以展开以查看数据集,同时也可以进行浏览以便在地理处理工具中使用。 该连接文件是 BDC 文件的 ArcGIS Pro 界面。

大数据连接文件

使用创建大数据连接工具创建 BDC 时所创建并存储的文件 (.bdc)。 该文件将包含有关所含数据集和方案以及几何和时间属性的信息。 当您在 ArcGIS Pro 中查看此文件时,它将显示为一个 BDC 项目。

了解有关大数据连接文件的详细信息

大数据连接数据集

BDC 中的数据集。 您可以将此数据集添加到地图上,或将其用作地理处理工具的输入。

源位置

已注册为 BDC 的文件夹位置。 此位置包含一个或多个表示 BDC 数据集的文件夹。 大数据连接工具不会修改此文件夹。

源数据

在 BDC 中注册的数据集。 使用 BDC 时,不会修改源数据。 大数据连接工具不会修改此数据。

构建输入数据

要将数据集用作 BDC 中的输入,必须正确构建数据。 要准备 BDC 的数据,需要将数据集格式化为您所注册的单个文件夹下的子文件夹。 在此源文件夹中,子文件夹的名称表示数据集名称。

其中包含三个数据集子文件夹的源文件夹
显示了一个包含三个子文件夹的源文件夹,其中每个子文件夹表示一个数据集。

上图显示了 BDC 的正确结构。 源文件夹已注册,且源文件夹中的每个子文件夹都表示一个数据集。 在本示例中,您将注册源文件夹以及将包含在 BDC 中的三个数据集:Dataset-1、Dataset-2 和 Dataset-3。

在数据集子文件夹中,您可以根据需要构建数据。 如果子文件夹包含多个文件夹或文件,则所有子文件夹的内容将作为一个数据集进行读取,且它们必须共享相同方案和文件类型。

注:

数据集文件夹中的所有文件都具有相同方案。 如果文件具有不同方案,则无法直接在可视化和分析中正确使用该文件。

下图显示了三个具有不同结构和文件内容的数据集:

示例源文件夹和内容
显示了包含一个源文件夹、三个数据集文件夹及其内容的示例注册。

在本示例中,相同的三个数据集文件夹具有不同的内容。 下面将对每个数据集做以描述:

  • Dataset-1 - 此数据集由单个文件组成:D1-1。 使用 Dataset-1 进行可视化或分析时,将使用单个 shapefile。
  • Dataset-2 - 此数据集由以下两个文本文件组成:D2-1 和 D2-2。 使用 Dataset-2 进行可视化或分析时,将同时使用这两个文本文件。
  • Dataset-3 - 该数据集由两个文件夹组成:D3-Folder-1 和 D3-Folder-2,且每个文件夹都包含一个数据集 D3-1 和 D3-2。 使用 Dataset-3 进行可视化或分析时,将同时使用 D3-1 和 D3-2。

这些是数据构建方法的示例。 文件或文件夹的数量不会改变数据在可视化或分析时的使用方式。 向每个数据集文件夹添加子文件夹,或者从数据集文件夹中移除子文件夹都没有任何优势;可选择在该级别上构建文件夹。

要使用大连接开始,请参阅使用大数据连接

相关主题