大数据连接 (BDC) 可让您快速连接到数据源,以可视化和分析大型数据集。 BDC 提供了用于处理数据及其格式的功能和灵活性。
BDC 可引用一个或多个数据集的文件夹。 BDC 中的数据集将用作地理处理工具的输入要素数据(点、线、面和表格数据)。 创建 BDC 时,将会创建 .bdc 文件。 该文件指向概述了 BDC 中数据集及其方案的数据集目录,其中包括几何和时间信息。 您可以在地理处理工具中浏览 BDC 数据集,并在地图上查看 BDC 数据集。 以下是适合使用 BDC 的示例:
- 您有多个表示一个大型区域的 shapefile。 每个 shapefile 表示该区域的一个子集,且您希望将所有 shapefile 一起使用。
- 您每天收到一个包含温度测量值的新 .csv 文件。 您要将新 .csv 文件包含在现有 .csv 文件中作为其数据集的一部分。
- 您使用的数据具有多个表示事件时间的字段。 您想使用所有字段来表示时间。
- 您有要使用的 parquet 文件。
以下是将 BDC 用作地理处理工具输入的原因:
- 您可以将具有相同方案和文件类型的多个数据集表示为一个数据集。
- BDC 可在运行分析时访问数据,以便您可以继续将数据添加到 BDC 的现有数据集,而无需重新注册或发布数据。
- 您可以修改 BDC 来移除、添加数据集或更新数据集的可见性。
- BDC 在时间和几何的定义方式上非常灵活,允许在单个数据集上使用多种时间格式。
支持的数据格式
大数据连接支持以下数据集:
- 分隔文件(例如 .csv、.tsv 和 .txt)
- Shapefile (.shp)
- Parquet 文件 (.gz.parquet)
注:
仅支持未加密的 parquet 文件。
- ORC 文件 (orc.crc)
如果在 GeoAnalytics Desktop 工具中使用 BDC,则支持所有输入格式。 如果在任何其他地理处理工具中使用 BDC 数据集,则仅支持分隔文件和 shapefile。
大数据连接术语
下表列出了使用 BDC 时的常用术语。
术语 | 描述 |
---|---|
大数据连接 | 表示 BDC 文件的项目。 该 BDC 可以展开以查看数据集,同时也可以进行浏览以便在地理处理工具中使用。 该连接文件是 BDC 文件的 ArcGIS Pro 界面。 |
大数据连接文件 | 使用创建大数据连接工具创建 BDC 时所创建并存储的文件 (.bdc)。 该文件将包含有关所含数据集和方案以及几何和时间属性的信息。 当您在 ArcGIS Pro 中查看此文件时,它将显示为一个 BDC 项目。 |
大数据连接数据集 | BDC 中的数据集。 您可以将此数据集添加到地图上,或将其用作地理处理工具的输入。 |
源位置 | 已注册为 BDC 的文件夹位置。 此位置包含一个或多个表示 BDC 数据集的文件夹。 大数据连接工具不会修改此文件夹。 |
源数据 | 在 BDC 中注册的数据集。 使用 BDC 时,不会修改源数据。 大数据连接工具不会修改此数据。 |
构建输入数据
要将数据集用作 BDC 中的输入,必须正确构建数据。 要准备 BDC 的数据,需要将数据集格式化为您所注册的单个文件夹下的子文件夹。 在此源文件夹中,子文件夹的名称表示数据集名称。
上图显示了 BDC 的正确结构。 源文件夹已注册,且源文件夹中的每个子文件夹都表示一个数据集。 在本示例中,您将注册源文件夹以及将包含在 BDC 中的三个数据集:Dataset-1、Dataset-2 和 Dataset-3。
在数据集子文件夹中,您可以根据需要构建数据。 如果子文件夹包含多个文件夹或文件,则所有子文件夹的内容将作为一个数据集进行读取,且它们必须共享相同方案和文件类型。
注:
数据集文件夹中的所有文件都具有相同方案。 如果文件具有不同方案,则无法直接在可视化和分析中正确使用该文件。
在本示例中,相同的三个数据集文件夹具有不同的内容。 下面将对每个数据集做以描述:
- Dataset-1 - 此数据集由单个文件组成:D1-1。 使用 Dataset-1 进行可视化或分析时,将使用单个 shapefile。
- Dataset-2 - 此数据集由以下两个文本文件组成:D2-1 和 D2-2。 使用 Dataset-2 进行可视化或分析时,将同时使用这两个文本文件。
- Dataset-3 - 该数据集由两个文件夹组成:D3-Folder-1 和 D3-Folder-2,且每个文件夹都包含一个数据集 D3-1 和 D3-2。 使用 Dataset-3 进行可视化或分析时,将同时使用 D3-1 和 D3-2。
这些是数据构建方法的示例。 文件或文件夹的数量不会改变数据在可视化或分析时的使用方式。 向每个数据集文件夹添加子文件夹,或者从数据集文件夹中移除子文件夹都没有任何优势;可选择在该级别上构建文件夹。
要使用大连接开始,请参阅使用大数据连接。