Подключения к большим данным (BDC) позволяют быстро подключаться к источникам данных для визуализации и анализа больших наборов данных. BDC предоставляют гибкие возможности для работы и форматирования данных.
BDC ссылается на папку с одним или несколькими наборами данных. Наборы данных в BDC используются как входные данные объектов (точек, полилиний, полигонов и табличных данных) для инструментов геообработки. Когда вы создаете BDC, создается файл .bdc. Этот файл задает директорию наборов данных, которые определяет наборы данных и их схему в BDC, включая геометрию и информацию о времени. Вы можете перейти к наборам данных BDC в инструменте геообработки и просмотреть наборы BDC на карте. Ниже приведены примеры использования BDC:
- У вас есть множество шейп-файлов, представляющих большую область. Каждый шейп-файл представляет часть области, и вы хотите использовать все файлы вместе.
- Вы каждый день получаете новый файл .csv с измерениями температур. Вы хотите включить новый файл .csv в набор данных вместе с имеющимися файлами .csv.
- Вы используете данные, которые содержат множество полей со временем события. Вы хотите использовать все поля для представления времени.
- Вам необходимо использовать файлы Parquet.
Использовать BDC в качестве входных данных для инструментов геообработки удобно по следующим причинам:
- Вы можете представить несколько наборов данных с одинаковой схемой и типом файла как один набор данных.
- BDC позволяет работать с данными во время выполнения анализа, поэтому вы можете продолжать добавлять данные в набор, находящийся в BDC без необходимости перерегистрации или публикации своих данных.
- Вы можете изменить BDC, чтобы удалить, добавить или обновить отображение наборов данных.
- BDC отличается гибкостью с точки зрения определения геометрии и времени и допускает несколько форматов времени в отдельном наборе данных.
Поддерживаемые форматы данных
Подключения к большим данным поддерживают следующие наборы данных:
- Файлы с разделителями (такие как .csv, .tsv и .txt)
- Шейп-файлы (.shp)
- Файлы Parquet (.gz.parquet)
Примечание:
Поддерживаются только зашифрованные файлы Parquet.
- Файлы ORC (orc.crc)
Если вы используете BDC в инструментах GeoAnalytics Desktop, поддерживаются все входные форматы. Если вы используете наборы данных BDC в любых других инструментах геообработки, поддерживаются только файлы с разделителями и шейп-файлы.
Терминология подключения больших данных
В таблице ниже приведены общие термины, встречающиеся при работе с BDC.
Термин | Описание |
---|---|
Подключение к большим данным | Этот термин означает файл BDC. Этот файл BDC можно развернуть, чтобы увидеть наборы данных, или раскрыть для использования в инструментах геообработки. Этот файл подключения является интерфейсом ArcGIS Pro к файлу BDC. |
Файлы подключения больших данных | Файл (.bdc), которые создается и сохраняется при создании BDC с помощью инструмента Создать подключение к большим данным. Файл содержит информацию о наборах данных и схемах, а также о параметрах геометрии и времени. Когда вы просматриваете этот файл в ArcGIS Pro, это элемент BDC. |
Набор данных подключения больших данных | Набор данных в вашем BDC. Вы можете добавить этот набор данных к карте или использовать как входные данные для инструмента геообработки. |
Местоположение источника | Расположение папки, зарегистрированной как BDC. Это местоположение содержит одну или две папки, представляющие наборы данных BDC. Инструменты подключения к большим данным не меняют эту папку. |
Данные источника | Наборы данных, зарегистрированные в BDC. Когда вы используете BDC, данные источника не меняются. Инструменты подключения к большим данным не меняют эти данные. |
Структурирование входных данных
Чтобы использовать наборы данных как входные в BDC, данные должны быть правильно структурированы. Чтобы подготовить данные для BDC, отформатируйте наборы данных как подпапки в одной папке-источнике, которую вы будете регистрировать. В этой папке имена вложенных папок соответствуют именам наборов данных.
На рисунке выше показана правильная структура BDC. Регистрируется папка-источник, каждая подпапка в ней соответствует набору данных. В этом примере вы регистрируете папку-источник, а три набора данных, Dataset-1, Dataset-2 и Dataset-3, будут включены в BDC.
В подпапках наборов данных можно структурировать данные как необходимо. Если эти вложенные папки будут содержать несколько подпапок или файлов, то все содержимое этих подпапок будет считаться отдельным набором данных, они должны использовать одну схему и тип файла.
Примечание:
Все файлы в папке набора данных должны иметь одинаковую схему. Если схема файла отличается, в визуализации и анализе он может быть использован некорректно.
В этом примере, эти три папки наборов данных имеют разное содержимое. Каждый набор данных описан ниже:
- Dataset-1 - набор данных состоит из одного файла, D1-1. Когда Dataset-1 применяется для визуализации или анализа, используется один шейп-файл.
- Dataset-2 - набор данных состоит из двух текстовых файлов: D2-1 и D2-2. Когда Dataset-2 применяется для визуализации или анализа, используются оба текстовых файла.
- Dataset-3 - набор данных состоит из трех папок: D3-Folder-1 и D3-Folder-2, каждая содержит один набор, D3-1 и D3-2. Когда Dataset-3 применяется для визуализации или анализа, используются оба файла D3-1 и D3-2.
Это примеры структуры данных. Количество файлов и папок не влияет на использование данных в визуализации и анализе. Добавление или удаление подпапок из папки набора данных не дает никаких преимуществ; структура папок на этом уровне является свободной.
Чтобы начать работу с подключениями к большим данным, см. раздел Использование подключений к большим данным.