Подключение больших данных

Подключения к большим данным (BDC) позволяют быстро подключаться к источникам данных для визуализации и анализа больших наборов данных. BDC предоставляют гибкие возможности для работы и форматирования данных.

BDC ссылается на папку с одним или несколькими наборами данных. Наборы данных в BDC используются как входные данные объектов (точек, полилиний, полигонов и табличных данных) для инструментов геообработки. Когда вы создаете BDC, создается файл .bdc. Этот файл задает директорию наборов данных, которые определяет наборы данных и их схему в BDC, включая геометрию и информацию о времени. Вы можете перейти к наборам данных BDC в инструменте геообработки и просмотреть наборы BDC на карте. Ниже приведены примеры использования BDC:

  • У вас есть множество шейп-файлов, представляющих большую область. Каждый шейп-файл представляет часть области, и вы хотите использовать все файлы вместе.
  • Вы каждый день получаете новый файл .csv с измерениями температур. Вы хотите включить новый файл .csv в набор данных вместе с имеющимися файлами .csv.
  • Вы используете данные, которые содержат множество полей со временем события. Вы хотите использовать все поля для представления времени.
  • Вам необходимо использовать файлы Parquet.

Использовать BDC в качестве входных данных для инструментов геообработки удобно по следующим причинам:

  • Вы можете представить несколько наборов данных с одинаковой схемой и типом файла как один набор данных.
  • BDC позволяет работать с данными во время выполнения анализа, поэтому вы можете продолжать добавлять данные в набор, находящийся в BDC без необходимости перерегистрации или публикации своих данных.
  • Вы можете изменить BDC, чтобы удалить, добавить или обновить отображение наборов данных.
  • BDC отличается гибкостью с точки зрения определения геометрии и времени и допускает несколько форматов времени в отдельном наборе данных.

Поддерживаемые форматы данных

Подключения к большим данным поддерживают следующие наборы данных:

  • Файлы с разделителями (такие как .csv, .tsv и .txt)
  • Шейп-файлы (.shp)
  • Файлы Parquet (.gz.parquet)
    Примечание:

    Поддерживаются только зашифрованные файлы Parquet.

  • Файлы ORC (orc.crc)

Если вы используете BDC в инструментах GeoAnalytics Desktop, поддерживаются все входные форматы. Если вы используете наборы данных BDC в любых других инструментах геообработки, поддерживаются только файлы с разделителями и шейп-файлы.

Подробнее об анализе с файлами BDC

Терминология подключения больших данных

В таблице ниже приведены общие термины, встречающиеся при работе с BDC.

ТерминОписание

Подключение к большим данным

Этот термин означает файл BDC. Этот файл BDC можно развернуть, чтобы увидеть наборы данных, или раскрыть для использования в инструментах геообработки. Этот файл подключения является интерфейсом ArcGIS Pro к файлу BDC.

Файлы подключения больших данных

Файл (.bdc), которые создается и сохраняется при создании BDC с помощью инструмента Создать подключение к большим данным. Файл содержит информацию о наборах данных и схемах, а также о параметрах геометрии и времени. Когда вы просматриваете этот файл в ArcGIS Pro, это элемент BDC.

Более подробно о файлах подключений больших данных

Набор данных подключения больших данных

Набор данных в вашем BDC. Вы можете добавить этот набор данных к карте или использовать как входные данные для инструмента геообработки.

Местоположение источника

Расположение папки, зарегистрированной как BDC. Это местоположение содержит одну или две папки, представляющие наборы данных BDC. Инструменты подключения к большим данным не меняют эту папку.

Данные источника

Наборы данных, зарегистрированные в BDC. Когда вы используете BDC, данные источника не меняются. Инструменты подключения к большим данным не меняют эти данные.

Использование BDC

Чтобы подготовить и использовать BDC, требуются следующие шаги:

  1. Структурирование входных данных.
  2. Настройка BDC.
  3. Визуализация набора данных BDC.
  4. Использование наборов данных BDC в анализе.

Структурирование входных данных

Чтобы использовать наборы данных как входные в BDC, данные должны быть правильно структурированы. Чтобы подготовить данные для BDC, отформатируйте наборы данных как подпапки в одной папке-источнике, которую вы будете регистрировать. В этой папке имена вложенных папок соответствуют именам наборов данных.

Одна папка-источник с тремя подпапками наборов данных
Показана папка-источник, содержащая три подпапки, которые представляют наборы данных.

На рисунке выше показана правильная структура BDC. Регистрируется папка-источник, каждая подпапка в ней соответствует набору данных. В этом примере вы регистрируете папку-источник, а три набора данных, Dataset-1, Dataset-2 и Dataset-3, будут включены в BDC.

В подпапках наборов данных можно структурировать данные как необходимо. Если эти вложенные папки будут содержать несколько подпапок или файлов, то все содержимое этих подпапок будет считаться отдельным набором данных, они должны использовать одну схему и тип файла.

Примечание:

Все файлы в папке набора данных должны иметь одинаковую схему. Если схема файла отличается, в визуализации и анализе он может быть использован некорректно.

На следующем изображении показаны три набора данных с разными структурами и содержанием файлов:

Пример папки-источника и содержания
Показаны примеры регистрации папки-источника, трех папок наборов данных и их содержания.

В этом примере, эти три папки наборов данных имеют разное содержимое. Каждый набор данных описан ниже:

  • Dataset-1 - набор данных состоит из одного файла, D1-1. Когда Dataset-1 применяется для визуализации или анализа, используется один шейп-файл.
  • Dataset-2 - набор данных состоит из двух текстовых файлов: D2-1 и D2-2. Когда Dataset-2 применяется для визуализации или анализа, используются оба текстовых файла.
  • Dataset-3 - набор данных состоит из трех папок: D3-Folder-1 и D3-Folder-2, каждая содержит один набор, D3-1 и D3-2. Когда Dataset-3 применяется для визуализации или анализа, используются оба файла D3-1 и D3-2.

Это примеры структуры данных. Количество файлов и папок не влияет на использование данных в визуализации и анализе. Добавление или удаление подпапок из папки набора данных не дает никаких преимуществ; структура папок на этом уровне является свободной.

Настройка BDC

Чтобы начать работать с BDC, необходимо его создать. Чтобы создать BDC, используйте инструмент геообработки Создать подключение к большим данным.

При поиске наборов данных в BDC может возникнуть две проблемы:

  • Ожидаемые наборы данных отсутствуют. В этом случае проверьте, что указан правильный путь, который задает папку-источник, содержащую подпапки, и что тип данных поддерживается.
  • Не удается зарегистрировать один или несколько наборов данных. Если наборы данных не удается зарегистрировать, изучите следующее:

    ПроблемаРешениеПример

    Формат наборов данных не отвечает требованиям.

    Откройте файл, чтобы убедиться, что он выглядит как ожидается. Если структура данных неверна, обновите его и повторите попытку.

    Файл .csv содержит несколько строк и описание данных, затем только пустые строки.

    Схемы наборов данных в папке не совпадают.

    Все файлы в папке набора данных должны иметь одинаковую схему. Откройте файлы и сравните схемы. Исправьте не совпадающие схемы и снова попробуйте зарегистрировать набор данных.

    Один файл .csv содержит 10 полей, другой - только 8.

    Типы файлов набора данных в папке не совпадают.

    Все файлы в папке набора данных должны иметь одно расширение (тип файла). Проверьте типы файлов в источнике данных и удалите или переместите лишние.

    Набор данных шейп-файла - это та же папка, что и файл Parquet.

    Не распознается формат полей.

    Это происходит редко, но может случиться, если ORC и Parquet используют необычный формат. Убедитесь, что вы используете допустимые форматы полей.

    Используется файл Parquet с неизвестным форматом поля.

Если вы создаете BDC с помощью файла с разделителями и не видите строк заголовка, у вас, возможно, недопустимое значение строки заголовка. Убедитесь, что все поля имеют заголовки и что ни одно из них не является пустым. При необходимости вы можете обновить имена полей с помощью инструмента Обновить свойства подключения набора больших данных.

Когда вы создаете BDC, схема, геометрия и время определяются для каждого из наборов данных. Часто, в отображение этих значений в наборе данных вносятся изменения. Чтобы проверить, что каждый набор данных правильно представляет геометрию, время и поля, используйте инструмент геообработки Описание набора данных. Например, при просмотре наборов данных, вам может потребоваться сделать одно или несколько из следующих изменений в вашем BDC:

  • Изменение имен полей наборов данных с разделителями.
  • Изменение полей, доступных для анализа.
  • Изменение полей, используемых для представления геометрии или времени.
  • Добавление фильтра в набор данных.
  • Добавление псевдонима в набор данных.
  • Удаление из BDC наборов данных, которые не требуются в анализе.
  • Обновление BDC для включения новых наборов данных (новой подпапки в папке-источнике).

Чтобы внести такие изменения, можно использовать любую комбинацию следующих инструментов:

Визуализация набора данных BDC

Наборы данных BDC с разделителями или на базе шейп-файлов можно визуализировать на карте.

Примечание:
Наборы данных BDC, использующие исходные файлы parquet и ORC, не могут быть визуализированы.

Чтобы добавить набор данных на карту, найдите элемент BDC на панели Каталог, щелкните, чтобы развернуть наборы данных, и добавьте набор на карту.

Наборы данных подключения больших данных отображаются на карте в упрощенном виде и имеют следующие ограничения:

  • При визуализации наборов данных BDC свойства времени в свойствах набора данных BDC не задаются автоматически в новом слое. Чтобы визуализировать набор данных со временем, установите свойства времени слоя после добавления набора данных на карту
  • Рисование файлов с разделителями будет масштабироваться до полного экстента пространственной привязки набора данных BDC.
  • Если вы добавляете новые записи в существующий набор данных BDC, например добавляете новые строки в CSV-файл в существующем BDC, новые записи не будут отображаться до тех пор, пока вы не перезагрузите ArcGIS Pro.
  • Если вы добавляете новые файлы в существующий набор данных BDC, например добавляете новый CSV-файл в существующем наборе данных BDC, новые записи не будут отображаться до тех пор, пока вы не перезагрузите ArcGIS Pro.

Использование наборов данных BDC в анализе

Когда наборы данных BDC используются для инструментов GeoAnalytics Desktop, анализ оптимизируется для чтения данных и происходит параллельно на нескольких ядрах ЦПУ вашего компьютера. Для всех других инструментов геообработки чтение и обработка данных BDC не оптимизированы для параллельного выполнения, а являются последовательными и однопоточными.

Наборы данных подключения больших данных на основе файлов с разделителями или шейп-файлов можно использовать в большинстве инструментов геообработки.

Примечание:
Наборы данных BDC, использующие исходные файлы parquet и ORC, могут быть использованы только для инструментов GeoAnalytics Desktop.

Вы не сможете применить выборку к набору данных BDC, если он используется как входной в инструменте GeoAnalytics Desktop.

Чтобы использовать набор данных BDC в инструменте геообработки, добавьте набор данных BDC на карту и выберите имя слоя из списка выбора параметров или используйте кнопку Обзор для перехода в рабочую область BDC и выбора входного набора данных. Следующие инструменты не поддерживают входные файлы BDC:

Связанные разделы