Создать Подключение больших данных (GeoAnalytics Desktop)

Сводка

Создает файл подключения больших данных (.bdc) и элемент. Наборы данных, зарегистрированные в подключении больших данных (BDC), могут использоваться в качестве входных данных для Инструментов GeoAnalytics Desktop и других инструментов геообработки.

Использование

  • Используйте этот инструмент для установления соединения с одним или несколькими наборами данных, которые можно использовать в качестве входных данных для инструментов геообработки.

  • Подключения к большим данным поддерживают следующие наборы данных:

    • Файлы с разделителями (такие как .csv, .tsv и .txt)
    • Шейп-файлы (.shp)
    • Файлы Parquet (.gz.parquet)
      Примечание:

      Поддерживаются только зашифрованные файлы Parquet.

    • Файлы ORC (orc.crc)

    Дополнительные сведения о поддерживаемых типах файлов см. в разделе Обзор группы инструментов Подключение больших данных.

  • Чтобы использовать наборы данных как входные в BDC, данные должны быть правильно структурированы. Чтобы подготовить данные для BDC, отформатируйте наборы данных как подпапки в одной папке-источнике, которую вы будете регистрировать. В этой папке имена вложенных папок соответствуют именам наборов данных.

    Одна папка-источник с тремя подпапками наборов данных
    Показана папка-источник, содержащая три подпапки, которые представляют наборы данных.

    На рисунке выше показана правильная структура BDC. Регистрируется папка-источник, каждая подпапка в ней соответствует набору данных. В этом примере вы регистрируете папку-источник, а три набора данных, Dataset-1, Dataset-2 и Dataset-3, будут включены в BDC.

    Более подробно о структурировании подключения больших данных

  • Укажите Исходное расположение, из которого вы хотите создать BDC, используя параметр Папка источника данных.

  • BDC может храниться локально на вашем компьютере или на сетевом диске. Если вы предоставляете общий доступ к BDC, убедитесь, что вы используете исходное местоположение, к которому могут получить доступ все пользователи. Рекомендуется не хранить BDC в исходной папке.

  • Чтобы получить доступ к BDC в проекте, добавьте расположение сохраненного BDC в качестве подключения к папке.

  • Установка видимости геометрии или времени не приводит к удалению геометрии или времени из наборов данных. Настройки времени и геометрии будут применяться всегда. Например, если у вас есть набор точечных данных с геометрией, представленной двумя полями, latitude и longitude, ниже показано, как настройка видимости будет работать с вашим набором данных:

    • Видимый – поля latitude и longitude будут доступны в параметрах и результатах инструмента геообработки.
    • Невидимый – поля latitude и longitude не будут доступны в параметрах и результатах инструмента геообработки.

    В обоих случаях набор данных будет иметь геометрию, определенную полями latitude и longitude.

  • При использовании длинных строковых значений, таких как WKT, для представления геометрии рекомендуется установить поля геометрии Невидимыми.

  • Не рекомендуется вручную изменять файл .bdc. Файл .bdc имеет следующие свойства:

    • Информация о подключении – исходный путь
    • Информация о наборе данных – имена и типы наборов данных, поля, геометрия и время

  • Сообщения инструмента будут содержать следующую информацию об обнаруженных наборах данных и их состоянии:

    • Успешно – новые наборы данных, которые были обнаружены и добавлены в BDC
    • Неудачно – наборы данных, которые не были успешно добавлены в BDC

    При поиске наборов данных в BDC может возникнуть две проблемы:

    • Ожидаемые наборы данных отсутствуют. В этом случае проверьте, что указан правильный путь, который задает папку-источник, содержащую подпапки, и что тип данных поддерживается.
    • Не удается зарегистрировать один или несколько наборов данных. Если наборы данных не удается зарегистрировать, изучите следующее:

      ПроблемаРешениеПример

      Формат наборов данных не отвечает требованиям.

      Откройте файл, чтобы убедиться, что он выглядит как ожидается. Если структура данных неверна, обновите его и повторите попытку.

      Файл .csv содержит несколько строк и описание данных, затем только пустые строки.

      Схемы наборов данных в папке не совпадают.

      Все файлы в папке набора данных должны иметь одинаковую схему. Откройте файлы и сравните схемы. Исправьте не совпадающие схемы и снова попробуйте зарегистрировать набор данных.

      Один файл .csv содержит 10 полей, другой - только 8.

      Типы файлов набора данных в папке не совпадают.

      Все файлы в папке набора данных должны иметь одно расширение (тип файла). Проверьте типы файлов в источнике данных и удалите или переместите лишние.

      Набор данных шейп-файла - это та же папка, что и файл Parquet.

      Не распознается формат полей.

      Это происходит редко, но может случиться, если ORC и Parquet используют необычный формат. Убедитесь, что вы используете допустимые форматы полей.

      Используется файл Parquet с неизвестным форматом поля.

    Более подробно о том, почему наборы данных не удается добавить в файл BDC

  • После создания BDC можно изменить сведения о соединении и наборы данных с помощью следующих инструментов:

  • Этот инструмент геообработки работает от Spark. Чтобы изучить вопросы, посвященные подключениям больших данных и работе с ними, см. раздел Подключения больших данных.

Синтаксис

arcpy.gapro.CreateBDC({bdc_location}, bdc_name, connection_type, {data_source_folder}, {visible_geometry}, {visible_time})
ParameterОбъяснениеТип данных
bdc_location
(Дополнительный)

Папка, где будет создан файл .bdc.

Folder
bdc_name

Имя создаваемого файла .bdc.

String
connection_type

Задает тип подключения для создания.

  • FOLDERПодключитесь к местоположению файловой системы. Это значение по умолчанию Короткое целое.
String
data_source_folder
(Дополнительный)

Папка, содержащая наборы данных, которые должны быть зарегистрированы в BDC.

Folder
visible_geometry
(Дополнительный)

Определяет, будут ли поля, используемые для идентификации геометрии, видимы в качестве полей при использовании файла BDC в качестве входных для других инструментах геообработки. Если поля геометрии невидимы, геометрия все равно будет применяться к набору. Настройку видимости геометрии можно изменить в BDC.

  • GEOMETRY_VISIBLEПоля геометрии будут включены в качестве полей для анализа. Это значение по умолчанию.
  • GEOMETRY_NOT_VISIBLEПоля геометрии не будут включены в качестве полей для анализа.
Boolean
visible_time
(Дополнительный)

Определяет, будут ли поля, используемые для задания времени, видимы в качестве полей при использовании файла BDC в качестве входных для других инструментах геообработки. Если поля времени невидимы, время все равно будет применяться к набору. Настройку видимости времени можно изменить в BDC.

  • TIME_VISIBLEПоля времени будут включены в качестве полей для анализа. Это значение по умолчанию.
  • TIME_NOT_VISIBLEПоля времени не будут включены в качестве полей для анализа.
Boolean

Производные выходные данные

NameОбъяснениеТип данных
output_bdc

Файл .bdc, который создан.

Файл

Пример кода

CreateBDC (автономный скрипт)

Скрипт Python, демонстрирующий выполнение функции CreateBDC.

# Name: CreateBigDataConnection.py
# Description: Establishes a connection to a folder location containing one or 
#              more datasets. Datasets will be used as input to GeoAnalytics 
#              Desktop Tools.
#
# Requirements: ArcGIS Pro Advanced License
# Import system modules
import arcpy
# Set local variables
sourceFolder = r"\\FileShare\MyLargeDatasets"
outName = "my_new_BigDataConnection"
outFolder = r"c:\Projects\MyProjectFolder"
time = "TIME_NOT_VISIBLE"
geometry = "GEOMETRY_VISIBLE"
# Execute Create Big Data Connection
arcpy.gapro.CreateBDC(outFolder, outName, "FOLDER", sourceFolder, geometry, time)

Environments

Этот инструмент не использует параметры среды геообработки

Информация о лицензиях

  • Basic: Нет
  • Standard: Нет
  • Advanced: Да

Связанные разделы