Создать Подключение больших данных (GeoAnalytics Desktop)

Краткая информация

Создает файл подключения больших данных (.bdc) и элемент. Наборы данных, зарегистрированные в подключении больших данных (BDC), могут использоваться в качестве входных данных для Инструментов GeoAnalytics Desktop и других инструментов геообработки.

Использование

  • Используйте этот инструмент для установления соединения с одним или несколькими наборами данных, которые можно использовать в качестве входных данных для инструментов геообработки.

    Примечание:

    По желанию вы можете создать подключение к большим данным с помощью диалогового окна Новое подключение к большим данным.

  • Подключения к большим данным поддерживают следующие наборы данных:

    • Файлы с разделителями (такие как .csv, .tsv и .txt)
    • Шейп-файлы (.shp)
    • Файлы Parquet (.gz.parquet)
      Примечание:

      Поддерживаются только зашифрованные файлы Parquet.

    • Файлы ORC (orc.crc)

    Дополнительные сведения о поддерживаемых типах файлов см. в разделе Подключения к большим данным.

  • Чтобы использовать наборы данных как входные в BDC, данные должны быть правильно структурированы. Чтобы подготовить данные для BDC, отформатируйте наборы данных как подпапки в одной папке-источнике, которую вы будете регистрировать. В этой папке имена вложенных папок соответствуют именам наборов данных.

    Показана папка-источник с тремя подпапками с наборами данных
    Показана папка-источник, содержащая три подпапки, которые представляют наборы данных.

    На рисунке выше показана правильная структура BDC. Регистрируется папка-источник, каждая подпапка в ней соответствует набору данных. В этом примере вы регистрируете папку-источник, а три набора данных, Dataset-1, Dataset-2 и Dataset-3, будут включены в BDC.

    Более подробно о структурировании подключения больших данных

  • Укажите Исходное расположение, из которого вы хотите создать BDC, используя параметр Папка источника данных.

  • BDC может храниться локально на вашем компьютере или на сетевом диске. Если вы предоставляете общий доступ к BDC, убедитесь, что вы используете исходное местоположение, к которому могут получить доступ все пользователи. Рекомендуется не хранить BDC в исходной папке.

  • Чтобы получить доступ к BDC в проекте, добавьте расположение сохраненного BDC в качестве подключения к папке.

  • Установка видимости геометрии или времени не приводит к удалению геометрии или времени из наборов данных. Настройки времени и геометрии будут применяться всегда. Например, если у вас есть набор точечных данных с геометрией, представленной двумя полями, latitude и longitude, ниже показано, как настройка видимости будет работать с вашим набором данных:

    • Видимый – поля latitude и longitude будут доступны в параметрах и результатах инструмента геообработки.
    • Невидимый – поля latitude и longitude не будут доступны в параметрах и результатах инструмента геообработки.

    В обоих случаях набор данных будет иметь геометрию, определенную полями latitude и longitude.

  • При использовании длинных строковых значений, таких как WKT, для представления геометрии рекомендуется установить поля геометрии Невидимыми.

  • Не рекомендуется вручную изменять файл .bdc. Файл .bdc имеет следующие свойства:

    • Информация о подключении – исходный путь
    • Информация о наборе данных – имена и типы наборов данных, поля, геометрия и время

  • Сообщения инструмента будут содержать следующую информацию об обнаруженных наборах данных и их статусе:

    • Успешно – новые наборы данных, которые были обнаружены и добавлены в BDC
    • Неудачно – наборы данных, которые не были успешно добавлены в BDC

    При поиске наборов данных в BDC может возникнуть две проблемы:

    • Ожидаемые наборы данных отсутствуют. В этом случае проверьте, что указан правильный путь, который задает папку-источник, содержащую подпапки, и что тип данных поддерживается.
    • Не удается зарегистрировать один или несколько наборов данных. Если наборы данных не удается зарегистрировать, изучите следующее:

      ВыпускРешениеПример

      Формат наборов данных не отвечает требованиям.

      Откройте файл, чтобы убедиться, что он выглядит как ожидается. Если структура данных неверна, обновите его и повторите попытку.

      Файл .csv содержит несколько строк и описание данных, затем только пустые строки.

      Схемы наборов данных в папке не совпадают.

      Все файлы в папке набора данных должны иметь одинаковую схему. Откройте файлы и сравните схемы. Исправьте не совпадающие схемы и снова попробуйте зарегистрировать набор данных.

      Один файл .csv содержит 10 полей, другой - только 8.

      Типы файлов набора данных в папке не совпадают.

      Все файлы в папке набора данных должны иметь одно расширение (тип файла). Проверьте типы файлов в источнике данных и удалите или переместите лишние.

      Набор данных шейп-файла - это та же папка, что и файл Parquet.

      Не распознается формат полей.

      Это происходит редко, но может случиться, если ORC и Parquet используют необычный формат. Убедитесь, что вы используете допустимые форматы полей.

      Используется файл Parquet с неизвестным форматом поля.

    Подробнее о том, почему наборы данных не удастся добавить в файл BDC

  • После создания BDC можно изменить сведения о соединении и наборы данных с помощью следующих инструментов:

  • Этот инструмент геообработки работает от Spark. Чтобы изучить вопросы, посвященные подключениям больших данных и работе с ними, см. раздел Подключения больших данных.

Параметры

ПодписьОписаниеТип данных
Выходное местоположение подключения больших данных
(Дополнительный)

Папка, где будет создан файл .bdc.

Folder
Выходное имя Подключения больших данных

Имя создаваемого файла .bdc.

String
Тип подключения

Задает тип подключения для создания.

  • ПапкаПодключитесь к местоположению файловой системы. Это значение по умолчанию
String
Папка источника данных
(Дополнительный)

Папка, содержащая наборы данных, которые должны быть зарегистрированы в BDC.

Folder
Видимые поля геометрии
(Дополнительный)

Определяет, будут ли поля, используемые для идентификации геометрии, видимы в качестве полей при использовании файла BDC в качестве входных для других инструментах геообработки. Если поля геометрии невидимы, геометрия все равно будет применяться к набору. Настройку видимости геометрии можно изменить в BDC.

  • Отмечено - поля геометрии будут включены в качестве полей для анализа. Это значение по умолчанию.
  • Не отмечено - поля геометрии не будут включены в качестве полей для анализа.

Boolean
Видимые поля времени
(Дополнительный)

Определяет, будут ли поля, используемые для задания времени, видимы в качестве полей при использовании файла BDC в качестве входных для других инструментах геообработки. Если поля времени невидимы, время все равно будет применяться к набору. Настройку видимости времени можно изменить в BDC.

  • Отмечено - поля времени будут включены в качестве полей для анализа. Это значение по умолчанию.
  • Не отмечено - поля времени не будут включены в качестве полей для анализа.

Boolean

Производные выходные данные

ПодписьОписаниеТип данных
Выходной BDC

Файл .bdc создан.

File

arcpy.gapro.CreateBDC({bdc_location}, bdc_name, connection_type, {data_source_folder}, {visible_geometry}, {visible_time})
ИмяОписаниеТип данных
bdc_location
(Дополнительный)

Папка, где будет создан файл .bdc.

Folder
bdc_name

Имя создаваемого файла .bdc.

String
connection_type

Задает тип подключения для создания.

  • FOLDERПодключитесь к местоположению файловой системы. Это значение по умолчанию
String
data_source_folder
(Дополнительный)

Папка, содержащая наборы данных, которые должны быть зарегистрированы в BDC.

Folder
visible_geometry
(Дополнительный)

Определяет, будут ли поля, используемые для идентификации геометрии, видимы в качестве полей при использовании файла BDC в качестве входных для других инструментах геообработки. Если поля геометрии невидимы, геометрия все равно будет применяться к набору. Настройку видимости геометрии можно изменить в BDC.

  • GEOMETRY_VISIBLEПоля геометрии будут включены в качестве полей для анализа. Это значение по умолчанию.
  • GEOMETRY_NOT_VISIBLEПоля геометрии не будут включены в качестве полей для анализа.
Boolean
visible_time
(Дополнительный)

Определяет, будут ли поля, используемые для задания времени, видимы в качестве полей при использовании файла BDC в качестве входных для других инструментах геообработки. Если поля времени невидимы, время все равно будет применяться к набору. Настройку видимости времени можно изменить в BDC.

  • TIME_VISIBLEПоля времени будут включены в качестве полей для анализа. Это значение по умолчанию.
  • TIME_NOT_VISIBLEПоля времени не будут включены в качестве полей для анализа.
Boolean

Производные выходные данные

ИмяОписаниеТип данных
output_bdc

Файл .bdc создан.

File

Пример кода

CreateBDC (автономный скрипт)

Скрипт Python, демонстрирующий использование функции CreateBDC.

# Name: CreateBigDataConnection.py
# Description: Establishes a connection to a folder location containing one or 
#              more datasets. Datasets will be used as input to GeoAnalytics 
#              Desktop Tools.
#
# Requirements: ArcGIS Pro Advanced License

# Import system modules
import arcpy

# Set local variables
sourceFolder = r"\\FileShare\MyLargeDatasets"
outName = "my_new_BigDataConnection"
outFolder = r"c:\Projects\MyProjectFolder"
time = "TIME_NOT_VISIBLE"
geometry = "GEOMETRY_VISIBLE"

# Execute Create Big Data Connection
arcpy.gapro.CreateBDC(outFolder, outName, "FOLDER", sourceFolder, geometry, time)

Параметры среды

Этот инструмент не использует параметры среды геообработки

Информация о лицензиях

  • Basic: Нет
  • Standard: Нет
  • Advanced: Да

Связанные разделы