Crear conexión de big data (GeoAnalytics Desktop)

Resumen

Crea un archivo de conexión de big data (.bdc) y un elemento. Los datasets registrados en una conexión de big data (BDC) pueden utilizarse como entrada en las herramientas de GeoAnalytics Desktop y otras herramientas de geoprocesamiento.

Uso

  • Esta herramienta permite establecer una conexión con uno o varios datasets, que pueden utilizarse como entrada en las herramientas de geoprocesamiento.

  • Las conexiones de big data admiten los siguientes datasets:

    • Archivos delimitados (por ejemplo, .csv, .tsv y .txt)
    • Shapefiles (.shp)
    • Archivos PARQUET (.gz.parquet)
      Nota:

      Solo se admiten los archivos PARQUET no cifrados.

    • Archivos ORC (orc.crc)

    Para obtener más información sobre los tipos de archivos admitidos, consulte Una descripción general del conjunto de herramientas de conexiones de big data.

  • Para usar sus datasets como entradas de una BDC, los datos deben estar correctamente estructurados. Para preparar los datos para una BDC, debe formatear los datasets como subcarpetas de una sola carpeta de origen que usted registra. En esta carpeta de origen, los nombres de las subcarpetas representan los nombres de los datasets.

    Una carpeta de origen con tres subcarpetas de datasets
    Se muestra una carpeta de origen que contiene tres subcarpetas, cada una de ellas en representación de un dataset.

    La imagen que aparece arriba representa la estructura correcta de una BDC. La carpeta de origen está registrada, y cada subcarpeta de la carpeta de origen representa un dataset. En este ejemplo, se registraría la carpeta de origen y se incluirían tres datasets en la BDC: Dataset-1, Dataset-2 y Dataset-3.

    Más información sobre la estructuración de una conexión de big data

  • Especifique la ubicación de origen desde la que desee crear un BDC mediante el parámetro Carpeta de fuente de datos.

  • El BDC se puede guardar localmente en el equipo o en una unidad de red. Si está compartiendo un BDC, asegúrese de utilizar una ubicación de origen a la que puedan acceder todos los usuarios. Se recomienda no almacenar un BDC en la carpeta de origen.

  • Para acceder a un BDC de un proyecto, agregue la ubicación del BDC almacenado como una conexión de carpeta.

  • Al configurar la visibilidad de la geometría o el tiempo no se elimina ninguno de estos del datasets. La configuración de tiempo y geometría se aplicará siempre. Por ejemplo, si tiene un dataset de punto con la geometría representada por dos campos, latitude y longitude, a continuación se describe cómo funcionará la configuración de visibilidad con el dataset:

    • Visible: los campos latitude y longitude estarán disponibles en los parámetros de la herramienta de geoprocesamiento y los resultados.
    • No visible: los campos latitude y longitude no estarán disponibles en los parámetros de la herramienta de geoprocesamiento ni en los resultados de salida.

    En ambos casos, el dataset tendrá la geometría definida por los campos latitude y longitude.

  • Se recomienda configurar los campos de geometría en No visible cuando se utilicen valores de cadena de caracteres larga, como WKT, para representar la geometría.

  • No se recomienda modificar manualmente los archivos .bdc. El archivo .bdc contiene las siguientes propiedades:

    • Información de conexión: ruta de origen
    • Información de dataset: nombres y tipos de dataset, campos, geometría y tiempo

  • Los mensajes de la herramienta incluirán la siguiente información sobre los datasets detectados y su estado:

    • Correcto: se han descubierto y agregado nuevos datasets al BDC
    • Con fallos: datasets que no se agregaron correctamente al BDC

    Al descubrir datasets en su BDC, podrían surgir uno de los dos problemas siguientes:

    • Faltan los datasets que esperaba. En este caso, verifique que la ruta que especificó como una carpeta de origen que contiene subcarpetas es correcta y corresponde a un tipo de datos admitido.
    • Uno o varios datasets no se registran. Si los datasets no se registran, observará una o varias de las siguientes consecuencias:

      ProblemaSoluciónEjemplo

      El dataset no presenta el formato esperado.

      Abra el archivo para comprobar si tiene el aspecto esperado. Si los datos no están estructurados correctamente, actualícelos e inténtelo de nuevo.

      Un archivo .csv contiene unas pocas líneas y un resumen de los datos, pero solo líneas vacías a partir de ese punto.

      Los esquemas de los datasets de una carpeta no coinciden.

      Todos los archivos de una carpeta de dataset deben tener el mismo esquema. Abra los archivos para comparar los esquemas. Resuelva cualquier discrepancia en los esquemas e intente registrar de nuevo el dataset.

      Tiene un archivo .csv con 10 campos y otro con 8.

      Los tipos de archivo de un dataset de una carpeta no coinciden.

      Todos los archivos de una carpeta de dataset deben tener la misma extensión (tipo de archivo). Compruebe los tipos de archivo de la ubicación de la fuente de datos y elimine o reubique cualquier archivo mal ubicado.

      Un dataset de shapefile está en la misma carpeta que un archivo PARQUET.

      Tiene un formato de campo no reconocido.

      Aunque es una situación improbable, puede ocurrir si el ORC y PARQUET utilizan un formato inesperado. Asegúrese de utilizar formatos de campo válidos.

      Tiene un archivo PARQUET con un formato de campo desconocido.

    Más información sobre por qué los datasets no se han podido agregar a un archivo BDC

  • Una vez que se crea un BDC, es posible modificar la información de conexión y los datasets con las siguientes herramientas:

  • Esta herramienta de geoprocesamiento se basa en Spark. Consulte Conexiones de big data para obtener más información sobre las conexiones de big data y cómo usarlas.

Sintaxis

arcpy.gapro.CreateBDC({bdc_location}, bdc_name, connection_type, {data_source_folder}, {visible_geometry}, {visible_time})
ParámetroExplicaciónTipo de datos
bdc_location
(Opcional)

Carpeta donde se creará el archivo .bdc.

Folder
bdc_name

Nombre del archivo .bdc que se creará.

String
connection_type

Especifica el tipo de conexión que se va a crear.

  • FOLDEREstablece la conexión con una ubicación del sistema de archivos. Esta es la opción predeterminada.
String
data_source_folder
(Opcional)

La carpeta contiene los datasets que se van a registrar con el BDC.

Folder
visible_geometry
(Opcional)

Especifica si los campos utilizados para establecer la geometría estarán visibles como campos cuando el archivo BDC se utilice como entrada en otras herramientas de geoprocesamiento. Cuando los campos de geometría no están visibles, la geometría sigue aplicándose al dataset. La configuración de visibilidad de la geometría se puede modificar en el BDC.

  • GEOMETRY_VISIBLELos campos de geometría se incluirán como campos de análisis. Esta es la opción predeterminada.
  • GEOMETRY_NOT_VISIBLELos campos de geometría no se incluirán como campos de análisis.
Boolean
visible_time
(Opcional)

Especifica si los campos utilizados para establecer el tiempo estarán visibles como campos cuando el archivo BDC se utilice como entrada en otras herramientas de geoprocesamiento. Cuando los campos de tiempo no están visibles, el tiempo sigue aplicándose al dataset. La configuración de visibilidad del tiempo se puede modificar en el BDC.

  • TIME_VISIBLELos campos de tiempo se incluirán como campos de análisis. Esta es la opción predeterminada.
  • TIME_NOT_VISIBLELos campos de tiempo no se incluirán como campos de análisis.
Boolean

Salida derivada

NombreExplicaciónTipo de datos
output_bdc

Archivo .bdc que se crea.

Archivo

Muestra de código

CreateBDC (script independiente)

En el siguiente script de Python se muestra cómo utilizar la función CreateBDC.

# Name: CreateBigDataConnection.py
# Description: Establishes a connection to a folder location containing one or 
#              more datasets. Datasets will be used as input to GeoAnalytics 
#              Desktop Tools.
#
# Requirements: ArcGIS Pro Advanced License
# Import system modules
import arcpy
# Set local variables
sourceFolder = r"\\FileShare\MyLargeDatasets"
outName = "my_new_BigDataConnection"
outFolder = r"c:\Projects\MyProjectFolder"
time = "TIME_NOT_VISIBLE"
geometry = "GEOMETRY_VISIBLE"
# Execute Create Big Data Connection
arcpy.gapro.CreateBDC(outFolder, outName, "FOLDER", sourceFolder, geometry, time)

Entornos

Esta herramienta no utiliza ningún entorno de geoprocesamiento.

Información de licenciamiento

  • Basic: No
  • Standard: No
  • Advanced: Sí

Temas relacionados