Resumen
Crea un archivo de conexión de big data (.bdc) y un elemento. Los datasets registrados en una conexión de big data (BDC) pueden utilizarse como entrada en las herramientas de GeoAnalytics Desktop y otras herramientas de geoprocesamiento.
Uso
Esta herramienta permite establecer una conexión con uno o varios datasets, que pueden utilizarse como entrada en las herramientas de geoprocesamiento.
Las conexiones de big data admiten los siguientes datasets:
- Archivos delimitados (por ejemplo, .csv, .tsv y .txt)
- Shapefiles (.shp)
- Archivos PARQUET (.gz.parquet)
Nota:
Solo se admiten los archivos PARQUET no cifrados.
- Archivos ORC (orc.crc)
Para obtener más información sobre los tipos de archivos admitidos, consulte Una descripción general del conjunto de herramientas de conexiones de big data.
Para usar sus datasets como entradas de una BDC, los datos deben estar correctamente estructurados. Para preparar los datos para una BDC, debe formatear los datasets como subcarpetas de una sola carpeta de origen que usted registra. En esta carpeta de origen, los nombres de las subcarpetas representan los nombres de los datasets.
La imagen que aparece arriba representa la estructura correcta de una BDC. La carpeta de origen está registrada, y cada subcarpeta de la carpeta de origen representa un dataset. En este ejemplo, se registraría la carpeta de origen y se incluirían tres datasets en la BDC: Dataset-1, Dataset-2 y Dataset-3.
Más información sobre la estructuración de una conexión de big data
Especifique la ubicación de origen desde la que desee crear un BDC mediante el parámetro Carpeta de fuente de datos.
El BDC se puede guardar localmente en el equipo o en una unidad de red. Si está compartiendo un BDC, asegúrese de utilizar una ubicación de origen a la que puedan acceder todos los usuarios. Se recomienda no almacenar un BDC en la carpeta de origen.
Para acceder a un BDC de un proyecto, agregue la ubicación del BDC almacenado como una conexión de carpeta.
Al configurar la visibilidad de la geometría o el tiempo no se elimina ninguno de estos del datasets. La configuración de tiempo y geometría se aplicará siempre. Por ejemplo, si tiene un dataset de punto con la geometría representada por dos campos, latitude y longitude, a continuación se describe cómo funcionará la configuración de visibilidad con el dataset:
- Visible: los campos latitude y longitude estarán disponibles en los parámetros de la herramienta de geoprocesamiento y los resultados.
- No visible: los campos latitude y longitude no estarán disponibles en los parámetros de la herramienta de geoprocesamiento ni en los resultados de salida.
En ambos casos, el dataset tendrá la geometría definida por los campos latitude y longitude.
Se recomienda configurar los campos de geometría en No visible cuando se utilicen valores de cadena de caracteres larga, como WKT, para representar la geometría.
No se recomienda modificar manualmente los archivos .bdc. El archivo .bdc contiene las siguientes propiedades:
- Información de conexión: ruta de origen
- Información de dataset: nombres y tipos de dataset, campos, geometría y tiempo
Los mensajes de la herramienta incluirán la siguiente información sobre los datasets detectados y su estado:
- Correcto: se han descubierto y agregado nuevos datasets al BDC
- Con fallos: datasets que no se agregaron correctamente al BDC
Al descubrir datasets en su BDC, podrían surgir uno de los dos problemas siguientes:
- Faltan los datasets que esperaba. En este caso, verifique que la ruta que especificó es una carpeta de origen que contiene subcarpetas, es correcta y corresponde a un tipo de datos admitido.
- Uno o varios datasets no se registran. Si los datasets no se registran, observará una o varias de las siguientes consecuencias:
Problema Solución Ejemplo El dataset no presenta el formato esperado.
Abra el archivo para comprobar si tiene el aspecto esperado. Si los datos no están estructurados correctamente, actualícelos e inténtelo de nuevo.
Un archivo .csv contiene unas pocas líneas y un resumen de los datos, pero solo líneas vacías a partir de ese punto.
Los esquemas de los datasets de una carpeta no coinciden.
Todos los archivos de una carpeta de dataset deben tener el mismo esquema. Abra los archivos para comparar los esquemas. Resuelva cualquier discrepancia en los esquemas e intente registrar de nuevo el dataset.
Tiene un archivo .csv con 10 campos y otro con 8.
Los tipos de archivo de un dataset de una carpeta no coinciden.
Todos los archivos de una carpeta de dataset deben tener la misma extensión (tipo de archivo). Compruebe los tipos de archivo de la ubicación de la fuente de datos y elimine o reubique cualquier archivo mal ubicado.
Un dataset de shapefile está en la misma carpeta que un archivo PARQUET.
Tiene un formato de campo no reconocido.
Aunque es una situación improbable, puede ocurrir si el ORC y PARQUET utilizan un formato inesperado. Asegúrese de utilizar formatos de campo válidos.
Tiene un archivo PARQUET con un formato de campo desconocido.
Más información sobre por qué los datasets no se han podido agregar a un archivo BDC
Una vez que se crea un BDC, es posible modificar la información de conexión y los datasets con las siguientes herramientas:
- Copiar dataset desde conexión de big data: permite copiar un dataset de BDC en una clase de entidad.
- Duplicar dataset desde conexión de big data: permite crear una vista de un dataset de BDC existente.
- Refrescar conexión de big data: permite comprobar si hay datasets nuevos y agregarlos a BDC.
- Quitar dataset desde conexión de big data: permite eliminar un dataset de BDC.
- Actualizar propiedades de dataset de conexión de big data: permite modificar las propiedades de un dataset de BDC individual.
- Previsualizar dataset desde conexión de big data: permite mostrar una vista previa de las diez primeras entidades del dataset para verificar que se han registrado correctamente.
- Describir dataset: permite verificar que el dataset tiene el aspecto previsto.
Esta herramienta de geoprocesamiento se basa en Spark. Consulte Conexiones de big data para obtener más información sobre las conexiones de big data y cómo usarlas.
Sintaxis
CreateBDC({bdc_location}, bdc_name, connection_type, {data_source_folder}, {visible_geometry}, {visible_time})
Parámetro | Explicación | Tipo de datos |
bdc_location (Opcional) | Carpeta donde se creará el archivo .bdc. | Folder |
bdc_name | Nombre del archivo .bdc que se creará. | String |
connection_type | Especifica el tipo de conexión que se va a crear.
| String |
data_source_folder (Opcional) | La carpeta contiene los datasets que se van a registrar con el BDC. | Folder |
visible_geometry (Opcional) | Especifica si los campos utilizados para establecer la geometría estarán visibles como campos cuando el archivo BDC se utilice como entrada en otras herramientas de geoprocesamiento. Cuando los campos de geometría no están visibles, la geometría sigue aplicándose al dataset. La configuración de visibilidad de la geometría se puede modificar en el BDC.
| Boolean |
visible_time (Opcional) | Especifica si los campos utilizados para establecer el tiempo estarán visibles como campos cuando el archivo BDC se utilice como entrada en otras herramientas de geoprocesamiento. Cuando los campos de tiempo no están visibles, el tiempo sigue aplicándose al dataset. La configuración de visibilidad del tiempo se puede modificar en el BDC.
| Boolean |
Salida derivada
Nombre | Explicación | Tipo de datos |
output_bdc | Archivo .bdc que se crea. | Archivo |
Muestra de código
En el siguiente script de Python se muestra cómo utilizar la función CreateBDC.
# Name: CreateBigDataConnection.py
# Description: Establishes a connection to a folder location containing one or
# more datasets. Datasets will be used as input to GeoAnalytics
# Desktop Tools.
#
# Requirements: ArcGIS Pro Advanced License
# Import system modules
import arcpy
# Set local variables
sourceFolder = r"\\FileShare\MyLargeDatasets"
outName = "my_new_BigDataConnection"
outFolder = r"c:\Projects\MyProjectFolder"
time = "TIME_NOT_VISIBLE"
geometry = "GEOMETRY_VISIBLE"
# Execute Create Big Data Connection
arcpy.gapro.CreateBDC(outFolder, outName, "FOLDER", sourceFolder, geometry, time)
Entornos
Información de licenciamiento
- Basic: No
- Standard: No
- Advanced: Sí