Una conexión de big data (BDC, por sus siglas en inglés) le permite conectarse rápidamente a fuentes de datos para visualizar y analizar grandes datasets. Una BDC proporciona funcionalidad y flexibilidad para trabajar con sus datos y su formato.
Una BDC hace referencia a una carpeta de uno o varios datasets. Los datasets de una BDC se utilizan como datos de entidades de entrada (puntos, polilíneas, polígonos y datos tabulares) para las herramientas de geoprocesamiento. Cuando se crea una BDC, se crea un archivo .bdc. Este archivo apunta a un directorio de datasets que resume los datasets y su esquema en la BDC, incluida información de geometría y tiempo. Puede examinar los datasets de la BDC en las herramientas de geoprocesamiento y visualizar los datasets de la BDC en el mapa. A continuación, se muestran algunos ejemplos de cuándo conviene usar una BDC:
- Tiene varios shapefiles que representan una gran área. Cada shapefile representa un subconjunto del área, y usted desea usar todos los shapefiles juntos.
- Recibe un nuevo archivo .csv una vez al día con mediciones de temperatura. Desea incluir el nuevo archivo .csv como parte de un dataset con sus archivos .csv existentes.
- Utiliza datos que tienen varios campos que representan la hora de un evento. Desea usar todos los campos para representar el tiempo.
- Tiene archivos PARQUET que desea usar.
A continuación, se ofrecen varias razones para usar una BDC como entrada para las herramientas de geoprocesamiento:
- Puede representar varios datasets del mismo esquema y tipo de archivo como un solo dataset.
- La BDC accede a los datos cuando se ejecuta el análisis, de modo que usted puede seguir agregando datos a un dataset existente de su BDC sin tener que volver a registrar ni publicar los datos.
- Puede modificar la BDC para eliminar, agregar o actualizar qué datasets son visibles.
- Las BDC son flexibles en cuanto a la definición de la hora y de la geometría y admiten el uso de varios formatos de hora en un mismo dataset.
Formatos de datos admitidos
Las conexiones de big data admiten los siguientes datasets:
- Archivos delimitados (por ejemplo, .csv, .tsv y .txt)
- Shapefiles (.shp)
- Archivos PARQUET (.gz.parquet)
Nota:
Solo se admiten los archivos PARQUET no cifrados.
- Archivos ORC (orc.crc)
Si se usa una BDC en las herramientas GeoAnalytics Desktop, se admiten todos los formatos de entrada. Si se utilizan datasets de BDC en cualquier otra herramienta de geoprocesamiento, solo se admiten los archivos delimitados y los shapefiles.
Terminología de las conexiones de big data
En la tabla que figura a continuación se enumeran los términos comunes para trabajar con las BDC.
Plazo | Descripción |
---|---|
Conexión de big data | El elemento que representa al archivo de BDC. Esta BDC se puede expandir para ver los datasets, además de permitir la navegación para su uso en las herramientas de geoprocesamiento. Este archivo de conexión es la interfaz ArcGIS Pro de su archivo de BDC. |
Archivo de conexión de big data | El archivo (.bdc) que se crea y almacena al crear una BDC con la herramienta Crear conexión de big data. Este archivo contiene información sobre los datasets y esquemas contenidos, así como sobre las propiedades de geometría y tiempo. Al visualizar este archivo en ArcGIS Pro, se trata de un elemento de BDC. |
Dataset de conexión de big data | Un dataset de su BDC. Este dataset se puede agregar a un mapa o usarse como entrada para las herramientas de geoprocesamiento. |
Ubicación de fuente | La ubicación de carpeta registrada como BDC. Esta ubicación contiene una o varias carpetas que representan a los datasets de la BDC. Las herramientas de conexión de big data no modifican esta carpeta. |
Datos de origen | Los datasets registrados en la BDC. Cuando se utiliza una BDC, los datos de origen no se modifican. Las herramientas de conexión de big data no modifican estos datos. |
Estructurar sus datos de entrada
Para usar sus datasets como entradas de una BDC, los datos deben estar correctamente estructurados. Para preparar los datos para una BDC, debe formatear los datasets como subcarpetas de una sola carpeta de origen que usted registra. En esta carpeta de origen, los nombres de las subcarpetas representan los nombres de los datasets.
La imagen que aparece arriba representa la estructura correcta de una BDC. La carpeta de origen está registrada, y cada subcarpeta de la carpeta de origen representa un dataset. En este ejemplo, se registraría la carpeta de origen y se incluirían tres datasets en la BDC: Dataset-1, Dataset-2 y Dataset-3.
En las subcarpetas del dataset puede estructurar sus datos como desee. Si las subcarpetas contienen varias carpetas o archivos, todo el contenido de las subcarpetas se lee como un único dataset y estas deben compartir el mismo esquema y tipo de archivo.
Nota:
Todos los archivos de una carpeta de dataset tienen el mismo esquema. Si un archivo tiene un esquema diferente, no se utilizará correctamente en la visualización y el análisis.
En este ejemplo, las tres mismas carpetas de datasets tienen un contenido diferente. A continuación, se describen los datasets:
- Dataset-1: este dataset está compuesto por un solo archivo, D1-1. Si se utiliza Dataset-1 para la visualización o el análisis, se utiliza un único shapefile.
- Dataset-2: este dataset se compone de dos archivos de texto: D2-1 y D2-2. Si se utiliza Dataset-2 para la visualización o el análisis, se utilizan ambos archivos de texto.
- Dataset-3: este dataset se compone de dos carpetas: D3-Folder-1 y D3-Folder-2, cada una con un único dataset, D3-1 y D3-2. Cuando se utilice el Dataset-3 para la visualización o el análisis, se utilizarán tanto D3-1 como D3-2.
A continuación, se ofrecen ejemplos de cómo puede estructurar sus datos. El número de archivos o carpetas no cambia la forma en que los datos se utilizan para la visualización o el análisis. Añadir o quitar subcarpetas a cada carpeta de datasets no supone ninguna ventaja; la estructuración de las carpetas a ese nivel es opcional.
Para comenzar a usar conexiones de big data, consulte Usar conexiones de big data.