Conexiones de big data

Una conexión de big data (BDC, por sus siglas en inglés) le permite conectarse rápidamente a fuentes de datos para visualizar y analizar grandes datasets. Una BDC proporciona funcionalidad y flexibilidad para trabajar con sus datos y su formato.

Una BDC hace referencia a una carpeta de uno o varios datasets. Los datasets de una BDC se utilizan como datos de entidades de entrada (puntos, polilíneas, polígonos y datos tabulares) para las herramientas de geoprocesamiento. Cuando se crea una BDC, se crea un archivo .bdc. Este archivo apunta a un directorio de datasets que resume los datasets y su esquema en la BDC, incluida información de geometría y tiempo. Puede examinar los datasets de la BDC en las herramientas de geoprocesamiento y visualizar los datasets de la BDC en el mapa. A continuación, se muestran algunos ejemplos de cuándo conviene usar una BDC:

  • Tiene varios shapefiles que representan una gran área. Cada shapefile representa un subconjunto del área, y usted desea usar todos los shapefiles juntos.
  • Recibe un nuevo archivo .csv una vez al día con mediciones de temperatura. Desea incluir el nuevo archivo .csv como parte de un dataset con sus archivos .csv existentes.
  • Utiliza datos que tienen varios campos que representan la hora de un evento. Desea usar todos los campos para representar el tiempo.
  • Tiene archivos PARQUET que desea usar.

A continuación, se ofrecen varias razones para usar una BDC como entrada para las herramientas de geoprocesamiento:

  • Puede representar varios datasets del mismo esquema y tipo de archivo como un solo dataset.
  • La BDC accede a los datos cuando se ejecuta el análisis, de modo que usted puede seguir agregando datos a un dataset existente de su BDC sin tener que volver a registrar ni publicar los datos.
  • Puede modificar la BDC para eliminar, agregar o actualizar qué datasets son visibles.
  • Las BDC son flexibles en cuanto a la definición de la hora y de la geometría y admiten el uso de varios formatos de hora en un mismo dataset.

Formatos de datos admitidos

Las conexiones de big data admiten los siguientes datasets:

  • Archivos delimitados (por ejemplo, .csv, .tsv y .txt)
  • Shapefiles (.shp)
  • Archivos PARQUET (.gz.parquet)
    Nota:

    Solo se admiten los archivos PARQUET no cifrados.

  • Archivos ORC (orc.crc)

Si se usa una BDC en las herramientas GeoAnalytics Desktop, se admiten todos los formatos de entrada. Si se utilizan datasets de BDC en cualquier otra herramienta de geoprocesamiento, solo se admiten los archivos delimitados y los shapefiles.

Más información sobre el análisis con archivos de BDC

Terminología de las conexiones de big data

En la tabla que figura a continuación se enumeran los términos comunes para trabajar con las BDC.

PlazoDescription

Conexión de big data

El elemento que representa al archivo de BDC. Esta BDC se puede expandir para ver los datasets, además de permitir la navegación para su uso en las herramientas de geoprocesamiento. Este archivo de conexión es la interfaz ArcGIS Pro de su archivo de BDC.

Archivo de conexión de big data

El archivo (.bdc) que se crea y almacena al crear una BDC con la herramienta Crear conexión de big data. Este archivo contiene información sobre los datasets y esquemas contenidos, así como sobre las propiedades de geometría y tiempo. Al visualizar este archivo en ArcGIS Pro, se trata de un elemento de BDC.

Más información sobre los archivos de conexión de big data

Dataset de conexión de big data

Un dataset de su BDC. Este dataset se puede agregar a un mapa o usarse como entrada para las herramientas de geoprocesamiento.

Ubicación de fuente

La ubicación de carpeta registrada como BDC. Esta ubicación contiene una o varias carpetas que representan a los datasets de la BDC. Las herramientas de conexión de big data no modifican esta carpeta.

Datos de origen

Los datasets registrados en la BDC. Cuando se utiliza una BDC, los datos de origen no se modifican. Las herramientas de conexión de big data no modifican estos datos.

Usar una BDC

Para preparar y utilizar BDC, se necesitan los siguientes pasos:

  1. Estructurar sus datos de entrada.
  2. Configurar una BDC.
  3. Visualizar un dataset de BDC.
  4. Usar datasets de la BDC en el análisis.

Estructurar sus datos de entrada

Para usar sus datasets como entradas de una BDC, los datos deben estar correctamente estructurados. Para preparar los datos para una BDC, debe formatear los datasets como subcarpetas de una sola carpeta de origen que usted registra. En esta carpeta de origen, los nombres de las subcarpetas representan los nombres de los datasets.

Una carpeta de origen con tres subcarpetas de datasets
Se muestra una carpeta de origen que contiene tres subcarpetas, cada una de ellas en representación de un dataset.

La imagen que aparece arriba representa la estructura correcta de una BDC. La carpeta de origen está registrada, y cada subcarpeta de la carpeta de origen representa un dataset. En este ejemplo, se registraría la carpeta de origen y se incluirían tres datasets en la BDC: Dataset-1, Dataset-2 y Dataset-3.

En las subcarpetas del dataset puede estructurar sus datos como desee. Si las subcarpetas contienen varias carpetas o archivos, todo el contenido de las subcarpetas se lee como un único dataset y estas deben compartir el mismo esquema y tipo de archivo.

Nota:

Todos los archivos de una carpeta de dataset tienen el mismo esquema. Si un archivo tiene un esquema diferente, no se utilizará correctamente en la visualización y el análisis.

La imagen que aparece a continuación muestra tres datasets con diferentes estructuras y contenidos de archivos:

Ejemplo de carpeta de origen y contenido
Se muestran ejemplos de registros con una carpeta de origen, tres carpetas de datasets y su contenido.

En este ejemplo, las tres mismas carpetas de datasets tienen un contenido diferente. A continuación, se describen los datasets:

  • Dataset-1: este dataset está compuesto por un solo archivo, D1-1. Si se utiliza Dataset-1 para la visualización o el análisis, se utiliza un único shapefile.
  • Dataset-2: este dataset se compone de dos archivos de texto: D2-1 y D2-2. Si se utiliza Dataset-2 para la visualización o el análisis, se utilizan ambos archivos de texto.
  • Dataset-3: este dataset se compone de dos carpetas: D3-Folder-1 y D3-Folder-2, cada una con un único dataset, D3-1 y D3-2. Cuando se utilice el Dataset-3 para la visualización o el análisis, se utilizarán tanto D3-1 como D3-2.

A continuación, se ofrecen ejemplos de cómo puede estructurar sus datos. El número de archivos o carpetas no cambia la forma en que los datos se utilizan para la visualización o el análisis. Añadir o quitar subcarpetas a cada carpeta de datasets no supone ninguna ventaja; la estructuración de las carpetas a ese nivel es opcional.

Configurar una BDC

Para empezar a trabajar con una BDC, necesita crear una. Para crear una BDC, use la herramienta de geoprocesamiento Crear conexión de big data.

Al descubrir datasets en su BDC, podrían surgir uno de los dos problemas siguientes:

  • Faltan los datasets que esperaba. En este caso, verifique que la ruta que especificó como una carpeta de origen que contiene subcarpetas es correcta y corresponde a un tipo de datos admitido.
  • Uno o varios datasets no se registran. Si los datasets no se registran, observará una o varias de las siguientes consecuencias:

    ProblemaSoluciónEjemplo

    El dataset no presenta el formato esperado.

    Abra el archivo para comprobar si tiene el aspecto esperado. Si los datos no están estructurados correctamente, actualícelos e inténtelo de nuevo.

    Un archivo .csv contiene unas pocas líneas y un resumen de los datos, pero solo líneas vacías a partir de ese punto.

    Los esquemas de los datasets de una carpeta no coinciden.

    Todos los archivos de una carpeta de dataset deben tener el mismo esquema. Abra los archivos para comparar los esquemas. Resuelva cualquier discrepancia en los esquemas e intente registrar de nuevo el dataset.

    Tiene un archivo .csv con 10 campos y otro con 8.

    Los tipos de archivo de un dataset de una carpeta no coinciden.

    Todos los archivos de una carpeta de dataset deben tener la misma extensión (tipo de archivo). Compruebe los tipos de archivo de la ubicación de la fuente de datos y elimine o reubique cualquier archivo mal ubicado.

    Un dataset de shapefile está en la misma carpeta que un archivo PARQUET.

    Tiene un formato de campo no reconocido.

    Aunque es una situación improbable, puede ocurrir si el ORC y PARQUET utilizan un formato inesperado. Asegúrese de utilizar formatos de campo válidos.

    Tiene un archivo PARQUET con un formato de campo desconocido.

Si crea una BDC utilizando un archivo delimitado y no ve filas de encabezado, es posible que tenga una fila de encabezado no válida. Asegúrese de que todos los campos tengan un encabezado y de que ninguno esté vacío. Si es necesario, puede actualizar los nombres de campos utilizando la herramienta Actualizar propiedades del dataset de conexión de big data.

Al crear una BDC, se descubre el esquema, la geometría y el tiempo de cada uno de sus datasets. A menudo, hay cambios que puede hacer en la forma en que los datasets representan estos valores. Para verificar que cada dataset representa correctamente la geometría, el tiempo y los campos, utilice la herramienta de geoprocesamiento Describir dataset. Por ejemplo, al revisar sus datasets, quizá desee hacer uno o varios de los siguientes cambios en uno o varios datasets de su BDC:

  • Cambie los nombres de los campos de los datasets delimitados.
  • Modifique qué campos son visibles para el análisis.
  • Cambie los campos utilizados para representar la geometría o el tiempo.
  • Agregue un filtro a un dataset.
  • Agregue un alias a un dataset.
  • Elimine los datasets de la BDC que no le interese analizar.
  • Refresque la BDC para incluir un dataset recién agregado (una nueva subcarpeta dentro de la carpeta de origen).

Para realizar estos cambios opcionales, puede utilizar cualquier combinación de las siguientes herramientas:

Visualizar un dataset de BDC

Los datasets de la BDC basados en shapefiles y delimitados se pueden visualizar en un mapa.

Nota:
Los datasets de BDC que utilizan archivos fuente PARQUET y ORC no se pueden visualizar.

Para agregar su dataset al mapa, ubique el elemento de BDC en el panel Catálogo, haga clic para expandir los datasets y agregue el dataset al mapa.

Los datasets de conexión de big data ofrecen una experiencia simplificada en Map Viewer y tienen las siguientes limitaciones:

  • Al visualizar datasets de BDC, las propiedades de tiempo en las propiedades del dataset de BDC no se establecen automáticamente en la nueva capa. Para visualizar el dataset con tiempo, establezca las propiedades de tiempo de la capa después de agregar el dataset al mapa.
  • Al dibujar archivos delimitados, se acercará a la extensión completa de la referencia espacial del dataset de BDC.
  • Si agrega nuevos registros a un dataset de BDC existente, por ejemplo, al agregar nuevas filas a un archivo CSV en una BDC existente, los nuevos registros no se dibujarán hasta que se reinicie ArcGIS Pro.
  • Si agrega nuevos archivos a un dataset de BDC existente, por ejemplo, al agregar un nuevo archivo CSV a un dataset de BDC existente, los nuevos registros no se dibujarán hasta que se reinicie ArcGIS Pro.

Usar datasets de la BDC en el análisis

Al utilizar datasets de BDC como entrada para las herramientas de GeoAnalytics Desktop, el análisis se optimiza para leer los datos y ejecutarse en paralelo entre los núcleos de su equipo. Para el resto de herramientas de geoprocesamiento, la lectura y el procesamiento del dataset de BDC no están optimizados para ejecutarse en paralelo, sino que son secuenciales y de subproceso único.

Los datasets de conexión de big data basados en archivos delimitados o shapefiles se pueden utilizar en la mayoría de las herramientas de geoprocesamiento.

Nota:
Los datasets de BDC que utilizan archivos fuente PARQUET y ORC solo se pueden utilizar en las herramientas de GeoAnalytics Desktop.

No se puede aplicar una selección a un dataset de BDC cuando se utiliza como entrada para una herramienta de GeoAnalytics Desktop.

Para utilizar un dataset de BDC en una herramienta de geoprocesamiento, agregue un dataset de BDC a un mapa y seleccione el nombre de la capa en la lista de opciones de parámetros, o utilice el botón Examinar para examinar un espacio de trabajo de BDC y seleccione el dataset de entrada. Las siguientes herramientas no admiten los archivos de BDC de entrada:

Temas relacionados