Qu’est-ce qu’une connexion Big Data ?

Une connexion Big Data (BDC, Big Data Connection) vous permet de connecter rapidement des sources de données pour visualiser et analyser des jeux de données volumineux. Une BDC fournit les fonctionnalités et la flexibilité nécessaire à l’utilisation de vos données et à leur mise en forme.

Elle fait référence à un dossier d’un ou de plusieurs jeux de données. Les jeux de données dans une connexion Big Data sont utilisés en tant que données d’entité en entrée (points, polylignes, polygones et données tabulaires) pour les outils de géotraitement. Lorsque vous créez une connexion Big Data, un fichier .bdc est créé. Ce fichier pointe vers un répertoire de jeux de données qui indique les jeux de données et leur structure dans la connexion Big Data, notamment la géométrie et des informations temporelles. Vous pouvez parcourir les jeux de données BDC à l’aide des outils de géotraitement et les afficher sur la carte. Voici quelques exemples d’utilisation appropriée d’une connexion Big Data :

  • Vous avez plusieurs shapefiles représentant une zone de grande envergure. Chaque shapefile représente un sous-ensemble de la zone et vous voulez utiliser tous les shapefiles ensemble.
  • Vous recevez un nouveau fichier .csv tous les jours avec des relevés de température. Vous voulez inclure le nouveau fichier .csv dans le cadre d’un jeu de données avec vos fichiers .csv existants.
  • Vous utilisez des données qui comportent plusieurs champs représentant l’heure d’un événement. Vous voulez utiliser tous les champs pour représenter l’heure.
  • Vous avez des fichiers Parquet à utiliser.

Voici les raisons pour lesquelles utiliser une connexion Big Data en entrée dans les outils de géotraitement :

  • Vous pouvez représenter plusieurs jeux de données de même structure et de même type de fichier en tant que jeu de données unique.
  • Une connexion Big Data accède aux données pendant l’analyse, si bien que vous pouvez continuer à ajouter des données à un jeu de données existant sans devoir réinscrire ou publier vos données.
  • Vous pouvez modifier la connexion Big Data de façon à supprimer, ajouter ou mettre à jour les jeux de données visibles.
  • Les BDC permettent de définir facilement l’heure et la géométrie et acceptent plusieurs formats horaires dans un jeu de données unique.

Formats de données pris en charge

Les connexions Big Data prennent en charge les jeux de données suivants :

  • Fichiers délimités (tels que .csv, .tsv et .txt)
  • Shapefiles (.shp)
  • Fichiers Parquet (.gz.parquet)
    Remarque :

    Seuls les fichiers Parquet non chiffrés sont pris en charge.

  • Fichiers ORC (orc.crc)

Si vous utilisez une connexion Big Data dans les outils GeoAnalytics Desktop, tous les formats en entrée sont pris en charge. Si vous utilisez des jeux de données BDC dans un autre outil de géotraitement, seuls les shapefiles et les fichiers délimités sont pris en charge.

En savoir plus sur l’analyse avec des fichiers BDC

Terminologie des connexions Big Data

La table ci-dessous répertorie les termes couramment utilisés avec les connexions Big Data (BDC).

PériodeDescription

Connexion Big Data

Élément représentant le fichier BDC. Cette connexion Big Data (BDC) peut être développée de façon à afficher des jeux de données et explorée pour l’utiliser dans les outils de géotraitement. Ce fichier de connexion est l’interface ArcGIS Pro de votre fichier BDC.

Fichier de connexion Big Data

Fichier (.bdc) qui est créé et stocké lorsque vous créez une connexion Big Data avec l’outil Créer une connexion Big Data. Le fichier contient des informations sur les jeux de données et les structures contenues, ainsi que des propriétés géométriques et temporelles. Lorsque vous affichez ce fichier dans ArcGIS Pro, il s’agit d’un élément BDC.

En savoir plus sur les fichiers de connexion Big Data

Jeu de données de connexion Big Data

Jeu de données dans votre BDC. Vous pouvez ajouter ce jeu de données dans une carte ou l’utiliser en entrée dans des outils de géotraitement.

Localisation source

Localisation de dossier inscrite en tant que connexion Big Data (BDC). Cette localisation contient un ou plusieurs dossiers représentant les jeux de données BDC. Les outils de connexion Big Data ne modifie pas ce dossier.

Données source

Jeux de données inscrits dans la connexion Big Data (BDC). Lorsque vous utilisez une connexion Big Data, les données source ne sont pas modifiées. Les outils de données Big Data ne modifie pas ces données.

Structurer vos données en entrée

Pour utiliser vos jeux de données en entrée dans une connexion Big Data (BDC), les données doivent être structurées correctement. Pour préparer vos données à une connexion Big Data, formatez vos jeux de données dans des sous-dossiers, sous le dossier source unique que vous inscrivez. Dans ce dossier source, les noms des sous-dossiers représentent les noms des jeux de données.

Un dossier source avec trois sous-dossiers de jeux de données
Un dossier source qui contient trois sous-dossiers, chacun représentant un jeu de données, est affiché.

L’image ci-dessous représente la structure appropriée d’une connexion Big Data. Le dossier source est inscrit, et chaque sous-dossier dans le dossier source représente un jeu de données. Dans cet exemple, vous inscrivez le dossier source, et trois jeux de données sont inclus dans la connexion Big Data : Dataset-1, Dataset-2 et Dataset-3.

Dans les sous-dossiers, vous pouvez structurer vos données comme vous le souhaitez. Si vos sous-dossiers contiennent plusieurs dossiers ou fichiers, l’ensemble du contenu des sous-dossiers est lu en tant que jeu de données unique. Ils doivent en outre partager la même structure et le même type de fichier.

Remarque :

Tous les fichiers d’un dossier de jeux de données ont la même structure. Si un fichier a une structure différente, il ne sera pas utilisé correctement durant la visualisation et l’analyse.

L’image suivante illustre trois jeux de données avec différentes structures et un contenu de fichier différent :

Exemple de dossier source et de son contenu
Exemples d’inscriptions avec un dossier source, trois dossiers de jeux de données et leur contenu.

Dans cet exemple, trois dossiers de jeux de données identiques ont un contenu différent. Chaque jeu de données est décrit ci-dessous :

  • Dataset-1 : ce jeu de données se compose d’un seul fichier : D1-1. Lorsque Dataset-1 est utilisé dans le cadre d’une visualisation ou d’une analyse, un seul shapefile est utilisé.
  • Dataset-2 : ce jeu de données se compose de deux fichiers texte : D2-1 et D2-2. Lorsque Dataset-2 est utilisé dans le cadre d’une visualisation ou d’une analyse, les deux fichiers sont utilisés.
  • Dataset-3 : ce jeu de données se compose de deux dossiers : D3-Folder-1 et D3-Folder-2, chacun contenant un seul jeu de données, D3-1 et D3-2. Lorsque Dataset-3 est utilisé dans le cadre d’une visualisation ou d’une analyse, D3-1 et D3-2 sont tous les deux utilisés.

Ce sont des exemples de la manière dont vous pouvez structurer vos données. Le nombre de fichiers ou dossiers ne change pas la façon dont les données sont utilisées pour la visualisation ou l’analyse. Il n’y a aucun avantage à ajouter un sous-dossier ou à supprimer des sous-dossiers dans chaque dossier de jeux de données ; la structuration des dossiers à ce niveau est facultative.

Pour commencer à utiliser des connexions Big Data, reportez-vous à la rubrique Utiliser des connexions Big Data.

Rubriques connexes