Connexions Big Data

Une connexion Big Data (BDC, Big Data Connection) vous permet de connecter rapidement des sources de données pour visualiser et analyser des jeux de données volumineux. Elle fournit les fonctionnalités et la flexibilité requises pour utiliser vos données et leur mise en forme.

Elle fait référence à un dossier d’un ou de plusieurs jeux de données. Les jeux de données dans une connexion Big Data sont utilisés en tant que données d’entité en entrée (points, polylignes, polygones et données tabulaires) pour les outils de géotraitement. Lorsque vous créez une connexion Big Data, un fichier .bdc est créé. Ce fichier pointe vers un répertoire de jeux de données qui indique les jeux de données et leur structure dans la connexion Big Data, notamment la géométrie et des informations temporelles. Vous pouvez parcourir les jeux de données BDC à l’aide des outils de géotraitement et les afficher sur la carte. Voici quelques exemples d’utilisation appropriée d’une connexion Big Data :

  • Vous avez plusieurs shapefiles représentant une zone de grande envergure. Chaque shapefile représente un sous-ensemble de la zone et vous voulez utiliser tous les shapefiles ensemble.
  • Vous recevez un nouveau fichier .csv tous les jours avec des relevés de température. Vous voulez inclure le nouveau fichier .csv dans le cadre d’un jeu de données avec vos fichiers .csv existants.
  • Vous utilisez des données qui comportent plusieurs champs représentant l’heure d’un événement. Vous voulez utiliser tous les champs pour représenter l’heure.
  • Vous avez des fichiers Parquet à utiliser.

Voici les raisons pour lesquelles utiliser une connexion Big Data en entrée dans les outils de géotraitement :

  • Vous pouvez représenter plusieurs jeux de données de même structure et de même type de fichier en tant que jeu de données unique.
  • Une connexion Big Data accède aux données pendant l’analyse, si bien que vous pouvez continuer à ajouter des données à un jeu de données existant sans devoir réinscrire ou publier vos données.
  • Vous pouvez modifier la connexion Big Data de façon à supprimer, ajouter ou mettre à jour les jeux de données visibles.
  • Les BDC permettent de définir facilement l’heure et la géométrie et acceptent plusieurs formats horaires dans un jeu de données unique.

Formats de données pris en charge

Les connexions Big Data prennent en charge les jeux de données suivants :

  • Fichiers délimités (tels que .csv, .tsv et .txt)
  • Fichiers de formes (.shp)
  • Fichiers Parquet (.gz.parquet)
    Remarque :

    Seuls les fichiers Parquet non chiffrés sont pris en charge.

  • Fichiers ORC (orc.crc)

Si vous utilisez une connexion Big Data dans les outils GeoAnalytics Desktop, tous les formats en entrée sont pris en charge. Si vous utilisez des jeux de données BDC dans un autre outil de géotraitement, seuls les shapefiles et les fichiers délimités sont pris en charge.

En savoir plus sur l’analyse avec des fichiers BDC

Terminologie des connexions Big Data

La table ci-dessous répertorie les termes couramment utilisés avec les connexions Big Data (BDC).

TermeDescription

Connexion Big Data

Élément représentant le fichier BDC. Cette connexion Big Data (BDC) peut être développée de façon à afficher des jeux de données et explorée pour l’utiliser dans les outils de géotraitement. Ce fichier de connexion est l’interface ArcGIS Pro de votre fichier BDC.

Fichier de connexion Big Data

Fichier (.bdc) qui est créé et stocké lorsque vous créez une connexion Big Data avec l’outil Créer une connexion Big Data. Le fichier contient des informations sur les jeux de données et les structures contenues, ainsi que des propriétés géométriques et temporelles. Lorsque vous affichez ce fichier dans ArcGIS Pro, il s’agit d’un élément BDC.

En savoir plus sur les fichiers de connexion Big Data

Jeu de données de connexion Big Data

Jeu de données dans votre BDC. Vous pouvez ajouter ce jeu de données dans une carte ou l’utiliser en entrée dans des outils de géotraitement.

Localisation source

Localisation de dossier inscrite en tant que connexion Big Data (BDC). Cette localisation contient un ou plusieurs dossiers représentant les jeux de données BDC. Les outils de connexion Big Data ne modifie pas ce dossier.

Données source

Jeux de données inscrits dans la connexion Big Data (BDC). Lorsque vous utilisez une connexion Big Data, les données source ne sont pas modifiées. Les outils de données Big Data ne modifie pas ces données.

Utiliser une connexion Big Data (BDC)

Pour préparer et utiliser des BDC, la procédure est la suivante :

  1. Structurer vos données en entrée.
  2. Configurer une BDC.
  3. Visualiser un jeu de données BDC.
  4. Utiliser des jeux de données BDC dans l’analyse.

Structurer vos données en entrée

Pour utiliser vos jeux de données en entrée dans une connexion Big Data (BDC), les données doivent être structurées correctement. Pour préparer vos données à une connexion Big Data, formatez vos jeux de données dans des sous-dossiers, sous le dossier source unique que vous inscrivez. Dans ce dossier source, les noms des sous-dossiers représentent les noms des jeux de données.

Un dossier source avec trois sous-dossiers de jeux de données
Dossier source contenant trois sous-dossiers, chacun représentant un jeu de données, est illustré.

L’image ci-dessous représente la structure appropriée d’une connexion Big Data. Le dossier source est inscrit, et chaque sous-dossier dans le dossier source représente un jeu de données. Dans cet exemple, vous inscrivez le dossier source, et trois jeux de données sont inclus dans la connexion Big Data : Dataset-1, Dataset-2 et Dataset-3.

Dans les sous-dossiers, vous pouvez structurer vos données comme vous le souhaitez. Si vos sous-dossiers contiennent plusieurs dossiers ou fichiers, l’ensemble du contenu des sous-dossiers est lu en tant que jeu de données unique. Ils doivent en outre partager la même structure et le même type de fichier.

Remarque :

Tous les fichiers d’un dossier de jeux de données ont la même structure. Si un fichier a une structure différente, il ne sera pas utilisé correctement durant la visualisation et l’analyse.

L’image suivante illustre trois jeux de données avec différentes structures et un contenu de fichier différent :

Exemple de dossier source et de contenu
Illustration d’exemples d’inscriptions avec un dossier source, trois dossiers de jeux de données et leur contenu.

Dans cet exemple, trois dossiers de jeux de données identiques ont un contenu différent. Chaque jeu de données est décrit ci-dessous :

  • Dataset-1 : ce jeu de données se compose d’un seul fichier ; D1-1. Lorsque Dataset-1 est utilisé dans le cadre d’une visualisation ou d’une analyse, un seul shapefile est utilisé.
  • Dataset-2 : ce jeu de données se compose de deux fichiers texte : D2-1 et D2-2. Lorsque Dataset-2 est utilisé dans le cadre d’une visualisation ou d’une analyse, les deux fichiers sont utilisés.
  • Dataset-3 : ce jeu de données se compose de deux dossiers : D3-Folder-1 et D3-Folder-2, chacun contenant un seul jeu de données, D3-1 et D3-2. Lorsque Dataset-3 est utilisé dans le cadre d’une visualisation ou d’une analyse, D3-1 et D3-2 sont tous les deux utilisés.

Ce sont des exemples de la manière dont vous pouvez structurer vos données. Le nombre de fichiers ou dossiers ne change pas la façon dont les données sont utilisées pour la visualisation ou l’analyse. Il n’y a aucun avantage à ajouter un sous-dossier ou à supprimer des sous-dossiers dans chaque dossier de jeux de données ; la structuration des dossiers à ce niveau est facultative.

Configurer une BDC

Pour démarrer une connexion Big Data (BDC), vous devez en créer une. Pour créer une connexion Big Data, utilisez l’outil de géotraitement Créer une connexion Big Data.

Vous pouvez rencontrer un de ces deux problèmes lorsque vous examinez les jeux de données de votre connexion Big Data :

  • Les jeux de données attendus sont introuvables. Dans ce cas, vérifiez que le chemin d’accès spécifié comme dossier source contenant les sous-dossiers est correct et que son type de données est pris en charge.
  • Impossible d’inscrire un ou de plusieurs jeux de données. Si vous ne parvenez pas à inscrire des jeux de données, vous rencontrez peut-être les problèmes suivants :

    ProblèmeSolutionExemple

    Le jeu de données n’est pas dans le format attendu.

    Ouvrez le fichier pour voir s’il possède l’aspect attendu. Si les données sont structurées de façon incorrecte, mettez le fichier à jour et réessayez.

    Un fichier .csv comporte quelques lignes et un résumé des données, puis seulement des lignes vides.

    Les structures des jeux de données dans un dossier ne concordent pas.

    Tous les fichiers dans un dossier de jeux de données doivent avoir la même structure. Ouvrez les fichiers pour comparer les structures. Corrigez les structures non concordantes et réessayez d’inscrire le jeu de données.

    Vous avez un fichier .csv avec 10 champs, et un autre avec 8.

    Les types de fichiers d’un jeu de données dans un dossier ne concordent pas.

    Tous les fichiers dans un dossier de jeux de données doivent avoir la même extension (type de fichier). Vérifiez les types de fichiers de la localisation de la source de données et supprimez ou relocalisez les fichiers incorrectement positionnés.

    Un jeu de données de shapefile se trouve dans le même dossier qu’un fichier Parquet.

    Vous avez un format de champ non reconnu.

    Même si cette situation est peu probable, elle peut se produire si les fichiers ORC et Parquet utilisent un format inattendu. Vérifiez que vous utilisez des formats de champs valides.

    Vous avez un fichier Parquet avec un format de champ inconnu.

Si vous créez une BDC à l’aide d’un fichier délimité et que vous ne voyez pas les lignes d’en-tête, il se peut que la ligne d’en-tête ne soit pas valide. Assurez-vous que tous les champs ont un en-tête et qu’aucun n’est vide. Si nécessaire, vous pouvez mettre à jour les noms des champs en utilisant l’outil Mettre à jour les propriétés d’une connexion Big Data.

Lorsque vous créez une connexion Big Data, la structure, la géométrie et l’heure sont indiquées pour chacun de vos jeux de données. Vous pouvez généralement modifier la manière dont les jeux de données représentent ces valeurs. Pour vérifier que chaque jeu de données représente correctement la géométrie, l’heure et les champs, utilisez l’outil de géotraitement Décrire le jeu de données. Par exemple, lorsque vous examinez vos jeux de données, vous pouvez appliquer un ou plusieurs des changements suivants à un ou plusieurs jeux de données dans votre connexion Big Data :

  • Modifier le nom de champ des jeux de données délimités.
  • Modifier les champs visibles pour l’analyse.
  • Changer les champs utilisés pour représenter la géométrie ou l’heure.
  • Ajouter un filtre à un jeu de données.
  • Ajouter un alias à un jeu de données.
  • Supprimer les jeux de données de la connexion Big Data que vous ne souhaitez pas analyser.
  • Actualiser la connexion Big Data pour inclure un jeu de données récemment ajouté (un nouveau sous-dossier dans le dossier source).

Pour apporter des modifications facultatives, vous pouvez utiliser une combinaison des outils suivants :

Visualiser un jeu de données BDC

Les jeux de données DBC basés sur des fichiers délimités et des shapefiles peuvent être visualisés sur une carte.

Remarque :
Les jeux de données BDC utilisant des fichiers sources Parquet et ORC ne peuvent pas être visualisés.

Pour ajouter votre jeu de données à la carte, localisez l’élément BDC dans la fenêtre Catalog (Catalogue), cliquez pour développer les jeux de données, puis ajoutez le jeu de données à la carte.

Dans Map Viewer, le processus est plus simple pour les jeux de données de connexion Big Data mais il présente les limitations suivantes :

  • Lors de la visualisation des jeux de données BDC, les propriétés de temps des jeux de données BDC ne sont pas automatiquement définies dans la nouvelle couche. Pour visualiser le jeu de données avec le temps, définissez les propriétés de temps de la couche après avoir ajouté le jeu de données à la carte.
  • Les fichiers délimités permettent de dessiner en zoomant sur l’étendue complète de la référence spatiale du jeu de données BDC.
  • Si vous ajoutez de nouveaux enregistrements à un jeu de données BDC existant, par exemple en ajoutant de nouvelles lignes à un fichier CSV dans une BDC existante, vous devrez redémarrer ArcGIS Pro pour que les nouveaux enregistrements soient dessinés.
  • Si vous ajoutez des fichiers à un jeu de données BDC existant, par exemple en ajoutant un fichier CSV dans jeu de données BDC existant, vous devrez redémarrer ArcGIS Pro pour que les nouveaux enregistrements soient dessinés.

Utiliser des jeux de données BDC dans l’analyse

Lorsque des jeux de données BDC sont utilisés en entrée dans les outils GeoAnalytics Desktop, l’analyse est optimisée pour lire les données et pour s’exécuter en parallèle sur les cœurs de votre machine. Pour tous les autres outils de géotraitement, la lecture et le traitement des jeux de données BDC ne sont pas optimisés pour fonctionner en parallèle, mais sont plutôt séquentiels et s’exécutent dans un seul thread.

Les jeux de données de connexion Big Data basés sur les fichiers délimités ou les shapefiles peuvent être utilisés dans la plupart des outils de géotraitement.

Remarque :
Les jeux de données BDC utilisant les fichiers sources Parquet et ORC ne peuvent être utilisés que dans les outils de GeoAnalytics Desktop.

Vous ne pouvez pas appliquer une sélection à un jeu de données BDC lorsqu’il sert d’entrée à un outil GeoAnalytics Desktop.

Pour utiliser un jeu de données BDC dans un outil de géotraitement, ajoutez un jeu de données BDC à une carte et sélectionnez le nom de la couche dans la liste de choix des paramètres, ou utilisez le bouton Browser (Parcourir) pour accéder à un espace de travail BDC et sélectionnez le jeu de données en entrée. Les outils suivants ne prennent pas en charge les fichiers BDC :

Rubriques connexes