Créer une connexion Big Data (GeoAnalytics Desktop)

Résumé

Crée un fichier de connexion Big Data (.bdc) et un élément. Les jeux de données inscrits dans une connexion Big Data (BDC) peuvent être utilisés en entrée dans les outils de GeoAnalytics Desktop et autres outils de géotraitement.

Utilisation

  • Cet outil permet d’établir une connexion à un ou plusieurs jeux de données que vous pouvez utiliser comme entrée d’outils de géotraitement.

  • Les connexions Big Data prennent en charge les jeux de données suivants :

    • Fichiers délimités (tels que .csv, .tsv et .txt)
    • Fichiers de formes (.shp)
    • Fichiers Parquet (.gz.parquet)
      Remarque :

      Seuls les fichiers Parquet non chiffrés sont pris en charge.

    • Fichiers ORC (orc.crc)

    Pour en savoir plus sur les types de fichiers pris en charge, reportez-vous à la rubrique Vue d’ensemble du jeu d’outils Big Data Connections (Connexions Big Data).

  • Pour utiliser vos jeux de données en entrée dans une connexion Big Data (BDC), les données doivent être structurées correctement. Pour préparer vos données à une connexion Big Data, formatez vos jeux de données dans des sous-dossiers, sous le dossier source unique que vous inscrivez. Dans ce dossier source, les noms des sous-dossiers représentent les noms des jeux de données.

    Un dossier source avec trois sous-dossiers de jeux de données
    Dossier source contenant trois sous-dossiers, chacun représentant un jeu de données, est illustré.

    L’image ci-dessous représente la structure appropriée d’une connexion Big Data. Le dossier source est inscrit, et chaque sous-dossier dans le dossier source représente un jeu de données. Dans cet exemple, vous inscrivez le dossier source, et trois jeux de données sont inclus dans la connexion Big Data : Dataset-1, Dataset-2 et Dataset-3.

    En savoir plus sur la structuration d’une connexion Big Data

  • Spécifiez l’emplacement source à partir duquel vous souhaitez créer une connexion Big Data à l’aide du paramètre Data Source Folder (Dossier de la source de données).

  • Une connexion Big Data peut être stockée en local sur votre machine ou sur un lecteur réseau. Si vous partagez une connexion Big Data, veillez à utiliser un emplacement source auquel tous les utilisateurs peuvent accéder. Il est recommandé de ne pas stocker une connexion Big Data dans le dossier source.

  • Pour accéder à une connexion Big Data dans un projet, ajoutez l’emplacement de la connexion Big Data stockée comme connexion à un dossier.

  • La définition de la visibilité du temps ou de la géométrie ne supprime pas la géométrie ou le temps des jeux de données. Les paramètres de temps et de géométrie sont toujours appliqués. Par exemple, si vous avez un jeu de données ponctuelles dont la géométrie est représentée par deux champs, latitude et longitude, le paramètre de visibilité fonctionne avec votre jeu de données de la manière suivante :

    • Visible (Visible) : les champs latitude et longitude sont disponibles dans les paramètres et résultats de l’outil de géotraitement.
    • Not Visible (Non visible) : les champs latitude et longitude ne sont pas disponibles dans les paramètres et les résultats en sortie de l’outil de géotraitement.

    Dans ces deux cas, la géométrie du jeu de données est définie par les champs latitude et longitude.

  • Il est recommandé de définir les champs de géométrie sur Not Visible (Non visible) si vous utilisez des valeurs de chaînes longues telles que WKT pour représenter la géométrie.

  • Il est recommandé de ne pas modifier un fichier .bdc manuellement. Un fichier .bdc contient les propriétés suivantes :

    • Connection information (Informations de connexion) : chemin source
    • Dataset information (Informations sur le jeu de données) : noms et types, champs, géométrie et heure des jeux de données

  • Les messages de l’outil incluent les informations suivantes sur les jeux de données découverts et leur statut :

    • Succeeded (Réussite) : de nouveaux jeux de données ont été découverts et ajoutés à la connexion Big Data
    • Failed (Échec) : jeux de données non ajoutés à la connexion Big Data

    Vous pouvez rencontrer un de ces deux problèmes lorsque vous examinez les jeux de données de votre connexion Big Data :

    • Les jeux de données attendus sont introuvables. Dans ce cas, vérifiez que le chemin d’accès spécifié comme dossier source contenant les sous-dossiers est correct et que son type de données est pris en charge.
    • Impossible d’inscrire un ou de plusieurs jeux de données. Si vous ne parvenez pas à inscrire des jeux de données, vous rencontrez peut-être les problèmes suivants :

      ProblèmeSolutionExemple

      Le jeu de données n’est pas dans le format attendu.

      Ouvrez le fichier pour voir s’il possède l’aspect attendu. Si les données sont structurées de façon incorrecte, mettez le fichier à jour et réessayez.

      Un fichier .csv comporte quelques lignes et un résumé des données, puis seulement des lignes vides.

      Les structures des jeux de données dans un dossier ne concordent pas.

      Tous les fichiers dans un dossier de jeux de données doivent avoir la même structure. Ouvrez les fichiers pour comparer les structures. Corrigez les structures non concordantes et réessayez d’inscrire le jeu de données.

      Vous avez un fichier .csv avec 10 champs, et un autre avec 8.

      Les types de fichiers d’un jeu de données dans un dossier ne concordent pas.

      Tous les fichiers dans un dossier de jeux de données doivent avoir la même extension (type de fichier). Vérifiez les types de fichiers de la localisation de la source de données et supprimez ou relocalisez les fichiers incorrectement positionnés.

      Un jeu de données de shapefile se trouve dans le même dossier qu’un fichier Parquet.

      Vous avez un format de champ non reconnu.

      Même si cette situation est peu probable, elle peut se produire si les fichiers ORC et Parquet utilisent un format inattendu. Vérifiez que vous utilisez des formats de champs valides.

      Vous avez un fichier Parquet avec un format de champ inconnu.

    En savoir plus sur les motifs des échecs d’ajout de jeux de données à un fichier BDC

  • Une fois que vous avez créé une connexion Big Data, vous pouvez modifier les informations de connexion et les jeux de données à l’aide des outils suivants :

  • Cet outil de géotraitement est mis en œuvre par Spark. Pour en savoir plus sur les connexions Big Data et leur utilisation, reportez-vous à la rubrique Connexions Big Data.

Syntaxe

arcpy.gapro.CreateBDC({bdc_location}, bdc_name, connection_type, {data_source_folder}, {visible_geometry}, {visible_time})
ParamètreExplicationType de données
bdc_location
(Facultatif)

Dossier dans lequel le fichier .bdc est créé.

Folder
bdc_name

Nom du fichier .bdc à créer.

String
connection_type

Spécifie le type de connexion à créer.

  • FOLDERConnectez-vous à un emplacement de système de fichiers. Il s’agit de l’option par défaut.
String
data_source_folder
(Facultatif)

Dossier contenant les jeux de données à inscrire auprès de la connexion Big Data.

Folder
visible_geometry
(Facultatif)

Indique si les champs utilisés pour spécifier la géométrie sont visibles comme champs lorsque le fichier BDC est utilisé en entrée d’autres outils de géotraitement. Si les champs de géométrie ne sont pas visibles, la géométrie est tout de même appliquée au jeu de données. Le paramètre de visibilité de la géométrie peut être modifié dans la connexion Big Data.

  • GEOMETRY_VISIBLELes champs de géométrie sont inclus comme champs de l’analyse. Il s’agit de l’option par défaut.
  • GEOMETRY_NOT_VISIBLELes champs de géométrie ne sont pas inclus comme champs de l’analyse.
Boolean
visible_time
(Facultatif)

Indique si les champs utilisés pour spécifier le temps sont visibles comme champs lorsque le fichier BDC est utilisé en entrée d’autres outils de géotraitement. Si les champs temporels ne sont pas visibles, le temps est tout de même appliqué au jeu de données. Le paramètre de visibilité du temps peut être modifié dans la connexion Big Data.

  • TIME_VISIBLELes champs temporels sont inclus comme champs de l’analyse. Il s’agit de l’option par défaut.
  • TIME_NOT_VISIBLELes champs temporels ne sont pas inclus comme champs de l’analyse.
Boolean

Sortie dérivée

NomExplicationType de données
output_bdc

Fichier .bdc créé.

Fichier

Exemple de code

CreateBDC (script autonome)

Le script Python ci-dessous illustre l'utilisation de la fonction CreateBDC.

# Name: CreateBigDataConnection.py
# Description: Establishes a connection to a folder location containing one or 
#              more datasets. Datasets will be used as input to GeoAnalytics 
#              Desktop Tools.
#
# Requirements: ArcGIS Pro Advanced License
# Import system modules
import arcpy
# Set local variables
sourceFolder = r"\\FileShare\MyLargeDatasets"
outName = "my_new_BigDataConnection"
outFolder = r"c:\Projects\MyProjectFolder"
time = "TIME_NOT_VISIBLE"
geometry = "GEOMETRY_VISIBLE"
# Execute Create Big Data Connection
arcpy.gapro.CreateBDC(outFolder, outName, "FOLDER", sourceFolder, geometry, time)

Environnements

Cet outil n'utilise pas d’environnement de géotraitement.

Informations de licence

  • Basic: Non
  • Standard: Non
  • Advanced: Oui

Rubriques connexes