Big-Data-Verbindung erstellen (GeoAnalytics Desktop)

Zusammenfassung

Erstellt eine Big-Data-Verbindungsdatei (.bdc) und ein entsprechendes Element. In einer Big-Data-Verbindung (BDC) registrierte Datasets können als Eingabe für GeoAnalytics Desktop-Werkzeuge und andere Geoverarbeitungswerkzeuge verwendet werden.

Verwendung

  • Verwenden Sie dieses Werkzeug, um eine Verbindung mit einem oder mehreren Datasets herzustellen, die Sie als Eingabe für Geoverarbeitungswerkzeuge nutzen können.

  • Big-Data-Verbindungen unterstützen die folgenden Datasets:

    • Dateien mit Trennzeichen (z. B. .csv, .tsv und .txt)
    • Shapefiles (.shp)
    • Parquet-Dateien (.gz.parquet)
      Hinweis:

      Nur nicht verschlüsselte Parquet-Dateien werden unterstützt.

    • ORC-Dateien (orc.crc)

    Weiteren Informationen zu unterstützten Dateitypen finden Sie unter Überblick über das Toolset "Big-Data-Verbindungen".

  • Zur Verwendung von Datasets als Eingaben in einer BDC müssen die Daten richtig strukturiert sein. Um Ihre Daten für eine Big-Data-Verbindung vorzubereiten, formatieren Sie die Datasets als Unterordner unter einem einzelnen Quellordner, den Sie dann registrieren. Die Namen der Unterordner innerhalb dieses Quellordners entsprechen den Dataset-Namen.

    Ein Quellordner mit drei Dataset-Unterordnern
    Ein Quellordner, der drei Unterordner enthält, die jeweils ein Dataset darstellen, ist abgebildet.

    Die obige Abbildung stellt die richtige Struktur einer BDC dar. Der Quellordner wird registriert, und jeder Unterordner im Quellordner entspricht einem Dataset. In diesem Beispiel würden Sie den Quellordner registrieren, und die BDC würde drei Datasets enthalten: Dataset-1, Dataset-2 und Dataset-3.

    Weitere Informationen zum Strukturieren einer Big-Data-Verbindung

  • Geben Sie mit dem Parameter Datenquellenordner den Quellspeicherort an, von der Sie eine BDC erstellen möchten.

  • Eine BDC kann lokal auf Ihrem Computer oder auf einem Netzlaufwerk gespeichert werden. Wenn Sie eine BDC freigeben, stellen Sie sicher, dass Sie einen Quellspeicherort verwenden, auf den alle Benutzer zugreifen können. Es wird davon abgeraten, eine BDC im Quellordner zu speichern.

  • Um in einem Projekt auf eine BDC zuzugreifen, fügen Sie den Speicherort der gespeicherten BDC als Ordnerverbindung hinzu.

  • Durch das Festlegen der Geometrie- und Zeitsichtbarkeit wird die Geometrie bzw. die Zeit nicht aus den Datasets entfernt. Die Zeit- und Geometrieeinstellungen gelten immer. Beispiel: Wenn die Geometrie für ein Punkt-Dataset mit den beiden Feldern latitude und longitude dargestellt wird, funktioniert die Sichtbarkeitseinstellung für Ihr Dataset wie folgt:

    • Sichtbar: Die Felder latitude und longitude sind in Parametern und Ergebnissen von Geoverarbeitungswerkzeugen verfügbar.
    • Nicht sichtbar: Die Felder latitude und longitude sind in Parametern und Ergebnissen von Geoverarbeitungswerkzeugen nicht verfügbar.

    In beiden Fällen wird die Geometrie des Datasets von den Feldern latitude und longitude definiert.

  • Sie sollten die Geometriefelder auf "Nicht sichtbar" festlegen, wenn Sie die Geometrie mit langen Zeichenfolgenwerten wie WKT darstellen.

  • Die manuelle Änderung einer .bdc-Datei ist nicht empfehlenswert. Eine .bdc-Datei enthält folgende Eigenschaften:

    • Verbindungsinformationen: Der Quellenpfad
    • Dataset-Informationen: Namen, Typen, Felder, Geometrie und Zeit der Datasets

  • Die Werkzeugmeldungen enthalten die folgenden Informationen zu den ermittelten Datasets und deren Status:

    • Erfolgreich: Neue Datasets, die ermittelt und zur BDC hinzugefügt wurden
    • Fehlgeschlagen: Datasets, die nicht erfolgreich zur BDC hinzugefügt wurden

    Beim Ermitteln von Datasets in Ihrer BDC können zwei Probleme auftreten:

    • Erwartete Datasets fehlen. Überprüfen Sie in diesem Fall, ob der als Quellordner angegebene Pfad, der die Unterordner enthält, richtig ist und einen unterstützten Datentyp aufweist.
    • Mindestens ein Dataset wird nicht registriert. Wenn Datasets nicht registriert werden, könnte Ihnen Folgendes auffallen:

      ProblemLösungBeispiel

      Das Dataset hat nicht das erwartete Format.

      Öffnen Sie die Datei, um festzustellen, ob sie wie erwartet aussieht. Wenn die Daten falsch strukturiert sind, ändern Sie dies, und versuchen Sie es erneut.

      Eine .csv-Datei enthält einige Zeilen und eine Zusammenfassung der Daten und dann nur leere Zeilen.

      Die Schemas von Datasets in einem Ordner stimmen nicht überein.

      Alle Dateien in einem Dataset-Ordner müssen das gleiche Schema aufweisen. Öffnen Sie die Dateien, um die Schemas zu vergleichen. Beheben Sie Schemakonflikte, und wiederholen Sie das Registrieren des Datasets.

      Sie haben eine .csv-Datei mit 10 Feldern und eine mit 8.

      Die Dateitypen eines Datasets in einem Ordner stimmen nicht überein.

      Alle Dateien in einem Dataset-Ordner müssen die gleiche Erweiterung (Dateityp) aufweisen. Überprüfen Sie die Dateitypen des Datenquellenspeicherorts, und entfernen oder verschieben Sie falsch platzierte Dateien.

      Ein Shapefile-Dataset befindet sich im gleichen Ordner wie eine Parquet-Datei.

      Ein Feldformat wurde nicht erkannt.

      Dies ist unwahrscheinlich, aber möglich, wenn ORC und Parquet ein unerwartetes Format verwenden. Stellen Sie sicher, dass Sie gültige Feldformate verwenden.

      Sie haben eine Parquet-Datei mit einem unbekannten Feldformat.

    Weitere Informationen zu den Gründen, aus denen Datasets nicht zu einer BDC-Datei hinzugefügt wurden

  • Nachdem Sie eine BDC erstellt haben, können Sie die Verbindungsinformation und Datasets mit den folgenden Werkzeugen ändern:

  • Dieses Geoverarbeitungswerkzeug wird unterstützt durch Spark. Weitere Informationen über Big-Daten-Verbindungen und deren Verwendung finden Sie unter Big-Data-Verbindungen.

Syntax

arcpy.gapro.CreateBDC({bdc_location}, bdc_name, connection_type, {data_source_folder}, {visible_geometry}, {visible_time})
ParameterErklärungDatentyp
bdc_location
(optional)

Der Ordner, in dem die .bdc-Datei erstellt wird.

Folder
bdc_name

Der Name der zu erstellenden .bdc-Datei.

String
connection_type

Legt den Typ der zu erstellenden Verbindung fest.

  • FOLDERStellen Sie eine Verbindung mit einem Speicherort im Dateisystem her. Dies ist die Standardeinstellung.
String
data_source_folder
(optional)

Der Ordner, der die Datasets enthält, die bei der BDC registriert werden sollen.

Folder
visible_geometry
(optional)

Legt fest, ob die für die Angabe der Geometrie verwendeten Felder als Felder sichtbar sind, wenn die BDC-Datei als Eingabe für andere Geoverarbeitungswerkzeuge genutzt wird. Auch wenn die Geometriefelder nicht sichtbar sind, wird die Geometrie auf das Dataset angewendet. Die Einstellung für die Sichtbarkeit der Geometrie kann in der BDC geändert werden.

  • GEOMETRY_VISIBLEGeometriefelder werden als Felder für die Analyse einbezogen. Dies ist die Standardeinstellung.
  • GEOMETRY_NOT_VISIBLEGeometriefelder werden als Felder für die Analyse nicht einbezogen.
Boolean
visible_time
(optional)

Legt fest, ob die für die Angabe der Zeit verwendeten Felder als Felder sichtbar sind, wenn die BDC-Datei als Eingabe für andere Geoverarbeitungswerkzeuge genutzt wird. Auch wenn die Zeitfelder nicht sichtbar sind, wird die Zeit auf das Dataset angewendet. Die Einstellung für die Sichtbarkeit der Zeit kann in der BDC geändert werden.

  • TIME_VISIBLEZeitfelder werden als Felder für die Analyse einbezogen. Dies ist die Standardeinstellung.
  • TIME_NOT_VISIBLEZeitfelder werden als Felder für die Analyse nicht einbezogen.
Boolean

Abgeleitete Ausgabe

NameErklärungDatentyp
output_bdc

Die .bdc-Datei, die erstellt wird.

Datei

Codebeispiel

CreateBDC (eigenständiges Skript)

Das folgende Python-Skript veranschaulicht, wie die Funktion CreateBDC verwendet wird.

# Name: CreateBigDataConnection.py
# Description: Establishes a connection to a folder location containing one or 
#              more datasets. Datasets will be used as input to GeoAnalytics 
#              Desktop Tools.
#
# Requirements: ArcGIS Pro Advanced License
# Import system modules
import arcpy
# Set local variables
sourceFolder = r"\\FileShare\MyLargeDatasets"
outName = "my_new_BigDataConnection"
outFolder = r"c:\Projects\MyProjectFolder"
time = "TIME_NOT_VISIBLE"
geometry = "GEOMETRY_VISIBLE"
# Execute Create Big Data Connection
arcpy.gapro.CreateBDC(outFolder, outName, "FOLDER", sourceFolder, geometry, time)

Umgebungen

Dieses Werkzeug verwendet keine Geoverarbeitungsumgebungen.

Lizenzinformationen

  • Basic: Nein
  • Standard: Nein
  • Advanced: Ja

Verwandte Themen