Zusammenfassung
Erstellt eine Big-Data-Verbindungsdatei (.bdc) und ein entsprechendes Element. In einer Big-Data-Verbindung (BDC) registrierte Datasets können als Eingabe für GeoAnalytics Desktop-Werkzeuge und andere Geoverarbeitungswerkzeuge verwendet werden.
Verwendung
Verwenden Sie dieses Werkzeug, um eine Verbindung mit einem oder mehreren Datasets herzustellen, die Sie als Eingabe für Geoverarbeitungswerkzeuge nutzen können.
Big-Data-Verbindungen unterstützen die folgenden Datasets:
- Dateien mit Trennzeichen (z. B. .csv, .tsv und .txt)
- Shapefiles (.shp)
- Parquet-Dateien (.gz.parquet)
Hinweis:
Nur nicht verschlüsselte Parquet-Dateien werden unterstützt.
- ORC-Dateien (orc.crc)
Weiteren Informationen zu unterstützten Dateitypen finden Sie unter Überblick über das Toolset "Big-Data-Verbindungen".
Zur Verwendung von Datasets als Eingaben in einer BDC müssen die Daten richtig strukturiert sein. Um Ihre Daten für eine Big-Data-Verbindung vorzubereiten, formatieren Sie die Datasets als Unterordner unter einem einzelnen Quellordner, den Sie dann registrieren. Die Namen der Unterordner innerhalb dieses Quellordners entsprechen den Dataset-Namen.
Die obige Abbildung stellt die richtige Struktur einer BDC dar. Der Quellordner wird registriert, und jeder Unterordner im Quellordner entspricht einem Dataset. In diesem Beispiel würden Sie den Quellordner registrieren, und die BDC würde drei Datasets enthalten: Dataset-1, Dataset-2 und Dataset-3.
Weitere Informationen zum Strukturieren einer Big-Data-Verbindung
Geben Sie mit dem Parameter Datenquellenordner den Quellspeicherort an, von der Sie eine BDC erstellen möchten.
Eine BDC kann lokal auf Ihrem Computer oder auf einem Netzlaufwerk gespeichert werden. Wenn Sie eine BDC freigeben, stellen Sie sicher, dass Sie einen Quellspeicherort verwenden, auf den alle Benutzer zugreifen können. Es wird davon abgeraten, eine BDC im Quellordner zu speichern.
Um in einem Projekt auf eine BDC zuzugreifen, fügen Sie den Speicherort der gespeicherten BDC als Ordnerverbindung hinzu.
Durch das Festlegen der Geometrie- und Zeitsichtbarkeit wird die Geometrie bzw. die Zeit nicht aus den Datasets entfernt. Die Zeit- und Geometrieeinstellungen gelten immer. Beispiel: Wenn die Geometrie für ein Punkt-Dataset mit den beiden Feldern latitude und longitude dargestellt wird, funktioniert die Sichtbarkeitseinstellung für Ihr Dataset wie folgt:
- Sichtbar: Die Felder latitude und longitude sind in Parametern und Ergebnissen von Geoverarbeitungswerkzeugen verfügbar.
- Nicht sichtbar: Die Felder latitude und longitude sind in Parametern und Ergebnissen von Geoverarbeitungswerkzeugen nicht verfügbar.
In beiden Fällen wird die Geometrie des Datasets von den Feldern latitude und longitude definiert.
Sie sollten die Geometriefelder auf "Nicht sichtbar" festlegen, wenn Sie die Geometrie mit langen Zeichenfolgenwerten wie WKT darstellen.
Die manuelle Änderung einer .bdc-Datei ist nicht empfehlenswert. Eine .bdc-Datei enthält folgende Eigenschaften:
- Verbindungsinformationen: Der Quellenpfad
- Dataset-Informationen: Namen, Typen, Felder, Geometrie und Zeit der Datasets
Die Werkzeugmeldungen enthalten die folgenden Informationen zu den ermittelten Datasets und deren Status:
- Erfolgreich: Neue Datasets, die ermittelt und zur BDC hinzugefügt wurden
- Fehlgeschlagen: Datasets, die nicht erfolgreich zur BDC hinzugefügt wurden
Beim Ermitteln von Datasets in Ihrer BDC können zwei Probleme auftreten:
- Erwartete Datasets fehlen. Überprüfen Sie in diesem Fall, ob der als Quellordner angegebene Pfad, der die Unterordner enthält, richtig ist und einen unterstützten Datentyp aufweist.
- Mindestens ein Dataset wird nicht registriert. Wenn Datasets nicht registriert werden, könnte Ihnen Folgendes auffallen:
Problem Lösung Beispiel Das Dataset hat nicht das erwartete Format.
Öffnen Sie die Datei, um festzustellen, ob sie wie erwartet aussieht. Wenn die Daten falsch strukturiert sind, ändern Sie dies, und versuchen Sie es erneut.
Eine .csv-Datei enthält einige Zeilen und eine Zusammenfassung der Daten und dann nur leere Zeilen.
Die Schemas von Datasets in einem Ordner stimmen nicht überein.
Alle Dateien in einem Dataset-Ordner müssen das gleiche Schema aufweisen. Öffnen Sie die Dateien, um die Schemas zu vergleichen. Beheben Sie Schemakonflikte, und wiederholen Sie das Registrieren des Datasets.
Sie haben eine .csv-Datei mit 10 Feldern und eine mit 8.
Die Dateitypen eines Datasets in einem Ordner stimmen nicht überein.
Alle Dateien in einem Dataset-Ordner müssen die gleiche Erweiterung (Dateityp) aufweisen. Überprüfen Sie die Dateitypen des Datenquellenspeicherorts, und entfernen oder verschieben Sie falsch platzierte Dateien.
Ein Shapefile-Dataset befindet sich im gleichen Ordner wie eine Parquet-Datei.
Ein Feldformat wurde nicht erkannt.
Dies ist unwahrscheinlich, aber möglich, wenn ORC und Parquet ein unerwartetes Format verwenden. Stellen Sie sicher, dass Sie gültige Feldformate verwenden.
Sie haben eine Parquet-Datei mit einem unbekannten Feldformat.
Weitere Informationen zu den Gründen, aus denen Datasets nicht zu einer BDC-Datei hinzugefügt wurden
Nachdem Sie eine BDC erstellt haben, können Sie die Verbindungsinformation und Datasets mit den folgenden Werkzeugen ändern:
- Dataset aus Big-Data-Verbindung kopieren: Kopiert ein Dataset aus einer BDC in eine Feature-Class.
- Dataset aus Big-Data-Verbindung duplizieren: Erstellt eine Sicht eines vorhandenen BDC-Datasets.
- Big-Data-Verbindung aktualisieren: Prüft auf neue Datasets und fügt sie der BDC hinzu.
- Dataset aus Big-Data-Verbindung entfernen: Entfernt ein Dataset aus der BDC.
- Eigenschaften des Big-Data-Verbindungs-Datasets aktualisieren: Ändert die Eigenschaften eines einzelnen BDC-Datasets.
- Vorschau von Dataset aus Big-Data-Verbindung anzeigen: Zeigt eine Vorschau der ersten zehn Features im Dataset an, um zu überprüfen, ob sie richtig registriert wurden.
- Dataset beschreiben: Um zu überprüfen, ob das Dataset wie erwartet dargestellt wird.
Dieses Geoverarbeitungswerkzeug wird unterstützt durch Spark. Weitere Informationen über Big-Daten-Verbindungen und deren Verwendung finden Sie unter Big-Data-Verbindungen.
Syntax
CreateBDC({bdc_location}, bdc_name, connection_type, {data_source_folder}, {visible_geometry}, {visible_time})
Parameter | Erklärung | Datentyp |
bdc_location (optional) | Der Ordner, in dem die .bdc-Datei erstellt wird. | Folder |
bdc_name | Der Name der zu erstellenden .bdc-Datei. | String |
connection_type | Legt den Typ der zu erstellenden Verbindung fest.
| String |
data_source_folder (optional) | Der Ordner, der die Datasets enthält, die bei der BDC registriert werden sollen. | Folder |
visible_geometry (optional) | Legt fest, ob die für die Angabe der Geometrie verwendeten Felder als Felder sichtbar sind, wenn die BDC-Datei als Eingabe für andere Geoverarbeitungswerkzeuge genutzt wird. Auch wenn die Geometriefelder nicht sichtbar sind, wird die Geometrie auf das Dataset angewendet. Die Einstellung für die Sichtbarkeit der Geometrie kann in der BDC geändert werden.
| Boolean |
visible_time (optional) | Legt fest, ob die für die Angabe der Zeit verwendeten Felder als Felder sichtbar sind, wenn die BDC-Datei als Eingabe für andere Geoverarbeitungswerkzeuge genutzt wird. Auch wenn die Zeitfelder nicht sichtbar sind, wird die Zeit auf das Dataset angewendet. Die Einstellung für die Sichtbarkeit der Zeit kann in der BDC geändert werden.
| Boolean |
Abgeleitete Ausgabe
Name | Erklärung | Datentyp |
output_bdc | Die .bdc-Datei, die erstellt wird. | Datei |
Codebeispiel
Das folgende Python-Skript veranschaulicht, wie die Funktion CreateBDC verwendet wird.
# Name: CreateBigDataConnection.py
# Description: Establishes a connection to a folder location containing one or
# more datasets. Datasets will be used as input to GeoAnalytics
# Desktop Tools.
#
# Requirements: ArcGIS Pro Advanced License
# Import system modules
import arcpy
# Set local variables
sourceFolder = r"\\FileShare\MyLargeDatasets"
outName = "my_new_BigDataConnection"
outFolder = r"c:\Projects\MyProjectFolder"
time = "TIME_NOT_VISIBLE"
geometry = "GEOMETRY_VISIBLE"
# Execute Create Big Data Connection
arcpy.gapro.CreateBDC(outFolder, outName, "FOLDER", sourceFolder, geometry, time)
Umgebungen
Lizenzinformationen
- Basic: Nein
- Standard: Nein
- Advanced: Ja