Was ist eine Big-Data-Verbindung?

Mit einer Big-Data-Verbindung (BDC) können Sie schnell Verbindungen mit Datenquellen herstellen, um große Datasets zu visualisieren und zu analysieren. Eine BDC bietet Funktionen und Flexibilität bei der Arbeit mit Daten und deren Formatierung.

Eine BDC referenziert einen Ordner aus einem oder mehreren Datasets. Datasets werden in einer BDC als Eingabe-Feature-Daten (Punkte, Polylinien, Polygone und Tabellendaten) für Geoverarbeitungswerkzeuge genutzt. Wenn Sie eine BDC einrichten, wird eine .bdc-Datei erstellt. Diese Datei verweist auf ein Verzeichnis mit Datasets, das die Datasets und deren Schema in der BDC beschreibt, einschließlich Geometrie- und Zeitinformationen. Sie können in Geoverarbeitungswerkzeugen nach BDC-Datasets suchen und sie auf der Karte anzeigen. Nachfolgend finden Sie Beispiele für den Einsatz einer BDC:

  • Sie haben mehrere Shapefiles, die eine große Fläche darstellen. Jedes Shapefile stellt eine Teilmenge der Fläche dar, und Sie möchten diese Shapefiles zusammen verwenden.
  • Sie erhalten täglich eine neue .csv-Datei mit Temperaturmessungen. Sie möchten die neue .csv-Datei in ein Dataset mit Ihren vorhandenen .csv-Dateien einbeziehen.
  • Sie nutzen Daten, die mehrere Felder aufweisen, die den Zeitpunkt eines Ereignisses darstellen. Sie möchten alle Felder verwenden, um den Zeitpunkt darzustellen.
  • Sie verwenden Parquet-Dateien.

Aus folgenden Gründen können Sie eine BDC als Eingabe für Geoverarbeitungswerkzeuge einsetzen:

  • Sie können mehrere Datasets mit dem gleichen Schema und Dateityp als ein Dataset darstellen.
  • Eine BDC greift während der Analyse auf die Daten zu, sodass Sie in der BDC Daten eines vorhandenen Datasets hinzufügen können, ohne die Daten erneut registrieren oder veröffentlichen zu müssen.
  • Sie können die BDC ändern, um Datasets zu entfernen, hinzuzufügen oder um zu aktualisieren, welche sichtbar sind.
  • Big-Data-Verbindungen (Big data connections, BDC) sind flexibel in Bezug auf die Definition von Zeit und Geometrie und lassen mehrere Zeitformate innerhalb eines Datasets zu.

Unterstützte Datenformate

Big-Data-Verbindungen unterstützen die folgenden Datasets:

  • Dateien mit Trennzeichen (z. B. .csv, .tsv und .txt)
  • Shapefiles (.shp)
  • Parquet-Dateien (.gz.parquet)
    Hinweis:

    Nur nicht verschlüsselte Parquet-Dateien werden unterstützt.

  • ORC-Dateien (orc.crc)

Wenn Sie eine BDC in GeoAnalytics Desktop-Werkzeugen verwenden, werden alle Eingabe-Formate unterstützt. Wenn Sie BDC-Datasets in anderen Geoverarbeitungswerkzeugen nutzen, werden nur durch Trennzeichen getrennte Dateien und Shapefiles unterstützt.

Weitere Informationen über Analysen mit BDC-Dateien

Terminologie im Zusammenhang mit Big-Data-Verbindungen

In der folgenden Tabelle sind gängige Begriffe für die Arbeit mit BDCs aufgeführt.

BegriffBeschreibung

Big-Data-Verbindung

Das Element, das die BDC-Datei darstellt. Diese BDC kann erweitert werden, um Datasets anzuzeigen, und sie kann für die Nutzung in Geoverarbeitungswerkzeugen durchsucht werden. Diese Verbindungsdatei ist die ArcGIS Pro-Schnittstelle für Ihre BDC-Datei.

Big-Data-Verbindungsdatei

Die Datei (.bdc), die beim Erstellen einer BDC mit dem Werkzeug Big-Data-Verbindung erstellen erstellt und gespeichert wird. Die Datei bietet Informationen zu den enthaltenen Datasets und Schemas sowie Geometrie- und Zeiteigenschaften. Wenn Sie diese Datei in ArcGIS Pro anzeigen, ist sie ein BDC-Element.

Weitere Informationen zu Big-Data-Verbindungsdateien

Big-Data-Verbindungs-Dataset

Ein Dataset in Ihrer BDC. Sie können dieses Dataset zu einer Karte hinzufügen oder als Eingabe für Geoverarbeitungswerkzeuge verwenden.

Quellenposition

Der als BDC registrierte Verzeichnispfad. Dieser Speicherort enthält einen oder mehrere Ordner, die BDC-Datasets darstellen. Mit Werkzeugen für Big-Data-Verbindungen wird dieser Ordner nicht geändert.

Quelldaten

Die in der BDC registrierten Datasets. Wenn Sie eine BDC verwenden, werden die Quelldaten nicht geändert. Mit Werkzeugen für Big-Data-Verbindungen werden diese Daten nicht geändert.

Strukturieren der Eingabedaten

Zur Verwendung von Datasets als Eingaben in einer BDC müssen die Daten richtig strukturiert sein. Um Ihre Daten für eine Big-Data-Verbindung vorzubereiten, formatieren Sie die Datasets als Unterordner unter einem einzelnen Quellordner, den Sie dann registrieren. Die Namen der Unterordner innerhalb dieses Quellordners entsprechen den Dataset-Namen.

Ein Quellordner mit drei Dataset-Unterordnern
Ein Quellordner, der drei Unterordner enthält, die jeweils ein Dataset darstellen, ist abgebildet.

Die obige Abbildung stellt die richtige Struktur einer BDC dar. Der Quellordner wird registriert, und jeder Unterordner im Quellordner entspricht einem Dataset. In diesem Beispiel würden Sie den Quellordner registrieren, und die BDC würde drei Datasets enthalten: Dataset-1, Dataset-2 und Dataset-3.

In den Dataset-Unterordnern können Sie die Daten nach Bedarf strukturieren. Wenn Ihre Unterordner mehrere Ordner oder Dateien enthalten, werden sämtliche Inhalte der Unterordner als ein Dataset gelesen und müssen das gleiche Schema und den gleichen Dateityp verwenden.

Hinweis:

Alle Dateien in einem Dataset-Ordner weisen das gleiche Schema auf. Wenn eine Datei ein anderes Schema aufweist, wird sie bei der Visualisierung und Analyse nicht korrekt verwendet.

Die folgende Abbildung zeigt drei Datasets mit unterschiedlichen Strukturen und Dateiinhalten:

Beispiel für einen Quellordner und Inhalte
Beispielregistrierungen mit einem Quellordner, drei Dataset-Ordnern und deren Inhalte sind dargestellt.

In diesem Beispiel enthalten die gleichen drei Dataset-Ordner unterschiedliche Inhalte. Die einzelnen Datasets werden im Folgenden erläutert:

  • Dataset-1: Dieses Dataset besteht nur aus der Datei: D1-1. Wenn Dataset-1 zur Visualisierung oder Analyse herangezogen wird, wird nur ein Shapefile verwendet.
  • Dataset-2: Dieses Dataset besteht aus zwei Textdateien: D2-1 und D2-2. Wenn Dataset-2 zur Visualisierung oder Analyse herangezogen wird, werden beide Textdateien verwendet.
  • Dataset-3: Dieses Dataset besteht aus den beiden Ordnern D3-Folder-1 und D3-Folder-2, die jeweils ein Dataset enthalten: D3-1 und D3-2. Wenn Dataset-3 zur Visualisierung oder Analyse herangezogen wird, werden D3-1 und D3-2 verwendet.

Dies sind Beispiele für das Strukturieren der Daten. Die Anzahl von Dateien oder Ordnern ändert nicht, wie die Daten zur Visualisierung oder Analyse verwendet werden. Das Hinzufügen oder Entfernen von Unterordnern aus den Dataset-Ordnern hat keine Vorteile. Auf dieser Ebene ist das Strukturieren der Ordner optional.

Weitere Informationen zur Verwendung von Big-Data-Verbindungen finden Sie unter Verwenden von Big-Data-Verbindungen.

Verwandte Themen