Big-Data-Verbindungen

Mit einer Big-Data-Verbindung (BDC) können Sie schnell Verbindungen mit Datenquellen herstellen, um große Datasets zu visualisieren und zu analysieren. Eine BDC bietet Funktionen und Flexibilität bei der Arbeit mit Daten und deren Formatierung.

Eine BDC referenziert einen Ordner aus einem oder mehreren Datasets. Datasets werden in einer BDC als Eingabe-Feature-Daten (Punkte, Polylinien, Polygone und Tabellendaten) für Geoverarbeitungswerkzeuge genutzt. Wenn Sie eine BDC einrichten, wird eine .bdc-Datei erstellt. Diese Datei verweist auf ein Verzeichnis mit Datasets, das die Datasets und deren Schema in der BDC beschreibt, einschließlich Geometrie- und Zeitinformationen. Sie können in Geoverarbeitungswerkzeugen nach BDC-Datasets suchen und sie auf der Karte anzeigen. Nachfolgend finden Sie Beispiele für den Einsatz einer BDC:

  • Sie haben mehrere Shapefiles, die eine große Fläche darstellen. Jedes Shapefile stellt eine Teilmenge der Fläche dar, und Sie möchten diese Shapefiles zusammen verwenden.
  • Sie erhalten täglich eine neue .csv-Datei mit Temperaturmessungen. Sie möchten die neue .csv-Datei in ein Dataset mit Ihren vorhandenen .csv-Dateien einbeziehen.
  • Sie nutzen Daten, die mehrere Felder aufweisen, die den Zeitpunkt eines Ereignisses darstellen. Sie möchten alle Felder verwenden, um den Zeitpunkt darzustellen.
  • Sie verwenden Parquet-Dateien.

Aus folgenden Gründen können Sie eine BDC als Eingabe für Geoverarbeitungswerkzeuge einsetzen:

  • Sie können mehrere Datasets mit dem gleichen Schema und Dateityp als ein Dataset darstellen.
  • Eine BDC greift während der Analyse auf die Daten zu, sodass Sie in der BDC Daten eines vorhandenen Datasets hinzufügen können, ohne die Daten erneut registrieren oder veröffentlichen zu müssen.
  • Sie können die BDC ändern, um Datasets zu entfernen, hinzuzufügen oder um zu aktualisieren, welche sichtbar sind.
  • Big-Data-Verbindungen (Big data connections, BDC) sind flexibel in Bezug auf die Definition von Zeit und Geometrie und lassen mehrere Zeitformate innerhalb eines Datasets zu.

Unterstützte Datenformate

Big-Data-Verbindungen unterstützen die folgenden Datasets:

  • Dateien mit Trennzeichen (z. B. .csv, .tsv und .txt)
  • Shapefiles (.shp)
  • Parquet-Dateien (.gz.parquet)
    Hinweis:

    Nur nicht verschlüsselte Parquet-Dateien werden unterstützt.

  • ORC-Dateien (orc.crc)

Wenn Sie eine BDC in GeoAnalytics Desktop-Werkzeugen verwenden, werden alle Eingabe-Formate unterstützt. Wenn Sie BDC-Datasets in anderen Geoverarbeitungswerkzeugen nutzen, werden nur durch Trennzeichen getrennte Dateien und Shapefiles unterstützt.

Weitere Informationen über Analysen mit BDC-Dateien

Terminologie im Zusammenhang mit Big-Data-Verbindungen

In der folgenden Tabelle sind gängige Begriffe für die Arbeit mit BDCs aufgeführt.

BegriffBeschreibung

Big-Data-Verbindung

Das Element, das die BDC-Datei darstellt. Diese BDC kann erweitert werden, um Datasets anzuzeigen, und sie kann für die Nutzung in Geoverarbeitungswerkzeugen durchsucht werden. Diese Verbindungsdatei ist die ArcGIS Pro-Schnittstelle für Ihre BDC-Datei.

Big-Data-Verbindungsdatei

Die Datei (.bdc), die beim Erstellen einer BDC mit dem Werkzeug Big-Data-Verbindung erstellen erstellt und gespeichert wird. Die Datei bietet Informationen zu den enthaltenen Datasets und Schemas sowie Geometrie- und Zeiteigenschaften. Wenn Sie diese Datei in ArcGIS Pro anzeigen, ist sie ein BDC-Element.

Weitere Informationen zu Big-Data-Verbindungsdateien

Big-Data-Verbindungs-Dataset

Ein Dataset in Ihrer BDC. Sie können dieses Dataset zu einer Karte hinzufügen oder als Eingabe für Geoverarbeitungswerkzeuge verwenden.

Quellenposition

Der als BDC registrierte Verzeichnispfad. Dieser Speicherort enthält einen oder mehrere Ordner, die BDC-Datasets darstellen. Mit Werkzeugen für Big-Data-Verbindungen wird dieser Ordner nicht geändert.

Quelldaten

Die in der BDC registrierten Datasets. Wenn Sie eine BDC verwenden, werden die Quelldaten nicht geändert. Mit Werkzeugen für Big-Data-Verbindungen werden diese Daten nicht geändert.

Verwenden einer BDC

Um BDCs vorzubereiten und zu verwenden, sind die folgenden Schritte erforderlich:

  1. Strukturieren Sie die Eingabedaten.
  2. Konfigurieren Sie eine BDC.
  3. Visualisieren Sie ein BDC-Dataset.
  4. Verwenden Sie BDC-Datasets in Analysen.

Strukturieren der Eingabedaten

Zur Verwendung von Datasets als Eingaben in einer BDC müssen die Daten richtig strukturiert sein. Um Ihre Daten für eine Big-Data-Verbindung vorzubereiten, formatieren Sie die Datasets als Unterordner unter einem einzelnen Quellordner, den Sie dann registrieren. Die Namen der Unterordner innerhalb dieses Quellordners entsprechen den Dataset-Namen.

Ein Quellordner mit drei Dataset-Unterordnern
Ein Quellordner, der drei Unterordner enthält, die jeweils ein Dataset darstellen, ist abgebildet.

Die obige Abbildung stellt die richtige Struktur einer BDC dar. Der Quellordner wird registriert, und jeder Unterordner im Quellordner entspricht einem Dataset. In diesem Beispiel würden Sie den Quellordner registrieren, und die BDC würde drei Datasets enthalten: Dataset-1, Dataset-2 und Dataset-3.

In den Dataset-Unterordnern können Sie die Daten nach Bedarf strukturieren. Wenn Ihre Unterordner mehrere Ordner oder Dateien enthalten, werden sämtliche Inhalte der Unterordner als ein Dataset gelesen und müssen das gleiche Schema und den gleichen Dateityp verwenden.

Hinweis:

Alle Dateien in einem Dataset-Ordner weisen das gleiche Schema auf. Wenn eine Datei ein anderes Schema aufweist, wird sie bei der Visualisierung und Analyse nicht korrekt verwendet.

Die folgende Abbildung zeigt drei Datasets mit unterschiedlichen Strukturen und Dateiinhalten:

Beispiel für einen Quellordner und Inhalte
Beispielregistrierungen mit einem Quellordner, drei Dataset-Ordnern und deren Inhalte sind dargestellt.

In diesem Beispiel enthalten die gleichen drei Dataset-Ordner unterschiedliche Inhalte. Die einzelnen Datasets werden im Folgenden erläutert:

  • Dataset-1: Dieses Dataset besteht nur aus der Datei D1-1. Wenn Dataset-1 zur Visualisierung oder Analyse herangezogen wird, wird nur ein Shapefile verwendet.
  • Dataset-2: Dieses Dataset besteht aus zwei Textdateien: D2-1 und D2-2. Wenn Dataset-2 zur Visualisierung oder Analyse herangezogen wird, werden beide Textdateien verwendet.
  • Dataset-3: Dieses Dataset besteht aus den beiden Ordnern D3-Folder-1 und D3-Folder-2, die jeweils ein Dataset enthalten: D3-1 und D3-2. Wenn Dataset-3 zur Visualisierung oder Analyse herangezogen wird, werden D3-1 und D3-2 verwendet.

Dies sind Beispiele für das Strukturieren der Daten. Die Anzahl von Dateien oder Ordnern ändert nicht, wie die Daten zur Visualisierung oder Analyse verwendet werden. Das Hinzufügen oder Entfernen von Unterordnern aus den Dataset-Ordnern hat keine Vorteile. Auf dieser Ebene ist das Strukturieren der Ordner optional.

Konfigurieren einer BDC

Um eine BDC zu verwenden, müssen Sie eine erstellen. Um eine BDC zu erstellen, verwenden Sie das Geoverarbeitungswerkzeug Big-Data-Verbindung erstellen.

Beim Ermitteln von Datasets in Ihrer BDC können zwei Probleme auftreten:

  • Erwartete Datasets fehlen. Überprüfen Sie in diesem Fall, ob der als Quellordner angegebene Pfad, der die Unterordner enthält, richtig ist und einen unterstützten Datentyp aufweist.
  • Mindestens ein Dataset wird nicht registriert. Wenn Datasets nicht registriert werden, könnte Ihnen Folgendes auffallen:

    ProblemLösungBeispiel

    Das Dataset hat nicht das erwartete Format.

    Öffnen Sie die Datei, um festzustellen, ob sie wie erwartet aussieht. Wenn die Daten falsch strukturiert sind, ändern Sie dies, und versuchen Sie es erneut.

    Eine .csv-Datei enthält einige Zeilen und eine Zusammenfassung der Daten und dann nur leere Zeilen.

    Die Schemas von Datasets in einem Ordner stimmen nicht überein.

    Alle Dateien in einem Dataset-Ordner müssen das gleiche Schema aufweisen. Öffnen Sie die Dateien, um die Schemas zu vergleichen. Beheben Sie Schemakonflikte, und wiederholen Sie das Registrieren des Datasets.

    Sie haben eine .csv-Datei mit 10 Feldern und eine mit 8.

    Die Dateitypen eines Datasets in einem Ordner stimmen nicht überein.

    Alle Dateien in einem Dataset-Ordner müssen die gleiche Erweiterung (Dateityp) aufweisen. Überprüfen Sie die Dateitypen des Datenquellenspeicherorts, und entfernen oder verschieben Sie falsch platzierte Dateien.

    Ein Shapefile-Dataset befindet sich im gleichen Ordner wie eine Parquet-Datei.

    Ein Feldformat wurde nicht erkannt.

    Dies ist unwahrscheinlich, aber möglich, wenn ORC und Parquet ein unerwartetes Format verwenden. Stellen Sie sicher, dass Sie gültige Feldformate verwenden.

    Sie haben eine Parquet-Datei mit einem unbekannten Feldformat.

Wenn Sie eine BDC mit einer durch Trennzeichen getrennten Datei erstellen und keine Kopfzeilen dargestellt werden, ist die Kopfzeile möglicherweise ungültig. Stellen Sie sicher, dass alle Felder eine Kopfzeile aufweisen und dass keine davon leer ist. Bei Bedarf können Sie die Feldnamen mit dem Werkzeug Eigenschaften des Big-Data-Verbindungs-Datasets aktualisieren aktualisieren.

Wenn Sie eine BDC erstellen, werden Schema, Geometrie und Zeit für jedes der Datasets ermittelt. Häufig können Sie ändern, wie die Datasets diese Werte darstellen. Überprüfen Sie mit dem Geoverarbeitungswerkzeug Dataset beschreiben, ob jedes Dataset Geometrie, Zeit und Felder richtig darstellt. Wenn Sie Ihre Datasets prüfen, könnten Sie beispielsweise die folgenden Änderungen an einem oder mehreren Datasets in Ihrer BDC vornehmen:

  • Ändern Sie die Feldnamen von durch Trennzeichen getrennten Datasets.
  • Ändern Sie, welche Felder für Analysen sichtbar sind.
  • Ändern Sie die Felder, mit denen Geometrie und Zeit dargestellt werden.
  • Fügen Sie einen Filter zu einem Dataset hinzu.
  • Fügen Sie einen Alias zu einem Dataset hinzu.
  • Entfernen Sie Datasets aus der BDC, die Sie nicht analysieren möchten.
  • Aktualisieren Sie die BDC, damit sie ein neu hinzugefügtes Dataset enthält (ein neuer Unterordner unter dem Quellordner).

Diese optionalen Änderungen können Sie mit einer beliebigen Kombination der folgenden Werkzeuge vornehmen:

Visualisieren eines BDC-Datasets

Durch Trennzeichen getrennte und auf Shapefiles basierende BDC-Datasets können auf einer Karte visualisiert werden.

Hinweis:
BDC-Datasets, die Parquet- und ORC-Quelldateien verwenden, können nicht visualisiert werden.

Um Ihr Dataset zur Karte hinzuzufügen, suchen Sie im Bereich Katalog nach dem BDC-Element, klicken Sie, um die Datasets zu erweitern, und fügen Sie das Dataset zur Karte hinzu.

Big-Data-Verbindungs-Datasets weisen im Karten-Viewer eine vereinfachte Benutzeroberfläche und folgende Beschränkungen auf:

  • Beim Visualisieren von BDC-Datasets werden die Zeiteigenschaften in den BDC-Dataset-Eigenschaften im neuen Layer nicht automatisch festgelegt. Um das Dataset mit Zeitangaben zu visualisieren, legen Sie die Zeiteigenschaften des Layers nach dem Hinzufügen des Datasets zur Karte fest.
  • Durch die Darstellung von durch Trennzeichen getrennten Dateien wird auf die volle Ausdehnung des Raumbezugs des BDC-Datasets gezoomt.
  • Wenn Sie neue Datensätze zu einem vorhandenen BDC-Dataset hinzufügen, beispielsweise neue Zeilen zu einer CSV-Datei in einer vorhandenen BDC, werden die neuen Datensätze erst dargestellt, nachdem Sie ArcGIS Pro gestartet haben.
  • Wenn Sie neue Dateien, beispielsweise eine neue CSV-Datei, zu einem vorhandenen BDC-Dataset hinzufügen, werden die neuen Datensätze erst dargestellt, nachdem Sie ArcGIS Pro gestartet haben.

Verwenden von BDC-Datasets in Analysen

Wenn BDC-Datasets als Eingaben für GeoAnalytics Desktop-Werkzeuge verwendet werden, wird die Analyse so optimiert, dass die Daten gelesen und parallel auf den Kernen des Computers ausgeführt werden. In allen Geoverarbeitungswerkzeugen ist das Lesen und Verarbeiten von BDC-Datasets nicht so optimiert, dass es parallel erfolgt, sondern sequenziell und in einem Thread.

Big-Data-Verbindungs-Datasets, die auf durch Trennzeichen getrennte Dateien oder Shapefiles basieren, können in den meisten Geoverarbeitungswerkzeugen verwendet werden.

Hinweis:
BDC-Datasets, die Parquet- und ORC-Quelldateien verwenden, können nur in GeoAnalytics Desktop-Werkzeugen genutzt werden.

Sie können keine Auswahl auf ein BDC-Dataset anwenden, während es als Eingabe für ein GeoAnalytics Desktop-Werkzeug verwendet wird.

Um ein BDC-Dataset in einem Geoverarbeitungswerkzeug zu verwenden, fügen Sie ein BDC-Dataset zu einer Karte hinzu, und wählen Sie den Layer-Namen aus der Auswahlliste der Parameter aus. Navigieren Sie alternativ über die Schaltfläche "Durchsuchen" zu einem BDC-Workspace, und wählen Sie das Eingabe-Dataset aus. Die folgenden Werkzeuge unterstützen keine BDC-Eingabedateien:

Verwandte Themen