Werkzeuge für maschinelles Lernen sind seit Jahrzehnten eine Kernkomponente der räumlichen Analyse in GIS. In ArcGIS wurde maschinelles Lernen eingesetzt, um Bildklassifizierungen durchzuführen, Daten durch Cluster-Bildung anzureichern oder räumliche Beziehungen zu modellieren. Maschinelles Lernen ist ein Teilgebiet der künstlichen Intelligenz, die strukturierte Daten mittels eines Algorithmus verarbeitet, um ein Problem zu lösen. Bei herkömmlichen strukturierten Daten muss eine Person die Daten, z. B. Bilder von Katzen und Hunden, beschriften, sodass die spezifischen Merkmale der Tierart innerhalb des Algorithmus verstanden und zur Identifizierung dieser Tiere in anderen Bildern verwendet werden können.
Deep Learning ist eine Unterform des maschinellen Lernens, bei der mehrere Schichten von Algorithmen in Form von neuronalen Netzwerken verwendet werden. Die Eingabedaten werden durch verschiedene Schichten des Netzwerks analysiert, wobei jede Schicht bestimmte Features und Muster in den Daten definiert. Wenn Sie beispielsweise Features wie Gebäude und Straßen identifizieren möchten, kann das Deep-Learning-Modell mit Bildern verschiedener Gebäude und Straßen trainiert werden, wobei die Bilder durch Schichten innerhalb des neuronalen Netzwerks verarbeitet werden. Anschließend wird nach den zur Klassifizierung eines Gebäudes oder einer Straße erforderlichen Merkmalen gesucht.
Esri hat Werkzeuge und Workflows entwickelt, um aktuelle Innovationen beim Deep Learning zu nutzen und Antworten auf einige komplexe Fragen in GIS- und Fernerkundungsanwendungen zu finden. Computer Vision oder die Fähigkeit von Computern, aus digitalen Bildern oder Videos Verständnis zu gewinnen, ist ein Bereich, in dem die traditionellen Algorithmen des maschinellen Lernens durch Deep-Learning-Methoden abgelöst wurden. Bevor das Deep Learning auf Bilddaten in ArcGIS Pro angewendet wird, ist es wichtig, die unterschiedlichen Anwendungen für Deep Learning im Bereich Computer Vision zu verstehen.
Anwendungen für Deep Learning im Bereich Computer Vision
Zahlreiche Computer-Vision-Aufgaben können mithilfe der beim Deep Learning eingesetzten neuronalen Netzwerke gelöst werden. Esri hat Werkzeuge für die Bildklassifizierung, Objekterkennung, semantische Segmentierung und Instanzsegmentierung entwickelt. Im Folgenden werden alle diese Computer-Vision-Aufgaben beschrieben, wobei jeweils ein Beispiel für die Fernerkundung und ein allgemeineres Beispiel für Computer Vision gegeben wird.
Bildklassifizierung
Bei der Bildklassifizierung wird einem digitalen Bild eine Beschriftung oder Klasse zugewiesen. Beispielsweise könnte das Drohnenbild unten links die Beschriftung "Menschenmenge" und das digitale Foto rechts die Beschriftung "Katze" erhalten. Dieser Klassifizierungstyp wird auch als Objektklassifizierung oder Bilderkennung bezeichnet und kann in GIS zur Kategorisierung von Features in einem Bild verwendet werden.
Objekterkennung
Die Objekterkennung ist der Prozess der Verortung von Features in einem Bild. Im nachfolgenden Fernerkundungsbild z. B. hat das neuronale Netzwerk die Position eines Flugzeugs ermittelt. In einem allgemeineren Anwendungsfall für Computer Vision könnte ein Modell beispielsweise die Positionen verschiedener Tiere erkennen. Hierzu wird im Allgemeinen ein Rahmen um relevante Features gezeichnet. In GIS wird dieser Prozess verwendet, um in Satelliten-, Luft- oder Drohnenbilddaten nach bestimmten Features zu suchen und diese auf einer Karte darzustellen.
Semantische Segmentierung
Von semantischer Segmentierung spricht man, wenn jedes Pixel in einem Bild entsprechend seiner Zugehörigkeit zu einer Klasse klassifiziert wird. Im Bild unten links werden Straßen- und Nicht-Straßenpixel unterschiedlich klassifiziert. Auf der rechten Seite werden Pixel, die in dem Foto eine Katze darstellen, als "Katze" klassifiziert, während die anderen Pixel des Bildes anderen Klassen angehören. In GIS wird dies häufig auch als Pixelklassifizierung, Bildsegmentierung oder Bildklassifizierung bezeichnet. Sie wird häufig bei der Erstellung von Karten zur Landnutzungsklassifizierung verwendet.
Instanzsegmentierung
Die Instanzsegmentierung ist eine präzisere Methode der Objekterkennung, bei der die Grenze jeder Objektinstanz eingezeichnet wird. Im Bild unten links werden die Hausdächer mit der genauen Umrisslinie der Dachform erkannt. Auf der rechten Seite werden Autos erkannt, wobei die unterschiedliche Form der Autos zu erkennen ist. Diese Deep-Learning-Anwendung wird auch als Objektsegmentierung bezeichnet.
Bild-zu-Bild-Übersetzung
Aufgabe der Bild-zu-Bild-Übersetzung ist die Konvertierung eines Bildes von einer möglichen Darstellung oder einem möglichen Style der Szene in eine andere mögliche Darstellung bzw. einen anderen möglichen Style, wie zum Beispiel Schalldämpfung oder Super-Resolution. Zum Beispiel zeigt das Bild unten links das ursprüngliche Bild mit niedriger Auflösung, während das Bild auf der rechten Seite das Ergebnis der Verwendung eines Super-Resolution-Modells zeigt. Diese Deep-Learning-Anwendung wird auch als Bild-zu-Bild-Übersetzung bezeichnet.
Änderungserkennung
In der Änderungserkennung werden Deep-Learning-Tasks zusammengefasst, die Änderungen in bestimmten Features zwischen zwei Datumsangaben erkennen und eine logische Änderungskarte generieren können. Zum Beispiel zeigt das Bild unten links eine Wohnbebauung im Zustand von vor fünf Jahren, während das Bild in der Mitte dieselbe Wohnbebauung im Zustand von heute zeigt. Das Bild auf der rechten Seite zeigt schließlich die logische Änderungskarte, auf der die neuen Häuser in Weiß dargestellt sind.