Einführung in Deep Learning—ArcGIS Pro

Einführung in Deep Learning

Werkzeuge für maschinelles Lernen sind seit Jahrzehnten eine Kernkomponente der räumlichen Analyse in GIS. In ArcGIS wurde maschinelles Lernen eingesetzt, um Bildklassifizierungen durchzuführen, Daten durch Cluster-Bildung anzureichern oder räumliche Beziehungen zu modellieren. Maschinelles Lernen ist ein Teilgebiet der künstlichen Intelligenz, die strukturierte Daten mittels eines Algorithmus verarbeitet, um ein Problem zu lösen. Bei herkömmlichen strukturierten Daten muss eine Person die Daten, z. B. Bilder von Katzen und Hunden, beschriften, sodass die spezifischen Merkmale der Tierart innerhalb des Algorithmus verstanden und zur Identifizierung dieser Tiere in anderen Bildern verwendet werden können.

Deep Learning ist eine Unterform des maschinellen Lernens, bei der mehrere Schichten von Algorithmen in Form von neuronalen Netzwerken verwendet werden. Die Eingabedaten werden durch verschiedene Schichten des Netzwerks analysiert, wobei jede Schicht bestimmte Features und Muster in den Daten definiert. Wenn Sie beispielsweise Features wie Gebäude und Straßen identifizieren möchten, wird das Deep-Learning-Modell mit Bildern verschiedener Gebäude und Straßen trainiert, wobei die Bilder durch Schichten innerhalb des neuronalen Netzwerks verarbeitet werden. Anschließend wird nach den zur Klassifizierung eines Gebäudes oder einer Straße erforderlichen Merkmalen gesucht.

Beziehung zwischen künstlicher Intelligenz, maschinellem Lernen und Deep Learning

Esri hat Werkzeuge und Workflows entwickelt, um aktuelle Innovationen beim Deep Learning zu nutzen und Antworten auf einige komplexe Fragen in GIS- und Fernerkundungsanwendungen zu finden. Computer Vision oder die Fähigkeit von Computern, aus digitalen Bildern oder Videos Verständnis zu gewinnen, ist ein Bereich, in dem die traditionellen Algorithmen des maschinellen Lernens durch Deep-Learning-Methoden abgelöst wurden. Bevor das Deep Learning auf Bilddaten in ArcGIS Pro angewendet wird, ist es wichtig, die unterschiedlichen Anwendungen für Deep Learning im Bereich Computer Vision zu verstehen.

Anwendungen für Deep Learning im Bereich Computer Vision

Zahlreiche Computer-Vision-Aufgaben können mithilfe der beim Deep Learning eingesetzten neuronalen Netzwerke gelöst werden. Esri hat Werkzeuge für die Bildklassifizierung, Objekterkennung, semantische Segmentierung und Instanzsegmentierung entwickelt. Im Folgenden werden alle diese Computer-Vision-Aufgaben beschrieben, wobei jeweils ein Beispiel für die Fernerkundung und ein allgemeineres Beispiel für Computer Vision gegeben wird.

Bildklassifizierung

Bei der Bildklassifizierung wird einem digitalen Bild eine Beschriftung oder Klasse zugewiesen. Beispielsweise könnte das Drohnenbild unten links die Beschriftung "Menschenmenge" und das digitale Foto rechts die Beschriftung "Katze" erhalten. Dieser Klassifizierungstyp wird auch als Objektklassifizierung oder Bilderkennung bezeichnet und kann in GIS zur Kategorisierung von Features in einem Bild verwendet werden.

Objekterkennung

Die Objekterkennung ist der Prozess der Verortung von Features in einem Bild. Im nachfolgenden Fernerkundungsbild z. B. hat das neuronale Netzwerk die Position eines Flugzeugs ermittelt. In einem allgemeineren Anwendungsfall für Computer Vision könnte ein Modell beispielsweise die Positionen verschiedener Tiere erkennen. Hierzu wird im Allgemeinen ein Rahmen um relevante Features gezeichnet. In GIS wird dieser Prozess verwendet, um in Satelliten-, Luft- oder Drohnenbilddaten nach bestimmten Features zu suchen und diese auf einer Karte darzustellen.

Semantische Segmentierung

Von semantischer Segmentierung spricht man, wenn jedes Pixel in einem Bild entsprechend seiner Zugehörigkeit zu einer Klasse klassifiziert wird. Im Bild unten links werden Straßen- und Nicht-Straßenpixel unterschiedlich klassifiziert. Auf der rechten Seite werden Pixel, die in dem Foto eine Katze darstellen, als "Katze" klassifiziert, während die anderen Pixel des Bildes anderen Klassen angehören. In GIS wird dies häufig auch als Pixelklassifizierung, Bildsegmentierung oder Bildklassifizierung bezeichnet. Sie wird häufig bei der Erstellung von Karten zur Landnutzungsklassifizierung verwendet.

Instanzsegmentierung

Die Instanzsegmentierung ist eine präzisere Methode der Objekterkennung, bei der die Grenze jeder Objektinstanz eingezeichnet wird. Diese Deep-Learning-Anwendung wird auch als Objektsegmentierung bezeichnet.