Funktionsweise von AutoDL

Ein typischer Projekt-Workflow für Deep Learning (DL) beginnt mit dem Identifizieren des Geschäftsproblems und dem Formulieren der Problembeschreibung oder Frage. Darauf folgt eine Reihe von Schritten, zu denen Folgendes gehört: Vorbereitung (oder Vorverarbeitung) der Daten, Modelltraining, Hyperparameter-Optimierung und Modellbewertung. Dabei handelt es sich um einen iterativen Prozess, und das optimale Modell wird oft erst nach mehreren Iterationen und Experimenten erreicht.

Deep-Learning-Workflow

Das für die Daten am besten geeignete Modell zu finden, erfordert viel Zeit, Aufwand und Kenntnisse des gesamten DL-Prozesses. Mit dem Werkzeug Mit AutoDL trainieren können Sie diesen gesamten Workflow automatisieren und die besten neuronalen Netze mit den am besten für die Daten geeigneten Hyperparametern identifizieren. In den folgenden Abschnitten werden die einzelnen Schritte des DL-Prozesses ausführlicher beschrieben.

Workflow für "Mit AutoDL trainieren"

Mit dem Werkzeug Mit AutoDL trainieren wird Folgendes automatisiert:

  • Datenerweiterung: Erfolgreiche DL-Projekte erfordern riesige Mengen an qualitativ hochwertigen Eingabedaten für eine konkrete Problemstellung. In der Praxis ist es jedoch schwierig, klassifizierte oder beschriftete Daten in großen Mengen zu beschaffen. Datenerweiterungstechniken werden angewendet, um die Datenmenge und die Datenvielfalt zu erhöhen, sodass sie den realen Daten ähneln. Die Datenerweiterung kann geometrische Transformationen, das Umdrehen, Zuschneiden und Konvertieren, Rauschinjektion usw. umfassen, was einen erheblichen Zeit- und Arbeitsaufwand für die DL-Experten bedeuten kann. Dieser Schritt ist in der Regel zeitaufwendig und mühsam und erfordert möglicherweise detaillierte fachgebietsspezifische Kenntnisse und Erfahrung.
  • Automatische Batch-Größen-Deduktion: Die Ausgabe des Werkzeugs Trainingsdaten mit Deep Learning exportieren ist ein Ordner, der ein Deep-Learning-Training-Dataset enthält. Diese exportierten Daten enthalten eine große Menge an Bildern, die basierend auf den verfügbaren Compute-Ressourcen in Batches gesendet werden müssen. Mit dem Werkzeug wird der Prozess zur Berechnung der optimalen Batch-Größe zum Trainieren des Deep-Learning-Modells auf Grundlage der verfügbaren Ressourcen automatisiert.
  • Modelltraining und Modellauswahl: Im Modelltrainingschritt wählen die DL-Experten basierend auf dem Problem und den Merkmalen der Daten das geeignete DL-Netz aus. Dann beginnt der iterative Prozess des Trainings der Modelle, um sie an die Daten anzupassen. Dabei wird häufig mit vielen verschiedenen DL-Netzen experimentiert. Für die einzelnen Algorithmen können unterschiedliche Hyperparameter verwendet werden, die manuell von den DL-Experten angegeben werden und den Lernvorgang des Modells steuern. Anschließend werden diese Hyperparameter optimiert (das heißt angepasst), um die Performance des Algorithmus zu verbessern und bessere Ergebnisse. zu erzielen. Hier handelt es sich um einen iterativen Prozess, der Zeitaufwand und Fachkenntnisse der DL-Experten erfordert. Zu den verschiedenen neuronalen Netzwerkmodellen gehören Objekterkennungsmodelle wie SingleShotDetector und RetinaNet, YoloV3, FasterRCNN und MMDetection. Pixelklassifizierungsmodelle wie UnetClassifier, PSPNetClassifier, DeepLab und MMSegmentation sind für bestimmte Daten besser geeignet. Es lässt sich schwer vorhersagen, welche Modelle sich gut für ein bestimmtes Dataset eignen. Daher müssen Sie alle Modelle ausprobieren, um ihre Performance zu vergleichen, bevor Sie sich für das am besten für die Daten geeignete Modell entscheiden.
  • Hyperparameter-Optimierung: Obwohl die meisten vorherigen Schritte iterativ waren, ist die Hyperparameter-Optimierung oft der schwierigste Schritt beim Trainieren von Modellen für maschinelles Lernen.

    Hyperparameter können als zu jedem Modell gehörende Schalthebel betrachtet werden. Zu den beim Trainieren des Modells verwendeten Hyperparametern gehört das Ableiten einer Lernrate und eines geeigneten Backbones.

  • Modellevaluierung: Der letzte Schritt im DL-Workflow ist die Modellbewertung, bei der Sie sich vergewissern, dass die trainierten und optimierten DL-Netze mit Daten, an die sie nicht angepasst wurden, gute Generalisierungsergebnisse liefern. Diese nicht bekannten Daten werden oft als Validierungs- oder Testsatz bezeichnet und bleiben getrennt von den übrigen zum Trainieren des Modells verwendeten Daten. Mit diesem letzten Schritt soll sichergestellt werden, dass mit den DL-Netzen bei neuen Daten eine akzeptable Vorhersagegenauigkeit erzielt wird.
  • In einem DL-Workflow gehört zu jedem Schritt ein gewisses Maß an menschlichen Beiträgen, Entscheidungsfindung und Auswahl.

    • Wurden die richtigen Daten für die Behandlung des Problems gesammelt und reichen sie aus?
    • Was kennzeichnet im Kontext der Daten eine Hintergrundklasse?
    • Durch was sollten etwaige falsch beschriftete Daten ersetzt werden?
    • Für wie viele Epochen sollte das DL-Modell trainiert werden?
    • Welches neuronale DL-Netzwerk sollte verwendet werden?
    • Welches Performance-Level ist für das Modell akzeptabel?
    • Wie sieht die beste Kombination aus Hyperparametern für ein bestimmtes Modell aus?

Allein bei der letzten Entscheidung können potenziell Hunderte oder sogar Tausende von Kombinationen aus Hyperparametern, die durchlaufen werden können, beteiligt sein. Wenn Sie viele DL-Netzwerke trainieren und optimieren, wird der Gesamtprozess unübersichtlich und unproduktiv. Darüber hinaus erfordern einige der Schritte des DL-Workflows technisches Expertenwissen bezüglich Data-Science-Methoden, Statistiken und Algorithmen für Deep Learning. Daher kann das Entwerfen und Ausführen von DL-Projekten zeitaufwendig, arbeitsintensiv, kostspielig und oft in hohem Maß von geschulten DL-Experten und Data Scientists abhängig sein.

Im letzten Jahrzehnt hatte Deep Learning ein rasches Wachstum zu verzeichnen, und zwar sowohl im Hinblick auf die Anwendungsbereiche als auch auf die Anzahl der neuen Forschungsarbeiten auf diesem Gebiet. Einige der wichtigsten Triebfedern dieses Wachstums sind die Reife der DL-Algorithmen und -Methoden selbst, die Erzeugung und Verbreitung enormer Datenmengen, von denen die Algorithmen lernen können, der Überfluss an günstiger Rechenleistung zum Ausführen der Algorithmen sowie das zunehmende Bewusstsein in Unternehmen, dass mit DL-Algorithmen komplexe Datenstrukturen und Probleme bewältigt werden können.

Viele Organisationen möchten mithilfe von DL ihre Daten nutzen und verwertbare Erkenntnisse aus ihnen gewinnen. Jedoch besteht eine Diskrepanz zwischen der Anzahl der potenziellen DL-Anwendungen und der Anzahl der dafür benötigten geschulten DL-Experten. Daher wird zunehmend gefordert, DL organisationsübergreifend zu demokratisieren, indem Werkzeuge entwickelt werden, mit denen DL überall in der Organisation zugänglich ist und von Nicht-DL-Experten und Fachexperten direkt verwendet werden kann.

In der letzten Zeit ist Automatisiertes Deep Learning (AutoDL) als Möglichkeit hervorgetreten, den enormen Bedarf an DL in Organisationen unabhängig von Erfahrungs- und Kenntnisniveau zu decken. AutoDL zielt darauf ab, ein einziges System für die weitestgehende Automatisierung (d. h. das Eliminieren der menschlichen Beiträge) des DL-Workflows einschließlich Datenvorbereitung, Datenerweiterung, Modellauswahl, Hyperparameter-Optimierung und Modellbewertung zu schaffen. Dadurch können sowohl Nichtexperten profitieren, da die Hemmschwelle für die Nutzung von DL gesenkt wird, als auch geschulte DL-Experten, da einige der mühsamsten und zeitaufwendigsten Schritte des DL-Workflows entfallen.

AutoDL für Nicht-DL-Experten (GIS-Analysten, Business-Analysten oder Datenanalysten, die Fachexperten sind): Der wesentliche Vorteil der Verwendung von AutoDL besteht darin, dass einige der Schritte des DL-Workflows entfallen, die das höchste Maß an technischen Kenntnissen und technischem Verständnis erfordern. Analysten, die Fachexperten sind, können ihr Geschäftsproblem definieren, die entsprechenden Daten erfassen und dann den Computer lernen lassen, wie die restlichen Aufgaben ausgeführt werden. Sie benötigen kein umfassendes Verständnis von Data-Science-Methoden für Datenbereinigung und -erweiterung, sie müssen nicht wissen, was alle die neuronalen DL-Netze bewirken, und sie müssen keine Zeit dafür aufwenden, verschiedene Netze und Hyperparameterkonfigurationen zu erkunden. Stattdessen können sich diese Analysten darauf konzentrieren, ihre Fachkenntnisse auf ein konkretes Geschäftsproblem oder eine Fachanwendung und nicht auf den DL-Workflow selbst anzuwenden. Außerdem gewinnen sie Unabhängigkeit von geschulten Data Scientists und DL-Ingenieuren innerhalb ihrer Organisation, da sie selbst, oft ohne Programmiererfahrung, erweiterte Modelle erstellen und nutzen können.

AutoDL für DL-Experten (Data Scientists oder DL-Ingenieure): DL-Experten können ebenfalls in hohem Maß von AutoDL profitieren, auch wenn die Gründe möglicherweise weniger offensichtlich sind. Zum einen müssen DL-Experten nicht so viel Zeit für die Unterstützung der Fachexperten in ihrer Organisation aufwenden und können sich daher auf ihre eigene, anspruchsvollere DL-Arbeit konzentrieren. Was die DL-Projekte der DL-Experten angeht, so kann AutoDL eine erhebliche Zeitersparnis und Produktivitätssteigerung bewirken. Ein großer Teil der zeitaufwendigen Schritte des DL-Workflows wie beispielsweise Datenerweiterung, Modellauswahl und Hyperparameter-Optimierung kann automatisiert werden. Die Zeitersparnis durch die Automatisierung vieler dieser sich wiederholenden explorativen Schritte kann für anspruchsvollere technische Aufgaben genutzt werden oder für Aufgaben, die mehr menschliche Beiträge erfordern (zum Beispiel Zusammenarbeit mit Fachexperten, Verständnis des Geschäftsproblems oder Interpretation der DL-Ergebnisse).

Neben dem Aspekt der Zeitersparnis kann AutoDL auch dazu beitragen, die Produktivität von DL-Experten zu steigern, da ein Teil der am DL-Workflow beteiligten subjektiven Entscheidungen und Experimente entfällt. Beispielsweise können DL-Experten, die an einem neuen Projekt arbeiten, entsprechend geschult sein und über die entsprechenden Kenntnisse verfügen, sodass sie wissen, welche neuen Features erstellt werden sollten, welches DL-Netz für ein bestimmtes Problem am besten geeignet ist und welche Hyperparameter optimal sind. Sie übersehen jedoch möglicherweise bei der Ausführung des DL-Workflows die Erstellung bestimmter neuer Features oder probieren nicht alle möglichen Kombinationen von Hyperparametern aus. Außerdem verursachen die DL-Experten möglicherweise bei der Feature-Auswahl oder der Auswahl des Algorithmus eine Verzerrung, weil sie ein bestimmtes DL-Netz bevorzugen, mit dem sie bereits gearbeitet oder in anderen DL-Anwendungen positive Erfahrungen gemacht haben. Tatsächlich gibt es nicht den einen DL-Algorithmus, der für alle Datasets die besten Ergebnisse liefert. Einige DL-Algorithmen reagieren sensibler als andere auf die Auswahl der Hyperparameter, und viele Geschäftsprobleme haben unterschiedliche Komplexitätsgrade und Anforderungen an die Interpretierbarkeit der DL-Algorithmen, die zu ihrer Lösung verwendet werden. Mit AutoDL kann diese Verzerrung durch menschliche Einwirkung reduziert werden, indem viele verschiedene DL-Netze auf das gleiche Dataset angewendet werden und anschließend bestimmt wird, welches DL-Netz am besten abschneidet.

Für DL-Experten kann AutoDL auch als Ausgangspunkt oder Benchmark in einem DL-Projekt dienen. Sie können AutoML nutzen, um automatisch ein Basislinienmodell für ein Dataset zu entwickeln, mit dem sie sich vorläufige Einblicke in ein bestimmtes Problem verschaffen können. Davon ausgehend können sie sich dafür entscheiden, bestimmte Features im Eingabe-Dataset hinzuzufügen oder zu entfernen, oder sich auf ein spezifisches DL-Netz konzentrieren und seine Hyperparameter optimieren. In diesem Sinn kann AutoDL als Methode zum Eingrenzen der anfänglichen Auswahlmöglichkeiten für geschulte DL-Experten gesehen werden, sodass diese sich darauf konzentrieren können, die Performance des DL-Systems insgesamt zu verbessern. Dieser Workflow, bei dem DL-Experten mithilfe von AutoDL einen datenabhängigen Benchmark entwickeln, auf dessen Grundlage sie ihre Fachkenntnisse zur Optimierung und Verfeinerung der Ergebnisse einsetzen, kommt in der Praxis sehr häufig zum Einsatz.

Letztendlich bietet die Demokratisierung von DL über AutoDL innerhalb einer Organisation folgende Vorteile: Fachexperten können ihre ganze Aufmerksamkeit dem Geschäftsproblem widmen und verwertbare Ergebnisse erzielen, mehr Analysten können bessere Modelle erstellen, und die Organisation muss weniger DL-Experten einstellen. Darüber hinaus kann sie die Produktivität geschulter DL-Experten und Data Scientists steigern, die ihre Fachkenntnisse dann gezielt bei den zahlreichen anderen Aufgaben anwenden können, bei denen sie am meisten benötigt werden.

Interpretieren der Ausgabeberichte

Mit dem Werkzeug Mit AutoDL trainieren werden trainierte Deep-Learning-Pakete generiert (.dlpk). Im Ausgabefenster des Werkzeugs wird zudem eine Bestenliste angezeigt.

In der Bestenliste werden die bewerteten Modelle und ihre Kennwerte angezeigt. Bei einem Objekterkennungsproblem wird das Modell mit dem höchsten durchschnittlichen Precision-Score als das beste Modell angesehen, während beim Pixelklassifizierungsproblem das Modell mit der höchsten Accuracy als das beste Modell betrachtet wird.