Funktionsweise der Dimensionsreduktion

Das Werkzeug Dimensionsreduktion reduziert die Anzahl der Dimensionen eines Satzes von kontinuierlichen Variablen durch die Aggregation der größtmöglichen Varianz in weniger Komponenten. Dazu wird die Hauptkomponentenanalyse (Principal Component Analysis, PCA) oder die lineare Diskriminanzanalyse mit reduziertem Rang (Reduced-Rank Linear Discriminant Analysis, LDA) verwendet. Die Variablen werden als Felder in einer Eingabetabelle oder einem Feature-Layer angegeben. Neue Felder, die neue Variablen darstellen, werden in der Ausgabetabelle oder Feature-Class gespeichert. Die Anzahl neuer Felder ist geringer als die Anzahl der ursprünglichen Variablen, wobei die größtmögliche Varianz der ursprünglichen Variablen beibehalten wird.

Die Dimensionsreduktion wird allgemein verwendet, um multivariate Beziehungen zwischen Variablen zu ermitteln und um die Datenverarbeitungskosten für die Algorithmen bei maschinellem Lernen zu reduzieren, da der erforderliche Speicher und die Verarbeitungszeit von der Anzahl der Datendimensionen abhängen. Das Verwenden der Komponenten anstelle der ursprünglichen Daten in Analysen oder Algorithmen bei maschinellem Lernen kann häufig vergleichbare (oder bessere) Ergebnisse liefern, da die Datenverarbeitung mit weniger Ressourcen auskommt.

Wir empfehlen Ihnen, PCA zu verwenden, wenn Sie vorhaben, eine Analyse oder Methode für maschinelles Lernen durchzuführen, bei der die Komponenten verwendet werden, um den Wert einer kontinuierlichen Variable vorherzusagen. Für LDA müssen Sie zusätzlich jeden Datensatz in eine Kategorie, wie z. B. eine Bodennutzungskategorie, klassifizieren. Wir empfehlen Ihnen, PCA zu verwenden, wenn Sie vorhaben, eine Analyse oder Methode für maschinelles Lernen durchzuführen, bei der die Komponenten verwendet werden, um die Kategorie einer Kategorievariable anhand der numerischen Analysefelder zu klassifizieren.

Potenzielle Anwendungsbereiche

Dieses Werkzeug kann in den folgenden Szenarien verwendet werden:

  • Sie haben eine Feature-Klasse mit vielen Feldern, die schwer gleichzeitig visualisiert werden können. Durch die Reduzierung des Datensatzes auf zwei Dimensionen können Sie die Daten mithilfe eines Diagramms visualisieren, um multivariate Wechselwirkungen zwischen den Feldern in zwei Dimensionen zu betrachten.
  • Sie möchten Analysewerkzeuge im Toolset Modellierung von räumlichen Beziehungen verwenden, wie z. B. die Werkzeuge Generalisierte lineare Regression (GLR) oder Geographisch gewichtete Regression (GWR), aber es bestehen vielfältige Korrelationen der Felder untereinander. Indem die Anzahl der Dimensionen der erklärenden Variablen reduziert wird, arbeiten die Analysewerkzeuge stabiler und neigen weniger dazu, die Trainingsdaten überzubewerten.
  • Sie führen eine Methode für maschinelles Lernen aus, deren Ausführungsdauer mit der Anzahl der Eingabevariablen schnell steigt. Durch das Reduzieren der Anzahl der Dimensionen erhalten Sie schneller und mit weniger Ressourcen vergleichbare Analyseergebnisse.

Funktionsweise des Werkzeugs "PCA"

PCA erstellt sequenzielle Komponenten, die jeweils einen bestimmten Prozentsatz der Gesamtvarianz aller Analysefelder erfassen. Jede dieser Komponenten ist selbst eine lineare Kombination (gewichtete Summe) der einzelnen Analysefelder, wobei die jeweilige Gewichtung als Komponentenlast bezeichnet wird. Diese Lasten bilden zusammen mit den Analysefeldern einen Eigenvektor, der den Anteil jedes Analysefeldes an der Komponente angibt. Die Komponente ist auch mit einem Eigenwert verknüpft, der die durch die Komponente beibehaltene Gesamtvarianz darstellt.

Bei zwei Analysefeldern können Sie die PCA geometrisch als rotierende Achsen im Datenraum visualisieren, wobei die Rotation das Verhältnis der Variabilität der neuen Achsen maximiert, wie in der nachfolgenden Abbildung dargestellt.

PCA in zwei Dimensionen

Im linken Bild entspricht jeder Punkt einem Datensatz der Eingabetabelle, der mit den Werten der beiden Analysefelder zweidimensional auf der x- und y-Achse dargestellt wird. Die Länge der blauen Achsen stellt die Varianz der beiden Variablen dar. Die beiden blauen Pfeile sind annähernd gleich lang. Das deutet darauf hin, dass die beiden Variablen eine annähernd gleich große Varianz haben. Im mittleren Bild wurden die Achsen gedreht, um die lineare Beziehung zwischen den Variablen besser darzustellen. Eine der grünen Achsen ist etwas länger als die andere. Dies weist auf eine größere Varianz in dieser Richtung hin. Diese Rotation ist jedoch nicht optimal. Das Bild auf der rechten Seite zeigt die optimale durch die PCA gefundene Rotation, die mit der linearen Beziehung zwischen den Variablen übereinstimmt. Diese Rotation ist durch eine rote Achse mit der größten Varianz dargestellt. Die größere rote Achse entspricht der ersten Hauptkomponente und stellt die beste eindimensionale Darstellung der zweidimensionalen Daten dar. In allen drei Bildern ist die Gesamtvarianz der ursprünglichen Variablen gleich groß. Im rechten Bild wird die größtmögliche Varianz jedoch der ersten Komponente zugewiesen, während für die zweite Komponente die kleinstmögliche Varianz bleibt.

In der Ausgabe-Eigenwerte-Tabelle und der Ausgabe-Eigenvektoren-Tabelle können Sie die Eigenwerte und Eigenvektoren für jede Komponente sehen. Die Eigenvektortabelle enthält darüber hinaus ein Balkendiagramm, das die Lasten jeder Komponente anzeigt. Die vollständigen mathematischen Details für PCA finden Sie im Abschnitt Zusätzliche Quellen.

Funktionsweise der lineare Diskriminanzanalyse mit reduziertem Rang (LDA)

Die lineare Diskriminanzanalyse mit reduziertem Rang (oft als LDA, RR-LDA oder LDA mit reduziertem Rang abgekürzt) funktioniert durch den sequenziellen Aufbau von Komponenten, die die Trennbarkeit einer Kategorievariablen zwischen den Klassen maximieren. Die Methode versucht, die Dimensionen der kontinuierlichen Analysefelder zu reduzieren und gleichzeitig die höchste Genauigkeit bei der Klassifizierung der Kategorie der Kategorievariablen beizubehalten. Ähnlich wie bei der PCA werden auch die LDA-Komponenten mit Eigenvektoren und Eigenwerten assoziiert, um den Anteil der Analysefelder an jeder Komponente darzustellen und auch die Varianz, die von jeder Komponente beibehalten wird.

Darüber hinaus ist es mit der LDA auch möglich, eine geometrische 2D-Interpolation mit Rotationen für zwei kontinuierliche Analysevariablen und eine Kategorievariable zu erstellen. Die Abbildung unten zeigt ein Dataset, bei dem jeder Punkt einen Datensatz des Eingabe-Datasets darstellt. Die X-Achse und die Y-Achse repräsentieren die beiden kontinuierlichen Analysefelder und die Punkte sind in Abhängigkeit von ihrer Kategorie rot oder blau gefärbt. Die roten und blauen Verteilungen stellen die auf die Y-Achse projizierten Verteilungen der Kategorien dar. Bei der Verteilung der Klassen besteht eine gewisse Trennbarkeit. Sie überschneiden sich jedoch stark und sind schwer trennbar. Bei der Projektion auf die X-Achse ist die Trennbarkeit ähnlich gering.

LDA in und zwischen Varianz

Das Bild unten zeigt die optimale Achsenrotation, die durch die LDA bestimmt wird. Diese Rotation führt zur maximalen Trennung zwischen den Verteilungen der Kategorien. Dies ermöglicht den höchsten Klassifizierungsgrad für die Kategorien.

Maximale Varianz zwischen den Klassen

Wenn mindestens zwei Komponenten erstellt werden, beinhalten die Ausgabe-Features einen Scatterplot vom Typ Lineare Diskriminanz. Die Werte der ersten und zweiten Komponente werden auf den Achsen dargestellt, und die Punkte werden je nach Kategorie gefärbt. Wenn mit den ersten beiden Komponenten genügend Informationen verwaltet werden, dass zwischen den Kategorien unterschieden werden kann, werden die Punkte in dem Diagramm u. U. nach Kategorien geclustert.

Linearer Diskriminanzplot

In der Ausgabe-Eigenwerte-Tabelle und der Ausgabe-Eigenvektoren-Tabelle können Sie die Eigenwerte und Eigenvektoren für jede Komponente sehen. Die Eigenvektortabelle enthält darüber hinaus ein Balkendiagramm, das die Lasten jeder Komponente anzeigt. Die vollständigen mathematischen Details für LDA finden Sie im Abschnitt Zusätzliche Quellen.

Bestimmen der Komponentenanzahl

Eine der wichtigsten Entscheidungen bei der Dimensionsreduktion betrifft die Anzahl der zu erstellenden Komponenten. Dadurch wird bestimmt, wie viele Dimensionen der Eingabedaten reduziert werden. Manchmal wissen Sie vielleicht bereits aufgrund Ihrer beabsichtigten Analyse, wie viele Komponenten Sie benötigen. Dies kann z. B. der Fall sein, wenn Sie eine maschinelle Lernmethode anwenden möchten, die nur mit maximal vier Variablen effizient arbeiten kann. In anderen Fällen möchten Sie möglicherweise so viele Hauptkomponenten verwenden, wie erforderlich sind, um z. B. 90 Prozent der Gesamtvarianz der Originaldaten zu erhalten. In anderen Situationen müssen Sie möglicherweise ein Gleichgewicht finden zwischen der minimalen Komponentenanzahl und dem maximal beibehaltenen Prozentsatz der Varianz.

Bei beiden Datenreduktionsmethoden ist bei p-Analysefeldern der Prozentsatz der durch die i-te Komponente erläuterten Varianz die Varianzbestimmungsformel, wobei di der Eigenwert der i-ten Komponente ist. Jede sequenzielle Komponente behält einen kleineren Prozentsatz der Gesamtvarianz bei als die Komponente vor ihr.

Die Anzahl der vom Werkzeug verwendeten Komponenten hängt davon ab, ob Werte für die Parameter Mindestanzahl der Komponenten und Minimaler Prozentwert der beizubehaltenden Varianz definiert wurden.

  • Wenn nur ein Parameter angegeben wird, bestimmt der Wert des angegebenen Parameters die Anzahl der Komponenten. Die Anzahl der Komponenten entspricht der kleinsten Anzahl, die zur Erfüllung des definierten Minimums erforderlich ist.
  • Wenn beide Parameter angegeben werden, wird der größere der zwei resultierenden Werte der Komponentenanzahl verwendet.
  • Wenn kein Parameter definiert wurde, wird die Anzahl der Komponenten mithilfe von statistischen Methoden bestimmt und das Werkzeug verwendet die größte Anzahl an Komponenten, die von den jeweiligen Methoden empfohlen wird. Beide Methoden zur Dimensionsreduktion beinhalten die Broken-Stick-Methode und den Bartlett-Test auf Sphärizität. Bei der PCA wird auch ein Permutationstest durchgeführt, wenn der Wert des Parameters Anzahl der Permutationen größer als null ist. Die Ergebnisse der statistischen Tests werden als Geoverarbeitungsmeldungen angezeigt. Die mathematischen Details zu den drei Tests finden Sie im Abschnitt Zusätzliche Ressourcen.

Die Ausgabe-Eigenwerte-Tabelle beinhaltet ein benutzerdefiniertes Liniendiagramm namens Scree-Plot. Es zeigt den prozentualen Anteil der von jeder Komponente beibehaltenen Varianz an. Im unten stehenden Scree-Plot zeigt die X-Achse alle sequenziellen Komponenten an, während die rote Linie den Prozentsatz der Varianz darstellt, die sich aus den einzelnen Komponenten ergibt. Die rote Linie geht nach unten und zeigt damit an, dass jede neue Komponente eine geringere Varianz aufweist als die vorherige Komponente. Die senkrechte schwarze Linie über Komponente 2 auf der X-Achse zeigt an, dass das Werkzeug zwei Komponenten verwendet hat, die 95,8 Prozent der Gesamtvarianz der ursprünglichen Variablen beibehalten haben. Die blaue Linie zeigt die Ergebnisse der Broken-Stick-Methode an, die verwendet wurde, um die optimale Anzahl der Komponenten abzuschätzen. Die optimale Anzahl der Komponenten entspricht oft der Stelle, an der sich die rote und die blaue Linie kreuzen. Hier stimmt die Anzahl der Komponenten überein.

Scree-Plot

Empfehlungen und Beschränkungen

Berücksichtigen Sie bei Verwendung dieses Werkzeugs Folgendes:

  • Bei PCA hängen die Ergebnisse dieser Analyse davon ab, ob die Variablen skaliert wurden. Da die PCA die Gesamtvarianz in Komponenten aufteilt, ist der prozentuale Anteil der assoziierten Gesamtvarianz umso höher, je größer die Raw-Werte eines Analysefeldes sind. Durch Skalierung der einzelnen Analysefelder auf eine Varianz gleich eins kann dieser Effekt ausgeglichen werden. Wenn beispielsweise die Analysefelder skaliert wurden, ergeben die in Fuß gemessenen Daten und die in Metern gemessenen Daten die gleichen Komponenten. Wenn die Analysefelder nicht skaliert sind, tragen die in Fuß gemessenen Daten mehr zur ersten Komponente bei als die gleichen Daten in Metern. Das liegt daran, dass ein in Fuß gemessener Entfernungswert größer ist als der gleiche Entfernungswert in Metern (1 Meter = 3,2808 Fuß).
  • Die PCA schätzt Eigenwerte und Eigenvektoren unter Annahme linearer Beziehungen zwischen allen Analysefeldern ab. Wenn die Beziehungen zwischen den Analysefeldern nicht linear sind, erfasst die PCA diese Beziehungen nicht exakt. Es wird empfohlen, eine Scatterplotmatrix Ihrer Analysevariablen zu erstellen und nach nicht linearen Mustern zu suchen. Wenn nicht lineare Muster gefunden werden, können die Beziehungen mithilfe des Werkzeugs Feld transformieren möglicherweise linearisiert werden.

Zusätzliche Ressourcen

Weitere Informationen über PCA und Reduced-Rank LDA finden Sie in den folgenden Quellen:

  • James, G., Witten, D., Hastie, T., Tibshirani, R. (2014). "An Introduction to Statistical Learning: with Applications in R." Springer Publishing Company, Incorporated. https://doi.org/10.1007/978-1-4614-7138-7

Weitere Informationen über die Methoden für das Festlegen der Anzahl der Komponenten finden Sie in den folgenden Quellen:

  • Peres-Neto, P., Jackson, D., Somers, K. (2005). "How many principal components? Stopping rules for determining the number of non-trivial axes revisited." Computational Statistics & Data Analysis. 49.4: 974-997. https://doi.org/10.1016/j.csda.2004.06.015.

Verwandte Themen