Das Werkzeug Zeitserien-Cluster-Bildung identifiziert die Positionen in einem Raum-Zeit-Würfel, die sich am ähnlichsten sind, und partitioniert diese in verschiedene Cluster, deren Mitglieder ähnliche Zeitserieneigenschaften haben. Zeitserien können so gruppiert werden, dass sie im Zeitverlauf ähnliche Werte haben, proportional zueinander bleiben oder ähnliche geglättete periodische Muster aufweisen. Als Eingabe für dieses Werkzeug dient ein NetCDF-Raum-Zeit-Würfel, der mit dem Werkzeug Raum-Zeit-Würfel durch Aggregieren von Punkten erstellen, mit dem Werkzeug Raum-Zeit-Würfel aus definierten Positionen erstellen oder mit dem Werkzeug Raum-Zeit-Würfel aus multidimensionalem Raster-Layer erstellen erstellt wurde. Das Werkzeug generiert eine 2D-Feature-Class, in der jede Position im Würfel symbolisiert durch Cluster-Mitgliedschaft sowie Informationsmeldungen angezeigt wird. Optional können die Parameter Ausgabetabelle für Diagramme und Zeitserien-Pop-ups aktivieren verwendet werden, um Diagramme zu erstellen, die repräsentative Zeitserien für jeden Cluster und die Zeitserie für jede Position im Raum-Zeit-Würfel zeigen.
Potenzielle Anwendungsbereiche
- Ein Analyst hat einen Raum-Zeit-Würfel erstellt, der Notrufe über den Verlauf mehrerer Jahre darstellt. Mit dem Werkzeug Zeitserien-Cluster-Bildung, in dem die Einstellung Interesseneigenschaft auf Wert festgelegt ist, kann er bestimmen, welche Stadtteile ein ähnliches Notrufaufkommen haben.
- Ein großer Einzelhändler kann dieses Werkzeug mit Profil (Korrelation) als Wert für Interesseneigenschaft verwenden, um Filialen mit ähnlichem Einkaufsverhalten zu finden. Mit dem Werkzeug können beispielsweise die Filialen, in denen der Umsatz im Weihnachtsgeschäft steigt und nach Weihnachten wieder sinkt, von Filialen unterschieden werden, die dieses Muster nicht aufweisen. Die Filialen mit anderen Umsatzmustern sollten näher untersucht werden. Diese Informationen können auch verwendet werden, um dem Händler zu helfen, die Nachfrage vorherzusagen und sicherzustellen, dass die Filialen über ausreichende Bestände verfügen.
- Ein Meteorologe kann dieses Werkzeug mit Profil (Fourier) als Wert für Interesseneigenschaft verwenden, um Orte danach zu gruppieren, wie nah zusammen ihre Temperaturen im Zeitverlauf schwanken und wie ähnlich die Ausdehnung der Schwankung ist.
- Demografen könnten das Werkzeug verwenden, um auszuwerten, welche Länder ähnliche Muster beim Bevölkerungswachstum aufweisen, sowohl hinsichtlich des Wertes als auch des Profils der Zeitserien.
Werkzeugausgaben
Dieses Werkzeug erstellt verschiedene Ausgaben. Mit einer 2D-Feature-Class, die jede Position im Eingabe-Raum-Zeit-Würfel symbolisiert durch ihre Cluster-Mitgliedschaft zeigt, können Sie beliebige räumliche Muster erkunden. Die in diesem Werkzeug verwendeten Algorithmen für die Cluster-Bildung berücksichtigen bei der Cluster-Bildung zwar keine räumlichen Beziehungen, doch können dennoch räumliche Muster vorhanden sein. Zusätzlich erscheint während der Ausführung des Werkzeugs unten im Bereich Geoverarbeitung eine Zusammenfassung der Analyseergebnisse und der Mann-Kendall-Trendstatistiken für die einzelnen Cluster in Form von Meldungen. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Über den Geoverarbeitungsverlauf können Sie auch auf die Meldungen für ein zuvor ausgeführtes Werkzeug zugreifen.
Die Standardausgabe des Werkzeugs Zeitserien-Cluster-Bildung ist eine neue Ausgabe-Feature-Class mit dem Feld CLUSTER_ID. Dieses gibt an, zu welchem Cluster die jeweilige Position gehört. Diese Ausgabe-Feature-Class wird dem Bereich Inhalt hinzugefügt, wobei ein eindeutiges Farbrendering-Schema auf das Feld CLUSTER_ID angewendet wird. Das Feld CENTER_REP gibt an, welche Positionen im Raum-Zeit-Würfel für die einzelnen Cluster am repräsentativsten sind (als Medoiden der Cluster bezeichnet). Dieses Feld enthält den Wert 1 für den Medoiden jedes Clusters. Alle anderen Positionen enthalten den Wert 0.
Ausgaben des Diagramms "Zeitserien-Cluster-Bildung"
Diagramme werden erzeugt, wenn Sie eine Ausgabetabelle für Diagramme erstellen. Im Diagramm Durchschnittliche Zeitserie pro Cluster wird bei jedem Zeitschritt für jeden Cluster der Durchschnitt von Analysevariable angezeigt. Das Diagramm Zeitserie-Cluster-Medoiden zeigt die Medoid-Zeitserie jedes Clusters an. Mit einer Kombination dieser Diagramme können Sie sowohl den Gesamtdurchschnitt als auch die repräsentativen Zeitserien nach Cluster gegliedert visualisieren. Dies entspricht der Zusammenfassung der Kategorien eines univariaten Datasets mithilfe des Durchschnitts und des Medianwertes.
Sie können den Parameter Zeitserien-Pop-ups aktivieren verwenden, um Zeitseriendiagramme in den Pop-ups der Ausgabe-Features zu erstellen, die die Zeitserie des Features und die durchschnittliche Zeitserie aller Features im selben Cluster anzeigen. So können Sie sehen, wie die Zeitserie des Features im Vergleich zu anderen Features im selben Cluster aussieht und wie gut sie durch den Cluster repräsentiert wird.
Ähnlichkeit zwischen Zeitserien
Ziel der Cluster-Bildung ist es, die Positionen des Raum-Zeit-Würfels in Gruppen zu partitionieren, in denen die Zeitserien der Positionen in jeder Gruppe einander ähnlicher sind als den Zeitserien von Positionen außerhalb der Gruppe. Allerdings bestehen Zeitserien aus zahlreichen Zahlen bzw. Werten im Zeitverlauf. Deshalb ist nicht vollständig klar, was es bedeutet, wenn zwei Zeitserien einander ähnlich sind. Bei einzelnen Zahlen ist die absolute Differenz zwischen den Werten ein nützliches Maß für die Ähnlichkeit: Die Differenz zwischen 10 und 13 ist 3. Es lässt sich also sagen, dass die 10 der 13 ähnlicher ist als der 17, da die absolute Differenz zwischen diesen beiden Werten kleiner ist. Bei Zeitserien ist die Ähnlichkeit jedoch weniger offensichtlich. Ist beispielsweise die Zeitserie (5, 8, 11, 7, 6) der Zeitserie (4, 9, 13, 4, 9) ähnlicher als der Zeitserie (5, 11, 6, 7, 6)? Um diese Frage zu beantworten, müssen Sie in der Lage sein, zu messen, wie ähnlich oder unterschiedlich zwei Zeitserien sind. Es gibt verschiedene Methoden zur Messung der Ähnlichkeit. Welche Sie verwenden, hängt davon ab, welche Eigenschaften der Zeitserien Sie für wichtig halten. Die von Ihnen ausgewählte Eigenschaft ist diejenige, in der sich die Positionen in denselben Ausgabe-Clustern am ähnlichsten sind.
Die Eigenschaft der Zeitserien, die in jedem Cluster ähnlich sein soll, legen Sie mit dem Parameter Interesseneigenschaft fest. Die Cluster-Bildung kann auf einer von drei Eigenschaften basieren.
Eigenschaft "Wert"
Die Option Wert des Parameters Interesseneigenschaft ist die einfachste Option. Sie wird verwendet, um Zeitserien zu gruppieren, die im Zeitverlauf ähnliche Werte aufweisen.
Bei dieser Option wird die Ähnlichkeit der Zeitserien anhand der euklidischen Entfernung zwischen den Werten in der Zeitserie gemessen (nicht mit der Entfernung zwischen den Positionen der beiden Zeitserien im Raum zu verwechseln). Beispielsweise ist die Differenz zwischen der Zeitserie (1, 5, 2, 3) und der Zeitserie (3, 1, 3, 5) gleich 5. Dieser Wert wird aus der Quadratwurzel der Summe der quadrierten Differenzen zwischen den Werten im Zeitverlauf berechnet:
SquareRoot[ (1-3)2 + (5-1)2 + (2-3)2 + (3-5)2 ] = 5
Eigenschaft "Profil (Korrelation)"
Die Option Profil (Korrelation) des Parameters Interesseneigenschaft wird verwendet, um Zeitserien zu gruppieren, die tendenziell proportional zueinander bleiben und deren Werte gleichzeitig größer oder kleiner werden. Sie können diese Option z. B. verwenden, um Filialen basierend auf ihren Wachstumsraten zu gruppieren. Selbst wenn ihre tatsächlichen Werte sehr unterschiedlich sind, werden Positionen in einem Cluster zusammengefasst, wenn sie ähnliche Wachstumsmuster aufweisen.
Bei dieser Option wird die Ähnlichkeit von Zeitserien basierend auf ihrer statistischen Korrelation im Zeitverlauf gemessen. Beispielsweise weist die Zeitserie (1, 2, 3, 4, 5) ganz andere Werte auf als die Zeitserie (10, 20, 30, 40, 50), jedoch sind beide perfekt korreliert, und ihre Differenz beträgt 0. Diese Differenz zwischen zwei Zeitserien wird durch Subtrahieren der Korrelation von 1 berechnet. Das heißt, dass Zeitserien mit perfekter positiver Korrelation (Korrelation = 1) eine Differenz von 0 aufweisen, Zeitserien ohne Korrelation (Korrelation = 0) eine Differenz von 1 und Zeitserien mit perfekter negativer Korrelation (Korrelation = -1) eine Differenz von 2. Alle anderen Grade der Korrelation führen zu Werten zwischen 0 und 2, wobei größere positive Korrelationen auf eine größere Ähnlichkeit hinweisen.
Eigenschaft "Profil (Fourier)"
Die Option Profil (Fourier) des Parameters Interesseneigenschaft ist die komplizierteste Option. Sie wird verwendet, um Zeitserien zu gruppieren, die im Zeitverlauf ähnliche geglättete periodische Muster aufweisen. Solche Perioden werden auch als Zyklen oder Saisons bezeichnet; sie stehen für die Dauer eines einzelnen, sich in einer neuen Periode wiederholenden Musters. Die Temperatur folgt zum Beispiel einer konsistenten jährlichen Periode, wobei die Temperaturen im Sommer höher und im Winter niedriger sind. Diese Option kann verwendet werden, um die Gebiete mit den ähnlichsten jährlichen Temperaturmustern zu finden.
Mit dem Parameter Zu ignorierende Zeitserieneigenschaften können Sie bei Bedarf bestimmte Eigenschaften dieser Muster ignorieren. Sie können die Startzeiten dieser Perioden ignorieren, sodass nur die Formen und Dauern der Perioden verglichen werden, und Sie können die Magnitude der Werte in den Perioden ignorieren, sodass Sie nur die Startzeiten und Dauern der Perioden vergleichen. Wenn Sie beide Eigenschaften ignorieren, gelten die beiden Zeitserien als ähnlich, wenn die Periodendauern ungefähr gleich sind, auch wenn die Perioden zu unterschiedlichen Zeiten beginnen und verschiedene Werte aufweisen.
Mit der Option Profil (Fourier) wird die Ähnlichkeit zwischen Zeitserien unter Verwendung von Konzepten aus der funktionalen Datenanalyse gemessen. Jede Zeitserie wird in eine Sequenz von Basisfunktionen zerlegt, die die dominantesten Signale in der Zeitserie darstellen. In den Basisfunktionen der Fourier-Familie werden Sinus- und Consinus-Funktionen verwendet, die in einem konstanten Intervall nach oben und unten schwanken, um die Zeitserie darzustellen. Mit jeder Basisfunktion ist eine Gewichtung verknüpft, die zur Messung der Verbreitung des betreffenden Signals in der Zeitserie dient. Beispielsweise zeigt die Temperatur zwei dominante Basisfunktionen, von denen eine nach oben und unten schwankt, was Tagen und Nächten entspricht, und die andere nach den Jahreszeiten schwankt. Anderen Intervallen entsprechende Basisfunktionen würden niedrigere Gewichtungen erhalten, weil sie in der Zeitserie der Temperaturen nicht häufig vorkommen. Eine Basisfunktion, die alle 90 Minuten nach oben und unten schwankt, hätte eine niedrige Gewichtung, da sich die Temperatur normalerweise nicht so schnell ändert. Damit diese Option möglichst wirkungsvoll ist, sollte sich die Zeitserie über die Dauer von mindestens einer Periode erstrecken. Beispielsweise würde die dominante jährliche Periode für die Temperatur wahrscheinlich nicht erfasst, wenn die Daten nur innerhalb weniger Monate gemessen würden. Für N Positionen im Raum-Zeit-Würfel verwendet das Werkzeug N-2 Basisfunktionen, wenn N gerade ist, und N-1 Basisfunktionen, wenn N ungerade ist.
Die Differenz zwischen zwei Zeitserien wird berechnet, indem die Summe der quadrierten Differenzen zwischen den Gewichtungen der verknüpften Basisfunktionen der einzelnen Zeitserien berechnet wird. Das heißt, dass zwei Zeitserien, die ähnliche dominante schwankende Signale aufweisen, als ähnlich erachtet werden.
Cluster-Bildung in Zeitserien nach Ähnlichkeit
Zwar sind einige Optionen des Parameters Interesseneigenschaft komplizierter als andere; allen gemein ist jedoch, dass mit ihnen eine einzelne Zahl zum Messen der Differenz zwischen zwei Zeitserien berechnet wird. Anhand dieser Definition von Ähnlichkeit zwischen Zeitserien werden Cluster der Positionen des Raum-Zeit-Würfels mithilfe eines Algorithmus für die Cluster-Bildung gebildet.
Umfassende Informationen zu Algorithmen für die Cluster-Bildung finden Sie im Abschnitt Zusätzliche Ressourcen weiter unten.
Cluster-Bildung mit Profil (Korrelation)
Wenn die Option Profil (Korrelation) des Parameters Interesseneigenschaft ausgewählt ist, wird die Differenz zwischen den einzelnen Paaren von Positionen im Raum-Zeit-Würfel berechnet und als Unähnlichkeitsmatrix zusammengefasst. Unten ist als Beispiel eine Unähnlichkeitsmatrix für die Zeitserien von vier Positionen zu sehen, die mit L1, L2, L3 und L4 beschriftet sind. Eine Zeitserie wird immer als exakt mit sich selbst übereinstimmend betrachtet. Dies wird durch die Nullen auf der Diagonalen der Matrix dargestellt. Zudem ist die Matrix symmetrisch, weil die Differenz zwischen zwei Zeitserien nicht von deren Reihenfolge abhängt: Die Differenz zwischen A und B ist identisch mit der Differenz zwischen B und A. In der unten dargestellten Unähnlichkeitsmatrix sind sich die Positionen L1 und L2 am ähnlichsten (zu erkennen am Wert 4), während sich die Zeitserien von L1 und L4 am meisten voneinander unterscheiden (zu erkennen am Wert 13).
Diese Matrix wird dann mit dem k-Medoid-Algorithmus (wird auch als PAM-Algorithmus (Partitioning Around Medoids, Partitionierung um Medoide) bezeichnet) gruppiert. Dieser Algorithmus findet in der Matrix Cluster, deren Mitglieder einander ähnlicher sind als Mitgliedern anderer Cluster. Der Algorithmus arbeitet nach dem Zufallsprinzip und wählt zufällig Positionen als für die einzelnen Cluster repräsentativ aus. Diese repräsentativen Positionen werden als Medoide bezeichnet. Sie entsprechen dem Medianwert eines univariaten Datasets. Initiale Cluster werden erstellt, indem jede andere Position dem Cluster zugewiesen wird, dessen Medoid die größte Ähnlichkeit aufweist. Anschließend tauscht der Algorithmus die Medoiden in den einzelnen Clustern aus und wertet die Ähnlichkeit innerhalb der neuen Cluster erneut aus. Wenn die neuen Cluster eine größere Ähnlichkeit aufweisen als die initialen Cluster, werden die Medoide ausgetauscht. Dieser Prozess wiederholt sich so lange, bis es keine Möglichkeiten zum Austausch mehr gibt, mit denen sich die Ähnlichkeit der Cluster verbessern ließe. Die endgültigen Cluster weisen fast immer eine hohe Ähnlichkeit auf, allerdings können sich die Cluster unterscheiden, je nachdem, welche Positionen nach dem Zufallsprinzip als initiale Medoiden ausgewählt wurden. Wenn das Werkzeug mehrfach ausgeführt wird, kann die Cluster-Bildung ein wenig anders aussehen. Deshalb empfehlen wir Ihnen, das Werkzeug mehrfach auszuführen, um unterschiedliche mögliche Cluster-Bildungen zu erhalten.
Bei mehr als 10.000 Positionen im Raum-Zeit-Würfel verwendet das Werkzeug eine Variante von k-Medoiden, die als CLARA (Clustering LARge Applications, Cluster-Bildung in großen Anwendungen) bezeichnet wird. Für CLARA wird nach dem Zufallsprinzip eine Stichprobe der Zeitserien genommen, und der k-Medoid-Algorithmus wird ausgeführt. Alle Positionen, die nicht in dieser Stichprobe ausgewählt wurden, werden dann dem Cluster zugewiesen, dessen Medoid der Zeitserie der nicht in der Stichprobe erfassten Position am ähnlichsten ist. Die Größe der nach dem Zufallsprinzip genommenen Stichprobe entspricht dem größeren von zwei Werten: Quadratwurzel der Anzahl von Positionen (abgerundet) oder 40 + 2k, wobei k die Anzahl der Cluster ist.
Cluster-Bildung mit Wert und Profil (Fourier)
Wenn die Optionen Wert oder Profil (Fourier) des Parameters Interesseneigenschaft ausgewählt sind, werden die Positionen im Raum-Zeit-Würfel mit dem k-Means-Algorithmus gruppiert. Das Konzept dieses Algorithmus ähnelt k-Medoiden, er kann aber ohne die Berechnung der Differenz zwischen den einzelnen Positionspaaren ausgeführt werden. Stattdessen werden zunächst nach dem Zufallsprinzip Positionen als repräsentative Stichproben für die einzelnen Cluster ausgewählt. Initiale Cluster werden dann erstellt, indem alle übrigen Positionen dem Cluster zugewiesen werden, dessen repräsentative Stichprobe die größte Ähnlichkeit mit der Position aufweist. Dann wird eine neue repräsentative Stichprobe für jeden Cluster berechnet, indem innerhalb jedes Clusters der Mittelwert der Zeitserie gebildet wird. Für Wert ist diese neue repräsentative Stichprobe der Mittelwert der einzelnen Zeitintervalle der einzelnen Zeitserien im Cluster. Für Profil (Fourier) ist diese neue repräsentative Stichprobe der Mittelwert der Gewichtungen der einzelnen Basisfunktionen. Anders als k-Medoide entsprechen diese neuen repräsentativen Stichproben im Allgemeinen keiner einzelnen Position im Raum-Zeit-Würfel. Jede Zeitserie wird wiederum dem Cluster zugewiesen, dessen repräsentative Stichprobe die größte Ähnlichkeit aufweist, und neue mittlere repräsentative Stichproben werden berechnet. Dieser Vorgang wird wiederholt, bis der Algorithmus konvergiert. Dies bedeutet, dass sich die Cluster nach der Wiederholung nicht mehr ändern. An diesem Punkt würde eine Fortsetzung des Vorgangs immer wieder zu den gleichen Clustern führen. Dies sind die Cluster, die vom Werkzeug zurückgegeben werden.
Wie beim oben aufgeführten k-Medoid-Algorithmus kann der k-Means-Algorithmus unterschiedliche Ergebnisse für die Cluster-Bildung liefern, da sie von den ersten nach dem Zufallsprinzip ausgewählten repräsentativen Stichproben für den Cluster abhängen. Sie sollten das Werkzeug mehrfach ausführen, um verschiedene mögliche Ergebnisse der Cluster-Bildung zu erhalten.
Optimale Anzahl der Cluster
Wenn Sie den Parameter Anzahl der Cluster leer lassen, wertet das Werkzeug die optimale Anzahl der Cluster aus. Der Wert wird im Meldungsfenster angegeben. Die Bestimmung der Cluster-Anzahl ist einer der schwierigsten Aspekte von Workflows zur Cluster-Bildung. Dieses Werkzeug ermittelt die optimale Anzahl, indem es verschiedene Möglichkeiten für die Cluster-Anzahl ausprobiert und diejenige identifiziert, die zur effektivsten Cluster-Bildung führt.
Das Werkzeug probiert jeden Wert zwischen 2 und 10 Clustern aus. Jeder Wert wird 10-mal wiederholt, wobei in den Algorithmen für die Cluster-Bildung nach dem Zufallsprinzip Startwerte verwendet werden. Wenn Profil (Korrelation) mit mehr als 10.000 Punkten verwendet wird, wird der CLARA-Algorithmus stattdessen 20 Mal für jede der 9 möglichen Cluster-Anzahlen ausgeführt. Für jedes dieser 90 (bzw. 180) Ergebnisse der Cluster-Bildung (10 bzw. 20 für jede der 9 möglichen Cluster-Anzahlen) wird eine Pseudo-F-Statistik berechnet. Dazu wird die Fehlerquadratsumme im globalen Medoid durch die Fehlerquadratsumme in den Cluster-Medoiden dividiert, wobei eine Korrektur für die Verwendung größerer Cluster-Anzahlen vorgenommen wird. Dies kann als das Verhältnis zwischen der Ähnlichkeit zwischen Gruppen und der Ähnlichkeit innerhalb einer Gruppe interpretiert werden. Größere Werte der Pseudo-F-Statistik deuten darauf hin, dass die Zeitserien den repräsentativen Zeitserien ihres Clusters ähnlicher sind als der repräsentativen Zeitserie des gesamten Datasets, was auf eine effektive Cluster-Bildung schließen lässt. Weitere Informationen sowie Formeln für die Berechnung der Pseudo-F-Statistik finden Sie unter Funktionsweise des Werkzeugs "Multivariate Cluster-Bildung".
Die Bestimmung der optimalen Cluster-Anzahl ist der rechenintensivste Teil des Werkzeugs. Wir empfehlen Ihnen daher, einen Wert anzugeben, wenn Sie wissen, wie viele Cluster gebildet werden sollen.
Zusätzliche Ressourcen
Weitere Informationen zur Theorie der Zeitserien-Cluster-Bildung finden Sie in den folgenden Referenzen:
- Pablo Montero, José A. Vilar (2014). TSclust: An R Package for Time Series Clustering. Journal of Statistical Software. 62(1), 1-43. URL https://www.jstatsoft.org/v62/i01/.
Weitere Informationen zu funktionaler Datenanalyse finden Sie in den folgenden Referenzen:
- Ramsay, J. O., Silverman, B.W. (2006). Functional Data Analysis. DOI: 10.1007/b98888
Weitere Informationen zu k-Medoiden finden Sie in den folgenden Referenzen:
- Kaufman, L. und P. J. Rousseau (2009). Finding groups in data: an introduction to cluster analysis (Vol. 344). John Wiley & Sons
Weitere Informationen zu k-Means finden Sie in den folgenden Referenzen:
- Lloyd, Stuart (1982). Least squares quantization in PCM. IEEE transactions on information theory 28.2: 129-137.
- Arthur, David und Sergei Vassilvitskii (2006). k-means++: The advantages of careful seeding. Stanford.