Das Werkzeug Erkennung von Veränderungspunkten ermittelt für jede Position im Raum-Zeit-Würfel Änderungen statistischer Eigenschaften der Zeitserie. Das Werkzeug kann Änderungen im Mittelwert, in der Standardabweichung oder in der Neigung (linearer Trend) von kontinuierlichen (stetigen) Variablen sowie Änderungen im Mittelwert von Häufigkeitsvariablen erkennen. Dabei kann entweder die Anzahl der Veränderungspunkte an jeder Position durch das Werkzeug bestimmt werden oder eine definierte Anzahl der Veränderungspunkte, die für alle Positionen verwendet werden soll, angegeben werden.
Die Veränderungspunkte teilen jede Zeitserie so in Segmente, dass die Werte in jedem Segment einen ähnlichen Mittelwert, eine ähnliche Standardabweichung oder einen ähnlichen linearen Trend (Neigung und Schnittpunkt) aufweisen. Da Veränderungspunkte in jedem neuen Segment ab dem zweiten Segment als erster Zeitschritt definiert werden, liegt die Anzahl der Veränderungspunkte immer um genau eins niedriger als die Anzahl der Segmente.
Typen von Veränderungspunkten
Das Werkzeug kann vier Typen von Änderungen ermitteln. In jeder der folgenden Abbildungen wird die Zeitserie als blaues Liniendiagramm mit vertikalen orangefarbenen Linien an den Veränderungspunkten dargestellt.
- Mean Shift: Erkennt Verschiebungen des Mittelwertes der Analysevariablen. Für die Datenwerte wird eine Normalverteilung angenommen, wobei alle Zeitschritte die gleiche Standardabweichung aufweisen Der Mittelwert ist in jedem Segment konstant und ändert sich an jedem Veränderungspunkt in einen neuen Wert.
- Mögliche Anwendung: Erkennen von Hitzewellen, wenn sich die tägliche Höchsttemperatur innerhalb einer kurzen Zeitspanne erhöht.
- Standardabweichung: Erkennt Änderungen bei der Standardabweichung der Analysevariablen. Für die Datenwerte wird eine Normalverteilung angenommen, wobei alle Zeitschritte den gleichen Mittelwert aufweisen. Die Standardabweichung ist in jedem Segment konstant und ändert sich an jedem Veränderungspunkt in einen neuen Wert.
- Mögliche Anwendung: Erkennen von Änderungen bei der Schwankung der Windgeschwindigkeit, die möglicherweise auf extreme Wettereignisse hindeuten.
- Neigung (linearer Trend): Erkennt Veränderungen beim linearen Trend der Analysevariablen. Für die Datenwerte wird eine Normalverteilung angenommen, wobei ein Mittelwert durch eine Linie definiert wird und alle Zeitschritte die gleiche Standardabweichung aufweisen. Die Neigung und der Schnittpunkt der Linie sind in jedem Segment konstant und ändern sich an jedem Veränderungspunkt in neue Werte.
- Mögliche Anwendung: Erkennen von Veränderungen beim Trend der Umsatzerlöse, um die effektivsten Marketingkampagnen zu bestimmen.
- Anzahl: Erkennt Änderungen des Mittelwertes einer Analysevariablen, die Häufigkeitswerte darstellt. Für die Daten wird eine Poisson-Verteilung in jedem Segment angenommen, wobei sich der Mittelwert bei jedem Veränderungspunkt in einen neuen Wert ändert.
- Mögliche Anwendung: Erkennen von Änderungen bei der täglichen Anzahl von Influenzafällen, um den Anfang und das Ende jeder jährlichen Grippesaison zu schätzen.
Werkzeugausgaben
Die primäre Ausgabe des Werkzeugs ist eine Feature-Class mit einem Feature pro Position des Eingabe-Raum-Zeit-Würfels. Der Layer wird mit fünf Klassen auf Grundlage der Anzahl der an jeder Position erkannten Veränderungspunkte dargestellt.
Die Ausgabe-Features enthalten die folgenden Felder:
- Anzahl der Veränderungspunkte (NUM_CPTS): Die Anzahl der an jeder Position erkannten Veränderungspunkte.
- Datum des ersten Veränderungspunktes (FIRST_CHPT): Das Datum des ersten Veränderungspunktes an der Position. Wenn keine Veränderungspunkte erkannt werden, ist der Wert NULL.
- Datum des letzten Veränderungspunktes (LAST_CHPT): Das Datum des letzten Veränderungspunktes an der Position. Wenn keine Veränderungspunkte erkannt werden, ist der Wert NULL. Wenn ein Veränderungspunkt erkannt wird, stimmt der Wert mit dem Datum des ersten Veränderungspunktes überein.
Da die Layer-Zeit der Ausgabe-Features auf dem Datum des ersten Veränderungspunktes basiert, können mit dem Zeitschieberegler Positionen nach diesem Datum gefiltert werden. Als Layer-Zeit kann in den Layer-Eigenschaften auch das Datum des letzten Veränderungspunktes festgelegt werden. Dies kann z. B. für die Animation von Zeitverläufen zum Visualisieren des ersten oder letzten Veränderungspunktes an unterschiedlichen Positionen verwendet werden, um zeitliche Muster für die Positionen zu ermitteln.
Pop-up-Diagramme für Zeitserien
Wenn Sie mit dem Navigationswerkzeug Erkunden auf ein beliebiges Feature auf der Karte klicken, wird im Bereich Pop-up ein Liniendiagramm angezeigt. Ein blaues Liniendiagramm stellt die Zeitserie an der Position dar, und Veränderungspunkte werden durch größere rote Punkte angegeben.
Für die Veränderungstypen Mean Shift und Anzahl werden am Mittelwert jedes Segments rote horizontale Linien dargestellt.
Für den Veränderungstyp "Neigung (linearer Trend)" werden rote Linien gezeichnet, die den linearen Trend jedes Segments darstellen.
Für den Veränderungstyp Standardabweichung wird am globalen Mittelwert der gesamten Zeitserie eine durchgezogene rote Linie dargestellt. Für jedes Segment wird über und unter dem globalen Mittelwert jeweils eine rote Linie für die Standardabweichungen mit rosa Schummerung zwischen den Bändern dargestellt. Die Breite der Bänder ändert sich entsprechend den Änderungen der Standardabweichung an den Veränderungspunkten. Gestrichelte graue Linien stellen zwei Standardabweichungen über und unter dem globalen Mittelwert dar. So können Sie bestimmen, ob die Standardabweichung eines Segments größer oder kleiner als die Standardabweichung der gesamten Zeitserie ist.
Sie können mit der Maus auf jedes Element im Diagramm zeigen, um weitere Informationen über die Werte zu erhalten.
Hinweis:
Wenn die Ausgabe-Features als Shapefile (.shp) gespeichert werden, werden keine Pop-up-Diagramme erstellt.
Geoverarbeitungsmeldungen
Das Werkzeug gibt eine Reihe von Meldungen aus, die Informationen zur Ausführung des Werkzeugs enthalten. Die Meldungen bestehen aus mehreren Abschnitten.
Im Abschnitt Details des Eingabe-Raum-Zeit-Würfels werden die Eigenschaften des Eingabe-Raum-Zeit-Würfels zusammen mit Informationen über das Zeitschrittintervall sowie der Anzahl der Zeitschritte, Positionen und Raum-Zeit-Abschnitte angezeigt. Welche Eigenschaften im ersten Abschnitt angezeigt werden, hängt von der Erstellung des Würfels ab, weshalb die Informationen von Würfel zu Würfel variieren.
Im Abschnitt Wichtige Datumsangaben werden das Datum des ersten und letzten Veränderungspunktes an allen Positionen sowie das Datum mit den meisten Veränderungspunkten angezeigt. So lassen sich Datumsangaben ermitteln, wenn große Änderungen erfolgt sind, die Änderungen an mehreren Positionen verursacht haben. Bei Konflikten wird das früheste Datum angezeigt.
Im Abschnitt Zusammenfassung der Anzahl der Veränderungspunkte pro Zeitintervall werden das Minimum, das Maximum, der Mittelwert, der Medianwert und die Standardabweichung für die Anzahl an Veränderungspunkten pro Zeitschritt angezeigt. So können Sie die Häufigkeit der Veränderungspunkte in der Zeitserie an allen Positionen untersuchen. Wenn die Häufigkeit zu hoch oder zu gering ist, können Sie den Wert des Parameters Erkennungsempfindlichkeit anpassen, um die Häufigkeit der Veränderungspunkte zu erhöhen oder zu verringern.
Visualisieren des Raum-Zeit-Würfels in 3D
Der Eingabe-Raum-Zeit-Würfel wird mit den Ergebnissen der Analyse aktualisiert und kann im Werkzeug Raum-Zeit-Würfel in 3D visualisieren mit der Option Zeitserien-Veränderungspunkte des Parameters Anzeigedesign verwendet werden, um die Ergebnisse in einer 3D-Szene anzuzeigen. Die Ausgabe enthält ein Feature pro Zeitschritt des Raum-Zeit-Würfels. Als Veränderungspunkte erkannte Zeitschritte werden mit Veränderungspunkt beschriftet und in Violett dargestellt. Zeitschritte, die nicht als Veränderungspunkt erkannt wurden, werden mit Kein Veränderungspunkt beschriftet und in Hellgrau dargestellt.
Es werden Informationsfelder für die Zeit, Position und ID des Zeitschritts sowie die folgenden Felder für die erkannten Veränderungspunkte einbezogen:
- Veränderungspunktindikator (CHPT_IND): Das Feld enthält den Wert 1, wenn der Zeitschritt als Veränderungspunkt erkannt wird, und den Wert 0, wenn der Zeitschritt nicht als Veränderungspunkt erkannt wird.
- Aktueller Mittelwert (MEAN_CUR): Der Mittelwert des Segments, das den Zeitschritt enthält. Dieses Feld wird nur für den Veränderungstyp "Mean Shift" erstellt.
- Vorheriger Mittelwert (MEAN_BEF): Der Mittelwert des Segments, das den vorherigen Zeitschritt enthält. Die Werte von Aktueller Mittelwert und Vorheriger Mittelwert sind identisch, wenn der Zeitschritt kein Veränderungspunkt ist. Sie sind unterschiedlich, wenn der Zeitschritt ein Veränderungspunkt ist (da sich der vorherige Wert in einem anderen Segment befindet). So können Sie die Mittelwerte der Segmente vor und nach dem Veränderungspunkt vergleichen. Dieses Feld wird nur für den Veränderungstyp "Mean Shift" erstellt.
- Aktuelle Standardabweichung (STDEV_CUR): Die Standardabweichung des Segments, das den Zeitschritt enthält. Dieses Feld wird nur für den Veränderungstyp "Standardabweichung" erstellt.
- Vorherige Standardabweichung (STDEV_BEF): Die Standardabweichung des Segments, das den vorherigen Zeitschritt enthält. Die Werte von Aktuelle Standardabweichung und Vorherige Standardabweichung sind identisch, wenn der Zeitschritt kein Veränderungspunkt ist, und unterschiedlich, wenn der Zeitschritt ein Veränderungspunkt ist. Dieses Feld wird nur für den Veränderungstyp "Standardabweichung" erstellt.
- Aktueller Mittelwert der Häufigkeitswerte (MEAN_CUR): Der Mittelwert der Häufigkeitswerte des Segments, das den Zeitschritt enthält. Dieses Feld wird nur für den Veränderungstyp "Anzahl" erstellt.
- Vorheriger Mittelwert der Häufigkeitswerte (MEAN_BEF): Der Mittelwert der Häufigkeitswerte des Segments, das den vorherigen Zeitschritt enthält. Die Werte von Aktueller Mittelwert der Häufigkeitswerte und Vorheriger Mittelwert der Häufigkeitswerte sind identisch, wenn der Zeitschritt kein Veränderungspunkt ist, und unterschiedlich, wenn der Zeitschritt ein Veränderungspunkt ist. Dieses Feld wird nur für den Veränderungstyp "Anzahl" erstellt.
- Aktuelle Neigung (SLOPE_CUR): Die Neigung der Linie des Segments, das den Zeitschritt enthält. Dieses Feld wird nur für den Veränderungstyp "Neigung (linearer Trend)" erstellt.
- Neigung vor (SLOPE_BEF): Die Neigung der Linie des Segments, das den vorherigen Zeitschritt enthält. Dieses Feld wird nur für den Veränderungstyp "Neigung (linearer Trend)" erstellt.
- Aktueller Schnittpunkt (INTRCP_CUR): Der Schnittpunkt der Linie des Segments, das den Zeitschritt enthält. Dieses Feld wird nur für den Veränderungstyp "Neigung (linearer Trend)" erstellt.
- Schnittpunkt vor (INTRCP_BEF): Der Schnittpunkt der Linie des Segments, das den vorherigen Zeitschritt enthält. Dieses Feld wird nur für den Veränderungstyp "Neigung (linearer Trend)" erstellt.
Hinweis:
Durch das Anzeigedesign Zeitserien-Veränderungspunkte des Werkzeugs Raum-Zeit-Würfel in 2D visualisieren wird die erforderliche Ausgabe-Feature-Class der Erkennung von Veränderungspunkten erneut erstellt.
Erkennung von Veränderungspunkten
Durch die Erkennung von Veränderungspunkten sollen Zeitschritte ermittelt werden, bei denen sich der Mittelwert, die Standardabweichung oder die Neigung der Daten zwischen den Werten ändern. Dieses Problem entspricht dem Problem der Zeitseriensegmentierung, bei der eine Zeitserie in Segmente unterteilt wird, deren Werte jeweils einen ähnlichen Mittelwert, eine ähnliche Standardabweichung oder Neigung aufweisen. Zum Ermitteln der optimalen Segmentierung (Satz von Veränderungspunkten) für eine Zeitserie müssen Sie die Effektivität unterschiedlicher möglicher Segmentierungen messen und vergleichen können. Dieser Vergleich erfolgt durch Berechnen der Segmentierungskosten pro Segmentierung. Die optimale Segmentierung ist die Segmentierung mit den geringsten Kosten.
Die Kosten einer Segmentierung werden berechnet, indem die einzelnen Kosten jedes Segments in der Segmentierung addiert werden. Dabei basieren die Kosten jedes Segments auf einer Wahrscheinlichkeitsfunktion, die durch den Veränderungstyp bestimmt wird (Informationen zu den Verteilungsannahmen für die einzelnen Veränderungstypen finden Sie unter Typen von Veränderungspunkten). Intuitiv lässt sich erkennen, dass die Wahrscheinlichkeit umso höher ist und die Segmentierungskosten umso geringer sind, je stärker die Segmente mit der angenommenen Verteilung des Verteilungstyps übereinstimmen.
Beispielsweise ist in der folgenden Abbildung eine Zeitserie mit 150 Zeitschritten dargestellt, wobei alle Werte aus einer Normalverteilung mit der Standardabweichung 1 generiert werden. Der Mittelwert der ersten 50 Zeitschritte beträgt 0. Anschließend erhöht sich der Mittelwert für die nächsten 50 Zeitschritte auf 10 und verringert sich dann für die letzten 50 Zeitschritte wieder auf 0. Ein Veränderungspunkt ist als der erste Zeitschritt in jedem neuen Segment definiert. Somit sind für diese Zeitserie die Zeitschritte 51 und 101 die echten Veränderungspunkte, wenn es zu einer Verschiebung des Mittelwertes kommt. Die Histogramme der einzelnen Segmente zeigen, dass jedes Segment einer Normalverteilung mit ungefähr gleicher Standardabweichung, jedoch unterschiedlichem Mittelwert zu folgen scheint. Deshalb scheint diese Segmentierung den Annahmen des Veränderungstyps "Mean Shift" zu entsprechen. Dies bedeutet, dass die Wahrscheinlichkeit dieser Segmentierung hoch ist und die resultierenden Segmentierungskosten gering sind. Für diese korrekte Segmentierung betragen die Segmentierungkosten bei der Erkennung des Veränderungstyps "Mean Shift" 401,39. Es ist schwierig, diesen Wert isoliert zu interpretieren, er kann jedoch mit den Kosten anderer möglicher Segmentierungen verglichen werden.
In der folgenden Abbildung ist eine falsche Segmentierung dargestellt, in der die Zeitschritte 31 und 121 als Veränderungspunkte erkannt werden. Das mittlere Segment scheint keine Normalverteilung aufzuweisen und verfügt über eine weitaus größere Standardabweichung als das erste und letzte Segment. Dies deutet darauf hin, dass die Datenwerte der Segmente unter der Verteilungsannahme des Veränderungstyps "Mean Shift" unwahrscheinlich sind, sodass von hohen Segmentierungskosten auszugehen ist. Die Kosten dieser Segmentierung betragen tatsächlich 2.596,24 und sind somit deutlich höher als die Kosten der korrekten Segmentierung. Dies bestätigt, dass diese Veränderungspunkte nicht optimal für diese Zeitserie sind.
Nehmen wir nun an, dass zusätzlich zu den beiden echten Veränderungspunkten ein unnötiger Veränderungspunkt hinzugefügt wird. In der folgenden Abbildung werden die Zeitschritte 51, 101 und 131 als Veränderungspunkte definiert. Der letzte Veränderungspunkt ist nicht notwendig. Die Segmenthistogramme scheinen jedoch Normalverteilungen mit ungefähr gleicher Standardabweichung aufzuweisen. Dies deutet auf eine hohe Wahrscheinlichkeit und niedrige Segmentierungskosten hin. Die Kosten dieser Segmentierung betragen 401,27 und sind somit ein wenig niedriger als die Kosten der korrekten Segmentierung (401,39). Die Kosten der Segmentierung mit einem nicht benötigten Veränderungspunkt sind niedriger als die Kosten der korrekten Segmentierung, da sich Wahrscheinlichkeiten niemals durch das Hinzufügen neuer Parameter (in diesem Fall neuer Veränderungspunkte) verringern. Durch das Einfügen des zusätzlichen Veränderungspunktes wurden die Kosten nur geringfügig verringert, da hierdurch die Übereinstimmung des Modells mit den Daten minimal verbessert wurde.
Wenn die Anzahl der Veränderungspunkte nicht beschränkt wird, werden die Segmentierungskosten durch das Hinzufügen weiterer Veränderungspunkte immer verringert. Um zu verhindern, dass alle Zeitschritte als Veränderungspunkte erkannt werden, müssen Sie mit dem Parameter Methode einen von zwei Beschränkungstypen anwenden.
Mit der Option Definierte Anzahl der Veränderungspunkte (SegNeigh) können Sie mittels des Parameters Anzahl der Veränderungspunkte festlegen, wie viele Veränderungspunkte erkannt werden sollen. Für diese Option wird der SegNeigh-Algorithmus (Segment Neighborhood, Auger 1989) verwendet, um die Segmentierung mit den geringsten Kosten unter allen möglichen Segmentierungen zu ermitteln, die über die angegebene Anzahl an Veränderungspunkten verfügen.
Für die Option Anzahl der Veränderungspunkte automatisch erkennen (PELT) wird der PELT-Algorithmus (Pruned Exact Linear Time, Killick 2012) verwendet, um die Anzahl und Positionen der Veränderungspunkte zu schätzen. Dieser Algorithmus belastet das Einfügen jedes zusätzlichen Veränderungspunktes mit zusätzlichen Kosten, indem den Kosten jedes Segments ein Sanktionskostenwert hinzugefügt wird. Er ermittelt zudem die Segmentierung, deren Gesamtkosten (Segmentierungskosten plus Sanktionskosten) unter allen möglichen Segmentierungen am geringsten sind. Damit durch den PELT-Algorithmus ein Zeitschritt als Veränderungspunkt erkannt wird, müssen die Segmentierungskosten um einen höheren Betrag als der hinzugefügte Sanktionskostenwert verringert werden. Wenn die Kostenreduzierung geringer als die hinzugefügten Sanktionskosten ist, werden die Sanktionskosten erhöht, und der Zeitschritt wird nicht als Veränderungspunkt erkannt.
Für die Ergebnisse des PELT-Algorithmus ist die Auswahl des Sanktionskostenwertes von entscheidender Bedeutung. Bei zu geringen Sanktionskosten werden möglicherweise zu viele falsche Veränderungspunkte erkannt, und bei zu hohen Sanktionskosten werden möglicherweise echte Veränderungspunkte nicht erkannt. Der im PELT-Algorithmus verwendete Sanktionskostenwert wird durch den Parameter Erkennungsempfindlichkeit bestimmt. Die Empfindlichkeit wird als eine Zahl zwischen 0 und 1 angegeben, und mit einer höheren Empfindlichkeit werden durch Verwendung geringerer Sanktionskostenwerte mehr Veränderungspunkte erkannt. Beim Erkennen von Veränderungspunkten wird für jede Position des Raum-Zeit-Würfels der gleiche Sanktionskostenwert verwendet.
Bei einer Veränderung von Mittelwert, Standardabweichung und Anzahl wird der Sanktionskostenwert mit der folgenden Formal anhand der Empfindlichkeit ermittelt, wobei n die Anzahl der Zeitschritte in der Zeitserie angibt:
Der höchste Empfindlichkeitswert 1 entspricht dem Minimieren des Bayes'schen Informationskriteriums (BIC).
Für eine Veränderung der Neigung (linearer Trend) wird eine konservativere Formel für den Sanktionskostenwert verwendet:
Der Standardwert für die Empfindlichkeit von 0,5 entspricht dem Minimieren des Akaike Information Criterion (AIC). Für eine Veränderung der Neigung (linearer Trend) wird eine konservativere Formel für den Sanktionskostenwert verwendet, da bei anderen Veränderungstypen nicht leicht zwischen Trends und Veränderungspunkten unterschieden werden kann. Daher erfordern sie größere Sanktionskostenwerte, um die Erkennung zu vieler Veränderungspunkte zu vermeiden. Die Veränderung der Neigung (linearer Trend) ist jedoch für Daten mit Trends vorgesehen. Aus diesem Grund sind keine so großen Sanktionskostenwerte erforderlich.
PELT und SegNeigh sind genaue rekursive Algorithmen. Das heißt, sie geben immer die Segmentierung mit den global geringsten Segmentierungskosten zurück, wenn ein fester Sanktionskostenwert oder eine feste Anzahl von Veränderungspunkten gegeben ist. Die Algorithmen werden an allen Positionen des Raum-Zeit-Würfels eigenständig ausgeführt.
PELT und SegNeigh stimmen insofern überein, als sie dieselben Zeitschritte als Veränderungspunkte erkennen, wenn beide Methoden die gleiche Anzahl an Veränderungspunkten erkennen. Wenn Sie z. B. den PELT-Algorithmus ausführen und einen Sanktionskostenwert verwenden, mit dem an einer Position sechs Veränderungspunkte erkannt werden, und dann den SegNeigh-Algorithmus ausführen und angeben, dass sechs Veränderungspunkte erkannt werden sollen, erkennen beide Methoden dieselben Zeitschritte als Veränderungspunkte.
Minimale Segmentlänge
Sie können den Parameter Minimale Segmentlänge verwenden, um die minimale Anzahl an Zeitschritten in jedem Segment anzugeben. Wenn Sie beispielsweise über tägliche Umsatzerlöse verfügen und eine minimale Segmentlänge von 7 angeben, liegt mindestens eine Woche zwischen den Veränderungspunkten. Der Standardwert für die minimale Segmentlänge ist der kleinste Wert, der zum Berechnen der Segmentkosten erforderlich ist. Für eine Veränderung von Mittelwert, Standardabweichung und Anzahl ist die Standardeinstellung 1. Dies bedeutet, dass jeder Zeitschritt ein Veränderungspunkt sein kann. Für eine Veränderung der Neigung (linearer Trend) ist die Standardeinstellung 2, da mindestens zwei Werte erforderlich sind, um eine Linie an die Werte des Segments anzupassen.
Die minimale Segmentlänge ist eine weitere Einschränkung neben der Einschränkung, die mit dem Parameter Methode angewendet wird. PELT oder SegNeigh finden einen Satz von Veränderungspunkten mit den niedrigsten Segmentierungskosten unter allen möglichen Segmentierungen, deren Segmente mindestens die minimale Länge haben.
Empfehlungen und Beschränkungen
Bei der Auswahl der Parameter und Optionen des Werkzeugs sollten mehrere Überlegungen berücksichtigt werden.
- Die Methoden zur Erkennung von Veränderungspunkten sind in Online- und Offline-Methoden unterteilt, und dieses Werkzeug führt eine Offline-Erkennung aus. Bei den Offline-Methoden wird eine vorhandene Zeitserie mit einem Anfang und einem Ende angenommen, und es sollen in der Vergangenheit erfolgte Änderungen erkannt werden. Online-Methoden hingegen werden stetig für Daten ausgeführt, die aktualisiert werden, wenn neue Werte verfügbar werden. Mit den Online-Erkennungsmethoden sollen neue Änderungen in möglichst kurzer Zeit nach dem Eintreten der Änderung erkannt werden. Zwischen Online- und Offline-Methoden bestehen erhebliche Unterschiede im Hinblick auf ihre Algorithmen, Anwendungsfälle und Annahmen bezüglich der Daten.
- Das Erkennen von Veränderungen bei Mittelwert, Standardabweichung oder Anzahl ist am effektivsten für Daten, die keine Trends aufweisen und deren Veränderungen in einem einzelnen Zeitschritt erfolgen. Für Zeitserien mit Trends werden möglicherweise aufgrund des sich stets ändernden Mittelwertes viele Zeitschritte als Veränderungspunkte erkannt. Wenn die Änderung allmählich erfolgt und mehrere Zeitschritte erfordert, bevor sich der Wert vollständig geändert hat, werden möglicherweise alle Zeitschritte während des Übergangs als Veränderungspunkte erkannt. Für diese Fälle wird empfohlen, niedrigere Werte für den Parameter Erkennungsempfindlichkeit zu verwenden oder Veränderungen der Neigung (linearer Trend) zu erkennen.
- Die Erkennung von Veränderungspunkten ähnelt der Erkennung von Zeitserienausreißern, unterscheidet sich jedoch in wichtigen Aspekten. Bei der Erkennung von Veränderungspunkten werden Zeitschritte identifiziert, wenn sich ein Modell in ein anderes Modell ändert (z. B. bei einer Änderung des Mittelwertes). Bei der Ausreißererkennung werden Zeitschritte identifiziert, die erheblich von einem einzelnen Modell abweichen. Bei der ersten Erkennungsart wird eine nachhaltige Änderung angenommen, während bei der zweiten Erkennungsart eine kurzfristige Abweichung angenommen wird.
Für Analysevariablen, die Häufigkeitswerte darstellen, ist die Option Anzahl des Parameters Veränderungstyp für das Erkennen von Veränderungen im Mittelwert der Häufigkeitswerte oft am besten geeignet. Allerdings könnten mit der Option Mean Shift durchaus vergleichbare oder sogar bessere Ergebnisse für Häufigkeitsdaten erzielt werden. Dies liegt daran, dass das Modell des Veränderungstyps "Anzahl" davon ausgeht, dass die Werte jedes Segments einer Poisson-Verteilung gehorchen, in der die Varianz des Segments gleich dem Mittelwert des Segments ist. Beim Veränderungstyp "Mean Shift" wird dagegen davon ausgegangen, dass die Werte jedes Segments normalverteilt sind, sodass der Mittelwert durchaus kleiner oder größer als die Varianz der Werte sein kann.
In einer Poisson-Verteilung liegen die meisten Häufigkeitswerte innerhalb von zwei Quadratwurzeln des Mittelwertes. Beispiel: Bei einer Poisson-Verteilung mit einem Mittelwert gleich 100 liegen etwa 95 Prozent der Häufigkeitswerte zwischen 80 und 120 (2 * sqrt(100) = 20). Bei einer Poisson-Verteilung mit einem Mittelwert gleich 1 Million liegen die meisten Häufigkeitswerte zwischen 998.000 und 1.002.000 (die Quadratwurzel von 1 Million ist 1.000). Der Bereich der Häufigkeitswerte ist für den größeren Mittelwert von 1 Million vergleichsweise schmal, wobei die meisten Häufigkeitswerte innerhalb eines Bereichs von 0,2 Prozent um den Mittelwert liegen. Bei dem kleineren Mittelwert von 100 weichen die Häufigkeitswerte jedoch um bis zu 20 Prozent vom Mittelwert ab. Wenn die Häufigkeitswerte verglichen mit ihrem Mittelwert stärker als erwartet von einer Poisson-Verteilung abweichen, können viele Zeitschritte als Veränderungspunkte erkannt werden. Am häufigsten ist dies bei großen Häufigkeitswerten der Fall. In diesem Fall wird empfohlen, dass Sie die Erkennung mit "Mean Shift" verwenden.
- Bei allen Veränderungstypen wird der erste Schritt niemals als Veränderungspunkt erkannt. Der Grund dafür ist, dass Veränderungspunkte den Anfang eines neuen Segments ab dem zweiten Segment markieren. Da sich der erste Zeitschritt immer im ersten Segment befindet, kann er niemals ein Veränderungspunkt sein. Darüber hinaus werden bei einer Veränderung der Neigung (linearer Trend) die ersten beiden Zeitschritte nie als Veränderungspunkte erkannt, da im ersten Segment mindestens zwei Zeitschritte vorhanden sein müssen.
- Für die Option Definierte Anzahl der Veränderungspunkte (SegNeigh) des Parameters Methode ist die optimale Segmentierung nicht immer eindeutig. Wenn mehrere Segmentierungen die gleichen Segmentierungskosten aufweisen, werden die letzten möglichen optimalen Veränderungspunkte zurückgegeben. Wenn beispielsweise alle Werte einer Zeitserie an einer Position gleich sind, weisen alle Segmentierungen die gleiche Wahrscheinlichkeit und die gleichen Kosten auf. Wenn in diesem Fall drei Veränderungspunkte angefordert werden, werden die letzten drei Zeitschritte als Veränderungspunkte an der Position erkannt.
- Für die Mean-Shift-Erkennung muss die Varianz der Daten um den Mittelwert geschätzt werden, ohne bereits die Zeitschritte zu kennen, bei denen eine Mittelwertverschiebung auftritt (die Veränderungspunkte). Die herkömmlichen Varianzformeln weisen eine Verzerrung auf, wenn ein unbekannter sich ändernder Mittelwert vorhanden ist. Deshalb wird die folgende robuste Varianzformel verwendet:
Zum Erkennen der Veränderung der Neigung muss zudem eine unbekannte Varianz um eine Trendlinie der Veränderung geschätzt werden. Die folgende robuste Varianzformel wird verwendet:
Wenn eine Formel Null ergibt, wird die Varianz geschätzt, wobei angenommen wird, dass keine Mittelwertverschiebungen oder -trends auftreten.
Zusätzliche Quellen
Weitere Informationen zur Erkennung von Veränderungspunkten finden Sie in den folgenden Quellen:
- Auger, I. E. and Lawrence, C. E. (1989). "Algorithms for the optimal identification of segment neighborhoods".Bulletin of Mathematical Biology. 51(1): 39-54. https://doi.org/10.1007/BF02458835
- Killick, R., Fearnhead, P., and Eckley, I.A. (2012). "Optimal Detection of Changepoints With a Linear Computational Cost". Journal of the American Statistical Association. 107. 1590-1598. https://dx.doi.org/10.1080/01621459.2012.737745
- Killick, R. and Eckley, I.A. (2014). "changepoint: An R Package for Changepoint Analysis". Journal of Statistical Software. https://dx.doi.org/10.18637/jss.v058.i03