Comprender los valores atípicos en el análisis de serie temporal

Los valores atípicos de los datos de series temporales son valores que varían significativamente de los patrones y tendencias de los demás valores en series temporales. Por ejemplo, puede que se detecte como valores atípicos en la serie temporal un gran número de compras en línea cerca de Navidad o un gran número de accidentes de tráfico durante tormentas fuertes. Errores simples de introducción de datos, como la omisión de la parte decimal de un número, representan otra fuente común de valores atípicos. La identificación de valores atípicos en la predicción de series temporales es importante porque los valores atípicos influyen en el modelo de predicción que se utiliza para predecir valores futuros. Incluso un número pequeño de valores atípicos en la serie temporal de una ubicación puede reducir la precisión y fiabilidad de las predicciones. Las ubicaciones con valores atípicos, en especial los valores atípicos hacia el inicio o el final de la serie temporal, pueden producir predicciones engañosas. Identificar estas ubicaciones ayuda a determinar la confianza que debería tener en los valores previstos en cada ubicación.

Puede identificar valores atípicos en cada ubicación de un cubo de espacio-tiempo utilizando las herramientas Predicción de ajuste de curva, Predicción de suavizado exponencial y Predicción basada en bosque especificando la opción Identificar valores atípicos del parámetro Opción de valor atípico.

Visualizar y explorar valores atípicos

Después de ejecutar una de las herramientas de predicción con la opción de identificar valores atípicos, se proporciona información sobre los valores atípicos detectados mediante simbología de entidades de salida, gráficos de series temporales, visualización 2D o 3D del cubo de espacio-tiempo de salida y mensajes de geoprocesamiento.

Gráficos emergentes

Al hacer clic en una entidad de salida del mapa, se genera un gráfico emergente en el panel Elementos emergentes que muestra la serie temporal y el modelo de predicción con valores atípicos identificados mostrados como puntos grandes. La siguiente imagen muestra la serie temporal de una entidad en la que se identificó un valor atípico:

Gráfico emergente de valores atípicos de serie temporal

El gráfico emergente muestra la serie temporal con valores atípicos identificados.

Visualizar el cubo de espacio-tiempo

Los valores atípicos de un cubo de espacio-tiempo se pueden visualizar y explorar en 2D y 3D utilizando las herramientas Visualizar cubo de espacio-tiempo en 2D y Visualizar cubo de espacio-tiempo en 3D utilizando la opción Resultados de valor atípico de serie temporal del parámetro Tema de visualización.

Para la salida de entidades 2D, las entidades de salida se simbolizan según el número de valores atípicos de cada ubicación y contienen los mismos gráficos emergentes que muestran las series temporales y los valores atípicos identificados.

Para la salida de entidades 3D, las entidades de salida muestran las ubicaciones y las horas de los valores atípicos identificados en una escena 3D. Cualquier bin de espacio-tiempo cuyo valor se identifica como un valor atípico de serie temporal se etiqueta como Por encima del valor ajustado o Por debajo del valor ajustado, dependiendo de si el valor está por encima o por debajo de los valores ajustados del modelo de predicción. Los valores atípicos por encima del valor ajustado se muestran en morado y los valores atípicos por debajo del valor ajustado se muestran en verde. Los bins de espacio-tiempo que no se identifican como valores atípicos se etiquetan como No es un valor atípico y se muestran en gris claro.

Entidades 3D que muestran valores atípicos por encima y por debajo del valor ajustado

Los valores atípicos por encima y por debajo de los valores ajustados se muestran en las entidades 3D.

Las entidades 3D también incluyen dos gráficos. El gráfico Visualizar en serie temporal 3D muestra un gráfico de líneas del valor promedio de las series temporales en los periodos de tiempo del cubo de espacio-tiempo. Este gráfico también se crea mediante la opción Resultados de la previsión del parámetro Temas de visualización y no contiene información relacionada con la detección de valores atípicos.

El segundo gráfico es el gráfico Recuento de valores atípicos por encima o por debajo del valor ajustado a lo largo del tiempo. Este gráfico es un gráfico de barras apiladas que muestra el número total de valores atípicos por encima y por debajo del valor ajustado en cada periodo de tiempo del cubo de espacio-tiempo. Esto le permite identificar fechas importantes en las que se produjeron muchos valores atípicos y puede ver si los valores de estas fechas eran inusualmente altos o bajos.

Gráfico de barras de valores atípicos por encima y por debajo de los valores ajustados

El gráfico de barras apiladas muestra los recuentos de valores atípicos por encima y por debajo de los valores ajustados a lo largo del tiempo.

Mensajes de geoprocesamiento

Los mensajes de geoprocesamiento incluyen una sección Resumen de valores atípicos de serie temporal. La primera parte de esta sección muestra el número y el porcentaje de ubicaciones que contienen al menos un valor atípico. Esto le ofrece una idea rápida de lo bien que se ajusta el modelo de predicción a la serie temporal en general. La segunda parte muestra estadísticas de resumen (mínimo, valor medio y máximo) del número de valores atípicos por ubicación y por periodo de tiempo. Esto le permite investigar con qué frecuencia se produjeron los valores atípicos en ubicaciones individuales y periodos de tiempo individuales. Esta sección también muestra el periodo de tiempo que contiene la mayor cantidad de valores atípicos. Puede utilizarlo para identificar fechas importantes en las que se produjeron muchos valores atípicos.

Mensajes que resumen los valores atípicos identificados

Los resúmenes de los valores atípicos identificados aparecen en los mensajes de geoprocesamiento.

Valores atípicos contextuales y globales

Existen varios tipos de valores atípicos de serie temporal que la herramienta puede detectar. Aunque todos los tipos se detectan del mismo modo, entender los tipos ayuda a aclarar por qué ciertos periodos de tiempo se identificaron como valores atípicos y otros no.

El tipo más simple es los valores atípicos globales cuyos valores sin procesar son significativamente más grandes o más pequeños que el resto de los valores. Estos valores atípicos a menudo se corresponden con anomalías o eventos especiales como los festivos. El siguiente gráfico muestra un valor atípico global. El valor atípico identificado tiene un valor significativamente mayor que el resto de los datos de la serie temporal y se identificó por ello.

Valor atípico global de serie temporal

Sin embargo, no es necesario que los valores estén entre los valores más altos o más bajos de las series temporales para declararlos valores atípicos. En su lugar, algunos valores atípicos se identifican en función del contexto, teniendo un valor significativamente mayor o menor de lo que se esperaría en base a los patrones y tendencias de la serie temporal. El modelo de predicción incorpora estos patrones y tendencias y sirve como línea base para identificar valores atípicos contextuales. Por ejemplo, considere una serie temporal de temperatura media anual. Debido a que las temperaturas medias han aumentado en las últimas décadas, el modelo de predicción ajustado de temperatura también aumenta con el tiempo para reflejar este incremento. Eso significa que un valor de temperatura que se consideraría típico y no un valor atípico en 1950 es probable que se considere un valor atípico si se produjera la misma temperatura en 2020. Es decir, una temperatura típica de 1950 se consideraría baja bajo los estándares de 2020.

El siguiente gráfico muestra una serie temporal con un valor atípico contextual y un valor atípico global. El valor del valor atípico contextual no es el valor más pequeño de la serie temporal, pero se identificó como un valor atípico de valor bajo porque está más por debajo del modelo de predicción naranja.

Valores atípicos contextuales y globales de serie temporal

Si los valores se identifican como valores atípicos también depende de lo bien que el modelo de predicción se ajuste a las series temporales. Si el modelo de predicción generalmente se ajusta mucho a los datos de serie temporal, los valores que se alejan incluso ligeramente del modelo de predicción se pueden identificar como valores atípicos. Del mismo modo, si el modelo de predicción no se ajusta bien a los datos de serie temporal, incluso es posible que las desviaciones grandes del modelo de predicción no se identifiquen como valores atípicos.

El siguiente gráfico muestra varios valores identificados como valores atípicos. Estos valores no parecen alejarse del modelo de predicción naranja, pero su desviación es mucho mayor que el resto de los valores de la serie temporal.

Valores atípicos por ajuste de modelo

Prueba de ESD generalizada para valores atípicos de serie temporal

La prueba de desviación estudentizada extrema (ESD) generalizada se utiliza para probar la presencia de valores atípicos en cada ubicación del cubo de espacio-tiempo. Esta prueba no es una prueba; es una secuencia de pruebas (cada una llamada prueba de Grubbs), cada una de las cuales comprueba un número específico de valores atípicos en el nivel de confianza especificado. La primera prueba comprueba la presencia de exactamente un valor atípico en el dataset. La segunda prueba exactamente dos valores atípicos. La tercera prueba exactamente tres. Así hasta el valor del parámetro Número máximo de valores atípicos (de forma predeterminada, 5 por ciento del número de periodos de tiempo, redondeado a la baja). A continuación, la herramienta devuelve los valores atípicos asociados con el mayor número de valores atípicos estadísticamente significativos. Por ejemplo, usando un máximo de tres valores atípicos, si la prueba de un valor atípico es estadísticamente significativa, la prueba de dos valores atípicos no es significativa y la prueba de tres valores atípicos es significativa, la herramienta devuelve tres valores atípicos. Del mismo modo, si un valor atípico es significativo, dos valores atípicos son significativos y tres valores atípicos no son significativos, la herramienta devuelve dos valores atípicos.

Para una serie temporal con periodos de tiempo ajustados T, la prueba continúa de la siguiente manera: donde i oscila entre 1 y el número máximo de valores atípicos:

  1. Calcular los residuales de cada periodo de tiempo t restando el valor del modelo de predicción del valor sin procesar: Calcular residuales
  2. Calcule la desviación estándar y el valor medio de los residuales.
  3. Calcular la estadística de prueba dividiendo la desviación absoluta máxima del valor medio entre la desviación estándar: Calcular la estadística de prueba
  4. Compare la estadística de prueba con el siguiente valor crítico: Calcular el valor crítico, donde t α,T-i-1 es el valor crítico de dos lados de la distribución t con T-i+1 grados de libertad en el nivel de confianza (1 - α / (2(T-i+1))) y α es el nivel de significancia (determinado por el nivel de confianza).
  5. Si la estadística de prueba es mayor que el valor crítico, la prueba de los valores atípicos i exactos es estadísticamente significativa.
  6. Elimine el valor asociado con el residual absoluto máximo y repita los pasos del 2 al 5 en todos los periodos de tiempo que no se hayan eliminado previamente, además de aumentar i en uno. La desviación estándar y el valor medio de los residuales cambian al quitar el valor en cada repetición. Este nuevo cálculo del valor medio y la desviación estándar corrige la influencia de los valores atípicos en el modelo de predicción.
  7. Devuelve los valores atípicos asociados con el mayor número de valores atípicos estadísticamente significativos.

Dado que esta prueba se realiza independientemente en cada ubicación del cubo de espacio-tiempo, las diferentes ubicaciones pueden identificar diferentes números de valores atípicos. El número de valores atípicos en cada ubicación se puede ver en el campo Number of Model Fit Outliers de las entidades de salida.

Prácticas recomendadas y limitaciones

Existen varias consideraciones y limitaciones importantes a la hora de identificar valores atípicos de serie temporal:

  • Si utiliza la herramienta Predicción basada en bosque, se recomienda proporcionar un valor para el parámetro Ventana de pasos de tiempo, en lugar de dejar el parámetro vacío y estimar una ventana de periodos de tiempo diferente para cada ubicación. Para cada ubicación, el modelo de bosque utiliza los valores de la primera ventana de periodo de tiempo para entrenar el modelo de predicción y solo se detectan valores atípicos para los periodos de tiempo restantes. Si las diferentes ubicaciones excluyen diferentes números de periodos de tiempo para el entrenamiento de bosque, las estadísticas de resumen como el valor medio y los números mínimo y máximo de valores atípicos por periodo de tiempo o por ubicación pueden resultar confusas.
  • La prueba ESD generalizada utiliza aproximaciones para estimar el valor crítico. Estas aproximaciones son más precisas para las series temporales con al menos 25 periodos de tiempo.
  • Utilizar diferentes modelos de predicción y herramientas de planificación puede identificar distintos periodos de tiempo como valores atípicos. Se recomienda que solo detecte valores atípicos para el modelo de predicción que mejor se ajuste a los valores de las series temporales.

Recursos adicionales

Para más información sobre las pruebas de ESD generalizada y de Grubbs, consulte las siguientes referencias:

  • Grubbs, F. (1950). "Sample Criteria for Testing Outlying Observations." Annals of Mathematical Statistics 21(1):27–58. https://doi.org/10.1214/aoms/1177729885
  • Rosner, B. (1983). "Percentage Points for a Generalized ESD Many-Outlier Procedure." Technometrics 25(2):165-172.

Temas relacionados