La herramienta Predicción de suavizado exponencial utiliza el método de suavizado exponencial de Holt-Winters para descomponer las series temporales de cada ubicación de un cubo de espacio-tiempo en componentes estacionales y de tendencia para pronosticar eficazmente los periodos de tiempo futuros de cada ubicación. La salida principal es un mapa del periodo de tiempo predicho final, además de mensajes informativos y gráficos emergentes. También puede crear un nuevo cubo de espacio-tiempo que contenga los datos del cubo original junto con valores predichos anexados.
Aplicaciones potenciales
El suavizado exponencial es uno de los métodos de predicción de series temporales más antiguos y estudiados. Su máxima eficacia se obtiene cuando los valores de las series temporales siguen una tendencia gradual y presentan un comportamiento estacional en el cual los valores siguen un patrón cíclico repetido a lo largo de un número determinado de periodos de tiempo.
Por ejemplo, puede utilizar esta herramienta en las siguientes aplicaciones:
- Un responsable de salud municipal puede usar esta herramienta para predecir la temperatura por hora del centro urbano durante una ola de calor para prepararse para las enfermedades relacionadas con el calor.
- Una cadena de tiendas puede utilizar esta herramienta para predecir la demanda de elementos individuales para cada día de la semana siguiente.
Predicción y validación
La herramienta crea dos modelos al realizar la predicción de cada serie temporal. El primero es el modelo de predicción, que se utiliza para realizar la predicción de los valores de futuros periodos de tiempo. El segundo es el modelo de validación, que se utiliza para validar los valores predichos.
Modelo de predicción
El modelo de predicción se construye realizando un suavizado exponencial con los valores de la serie temporal en cada ubicación del cubo de espacio-tiempo. A continuación, este modelo se utiliza para predecir periodos de tiempo futuros. El ajuste del modelo de suavizado exponencial a cada serie temporal se mide mediante el error cuadrático medio (RMSE) de predicción, que es igual a la raíz cuadrada de la diferencia cuadrada promedio entre el modelo de suavizado exponencial y los valores de la serie temporal.
, donde T es el número de periodos de tiempo, ct es el valor ajustado del suavizado exponencial y rt es el valor sin procesar de la serie temporal en el tiempo t.
La siguiente imagen muestra los valores brutos de una serie temporal y un modelo de suavizado exponencial ajustado a la serie temporal junto con predicciones para dos futuros periodos de tiempo. El RMSE de predicción mide cuánto varían los valores ajustados del modelo con respecto a los valores brutos de la serie temporal.
El RMSE de predicción solo mide el grado con el que el modelo de suavizado exponencial se ajusta a los valores brutos de la serie temporal. No mide lo bien que el modelo de predicción realiza realmente la predicción de valores futuros. Es habitual que los modelos se ajusten fielmente a una serie temporal, aunque no proporcionen predicciones precisas cuando se extrapolan. Este problema se aborda con el modelo de validación.
Modelo de validación
El modelo de validación se utiliza para determinar lo bien que el modelo de predicción puede realizar la predicción de valores futuros de cada serie temporal. Se construye excluyendo algunos de los últimos periodos de tiempo de cada serie temporal y ajustando el modelo de suavizado exponencial a los datos no excluidos. A continuación, el modelo se utiliza para realizar la predicción de los valores de los datos que se retuvieron, y los valores predichos se comparan con los valores brutos que se ocultaron. De forma predeterminada, se retiene el 10 por ciento de los periodos de tiempo para la validación, pero este número se puede modificar con el parámetro Número de periodos de tiempo que se excluirán para la validación. El número de periodos de tiempo excluidos no puede superar el 25 por ciento del número de periodos de tiempo, y no se realiza ninguna validación si se especifica 0. La precisión de las predicciones se mide calculando una estadística de RMSE de validación, que es igual a la raíz cuadrada de la diferencia cuadrada promedio entre los valores predichos y brutos de los periodos de tiempo excluidos.
, donde T es el número de periodos de tiempo, m es el número de periodos de tiempo retenidos para validación, ct es el valor predicho de los primeros T-m periodos de tiempo y rt es el valor bruto de la serie temporal retenida para validación en el tiempo t.
La siguiente imagen muestra un modelo de suavizado exponencial ajustado a la primera mitad de una serie temporal y usado para predecir la segunda mitad de la serie temporal. El RMSE de validación mide cuánto varían los valores predichos de los valores brutos en los periodos de tiempo retenidos.
El modelo de validación es importante porque puede comparar directamente valores predichos con valores brutos para medir lo bien que puede predecir el modelo de suavizado exponencial. Aunque no se utiliza realmente para realizar predicciones, se utiliza para justificar el modelo de predicción.
Nota:
La validación en la predicción de serie temporal es similar aunque no idéntica a una técnica habitual denominada validación cruzada. La diferencia es que la validación de predicción siempre excluye los periodos de tiempo finales para validación, y la validación cruzada excluye un subconjunto aleatorio de los datos o excluye cada valor secuencialmente.
Interpretación
Existen varias consideraciones al interpretar los valores de RMSE de predicción y RMSE de validación.
- Los valores de RMSE no son directamente comparables entre sí porque miden cosas diferentes. El RMSE de predicción mide el ajuste del modelo a los valores brutos de la serie temporal, y el RMSE de validación mide lo bien que el modelo puede realizar la predicción de valores futuros. Dado que el RMSE de predicción utiliza más datos y no extrapola, generalmente es menor que el RMSE de Validación.
- Ambos valores de RMSE están en las unidades de los datos. Por ejemplo, si sus datos son mediciones de temperatura en grados Celsius, un RMSE de validación de 50 es muy alto, porque significa que los valores predichos difirieron de los valores reales en una media de aproximadamente 50 grados. No obstante, si sus datos son ingresos diarios en dólares estadounidenses de una tienda minorista grande, el mismo RMSE de validación de 50 es muy pequeño porque significa que los ingresos diarios predichos solo varían con respecto a los valores reales en 50 $ al día en promedio.
Construcción del modelo de suavizado exponencial
Existen distintos tipos de suavizado exponencial, pero todos se basan en separar las series temporales en varios componentes. Los valores de cada componente se estiman ponderando exponencialmente los componentes de los periodos de tiempo anteriores, de manera que la influencia de cada periodo de tiempo disminuya exponencialmente a medida que se avanza en el tiempo. Cada componente se define recursivamente a través de un planteamiento de modelo de estado-espacio, y cada componente depende de todos los demás componentes. La estimación de todos los parámetros se realiza mediante una estimación de máxima probabilidad.
En esta herramienta, todos los componentes son aditivos, de modo que el modelo de predicción es la suma de los componentes individuales. Si se utiliza un componente estacional, la herramienta utiliza el método estacional amortiguado de Holt-Winters. Si no se utiliza ningún componente estacional, la herramienta utiliza el método de tendencia amortiguada. Encontrará los detalles de estos componentes y las ecuaciones que definen los modelos de estado-espacio en el libro de texto que se indica en la sección Referencias adicionales.
Componente de tendencia
El primer componente del modelo de suavizado exponencial es el componente de tendencia. Este componente se utiliza para modelar cambios graduales y sistemáticos en los valores de las series temporales. La estimación se realiza ponderando exponencialmente los valores de cada periodo de tiempo por la diferencia entre su valor y el valor del periodo de tiempo anterior. El componente de tendencia se utiliza directamente al realizar predicciones a partir de la última tendencia detectada por el modelo. Sin embargo, para evitar que las predicciones sigan ilimitadamente la tendencia final, la tendencia se amortigua de manera que se aplana gradualmente a medida que se avanza en el tiempo. La amortiguación aplana la tendencia multiplicando la pendiente del valor de la tendencia de cada periodo de tiempo por un valor exponencialmente decreciente. El modelo realiza una estimación del nivel de amortiguación, por lo que la tendencia puede aplanarse más rápida o lentamente (o no aplanarse en absoluto en el caso más extremo) en unos modelos que en otros al realizar predicciones para momentos futuros más lejanos.
Componente estacional
El segundo componente del suavizado exponencial es el componente estacional, que se utiliza para modelar patrones en los datos que se repiten a lo largo de un número determinado de periodos de tiempo. La forma y la magnitud del patrón dentro de cada estación puede cambiar con el tiempo, pero la duración de cada estación debe ser la misma para toda la serie temporal. Por ejemplo, la temperatura muestra un comportamiento estacional que corresponde a días y noches con temperaturas más bajas durante la noche y más altas durante el día. Aunque el amanecer se produce a horas distintas del día a lo largo del año (y, por tanto, la forma y la magnitud del patrón de temperatura cambian dentro de un mismo día), la duración de una estación es siempre un único día.
Al igual que con el componente de tendencia, el componente estacional de un determinado periodo de tiempo se determina ponderando exponencialmente los valores estacionales de los periodos de tiempo anteriores. Sin embargo, en lugar de utilizar los periodos de tiempo inmediatamente anteriores, solo pondera los periodos de tiempo anteriores correspondientes al mismo punto de un ciclo estacional. Por ejemplo, si la duración de una estación es de cuatro periodos de tiempo, el componente estacional pondera exponencialmente los valores correspondientes a 4 periodos de tiempo anteriores, 8 periodos de tiempo anteriores, 12 periodos de tiempo anteriores, y así sucesivamente.
Si conoce el número de periodos de tiempo que corresponden a una estación en sus datos, puede especificarlos en el parámetro Duración de estación, y este valor se utilizará con todas las ubicaciones del cubo de espacio-tiempo. Si no conoce la duración de una estación o si la duración estacional es diferente para diferentes ubicaciones, el valor del parámetro puede dejarse vacío, y se estimará una duración estacional óptima para cada ubicación utilizando una función de densidad espectral. Para disponer de detalles sobre esta función, consulte la sección Recursos adicionales.
En el caso de una ubicación individual, si la duración óptima de la estación determinada por el análisis espectral es mayor que uno y menor que un tercio del número de periodos de tiempo de la ubicación, la duración de la estación se establece en este valor óptimo. De lo contrario, la ubicación no utiliza ningún componente estacional. La duración de estación utilizada en la ubicación se guarda en el campo Duración de estación de las entidades de salida. Si no se utiliza ningún componente estacional, el valor de este campo es 1. Este flujo de trabajo se resume en la siguiente imagen:
Componente de nivel
El componente de nivel del suavizado exponencial representa el valor de línea base de la serie temporal teniendo en cuenta la estacionalidad y la tendencia. Al ajustar el modelo de predicción al cubo de espacio-tiempo de entrada, el nivel de un periodo de tiempo se calcula ponderando exponencialmente los niveles anteriores y teniendo en cuenta la estacionalidad y la tendencia. Al hacer predicciones a futuro, el componente de nivel se mantiene igual al componente de nivel del último periodo de tiempo medido y, en este caso, las predicciones reales dependen de los componentes de tendencia y estacional.
Componente residual e intervalos de confianza
El último componente es el componente residual (o de error). Este componente es la diferencia entre el valor real y el valor estimado por todos los demás componentes. Representa la incertidumbre y el error restantes en los datos una vez modelados los componentes de tendencia, estación y nivel. Este componente es importante porque constituye la base de los intervalos de confianza.
Para cada periodo de tiempo predicho, la herramienta calcula los límites superiores e inferiores de un intervalo de confianza del 90 por ciento para el valor predicho. El valor predicho en cada periodo de tiempo representa la mejor estimación individual del valor futuro, pero se puede utilizar el intervalo de confianza para visualizar la incertidumbre y el rango probable del valor futuro verdadero. Los límites superior e inferior se guardan como campos y se muestran en gráficos emergentes de las Entidades de salida.
En la estimación de los intervalos de confianza, se presupone que los residuales del modelo están distribuidos normalmente, de forma independiente e idéntica. Partiendo de esta suposición, se pueden derivar fórmulas para los intervalos de confianza. Encontrará las fórmulas y sus derivaciones en el libro de texto indicado en la sección Referencias adicionales.
Visualizar los componentes
Es posible visualizar los componentes de su modelo de suavizado exponencial creando un cubo de espacio-tiempo de salida. Use este cubo en la herramienta Visualizar cubo de espacio-tiempo en 3D con la opción Resultados de la predicción en el parámetro Tema de visualización. Se crea un gráfico para las entidades de salida, y es posible activar y desactivar los distintos componentes del modelo de suavizado exponencial en el panel Propiedades de gráfico. Al sumar estos componentes, construyen el modelo de predicción y las predicciones para los periodos de tiempo futuros. La imagen que aparece a continuación muestra los componentes individuales del modelo de suavizado exponencial que se muestra en la primera imagen de este tema:
Salidas de la herramienta
La salida principal de esta herramienta es una clase de entidad 2D que muestra cada ubicación en el Cubo de espacio-tiempo de entrada simbolizado por el periodo de tiempo predicho final con las predicciones para todos los demás periodos de tiempo almacenados como campos. Aunque se realiza la predicción de cada ubicación de forma independiente y las relaciones espaciales no se tienen en cuenta, el mapa puede mostrar patrones espaciales para áreas con series temporales similares.
Gráficos emergentes
Al hacer clic en cualquier entidad del mapa usando la herramienta de navegación Explorar, se muestra un gráfico en el panel Emergente que muestra los valores del cubo de espacio-tiempo junto con el modelo de suavizado exponencial ajustado y los valores predichos junto con intervalos de confianza del 90 por ciento para cada predicción. Los valores del cubo de espacio-tiempo se muestran en azul y se conectan con una línea azul. Los valores ajustados se muestran en naranja y se conectan mediante una línea naranja discontinua. Los valores predichos se muestran en naranja y se conectan mediante una línea naranja continua que representa la predicción del modelo. Se dibujan límites de confianza en rojo claro alrededor de cada valor predicho. Puede situar el cursor en cualquier punto del gráfico para ver la fecha y valor del punto.
Nota:
Los gráficos emergentes no se crean cuando las entidades de salida se guardan como un shapefile (.shp).
Mensajes de geoprocesamiento
La herramienta proporciona varios mensajes con información sobre la ejecución de la herramienta. Los mensajes tienen tres secciones principales.
La sección Detalles de cubo de espacio-tiempo de entrada muestra propiedades del cubo de espacio-tiempo de entrada junto con información sobre el número de periodos de tiempo, número de ubicaciones y número de bins espacio-tiempo. Las propiedades mostradas en esta primera sección dependen de cómo se creó originalmente el cubo, por lo que la información varía en función del cubo.
La sección Detalles del análisis muestra propiedades de los resultados de la predicción, incluidos el número de periodos de tiempo predichos, el número de periodos de tiempo excluidos para la validación, el porcentaje de ubicaciones que presentan estacionalidad e información sobre los periodos de tiempo predichos. Si no se proporciona ningún valor para el parámetro Duración de estación, se muestran estadísticas resumidas de la duración estimada de la estación, incluidas la mínima, máxima, media, mediana y desviación estándar.
La sección Resumen de precisión entre ubicaciones muestra estadísticas de resumen del RMSE de Predicción y el RMSE de Validación entre todas las ubicaciones. Para cada valor se muestra el mínimo, máximo, valor medio, mediana y desviación estándar.
Nota:
Los mensajes de geoprocesamiento aparecen en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o expandiendo la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una herramienta ejecutada anteriormente con el historial de geoprocesamiento.
Campos de las entidades de salida
Además de Id. de objeto, campos de geometría y el campo que contiene los gráficos emergentes, las Entidades de salida tendrán los siguientes campos:
- Id. de ubicación (LOCATION): el Id. de ubicación de la ubicación correspondiente del cubo de espacio-tiempo.
- Predicción para (variables de análisis) en (periodo de tiempo) (FCAST_1, FCAST_2 y así sucesivamente): el valor predicho de cada periodo de tiempo futuro. El alias de campo muestra el nombre de la Variable de análisis y la fecha de la predicción. Se crea un campo de este tipo para cada periodo de tiempo predicho.
- Intervalo alto para (variable de análisis) en (periodo de tiempo) (HIGH_1, HIGH_2 y así sucesivamente): el límite superior de un intervalo de confianza del 90 por ciento para el valor predicho de cada periodo de tiempo futuro. El alias de campo muestra el nombre de la Variable de análisis y la fecha de la predicción. Se crea un campo de este tipo para cada periodo de tiempo predicho.
- Intervalo bajo para (variable de análisis) en (periodo de tiempo) (LOW_1, LOW_2 y así sucesivamente): el límite inferior de un intervalo de confianza del 90 por ciento para el valor predicho de cada periodo de tiempo futuro. El alias de campo muestra el nombre de la Variable de análisis y la fecha de la predicción. Se crea un campo de este tipo para cada periodo de tiempo predicho.
- Error cuadrático medio de predicción (F_RMSE): el RMSE de predicción.
- Error cuadrático medio de validación (V_RMSE): el RMSE de validación. Si no se excluyeron periodos de tiempo para validación, este campo no se crea.
- Duración de estación (SEASON): el número de periodos de tiempo correspondientes a una estación en la ubicación. Un valor de 1 en este campo significa que no hay estacionalidad.
- Método de predicción (METHOD): un campo de texto que muestra el modelo empleado en la ubicación. Para esta herramienta, el valor es siempre suavizado exponencial. Este campo le permite identificar los modelos que se utilizan en la herramienta Evaluar predicciones por ubicación.
Cubo de espacio-tiempo de salida
Si se especifica un Cubo de espacio-tiempo de salida, el cubo de salida contiene todos los valores originales del cubo de espacio-tiempo de entrada con los valores predichos incorporados. Este nuevo cubo de espacio-tiempo se puede visualizar con las herramientas Visualizar cubo de espacio-tiempo en 2D o Visualizar cubo de espacio-tiempo en 3D, y se puede utilizar como entrada para las herramientas de la caja de herramientas Minería de patrones en espacio-tiempo, tales como Análisis de puntos calientes emergentes y Clustering de serie temporal.
Con la herramienta Evaluar previsiones por ubicación se pueden comparar y fusionar varios cubos de espacio-tiempo previstos. De este modo, puede crear varios cubos de predicción con distintos parámetros y herramientas de predicción, y la herramienta identifica la mejor predicción para cada ubicación mediante el RMSE de Predicción o de Validación.
Prácticas recomendadas y limitaciones
Al decidir si esta herramienta resulta apropiada para sus datos y los parámetros que debe elegir, deben tenerse en cuenta varias cosas.
- En comparación con otras herramientas de predicción del conjunto de herramientas Predicción de serie temporal, esta herramienta se recomienda para datos que presenten tendencias moderadas y un comportamiento estacional marcado. En el modelo exponencial se presupone que es posible separar el comportamiento estacional de la tendencia, por lo que resulta más eficaz con datos cuya tendencia cambie gradualmente y siga patrones estacionales constantes a lo largo del tiempo. El componente estacional del modelo es opcional, por lo que esta herramienta se puede utilizar para datos que no presenten estacionalidad, pero funciona mejor en presencia de un comportamiento estacional marcado.
- La decisión sobre cuántos periodos de tiempo deben excluirse para la validación es importante. Cuantos más periodos de tiempo se excluyan, menores periodos de tiempo se mantienen para estimar el modelo de validación. No obstante, si se excluyen muy pocos periodos de tiempo, el RMSE de validación se estima usando una pequeña cantidad de datos y puede llevar a engaño. Se recomienda excluir el mayor número de periodos de tiempo que sea posible mientras aún se mantienen suficientes periodos de tiempo para estimar el modelo de validación. También se recomienda retener al menos el mismo número de periodos de tiempo para validación que el número de periodos de tiempo de los que pretende realizar la predicción, si su cubo de espacio-tiempo tiene suficientes periodos de tiempo para permitir esto.
Recursos adicionales
Para obtener más información sobre la predicción con suavizado exponencial con un planteamiento de estado-espacio, consulte el siguiente libro de texto:
- Hyndman R, Koehler A, Ord K, and Snyder R (2008). "Forecasting with Exponential Smoothing. The State Space Approach." https://doi.org/10.1007/978-3-540-71918-2
Para más información sobre la función de densidad espectral empleada para la estimación de la duración de una estación, consulte la función findfrequency en las siguientes referencias:
- Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E and Yasmeen F (2019). "Forecasting functions for time series and linear models". Paquete R versión 8.7, https://pkg.robjhyndman.com/forecast.
- Hyndman RJ and Khandakar Y (2008). "Automatic time series forecasting: the forecast package for R". Journal of Statistical Software, 26(3), pp. 1–22. https://www.jstatsoft.org/article/view/v027i03.