La herramienta Predicción basada en bosque utiliza regresión basada en bosque para prever futuras porciones de tiempo de un cubo de espacio-tiempo. La salida principal es un mapa del periodo de tiempo predicho final, además de mensajes informativos y gráficos emergentes. Puede proporcionar otras variables explicativas para mejorar la previsión de la variable de análisis y puede estimar y visualizar efectos de intervalo entre las variables explicativas y la variable que se está prediciendo. También puede optar por crear modelos basados en bosque en cada ubicación de forma independiente, crear un único modelo entrenado desde todas las ubicaciones o crear modelos separados dentro de cada clúster de serie temporal. También tiene la posibilidad de detectar valores atípicos en cada serie temporal para identificar posiciones y tiempos que se desvíen significativamente de los patrones y tendencias del resto de las series temporales.
Esta herramienta utiliza el mismo algoritmo subyacente que la herramienta Clasificación y regresión basadas en bosques y aumentadas cuando se utiliza para la regresión. Los datos de entrenamiento utilizados para crear el modelo de regresión de bosque se construyen utilizando ventanas de tiempo en cada variable del cubo de espacio-tiempo.
Más información sobre Clasificación y regresión basadas en bosques y aumentadas
Potenciales aplicaciones
Los modelos de regresión de bosque asumen algunos supuestos sobre los datos, por lo que se utilizan en muchos contextos. Son los más eficaces si se comparan con otros métodos de predicción cuando los datos tienen tendencias o estaciones complejas, o cambios en formas que no se asemejan a funciones matemáticas comunes como por ejemplo polinómicas, curvas exponenciales o ondas sinusoidales.
Por ejemplo, puede utilizar esta herramienta en las siguientes aplicaciones:
- Un distrito escolar puede utilizar esta herramienta para prever el número de estudiantes que se ausentarán cada día de la siguiente semana en cada escuela del distrito.
- Un gobernador puede predecir el número de hospitalizaciones por una enfermedad infecciosa dos semanas en el futuro. Esta predicción puede incluir el número de resultados de pruebas positivas como una variable explicativa, y la herramienta modelará el efecto de demora entre las pruebas positivas y las hospitalizaciones.
- Los administradores de servicios públicos pueden utilizar esta herramienta para prever las necesidades de electricidad y agua del próximo mes en los vecindarios de su distrito administrativo.
- Las tiendas minoristas pueden utilizar esta herramienta para predecir cuándo se venderán productos individuales con el fin de administrar mejor el inventario.
- Los urbanistas pueden utilizar esta herramienta para predecir futuras poblaciones con el fin de evaluar la demanda de vivienda, energía, alimentos e infraestructura. Es posible agrupar en un clúster ciudades con tamaños y tendencias de población similares, así como crear modelos basados en bosque para cada grupo.
Previsión y validación
La herramienta crea dos modelos al realizar la predicción de cada serie temporal. El primero es el modelo de previsión, que se utiliza para realizar la previsión de los valores de futuros periodos de tiempo. El segundo es el modelo de validación, que se utiliza para validar los valores previstos.
Nota:
En esta sección se describe la opción Ubicación individual del parámetro Escala de modelo. Las opciones Cubo completo y Clúster de serie temporal funcionan de forma análoga. Consulte Extender la escala del modelo para obtener más información.
Modelo de previsión
El modelo de predicción se construye creando un bosque con los valores de la serie temporal en cada ubicación del cubo de espacio-tiempo. Este bosque se utiliza para predecir la siguiente porción de tiempo. El valor predicho en el nuevo periodo de tiempo se incluye en el modelo de bosque, y se realiza la predicción del siguiente periodo de tiempo. Este proceso recursivo continúa para todos los periodos de tiempo futuros. El ajuste del bosque a cada serie temporal se mide mediante el error cuadrático medio (RMSE) de predicción, que es igual a la raíz cuadrada de la diferencia cuadrada promedio entre el modelo de bosque y los valores de la serie temporal.
, donde T es el número de periodos de tiempo, ct es el valor del modelo de bosque y rt es el valor bruto de la serie temporal en el tiempo t.
La siguiente imagen muestra los valores brutos de una serie temporal y un modelo de bosque ajustado a la serie temporal junto con predicciones para dos futuros periodos de tiempo. El RMSE de predicción mide cuánto varían los valores ajustados del bosque con respecto a los valores brutos de la serie temporal.
El RMSE de predicción solo mide el grado con el que el modelo de bosque se ajusta a los valores brutos de la serie temporal. No mide lo bien que el modelo de predicción realiza realmente la predicción de valores futuros. Es habitual que un modelo de bosque se ajuste fielmente a una serie temporal, aunque no proporcione predicciones precisas cuando se extrapola. Este problema se aborda con el modelo de validación.
Modelo de validación
El modelo de validación se utiliza para determinar lo bien que el modelo de predicción puede realizar la predicción de valores futuros de cada serie temporal. Se construye excluyendo algunos de los últimos periodos de tiempo de cada serie temporal y ajustando el modelo de bosque a los datos no excluidos. A continuación, el modelo de bosque se utiliza para realizar la predicción de los valores de los datos que se retuvieron, y los valores predichos se comparan con los valores brutos que se ocultaron. De forma predeterminada, el 10 por ciento de los periodos de tiempo se retienen para validación, aunque este número puede cambiarse con el parámetro Número de periodos de tiempo que se excluirán para validación. El número de periodos de tiempo excluidos no puede superar el 25 por ciento del número de periodos de tiempo, y no se realiza ninguna validación si se especifica 0. La precisión de las predicciones se mide calculando una estadística de RMSE de validación, que es igual a la raíz cuadrada de la diferencia cuadrada promedio entre los valores predichos y brutos de los periodos de tiempo excluidos.
, donde T es el número de periodos de tiempo, m es el número de periodos de tiempo retenidos para validación, ct es el valor predicho de los primeros T-m periodos de tiempo y rt es el valor bruto de la serie temporal retenida para validación en el tiempo t.
La siguiente imagen muestra un modelo de bosque ajustado a la primera mitad de una serie temporal y se utiliza para predecir la segunda mitad de la serie temporal. El RMSE de validación mide cuánto varían los valores predichos de los valores brutos en los periodos de tiempo retenidos.
El modelo de validación es importante porque puede comparar directamente valores predichos con valores brutos para medir lo bien que puede predecir el bosque. Aunque no se utiliza realmente para realizar predicción, se utiliza para justificar el modelo de predicción.
Nota:
La validación en la predicción de serie temporal es similar aunque no idéntica a una técnica habitual denominada validación cruzada. La diferencia es que la validación de predicción siempre excluye los periodos de tiempo finales para validación, y la validación cruzada excluye un subconjunto aleatorio de los datos o excluye cada valor secuencialmente.
Interpretación
Existen varias consideraciones al interpretar los valores de RMSE de predicción y RMSE de validación.
- Los valores de RMSE no son directamente comparables entre sí porque miden cosas diferentes. El RMSE de predicción mide el ajuste del modelo de bosque a los valores brutos de la serie temporal, y el RMSE de validación mide lo bien que el modelo de bosque puede realizar la predicción de valores futuros. Dado que el RMSE de predicción utiliza más datos y no extrapola, generalmente es menor que el RMSE de Validación.
- Ambos valores de RMSE están en las unidades de los datos. Por ejemplo, si sus datos son mediciones de temperatura en grados centígrados, un RMSE de validación de 50 es muy alto porque significa que los valores predichos varían con respecto a los valores reales en aproximadamente 50 grados en promedio. No obstante, si sus datos son ingresos diarios en dólares estadounidenses de una tienda minorista grande, el mismo RMSE de validación de 50 es muy pequeño porque significa que los ingresos diarios predichos solo varían con respecto a los valores reales en 50 $ al día en promedio.
Crear y entrenar el modelo de bosque
Para realizar la predicción de valores futuros, el modelo de bosque debe entrenarse asociando variables explicativas con variables dependientes para cada ubicación. El modelo de bosque requiere datos de entrenamiento repetidos, aunque solo existe una serie temporal para cada ubicación. Para crear varios conjuntos de variables explicativas y dependientes dentro de una única serie temporal, se construyen ventanas de tiempo en las que los periodos de tiempo de cada ventana de tiempo se utilizan como variables explicativas, y el siguiente periodo de tiempo después de la ventana de tiempo es la variable dependiente. Por ejemplo, si existen 20 periodos de tiempo en una ubicación y la ventana de tiempo es 4 periodos de tiempo, existen 16 conjuntos de variables explicativas y dependientes utilizadas para entrenar el bosque en esa ubicación. El primer conjunto tiene los periodos de tiempo 1, 2, 3 y 4 como las variables explicativas y el periodo de tiempo 5 como la variable dependiente. El segundo conjunto tiene los periodos de tiempo 2, 3, 4 y 5 como las variables explicativas y el periodo de tiempo 6 como la variable dependiente. El conjunto final tiene los periodos de tiempo 16, 17, 18 y 19 como las variables explicativas y el periodo de tiempo 20 como la variable dependiente. El número de periodos de tiempo dentro de cada ventana de tiempo puede especificarse usando el parámetro Ventana de periodo de tiempo. La ventana de tiempo puede ser tan pequeña como 1 (por lo que solo existe un periodo de tiempo dentro de cada ventana de tiempo) y no puede superar un tercio del número de periodos de tiempo en la ubicación.
Con el modelo de bosque entrenado, los periodos de tiempo finales de la ubicación se utilizan como variables explicativas para realizar la predicción del primer periodo de tiempo futuro. A continuación se realiza la predicción del segundo periodo de tiempo futuro usando los periodos de tiempo previos en la ventana de tiempo, donde uno de estos periodos de tiempo es el primer valor predicho. El tercer periodo de tiempo predicho utiliza de forma similar los periodos de tiempo previos de la ventana, donde dos de estos periodos de tiempo son periodos de tiempo predichos previos. Este proceso continúa a través de todos los futuros periodos de tiempo.
La siguiente imagen muestra los conjuntos de variables explicativas y dependientes utilizadas para entrenar el modelo de bosque y realizar la predicción de los primeros siete periodos de tiempo futuros:
Extender la escala del modelo
Además de crear modelos de predicción separados en cada ubicación, puede agrupar ubicaciones y crear un único modelo de predicción utilizado por todas las ubicaciones del grupo. Agrupar ubicaciones le permite realizar análisis a distintas escalas, por ejemplo, modelos de poblaciones de ciudades agrupadas por el tamaño de población total. También puede crear un modelo global con todas las ubicaciones del mismo grupo.
Cuando se agrupan juntas, el modelo de predicción compartido utiliza las ventanas de tiempo de cada ubicación del grupo como datos de entrenamiento, por lo que dispone de muchos más datos para aprender los patrones y tendencias de la serie temporal que cualquier ubicación individual. Es especialmente importante para las series de tiempo cortas donde se dispone de datos de entrenamiento limitados dentro de cada serie temporal. Cuando todas las series temporales del grupo tienen valores y patrones similares, estos datos de entrenamiento adicionales permiten realizar predicciones más precisas de todas las ubicaciones del grupo incorporando patrones de las demás ubicaciones. Sin embargo, si la serie temporal de las ubicaciones del grupo tiene valores y patrones significativamente diferentes, incorporar sus patrones reducirá la precisión de las predicciones, por lo que es importante agrupar solo las series temporales similares.
Puede definir la escala de análisis con el parámetro Escala de modelo. La opción predeterminada de ubicación Individual crea modelos independientes en cada ubicación para un análisis a escala local. La opción Cubo completo crea un único modelo usando todas las ubicaciones para un análisis a escala global. La opción Clúster de serie temporal crea un modelo para cada clúster de un resultado de clustering de serie temporal para un análisis en la escala de los clústeres (si los clústeres forman regiones, se trata de un análisis a escala regional). La variable que contiene los resultados del clustering de serie temporal se proporciona en el parámetro Variable de clúster.
La siguiente imagen muestra un ejemplo de cómo crear un modelo único para todo el cubo con siete ubicaciones:
La siguiente imagen muestra un ejemplo de creación de modelos separados para cada uno de los dos clústeres de serie temporal:
Incluir otras variables y el efecto de intervalo
Aunque los modelos de regresión de bosque pueden capturar eficazmente patrones y tendencias complejos de las series temporales, puede mejorarlos incluyendo información adicional de otras variables relacionadas. Por ejemplo, conocer los niveles de contaminación puede ayudar a predecir el número de visitas a las salas de urgencias debido al asma, ya que la contaminación es un desencadenador conocido de los ataques de asma.
Puede incluir variables relacionadas almacenadas en el mismo cubo de espacio-tiempo utilizando el parámetro Otras variables para predecir la variable de análisis utilizando una previsión basada en bosque multivariante. Para entrenar el modelo de regresión de bosque multivariante, cada una de las otras variables se incluye dentro de cada ventana de tiempo y se utiliza para predecir el siguiente valor después de la ventana de tiempo, de forma análoga a como se utilizan las ventanas de tiempo para la variable de análisis, tal y como se describe en la sección Crear y entrenar el modelo de bosque.
Cuando se predicen nuevos periodos de tiempo, cada variable relacionada se predice con una predicción basada en bosque univariante, y estos valores predichos se utilizan como variables explicativas al predecir valores futuros de la variable de análisis. Los resultados de todas las predicciones (la variable de análisis y todas las variables explicativas) se almacenan en el cubo de espacio-tiempo de salida.
También puede utilizar la herramienta Previsión basada en bosque para estimar y visualizar los efectos de intervalo entre la variable de análisis y las otras variables. El efecto de intervalo es cuando existe una demora entre un cambio en cualquier otra variable y un cambio en la variable de análisis, y está presente en muchas situaciones relacionadas con series temporales de varias variables. Por ejemplo, el gasto en publicidad suele tener un efecto de intervalo en los ingresos de las ventas porque la gente necesita tiempo para ver los anuncios antes de decidir la compra. En el ejemplo anterior de las visitas a salas de urgencias para los niveles de asma y contaminación, también puede haber una demora entre un aumento de los niveles de contaminación y un aumento en las visitas a las salas de urgencias, ya que puede llevar algún tiempo para que los efectos negativos en la salud se acumulen lo suficiente como para requerir atención de urgencias.
La siguiente imagen muestra el efecto de intervalo en el que los cambios en el valor de la serie temporal azul van cuatro días por detrás de la línea naranja:
Cuando hay un intervalo entre cualquier variable explicativa y la variable de análisis, puede obtener más información sobre la variable de análisis si mira atrás en el tiempo por la longitud del intervalo. Por ejemplo, si hay un intervalo de dos semanas entre el gasto en publicidad y los ingresos de las ventas, al predecir los ingresos de las ventas de un día en específico, es más informativo analizar el gasto en publicidad dos semanas antes en comparación con el importe gastado en los últimos días.
El modelo de bosque puede detectar y utilizar el efecto de intervalo entre variables porque la ventana de tiempo en movimiento siempre predice el periodo de tiempo inmediatamente después de ella. El último valor de la ventana de tiempo es siempre un periodo de tiempo antes de la predicción; el penúltimo período de tiempo de la ventana de tiempo es siempre dos periodos de tiempo antes de la previsión; y así sucesivamente. Dado que la ventana de tiempo cambia, cada variable explicativa se representa como un factor independiente para cada periodo de tiempo dentro de la ventana de tiempo, lo que permite comparar distintas variables explicativas en diferentes intervalos y determinar cuáles son las más importantes para la predicción. Consulte Cómo funciona Clasificación y regresión basadas en bosques y aumentadas para obtener más información.
Por ejemplo, el gráfico que aparece a continuación muestra las variables importantes con demoras de tiempo de condados individuales a la hora de predecir los nuevos fallecimientos diarios debidos a la enfermedad por coronavirus de 2019 (COVID-19) a principios de 2021. El modelo utiliza como variable explicativa el número de personas a las que se administra una vacuna a diario. Los valores del eje x hacen referencia a cada periodo de tiempo de la ventana de tiempo y esta imagen tiene 14 valores porque utilizó una ventana de tiempo de 14 días. Los valores del eje x representan el número de periodos de tiempo antes de la predicción, de modo que retroceden en el tiempo a medida que se mueve de izquierda a derecha en el gráfico. El valor situado más a la izquierda de 1 significa que es un día antes de la predicción, que corresponde al último periodo de tiempo de la ventana de tiempo. Del mismo modo, el valor más a la derecha de 14 representa 14 días antes de la predicción, que corresponde al primer periodo de tiempo de la ventana de tiempo de 14 días. Para cada periodo de tiempo, las columnas de color azul claro y oscuro representan recuentos de ubicaciones en las que se determinó que ese factor estaba entre los factores más importantes a la hora de predecir nuevos fallecimientos diarios por COVID-19, de modo que cuanto mayor sea el recuento, más importante será el factor general entre las ubicaciones. Las barras en azul oscuro representan la variable de análisis, los nuevos fallecimientos por COVID-19 y las barras más altas se encuentran en los primeros tres a cuatro intervalos de tiempo, lo que indica que el número de fallecimientos de los tres a los cuatro días anteriores predice mejor los fallecimientos al día siguiente. Aunque estos datos no lo demuestran, es posible que una variable se demore en sí misma, como en el caso de variables cíclicas como la temperatura, donde retroceder 24 horas es más predictivo que retroceder 2 horas debido a los ciclos de día y noche. Las barras de color azul claro representan el número de vacunas nuevas administradas en el día y las barras azules más altas aparecen de 10 a 14 días atrás en la ventana de tiempo (las barras más alejadas de la derecha), lo que indica que los aumentos o disminuciones de los recuentos de vacunas afectan al número de fallecimientos de 10 a 14 días en el futuro. Este intervalo de 10 a 14 días corresponde al tiempo necesario para desarrollar una inmunidad pico tras una vacuna.
El gráfico Importancia de intervalo de tiempo se incluye con la tabla de salida generada por el parámetro opcional Tabla de importancia de salida.
Para la escala del modelo de Ubicación individual, la tabla contiene una fila para cada variable importante en cada ubicación. La cantidad de factores que se consideran importantes en cada ubicación depende del valor del parámetro Umbral de importancia. Por ejemplo, si se proporciona 15, el 15 por ciento superior de los factores de cada ubicación se incluirá en la tabla y el gráfico. El valor predeterminado es 10. Para crear la tabla y el gráfico, debe incluir al menos otra variable en el parámetro Otras variables. El número de intervalos de tiempo de la tabla y el gráfico es igual al valor del parámetro Ventana de pasos de tiempo, por lo que la ventana de tiempo debe ser mayor que cualquier efecto de intervalo que desee capturar. Por ejemplo, una ventana de tiempo de una semana no podría capturar el efecto de intervalo de las vacunas en el número de fallecimientos por COVID-19.
Para la escala de modelo Cubo completo, no es necesario proporcionar otras variables para crear la tabla y el gráfico, y el eje y del gráfico es el porcentaje de importancia sin procesar (en lugar de un recuento de ubicaciones que superan un umbral) porque todas las ubicaciones comparten el mismo modelo de predicción. La siguiente imagen muestra el gráfico Importancia de intervalo de tiempo para todo un análisis de cubo con doce intervalos de tiempo y tres variables:
Para la escala de modelo Clúster de serie temporal, el gráfico solo se crea si no se proporcionan otras variables y el gráfico mostrará una cuadrícula de gráficos separados por un clúster. La siguiente imagen muestra la Importancia de intervalo de tiempo para tres clústeres de serie temporal:
Correcciones por baja variabilidad
Si alguna de las variables utilizadas en el análisis de una ubicación no tiene suficiente variabilidad, el modelo de previsión basada en bosque no se puede entrenar y estimar en esa ubicación. Si la variable de análisis es constante para cada periodo de tiempo en una ubicación, la ubicación se excluye del entrenamiento; el valor constante se pronostica en cada periodo de tiempo futuro y los intervalos de confianza no se incluyen en las previsiones.
Si la ubicación tiene al menos dos valores únicos en la serie temporal, se realizan dos comprobaciones adicionales en la variable de análisis y en cualquier otra variable. En primer lugar, determine la proporción que contiene un valor constante para todos los periodos de tiempo de la serie temporal. En segundo lugar, determine la proporción que contiene un valor constante solo para los periodos de tiempo que no se excluyeron para la validación. Si alguna de estas proporciones supera los dos tercios, se agrega una pequeña cantidad de ruido aleatorio a los valores para crear variabilidad en la serie temporal, y los modelos de previsión y validación se calculan utilizando los nuevos valores. El ruido agregado a cada periodo de tiempo es un número uniforme aleatorio entre 0 y 0,000001 (1e-6). Si el rango de los valores de la serie temporal es inferior a 0,001, el ruido es uniforme entre 0 y el valor del rango multiplicado por 1e-6.
Incluso con ruido agregado al azar, todavía es posible que el modelo basado en bosque no logre calcular después de 30 intentos. Esto es más habitual para series temporales muy cortas.
Estacionalidad y elección de una ventana de tiempo
El número de periodos de tiempo dentro de cada ventana de periodo de tiempo representa una elección importante para el modelo de bosque. Una consideración importante consiste en si la serie temporal muestra estacionalidad donde patrones cíclicos naturales se repiten durante un cierto número de periodos de tiempo. Por ejemplo, la temperatura muestra anualmente ciclos estacionales de acuerdo con las estaciones del año. Ya que la ventana de tiempo se utiliza para crear variables asociadas explicativas y dependientes, la máxima eficacia se produce cuando dichas variables explicativas proceden del mismo ciclo estacional para que haya la menor correlación estacional posible entre las variables explicativas. Se recomienda utilizar el número de periodos de tiempo de una estación natural durante la duración de la ventana de periodo de tiempo. Si sus datos muestran varias estaciones, se recomienda utilizar la duración de la estación más larga.
Si conoce el número de periodos de tiempo que se corresponden con una estación en sus datos, puede especificarlo en el parámetro Ventana de periodo de tiempo, y cada ubicación utilizará este valor en el cubo de espacio-tiempo. Si no conoce la duración de una estación o si la duración estacional es diferente para diferentes ubicaciones, el valor del parámetro puede dejarse vacío, y se estimará una duración estacional óptima para cada ubicación utilizando una función de densidad espectral. Para disponer de detalles sobre esta función, consulte la sección Recursos adicionales.
Para una ubicación individual, si la duración estacional óptima determinada por el análisis espectral fuera mayor de uno y no mayor de un tercio del número de periodos de tiempo en la ubicación, la ventana de periodo de tiempo se establece en este valor óptimo. De lo contrario, la ubicación utiliza el 25 por ciento (redondeado a la baja) del número de periodos de tiempo en la ubicación para la ventana de periodo de tiempo. Esto asegura que exista al menos un periodo de tiempo en la ventana y que al menos se utilicen tres ciclos estacionales completos como variables explicativas. El valor de periodo de tiempo utilizado en la ubicación se guarda en el campo Time Window de las entidades de salida. El campo Is Seasonal de las entidades de salida contendrán el valor 1 si la ventana de periodo de tiempo se determinó usando análisis espectral, y contendrá 0 en caso contrario. Este flujo de trabajo se resume en la siguiente imagen:
Para las escalas de modelo Cubo completo y Clúster de serie temporal, la ventana de tiempo predeterminada es el 25 por ciento (redondeado a la baja) del número de periodos de tiempo. Se debe a que las distintas ubicaciones a menudo tienen un comportamiento estacionario distinto (por ejemplo, el invierno comienza antes en unas ubicaciones que en otras), por lo que no es posible estimar ni compartir una única tendencia estacional entre todas las ubicaciones del grupo.
Criterios para la predicción
Existen cuatro formas de representar los valores de las variables explicativas y dependientes que se utilizarán para entrenar el bosque. Estas opciones se especifican con el parámetro Criterio de predicción.
La primera opción es Crear modelo por valor. Esta opción utiliza los valores brutos en los bins espacio-tiempo para las variables explicativas y dependientes. Cuando se elige esta opción, los valores predichos se incluirán en el rango de las variables dependientes, por lo que no debe utilizar esta opción si sus datos tienen tendencias de dónde se espera que los valores continúen aumentando o disminuyendo al realizar la predicción del futuro. La siguiente imagen muestra los conjuntos de variables utilizadas para entrenar el modelo para una única ubicación en la que cada fila muestra el conjunto de variables explicativas y la variable dependiente asociada. T es el número de periodos de tiempo en el cubo de espacio-tiempo, W es el número de periodos de tiempo en cada ventana de periodo de tiempo y Xt es el valor sin procesar de la serie temporal en el tiempo t.
Nota:
Para las escalas de modelo Cubo completo y Clúster de serie temporal, Crear modelo por valor es el único planteamiento de predicción disponible.
La segunda opción es Crear modelo por valor después de eliminación de la tendencia. Esta es la opción predeterminada de la herramienta. Esta opción realiza una eliminación de la tendencia de primer orden (lineal) en toda la serie temporal en cada ubicación, y estos valores de los que se ha eliminado la tendencia se utilizan como las variables explicativas y dependientes. El uso de esta opción permite que las predicciones sigan esta tendencia en el futuro para que los valores predichos puedan estimarse fuera del rango de las variables dependientes. La siguiente imagen muestra los conjuntos de variables utilizadas para entrenar el modelo para una única ubicación en la que cada fila muestra el conjunto de variables explicativas y la variable dependiente asociada. T es el número de periodos de tiempo en el cubo de espacio-tiempo, W es el número de periodos de tiempo en cada ventana de periodo de tiempo y Dt es el valor con la tendencia eliminada de la serie temporal en el tiempo t.
La tercera opción es Crear modelo por residual. Esta opción crea un modelo de regresión de mínimos cuadrados ordinarios (OLS) para predecir la variable dependiente en función de las variables explicativas dentro de cada ventana de tiempo. El residual de este modelo de regresión (la diferencia entre la predicción de OLS y el valor bruto de la variable dependiente) se utiliza para representar la variable dependiente al entrenar el bosque. La siguiente imagen muestra los conjuntos de variables utilizadas para entrenar el modelo para una única ubicación en la que cada fila muestra el conjunto de variables explicativas y la variable dependiente asociada. T es el número de periodos de tiempo en el cubo de espacio-tiempo, W es el número de periodos de tiempo en cada ventana de periodo de tiempo, Xt es el valor de la serie temporal en el tiempo t y X^t (Xt-hat) es el valor estimado de OLS en el tiempo t.
La última opción es Crear modelo por residual de eliminación de la tendencia. Esta opción realiza primero una eliminación de tendencia de primer orden (lineal) en toda la serie temporal en una ubicación. A continuación crea un modelo de regresión de OLS para predecir la variable dependiente con eliminación de la tendencia en función de las variables explicativas con eliminación de la tendencia dentro de cada ventana de tiempo. El residual de este modelo de regresión (la diferencia entre la predicción de OLS y el valor con eliminación de la tendencia de la variable dependiente) se utiliza para representar la variable dependiente al entrenar el bosque. La siguiente imagen muestra los conjuntos de variables utilizadas para entrenar el modelo para una única ubicación en la que cada fila muestra el conjunto de variables explicativas y la variable dependiente asociada. T es el número de periodos de tiempo en el cubo espacio-tiempo, W es el número de periodos de tiempo en cada ventana de periodo de tiempo, Dt es el valor con eliminación de la tendencia de la serie temporal en el tiempo t y D^t (Dt-hat) es el valor estimado de OLS en el tiempo t.
Construir intervalos de confianza
Si se excluyen al menos dos periodos de tiempo de la validación, la herramienta calcula intervalos de confianza del 90 por ciento para cada periodo de tiempo predicho que aparecen como campos de las entidades de salida y se muestran en los gráficos emergentes descritos en la sección Salidas de la herramienta. La herramienta construye los intervalos de confianza estimando el error estándar de cada valor predicho y creando límites de confianza 1,645 errores estándar por encima y por debajo de cada valor predicho.
La herramienta realiza los siguientes cálculos para estimar los errores estándar:
- Calcular el RMSE de validación de predicciones un periodo por delante utilizando ventanas de tiempo de tamaño T para predecir los periodos de tiempo excluidos de la validación. El RMSE de validación un periodo por delante solo se puede calcular con ventanas de tiempo que no se utilizaran para entrenar el modelo de previsión y que tengan al menos un periodo de tiempo después de la ventana que se va a predecir. La primera ventana de tiempo son los últimos T periodos de tiempo anteriores a los periodos de tiempo excluidos y predice el primer periodo de tiempo excluido. La segunda ventana de tiempo son los últimos (T-1) periodos de tiempo y el primer periodo de tiempo excluido (el valor se devuelve para utilizarlo para el cálculo del RMSE) y predice el segundo periodo de tiempo excluido. La ventana de tiempo final predice los periodos de tiempo finales excluidos siguiendo los anteriores T periodos de tiempo (devueltos al dataset). Para una escala de modelo de ubicación individual, la predicción un periodo por delante calcula el RMSE utilizando valores de M para M periodos de tiempo retenidos para la validación. Para las escalas de modelo Cubo completo o Clúster de serie temporal, cada ubicación del grupo aporta M valores al cálculo de RMSE un periodo por delante.
- Calcular el RMSE de validación de predicciones dos periodos por delante también utilizando ventanas de tiempo dentro de los periodos de tiempo excluidos. Cada ventana utiliza el valor predicho del paso 1 como periodo de tiempo final para predecir el siguiente periodo de tiempo excluido. Para predicciones dos periodos por delante, cada ubicación aporta (M-1) valores al cálculo del RMSE dos periodos por delante.
- Calcular el RMSE de validación de predicciones K periodos por delante, hasta K=M. Cada ubicación utiliza los valores predichos de los cálculos de RMSE (K-1) periodos por delante y aporta (M-K+1) valores al cálculo del RMSE. El cálculo final de RMSE M periodos por delante utiliza un valor por ubicación.
- Ajustar un modelo de regresión que predice el valor medio del RMSE K periodos por delante de las ubicaciones del grupo (o la ubicación individual) utilizando log(K) como variable explicativa. Utilice este modelo para estimar los errores estándar para todos los periodos de tiempo futuros (todos los valores de K), incluidos los primeros M valores predichos.
La siguiente imagen ilustra este proceso para un análisis de cubo completo con tres periodos de tiempo (M=3) retenidos para la validación y una ventana de tiempo de cuatro periodos de tiempo (T=4).
Nota:
En algunos casos, la pendiente o intercepción estimadas del modelo de regresión que predice los errores estándar pueden ser negativas. Si la interceptación estimada es negativa, el modelo se ajusta sin intercepciones. Si la pendiente es negativa, se utiliza el RMSE máximo entre los periodos de tiempo retenidos (ubicación individual, clúster de serie temporal o cubo completo) como el error estándar de todos los valores predichos.
Identificación de valores atípicos de series temporales
Los valores atípicos de los datos de series temporales son valores que varían significativamente de los patrones y tendencias de los demás valores en series temporales. Por ejemplo, las grandes cifras de compras en línea por las vacaciones o las altas cifras de accidentes de tráfico durante fuertes tormentas probablemente se detecten como valores atípicos en sus series temporales. Errores simples de introducción de datos, como la omisión de la parte decimal de un número, representan otra fuente común de valores atípicos. La identificación de valores atípicos en la previsión de series temporales es importante porque los valores atípicos influyen en el modelo de previsión que se utiliza para prever futuros valores, e incluso un pequeño número de valores atípicos en las series temporales de una ubicación pueden reducir significativamente la precisión y fiabilidad de las previsiones. Las ubicaciones con valores atípicos, particularmente valores atípicos en el comienzo y final de las series temporales, pueden generar previsiones erróneas, y la identificación de estas ubicaciones ayuda a determinar el grado de confianza que debe tener en los valores previstos en cada ubicación.
Los valores atípicos no se determinan simplemente mediante sus valores sin procesar, sino por cuánto varían sus valores con respecto a los valores ajustados del modelo de previsión. Eso significa que la posibilidad de que se determine que un valor es atípico será algo contextual y dependerá de su posición y tiempo. El modelo de previsión define el valor que se espera en función de toda la serie temporal, y los valores atípicos son los valores que se desvían significativamente de esta referencia. Por ejemplo, considere una serie temporal de temperatura media anual. Ya que las temperaturas promedio han aumentado durante las últimas décadas, el modelo de previsión ajustado de temperatura también aumentará con el tiempo para reflejar este aumento. Eso significa que un valor de temperatura que se consideraría típico y no un valor atípico en 1950 es probable que se considere un valor atípico si se produjera la misma temperatura en 2020. En otras palabras, una temperatura típica de 1950 se consideraría muy baja para los estándares de 2020.
Puede elegir detectar valores atípicos de series temporales en cada ubicación usando el parámetro Identificar valores atípicos. Si se especifica, la prueba Extreme Studentized Deviate (ESD) generalizada se realiza para cada ubicación con el fin de probar valores atípicos de series temporales. El nivel de confianza de la prueba puede especificarse con el parámetro Nivel de confianza, y se utiliza el 90 por ciento de confianza como el valor predeterminado. La prueba ESD generalizada prueba iterativamente un único valor atípico, dos valores atípicos, tres valores atípicos, y así sucesivamente, en cada ubicación hasta el valor del parámetro Número máximo de valores atípicos (de forma predeterminada, 5 por ciento del número de periodos de tiempo, redondeado a la baja), y se devuelve el número de valores atípicos estadísticamente significativo más grande. El número de valores atípicos en cada ubicación puede verse en una tabla de atributos de las entidades de salida, y los valores atípicos individuales pueden verse en los gráficos emergentes de la serie temporal que se analizan en la siguiente sección.
Salidas de la herramienta
La salida principal de esta herramienta es una clase de entidad 2D que muestra cada ubicación en el valor Cubo de espacio-tiempo de entrada simbolizado por el periodo de tiempo predicho final con las predicciones para todos los demás periodos de tiempo almacenados como campos. Aunque se realiza la predicción de cada ubicación de forma independiente y las relaciones espaciales no se tienen en cuenta, el mapa puede mostrar patrones espaciales para áreas con series temporales similares.
Gráficos emergentes
Al hacer clic en cualquier entidad del mapa usando la herramienta de navegación Explorar, se muestra un gráfico en el panel Emergente que muestra los valores del cubo de espacio-tiempo junto con el modelo de bosque ajustado y los valores predichos junto con intervalos de confianza del 90 por ciento para cada predicción. Los valores del cubo de espacio-tiempo se muestran en azul y se conectan con una línea azul. Los valores ajustados se muestran en naranja y se conectan mediante una línea naranja discontinua. Los valores predichos se muestran en naranja y se conectan mediante una línea naranja continua que representa la predicción del modelo de bosque. Los límites de confianza rojo claro se dibujan alrededor de cada valor predicho. Puede pasar el puntero sobre cualquier punto del gráfico para ver la fecha y el valor del punto. Adicionalmente, si elige detectar valores atípicos en series temporales, los valores atípicos se muestran como puntos morados grandes.
Nota:
Los gráficos emergentes no se crearán si las entidades de salida se guardan como shapefile (.shp). Además, si los intervalos de confianza se extienden fuera del gráfico, aparece un botón Mostrar rango completo de datos encima del gráfico para poder extender el gráfico con el fin de mostrar todo el intervalo de confianza.
Mensajes de geoprocesamiento
La herramienta proporciona varios mensajes con información sobre la ejecución de la herramienta. Los mensajes tienen tres secciones principales.
La sección Detalles de cubo de espacio-tiempo de entrada muestra propiedades del cubo de espacio-tiempo de entrada junto con información sobre el número de periodos de tiempo, número de ubicaciones y número de bins espacio-tiempo. Las propiedades mostradas en esta primera sección dependen de cómo se creó originalmente el cubo, por lo que la información varía en función del cubo.
La sección Detalles del análisis muestra propiedades de los resultados de la predicción, incluyendo el número de periodos de tiempo predichos, el número de periodos de tiempo excluidos para validación, el porcentaje de ubicaciones donde se detectó estacionalidad mediante análisis espectral e información sobre los periodos de tiempo predichos. Si no se proporciona ningún valor para el parámetro Ventana de periodo de tiempo, se visualizan las estadísticas resumen de la ventana de periodo de tiempo estimada, incluyendo el mínimo, máximo, promedio, mediana y desviación estándar.
La sección Resumen de precisión a través de ubicaciones muestra estadísticas resumen para el RMSE de previsión y RMSE de validación entre todas las ubicaciones. Para cada valor se muestra el mínimo, máximo, valor medio, mediana y desviación estándar.
La sección Resumen de los valores atípicos de series temporales aparece si elige detectar valores atípicos de series temporales usando el parámetro Opción de valores atípicos. Esta sección muestra información que incluye el número y porcentaje de ubicaciones que contienen valores atípicos, el periodo de tiempo que contiene la mayoría de valores atípicos y estadísticas resumen del número de valores atípicos por ubicación y por periodo de tiempo.
Nota:
Los mensajes de geoprocesamiento aparecen en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o expandiendo la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una herramienta ejecutada anteriormente con el historial de geoprocesamiento.
Campos de las entidades de salida
Además de Id. de objeto, campos de geometría y el campo que contiene los gráficos emergentes, las Entidades de salida tendrán los siguientes campos:
- Id. de ubicación (LOCATION): el Id. de ubicación de la ubicación correspondiente del cubo de espacio-tiempo.
- Predicción de (variable de análisis) en (periodo de tiempo) (FCAST_1, FCAST_2, etc.): el valor predicho de cada periodo de tiempo futuro. El alias de campo muestra el nombre de la Variable de análisis y la fecha de la predicción. Se crea un campo de este tipo para cada periodo de tiempo predicho.
- Intervalo alto para (variable de análisis) en (periodo de tiempo) (HIGH_1, HIGH_2 y así sucesivamente): el límite superior de un intervalo de confianza del 90 por ciento para el valor predicho de cada periodo de tiempo futuro. El alias de campo muestra el nombre de la Variable de análisis y la fecha de la predicción. Se crea un campo de este tipo para cada periodo de tiempo predicho.
- Intervalo bajo para (variable de análisis) en (periodo de tiempo) (LOW_1, LOW_2 y así sucesivamente): el límite inferior de un intervalo de confianza del 90 por ciento para el valor predicho de cada periodo de tiempo futuro. El alias de campo muestra el nombre de la Variable de análisis y la fecha de la predicción. Se crea un campo de este tipo para cada periodo de tiempo predicho.
- Error cuadrático medio de predicción (F_RMSE): el RMSE de predicción.
- Error cuadrático medio de Validación (V_RMSE): el RMSE de validación. Si no se excluyeron periodos de tiempo para validación, este campo no se crea.
- Ventana de tiempo (TIMEWINDOW): la ventana de periodo de tiempo utilizada en la ubicación.
- Es estacional (IS_SEASON): una variable booleana que indica si la ventana de periodo de tiempo en la ubicación se determinó por densidad espectral. Un valor de 1 indica que se detectó estacionalidad mediante densidad espectral, y un valor de 0 indica que no se detectó estacionalidad. Si se especificó un valor en el parámetro Ventana de tiempo, todas las ubicaciones tienen el valor 0 en este campo.
- Método de predicción (METHOD): un campo de texto que muestra los parámetros del modelo de bosque, incluidos valores de inicialización aleatorios, número de árboles, tamaño de muestra, criterio de predicción, si el usuario especificó la ventana de periodo de tiempo o fue determinada por la herramienta, cualquier otra variable e información sobre la escala de modelo y la variabilidad del clúster (si corresponde). Este campo puede utilizarse para reproducir resultados y permite identificar los modelos que se utilizan en la herramienta Evaluar predicciones por ubicación.
- Número de valores atípicos de ajuste de modelo (N_OUTLIERS): el número de valores atípicos detectados en la serie temporal de la ubicación. Este campo solo se crea si elige detectar valores atípicos con el parámetro Opción de valores atípicos.
Cubo de espacio-tiempo de salida
Si se especifica un Cubo de espacio-tiempo de salida, el cubo de salida contiene todos los valores originales del cubo de espacio-tiempo de entrada con los valores predichos incorporados. Este nuevo cubo de espacio-tiempo se puede visualizar con las herramientas Visualizar cubo de espacio-tiempo en 2D o Visualizar cubo de espacio-tiempo en 3D, y se puede utilizar como entrada para las herramientas de la caja de herramientas Minería de patrones en espacio-tiempo, tales como Análisis de puntos calientes emergentes y Clustering de serie temporal.
Con la herramienta Evaluar previsiones por ubicación se pueden comparar y fusionar varios cubos de espacio-tiempo previstos. De este modo, puede crear varios cubos de predicción con distintos parámetros y herramientas de predicción, y la herramienta identifica la mejor predicción para cada ubicación mediante el RMSE de Predicción o de Validación.
Prácticas recomendadas y limitaciones
Al decidir si esta herramienta es apropiada para sus datos y qué parámetros usar, tenga en cuenta lo siguiente:
- Comparado con otras herramientas de predicción del conjunto de herramientas Predicción de serie temporal, esta herramienta es la más complicada aunque tiene en cuenta el menor número de supuestos sobre los datos. Se recomienda para series temporales con formas complicadas y tendencias que sean difíciles de modelar con funciones matemáticas sencillas. También se recomienda cuando no se satisfacen los supuestos de otros métodos.
- Esta herramienta se puede utilizar para explorar diferentes escalas de modelo y las interacciones entre diferentes variables de serie temporal. Se recomienda ejecutar la herramienta varias veces con distintas escalas y otras variables, y utilizar la herramienta Evaluar predicciones por ubicación para decidir las mejores predicciones para cada ubicación.
Es importante decidir el valor del parámetro Número de periodos de tiempo a excluir de la validación. Cuantos más periodos de tiempo se excluyan, menores periodos de tiempo se mantienen para estimar el modelo de validación. No obstante, si se excluyen muy pocos periodos de tiempo, el RMSE de validación se estima usando una pequeña cantidad de datos y puede llevar a engaño. Se recomienda excluir el mayor número de periodos de tiempo que sea posible mientras aún se mantienen suficientes periodos de tiempo para estimar el modelo de validación. También se recomienda retener al menos el mismo número de periodos de tiempo para validación que el número de periodos de tiempo de los que pretende realizar la predicción, si su cubo de espacio-tiempo tiene suficientes periodos de tiempo para permitir esto.
Además, la creación de intervalos de confianza para los valores predichos requiere el ajuste de una función de regresión a los periodos de tiempo retenidos para la validación. Dado que se requieren al menos dos valores para ajustarse a esta función, se deben retener al menos dos periodos de tiempo para crear intervalos de confianza de las predicciones. Sin embargo, la función de regresión será más precisa (lo que resulta en intervalos de confianza más precisos) para un mayor número de periodos de tiempo retenidos. Para obtener los intervalos de confianza más precisos, se recomienda mantener al menos el valor predeterminado del 10 por ciento de los periodos de tiempo para la validación.
- Esta herramienta puede producir predicciones inestables y poco fiables cuando el mismo valor se repite muchas veces dentro de la serie temporal. Una fuente común de valores idénticos repetidos es inflación cero, en la que sus datos representan recuentos y muchos de los periodos de tiempo tienen el valor 0.
- Si elige identificar valores atípicos, se recomienda que proporcione un valor para el parámetro Ventana de periodo de tiempo en lugar de dejar el parámetro vacío y estimar una ventana de periodo de tiempo diferente en cada ubicación. Para cada ubicación, el modelo de bosque utiliza los periodos de tiempo de la primera ventana de periodo de tiempo para entrenar el modelo de predicción y solo se detectan valores atípicos para los periodos de tiempo restantes. Si las diferentes ubicaciones excluyen diferentes números de periodos de tiempo para el entrenamiento, las estadísticas de resumen como el valor medio y los números mínimo y máximo de valores atípicos por periodo de tiempo o por ubicación pueden resultar confusas. Estas estadísticas solo se calculan por periodos de tiempo que se incluyeron en todas las ubicaciones.
Recursos adicionales
Para obtener más información sobre modelos de bosque, consulte las siguientes referencias:
- Breiman, Leo. (2001). "Random Forests." Machine Learning 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.
- Breiman, L., J.H. Friedman, R.A. Olshen y C.J. Stone. (2017). Classification and regression trees. New York: Routledge. Capítulo 4.
Para disponer de recursos y referencias adicionales para modelos de bosque, consulte Cómo funciona Clasificación y regresión basadas en bosques y aumentadas.
Para más información sobre la función de densidad espectral empleada para la estimación de la duración de ventanas de tiempo, consulte la función findfrequency en las siguientes referencias:
- Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E y Yasmeen F (2019). "Forecasting functions for time series and linear models". R package version 8.7,https://pkg.robjhyndman.com/forecast.
- Hyndman RJ and Khandakar Y (2008). "Automatic time series forecasting: the forecast package for R". Journal of Statistical Software, 26(3), pp. 1-22. https://www.jstatsoft.org/article/view/v027i03.
Para obtener más información sobre cómo incluir variables explicativas y el efecto de intervalo, consulte la siguiente referencia:
- Zheng, H. y Kusiak, A. (2009). "Prediction of Wind Farm Power Ramp Rates: A Data-Mining Approach."ASME. J. Sol. Energy Eng, 131(3): 031011. https://doi.org/10.1115/1.3142727.