Cómo funciona Predicción basada en bosque

La herramienta Predicción basada en bosque utiliza regresión basada en bosque para prever futuras porciones de tiempo de un cubo de espacio-tiempo. La salida principal es un mapa del periodo de tiempo predicho final, además de mensajes informativos y gráficos emergentes. Puede proporcionar otras variables explicativas para mejorar la previsión de la variable de análisis y puede estimar y visualizar efectos de intervalo entre las variables explicativas y la variable que se está prediciendo. También tiene la posibilidad de detectar valores atípicos en cada serie temporal para identificar posiciones y tiempos que se desvíen significativamente de los patrones y tendencias del resto de las series temporales.

Esta herramienta utiliza el mismo algoritmo subyacente que la herramienta Clasificación y regresión basadas en bosque cuando se utiliza para la regresión. Los datos de entrenamiento utilizados para crear el modelo de regresión de bosque se construye utilizando ventanas de tiempo en cada ubicación del cubo de espacio-tiempo.

Obtenga más información sobre Clasificación y regresión basadas en bosque

Potenciales aplicaciones

Los modelos de regresión de bosque asumen algunos supuestos sobre los datos, por lo que se utilizan en muchos contextos. Son los más eficaces si se comparan con otros métodos de predicción cuando los datos tienen tendencias o estaciones complejas, o cambios en formas que no se asemejan a funciones matemáticas comunes como por ejemplo polinómicas, curvas exponenciales o ondas sinusoidales.

Por ejemplo, puede utilizar esta herramienta en las siguientes aplicaciones:

  • Un distrito escolar puede utilizar esta herramienta para prever el número de estudiantes que se ausentarán cada día de la siguiente semana en cada escuela del distrito.
  • Un gobernador puede predecir el número de hospitalizaciones por una enfermedad infecciosa dos semanas en el futuro. Esta predicción puede incluir el número de resultados de pruebas positivas como una variable explicativa, y la herramienta modelará el efecto de demora entre las pruebas positivas y las hospitalizaciones.
  • Los administradores de servicios públicos pueden utilizar esta herramienta para prever las necesidades de electricidad y agua del próximo mes en los vecindarios de su distrito administrativo.
  • Las tiendas minoristas pueden utilizar esta herramienta para predecir cuándo se venderán productos individuales con el fin de administrar mejor el inventario.

Previsión y validación

La herramienta crea dos modelos al realizar la predicción de cada serie temporal. El primero es el modelo de previsión, que se utiliza para realizar la previsión de los valores de futuros periodos de tiempo. El segundo es el modelo de validación, que se utiliza para validar los valores previstos.

Modelo de previsión

El modelo de predicción se construye creando un bosque con los valores de la serie temporal en cada ubicación del cubo de espacio-tiempo. Este bosque se utiliza para predecir la siguiente porción de tiempo. El valor predicho en el nuevo periodo de tiempo se incluye en el modelo de bosque, y se realiza la predicción del siguiente periodo de tiempo. Este proceso recursivo continúa para todos los periodos de tiempo futuros. El ajuste del bosque a cada serie temporal se mide mediante el error cuadrático medio (RMSE) de predicción, que es igual a la raíz cuadrada de la diferencia cuadrada promedio entre el modelo de bosque y los valores de la serie temporal.

RMSE de predicción
, donde T es el número de periodos de tiempo, ct es el valor del modelo de bosque y rt es el valor bruto de la serie temporal en el tiempo t.

La siguiente imagen muestra los valores brutos de una serie temporal y un modelo de bosque ajustado a la serie temporal junto con predicciones para dos futuros periodos de tiempo. El RMSE de predicción mide cuánto varían los valores ajustados del bosque con respecto a los valores brutos de la serie temporal.

Modelo de predicción para predicción basada en bosque

El RMSE de predicción solo mide el grado con el que el modelo de bosque se ajusta a los valores brutos de la serie temporal. No mide lo bien que el modelo de predicción realiza realmente la predicción de valores futuros. Es habitual que un modelo de bosque se ajuste fielmente a una serie temporal, aunque no proporcione predicciones precisas cuando se extrapola. Este problema se aborda con el modelo de validación.

Modelo de validación

El modelo de validación se utiliza para determinar lo bien que el modelo de predicción puede realizar la predicción de valores futuros de cada serie temporal. Se construye excluyendo algunos de los últimos periodos de tiempo de cada serie temporal y ajustando el modelo de bosque a los datos no excluidos. A continuación, el modelo de bosque se utiliza para realizar la predicción de los valores de los datos que se retuvieron, y los valores predichos se comparan con los valores brutos que se ocultaron. De forma predeterminada, el 10 por ciento de los periodos de tiempo se retienen para validación, aunque este número puede cambiarse con el parámetro Número de periodos de tiempo que se excluirán para validación. El número de periodos de tiempo excluidos no puede superar el 25 por ciento del número de periodos de tiempo, y no se realiza ninguna validación si se especifica 0. La precisión de las predicciones se mide calculando una estadística de RMSE de validación, que es igual a la raíz cuadrada de la diferencia cuadrada promedio entre los valores predichos y brutos de los periodos de tiempo excluidos.

RMSE de validación
, donde T es el número de periodos de tiempo, m es el número de periodos de tiempo retenidos para validación, ct es el valor predicho de los primeros T-m periodos de tiempo y rt es el valor bruto de la serie temporal retenida para validación en el tiempo t.

La siguiente imagen muestra un modelo de bosque ajustado a la primera mitad de una serie temporal y se utiliza para predecir la segunda mitad de la serie temporal. El RMSE de validación mide cuánto varían los valores predichos de los valores brutos en los periodos de tiempo retenidos.

Modelo de validación para predicción basada en bosque

El modelo de validación es importante porque puede comparar directamente valores predichos con valores brutos para medir lo bien que puede predecir el bosque. Aunque no se utiliza realmente para realizar predicción, se utiliza para justificar el modelo de predicción.

Nota:

La validación en la predicción de serie temporal es similar aunque no idéntica a una técnica habitual denominada validación cruzada. La diferencia es que la validación de predicción siempre excluye los periodos de tiempo finales para validación, y la validación cruzada excluye un subconjunto aleatorio de los datos o excluye cada valor secuencialmente.

Interpretación

Existen varias consideraciones al interpretar los valores de RMSE de predicción y RMSE de validación.

  • Los valores de RMSE no son directamente comparables entre sí porque miden cosas diferentes. El RMSE de predicción mide el ajuste del modelo de bosque a los valores brutos de la serie temporal, y el RMSE de validación mide lo bien que el modelo de bosque puede realizar la predicción de valores futuros. Dado que el RMSE de predicción utiliza más datos y no extrapola, generalmente es menor que el RMSE de Validación.
  • Ambos valores de RMSE están en las unidades de los datos. Por ejemplo, si sus datos son mediciones de temperatura en grados centígrados, un RMSE de validación de 50 es muy alto porque significa que los valores predichos varían con respecto a los valores reales en aproximadamente 50 grados en promedio. No obstante, si sus datos son ingresos diarios en dólares estadounidenses de una tienda minorista grande, el mismo RMSE de validación de 50 es muy pequeño porque significa que los ingresos diarios predichos solo varían con respecto a los valores reales en 50 $ al día en promedio.

Creación y entrenamiento del modelo de bosque

Para realizar la predicción de valores futuros, el modelo de bosque debe entrenarse asociando variables explicativas con variables dependientes para cada ubicación. El modelo de bosque requiere datos de entrenamiento repetidos, aunque solo existe una serie temporal para cada ubicación. Para crear varios conjuntos de variables explicativas y dependientes dentro de una única serie temporal, se construyen ventanas de tiempo en las que los periodos de tiempo de cada ventana de tiempo se utilizan como variables explicativas, y el siguiente periodo de tiempo después de la ventana de tiempo es la variable dependiente. Por ejemplo, si existen 20 periodos de tiempo en una ubicación y la ventana de tiempo es 5 periodos de tiempo, existen 15 conjuntos de variables explicativas y dependientes utilizadas para entrenar el bosque en esa ubicación. El primer conjunto tiene los periodos de tiempo 1, 2, 3, 4 y 5 como variables explicativas y el periodo de tiempo 6 como la variable dependiente. El segundo conjunto tiene los periodos de tiempo 2, 3, 4, 5 y 6 como variables explicativas y el periodo de tiempo 7 como la variable dependiente. El conjunto final tiene los periodos de tiempo 15, 16, 17, 18 y 19 como variables explicativas y el periodo de tiempo 20 como la variable dependiente. El número de periodos de tiempo dentro de cada ventana de tiempo puede especificarse usando el parámetro Ventana de periodo de tiempo. La ventana de tiempo puede ser tan pequeña como 1 (por lo que solo existe un periodo de tiempo dentro de cada ventana de tiempo) y no puede superar un tercio del número de periodos de tiempo en la ubicación.

Con el modelo de bosque entrenado, los periodos de tiempo finales de la ubicación se utilizan como variables explicativas para realizar la predicción del primer periodo de tiempo futuro. A continuación se realiza la predicción del segundo periodo de tiempo futuro usando los periodos de tiempo previos en la ventana de tiempo, donde uno de estos periodos de tiempo es el primer valor predicho. El tercer periodo de tiempo predicho utiliza de forma similar los periodos de tiempo previos de la ventana, donde dos de estos periodos de tiempo son periodos de tiempo predichos previos. Este proceso continúa a través de todos los futuros periodos de tiempo.

La siguiente imagen muestra los conjuntos de variables explicativas y dependientes utilizadas para entrenar el modelo de bosque y realizar la predicción de los primeros siete periodos de tiempo futuros:

Entrene el modelo de predicción de bosque usando ventanas de tiempo.
El modelo de predicción de bosque se entrena usando ventanas de tiempo.

Variables explicativas y el efecto de intervalo

Aunque los modelos de regresión de bosque pueden capturar eficazmente patrones y tendencias complejos de las series temporales, siempre se pueden mejorar incluyendo información adicional. Por ejemplo, conocer los niveles de contaminación puede ayudar a predecir el número de visitas a las salas de urgencias debido al asma, ya que la contaminación es un desencadenador conocido de los ataques de asma.

Puede incluir variables explicativas almacenadas en el mismo cubo de espacio-tiempo utilizando el parámetro Otras variables para predecir la variable de análisis utilizando una previsión basada en bosque multivariante. Para entrenar el modelo de regresión de bosque multivariante, cada variable explicativa se incluye dentro de cada ventana de tiempo y se utiliza para predecir el siguiente valor después de la ventana de tiempo, de forma análoga a como se utilizan las ventanas de tiempo para la variable de análisis, tal y como se describe en la sección Crear y entrenar el modelo de bosque. Cuando se predicen nuevos periodos de tiempo, cada variable explicativa se predice con una predicción basada en bosque univariante, y estos valores predichos se utilizan como variables explicativas al predecir valores futuros de la variable de análisis. Los resultados de todas las predicciones (la variable de análisis y todas las variables explicativas) se almacenan en el cubo de espacio-tiempo de salida.

Además de utilizarla para mejorar la predicción de la variable de análisis, la herramienta también estimará y visualizará los efectos de intervalo entre la variable de análisis y las variables explicativas. El efecto de intervalo es cuando existe una demora entre un cambio en una variable explicativa y un cambio en la variable de análisis, y está presente en muchas situaciones relacionadas con series temporales de varias variables. Por ejemplo, el gasto en publicidad suele tener un efecto de intervalo en los ingresos de las ventas porque la gente necesita tiempo para ver los anuncios antes de decidir la compra. En el ejemplo anterior de las visitas a salas de urgencias para los niveles de asma y contaminación, también puede haber una demora entre un aumento de los niveles de contaminación y un aumento en las visitas a las salas de urgencias, ya que puede llevar algún tiempo para que los efectos negativos en la salud se acumulen lo suficiente como para requerir atención de urgencias.

La siguiente imagen muestra el efecto de intervalo, en el que los cambios en el valor de la serie temporal azul van cuatro días por detrás de la línea naranja.

Efecto de intervalo entre dos variables

Cuando hay un intervalo entre cualquier variable explicativa y la variable de análisis, puede obtener más información sobre la variable de análisis si mira atrás en el tiempo por la longitud del intervalo. Por ejemplo, si hay un intervalo de dos semanas entre el gasto en publicidad y los ingresos de las ventas, al predecir los ingresos de las ventas de un día en particular, es más informativo analizar el gasto en publicidad dos semanas antes en comparación con el importe gastado en los últimos días.

El modelo de bosque puede detectar y utilizar el efecto de intervalo entre variables porque la ventana de tiempo en movimiento siempre predice el periodo de tiempo inmediatamente después de ella. El último valor de la ventana de tiempo es siempre un periodo de tiempo antes de la predicción; el penúltimo período de tiempo de la ventana de tiempo es siempre dos periodos de tiempo antes de la previsión; y así sucesivamente. Dado que la ventana de tiempo cambia, cada variable explicativa se representa como un factor independiente para cada periodo de tiempo dentro de la ventana de tiempo, lo que permite comparar distintas variables explicativas en diferentes intervalos y determinar cuáles son las más importantes para la predicción. Consulte Cómo funciona Clasificación y regresión basadas en bosque para obtener más información.

Por ejemplo, el gráfico que aparece a continuación muestra las variables importantes con demoras de tiempo para predecir los nuevos fallecimientos diarios por la enfermedad del coronavirus de 2019 (COVID-19) utilizando como variable explicativa el número de personas a las que se administra una vacuna a diario. Los valores del eje x hacen referencia a cada periodo de tiempo de la ventana de tiempo y esta imagen tiene 14 valores porque utilizó una ventana de tiempo de 14 días. Los valores del eje x representan el número de periodos de tiempo antes de la predicción, de modo que retroceden en el tiempo a medida que se mueve de izquierda a derecha en el gráfico. El valor situado más a la izquierda de 1 significa que es un día antes de la predicción, que corresponde al último periodo de tiempo de la ventana de tiempo. Del mismo modo, el valor más a la derecha de 14 representa 14 días antes de la predicción, que corresponde al primer periodo de tiempo de la ventana de tiempo de 14 días. Para cada periodo de tiempo, las columnas de color azul claro y oscuro representan recuentos de ubicaciones en las que se determinó que ese factor estaba entre los factores más importantes a la hora de predecir nuevos fallecimientos diarios por COVID-19, de modo que cuanto mayor sea el recuento, más importante será el factor general entre las ubicaciones. Las barras en azul oscuro representan la variable de análisis, los nuevos fallecimientos por COVID-19 y las barras más altas se encuentran en los primeros tres a cuatro intervalos de tiempo, lo que indica que el número de fallecimientos de los tres a los cuatro días anteriores predice mejor los fallecimientos al día siguiente. Aunque estos datos no lo demuestran, es posible que una variable se demore en sí misma, como en el caso de variables cíclicas como la temperatura, donde retroceder 24 horas es más predictivo que retroceder 2 horas debido a los ciclos de día y noche. Las barras de color azul claro representan el número de vacunas nuevas administradas en el día y las barras azules más altas aparecen de 10 a 14 días atrás en la ventana de tiempo (las barras más alejadas de la derecha), lo que indica que los aumentos o disminuciones de los recuentos de vacunas afectan al número de fallecimientos de 10 a 14 días en el futuro. Este intervalo de 10 a 14 días corresponde al tiempo necesario para desarrollar una inmunidad pico tras una vacuna.

Gráfico Importancia de intervalo de tiempo

Se muestran los factores a la hora de predecir los nuevos fallecimientos diarios por COVID-19. Los fallecimientos de los tres a cuatro días más recientes predicen mejor los fallecimientos nuevos. El número de vacunas nuevas administradas entre 10 y 14 días en el pasado predice mejor los nuevos fallecimientos.

El gráfico Importancia de intervalo de tiempo se incluye con la tabla de salida generada por el parámetro opcional Tabla de importancia de salida. La tabla contiene una fila para cada ubicación del cubo de espacio-tiempo y muestra los factores más importantes para cada ubicación. La cantidad de factores que se consideran importantes en cada ubicación depende del parámetro Umbral de importancia. Por ejemplo, si se proporciona 15, el 15 por ciento superior de los factores de cada ubicación se incluirá en la tabla y el gráfico. El valor predeterminado es 10.

Para crear la tabla y el gráfico, debe incluir al menos una variable explicativa en el parámetro Otras variables. El número de intervalos de tiempo de la tabla y el gráfico es igual al valor del parámetro Ventana de pasos de tiempo, por lo que la ventana de tiempo debe ser mayor que cualquier efecto de intervalo que desee capturar. Por ejemplo, una ventana de tiempo de una semana no podría capturar el efecto de intervalo de las vacunas en el número de fallecimientos por COVID-19.

Estacionalidad y elección de una ventana de tiempo

El número de periodos de tiempo dentro de cada ventana de periodo de tiempo representa una elección importante para el modelo de bosque. Una consideración importante consiste en si la serie temporal muestra estacionalidad donde patrones cíclicos naturales se repiten durante un cierto número de periodos de tiempo. Por ejemplo, la temperatura muestra anualmente ciclos estacionales de acuerdo con las estaciones del año. Ya que la ventana de tiempo se utiliza para crear variables asociadas explicativas y dependientes, la máxima eficacia se produce cuando dichas variables explicativas proceden del mismo ciclo estacional para que haya la menor correlación estacional posible entre las variables explicativas. Se recomienda utilizar el número de periodos de tiempo de una estación natural durante la duración de la ventana de periodo de tiempo. Si sus datos muestran varias estaciones, se recomienda utilizar la duración de la estación más larga.

Si conoce el número de periodos de tiempo que se corresponden con una estación en sus datos, puede especificarlo en el parámetro Ventana de periodo de tiempo, y cada ubicación utilizará este valor en el cubo de espacio-tiempo. Si no conoce la duración de una estación o si la duración estacional es diferente para diferentes ubicaciones, el valor del parámetro puede dejarse vacío, y se estimará una duración estacional óptima para cada ubicación utilizando una función de densidad espectral. Para disponer de detalles sobre esta función, consulte la sección Recursos adicionales.

Para una ubicación individual, si la duración estacional óptima determinada por el análisis espectral fuera mayor de uno y no mayor de un tercio del número de periodos de tiempo en la ubicación, la ventana de periodo de tiempo se establece en este valor óptimo. De lo contrario, la ubicación utiliza el 25 por ciento (redondeado a la baja) del número de periodos de tiempo en la ubicación para la ventana de periodo de tiempo. Esto asegura que exista al menos un periodo de tiempo en la ventana y que al menos se utilicen tres ciclos estacionales completos como variables explicativas. El valor de periodo de tiempo utilizado en la ubicación se guarda en el campo Time Window de las entidades de salida. El campo Is Seasonal de las entidades de salida contendrán el valor 1 si la ventana de periodo de tiempo se determinó usando análisis espectral, y contendrá 0 en caso contrario. Este flujo de trabajo se resume en la siguiente imagen:

Determinar el parámetro Ventana de pasos de tiempo
La ventana de periodo de tiempo se puede especificar o estimar para cada ubicación al detectar la estacionalidad.

Criterios para la predicción

Existen cuatro formas de representar los valores de las variables explicativas y dependientes que se utilizarán para entrenar el bosque. Estas opciones se especifican con el parámetro Criterio de predicción.

La primera opción es Crear modelo por valor. Esta opción utiliza los valores brutos en los bins espacio-tiempo para las variables explicativas y dependientes. Cuando se elige esta opción, los valores predichos se incluirán en el rango de las variables dependientes, por lo que no debe utilizar esta opción si sus datos tienen tendencias de dónde se espera que los valores continúen aumentando o disminuyendo al realizar la predicción del futuro. La siguiente imagen muestra los conjuntos de variables utilizadas para entrenar el modelo para una única ubicación en la que cada fila muestra el conjunto de variables explicativas y la variable dependiente asociada. T es el número de periodos de tiempo en el cubo de espacio-tiempo, W es el número de periodos de tiempo en cada ventana de periodo de tiempo y Xt es el valor sin procesar de la serie temporal en el tiempo t.

Matriz para crear el modelo por valor

La segunda opción es Crear modelo por valor después de eliminación de la tendencia. Esta es la opción predeterminada de la herramienta. Esta opción realiza una eliminación de la tendencia de primer orden (lineal) en toda la serie temporal en cada ubicación, y estos valores de los que se ha eliminado la tendencia se utilizan como las variables explicativas y dependientes. El uso de esta opción permite que las predicciones sigan esta tendencia en el futuro para que los valores predichos puedan estimarse fuera del rango de las variables dependientes. La siguiente imagen muestra los conjuntos de variables utilizadas para entrenar el modelo para una única ubicación en la que cada fila muestra el conjunto de variables explicativas y la variable dependiente asociada. T es el número de periodos de tiempo en el cubo de espacio-tiempo, W es el número de periodos de tiempo en cada ventana de periodo de tiempo y Dt es el valor con la tendencia eliminada de la serie temporal en el tiempo t.

Matriz para crear el modelo por valor después de la eliminación de la tendencia

La tercera opción es Crear modelo por residual. Esta opción crea un modelo de regresión de mínimos cuadrados ordinarios (OLS) para predecir la variable dependiente en función de las variables explicativas dentro de cada ventana de tiempo. El residual de este modelo de regresión (la diferencia entre la predicción de OLS y el valor bruto de la variable dependiente) se utiliza para representar la variable dependiente al entrenar el bosque. La siguiente imagen muestra los conjuntos de variables utilizadas para entrenar el modelo para una única ubicación en la que cada fila muestra el conjunto de variables explicativas y la variable dependiente asociada. T es el número de periodos de tiempo en el cubo de espacio-tiempo, W es el número de periodos de tiempo en cada ventana de periodo de tiempo, Xt es el valor de la serie temporal en el tiempo t y X^t (Xt-hat) es el valor estimado de OLS en el tiempo t.

Matriz para crear el modelo por residual

La última opción es Crear modelo por residual de eliminación de la tendencia. Esta opción realiza primero una eliminación de tendencia de primer orden (lineal) en toda la serie temporal en una ubicación. A continuación crea un modelo de regresión de OLS para predecir la variable dependiente con eliminación de la tendencia en función de las variables explicativas con eliminación de la tendencia dentro de cada ventana de tiempo. El residual de este modelo de regresión (la diferencia entre la predicción de OLS y el valor con eliminación de la tendencia de la variable dependiente) se utiliza para representar la variable dependiente al entrenar el bosque. La siguiente imagen muestra los conjuntos de variables utilizadas para entrenar el modelo para una única ubicación en la que cada fila muestra el conjunto de variables explicativas y la variable dependiente asociada. T es el número de periodos de tiempo en el cubo espacio-tiempo, W es el número de periodos de tiempo en cada ventana de periodo de tiempo, Dt es el valor con eliminación de la tendencia de la serie temporal en el tiempo t y D^t (Dt-hat) es el valor estimado de OLS en el tiempo t.

Matriz para crear el modelo por residual después de la eliminación de la tendencia

Construcción de intervalos de confianza

La herramienta calcula intervalos de confianza del 90 por ciento para cada periodo de tiempo predicho que aparecen como campos en las Entidades de salida y se muestran en gráficos emergentes analizados en la siguiente sección. Los límites superior e inferior del intervalo de confianza para el primer periodo de tiempo predicho se calculan usando regresión de bosque aleatorio cuantil. Para predecir el valor de un tiempo futuro, las observaciones dentro de cada hoja de un árbol se promedian juntas. No obstante, en regresión cuantil se utiliza cada observación dentro de cada hoja, y esto da como resultado una distribución de valores predichos para el primer periodo de tiempo. El intervalo de confianza del 90 por ciento se construye usando los cuantiles 5º y 95º de esta distribución.

El intervalo de confianza para la segunda predicción se calcula de forma similar aunque se ajusta teniendo en cuenta el intervalo de confianza de la primera predicción. Nuevamente, la regresión cuantil se utiliza para crear una distribución para el segundo periodo de tiempo predicho, tratando el primer periodo de tiempo predicho como un valor singular, y se calculan los cuantiles de la distribución 5º y 95º. La confianza real de la segunda predicción se calcula agregando las longitudes de los límites de confianza de ambas predicciones. El límite superior de la segunda predicción es igual a la longitud del límite superior de la primera predicción más la longitud del límite de confianza superior para la segunda predicción (se calcula asumiendo que la primera predicción es un valor individual en lugar de una distribución). El límite inferior se calcula de forma similar agregando las longitudes de los límites de confianza inferiores. El intervalo de confianza del tercer periodo de tiempo predicho se calcula realizando regresión cuantil nuevamente y agregando las longitudes de los límites de error para las tres predicciones. Este proceso continúa hasta que se realiza la predicción de todos los periodos de tiempo. Al agregar los límites de error de esta forma se asegura de que el error se propague hacia delante a través de las proyecciones y que las longitudes de las bandas de confianza aumenten hacia delante en el tiempo.

Nota:

Los límites de confianza para el segundo periodo de tiempo y posteriores se calculan de forma conservadora agregando errores de predicciones previas. El nivel de confianza real de estos intervalos es de al menos el 90 por ciento, aunque realmente podrían estar en un nivel de confianza mayor.

Identificación de valores atípicos de series temporales

Los valores atípicos de los datos de series temporales son valores que varían significativamente de los patrones y tendencias de los demás valores en series temporales. Por ejemplo, las grandes cifras de compras en línea por las vacaciones o las altas cifras de accidentes de tráfico durante fuertes tormentas probablemente se detecten como valores atípicos en sus series temporales. Errores simples de introducción de datos, como la omisión de la parte decimal de un número, representan otra fuente común de valores atípicos. La identificación de valores atípicos en la previsión de series temporales es importante porque los valores atípicos influyen en el modelo de previsión que se utiliza para prever futuros valores, e incluso un pequeño número de valores atípicos en las series temporales de una ubicación pueden reducir significativamente la precisión y fiabilidad de las previsiones. Las ubicaciones con valores atípicos, particularmente valores atípicos en el comienzo y final de las series temporales, pueden generar previsiones erróneas, y la identificación de estas ubicaciones ayuda a determinar el grado de confianza que debe tener en los valores previstos en cada ubicación.

Los valores atípicos no se determinan simplemente mediante sus valores sin procesar, sino por cuánto varían sus valores con respecto a los valores ajustados del modelo de previsión. Eso significa que la posibilidad de que se determine que un valor es atípico será algo contextual y dependerá de su posición y tiempo. El modelo de previsión define el valor que se espera en función de toda la serie temporal, y los valores atípicos son los valores que se desvían significativamente de esta referencia. Por ejemplo, considere una serie temporal de temperatura media anual. Ya que las temperaturas promedio han aumentado durante las últimas décadas, el modelo de previsión ajustado de temperatura también aumentará con el tiempo para reflejar este aumento. Eso significa que un valor de temperatura que se consideraría típico y no un valor atípico en 1950 es probable que se considere un valor atípico si se produjera la misma temperatura en 2020. En otras palabras, una temperatura típica de 1950 se consideraría muy baja para los estándares de 2020.

Puede elegir detectar valores atípicos de series temporales en cada ubicación usando el parámetro Identificar valores atípicos. Si se especifica, la prueba Extreme Studentized Deviate (ESD) generalizada se realiza para cada ubicación con el fin de probar valores atípicos de series temporales. El nivel de confianza de la prueba puede especificarse con el parámetro Nivel de confianza, y se utiliza el 90 por ciento de confianza como el valor predeterminado. La prueba ESD generalizada prueba iterativamente un único valor atípico, dos valores atípicos, tres valores atípicos, y así sucesivamente, en cada ubicación hasta el valor del parámetro Número máximo de valores atípicos (de forma predeterminada, 5 por ciento del número de periodos de tiempo, redondeado a la baja), y se devuelve el número de valores atípicos estadísticamente significativo más grande. El número de valores atípicos en cada ubicación puede verse en una tabla de atributos de las entidades de salida, y los valores atípicos individuales pueden verse en los gráficos emergentes de la serie temporal que se analizan en la siguiente sección.

Conozca más información sobre valores atípicos en el análisis de series temporales, la prueba ESD generalizada y cómo interpretar los resultados

Salidas de la herramienta

La salida principal de esta herramienta es una clase de entidad 2D que muestra cada ubicación en el Cubo de espacio-tiempo de entrada simbolizado por el periodo de tiempo predicho final con las predicciones para todos los demás periodos de tiempo almacenados como campos. Aunque se realiza la predicción de cada ubicación de forma independiente y las relaciones espaciales no se tienen en cuenta, el mapa puede mostrar patrones espaciales para áreas con series temporales similares.

Gráficos emergentes

Al hacer clic en cualquier entidad del mapa usando la herramienta de navegación Explorar, se muestra un gráfico en el panel Emergente que muestra los valores del cubo de espacio-tiempo junto con el modelo de bosque ajustado y los valores predichos junto con intervalos de confianza del 90 por ciento para cada predicción. Los valores del cubo de espacio-tiempo se muestran en azul y se conectan con una línea azul. Los valores ajustados se muestran en naranja y se conectan mediante una línea naranja discontinua. Los valores predichos se muestran en naranja y se conectan mediante una línea naranja continua que representa la predicción del modelo de bosque. Los límites de confianza rojo claro se dibujan alrededor de cada valor predicho. Puede pasar el puntero sobre cualquier punto del gráfico para ver la fecha y el valor del punto. Adicionalmente, si elige detectar valores atípicos en series temporales, los valores atípicos se muestran como puntos morados grandes.

Gráfico emergente de predicción basado en bosque
El gráfico emergente muestra los valores originales, valores ajustados, valores predichos e intervalos de confianza.

Nota:

Los gráficos emergentes no se crearán si las entidades de salida se guardan como shapefile (.shp). Además, si los intervalos de confianza se extienden fuera del gráfico, aparece un botón Mostrar rango completo de datos encima del gráfico para poder extender el gráfico con el fin de mostrar todo el intervalo de confianza.

Mensajes de geoprocesamiento

La herramienta proporciona varios mensajes con información sobre la ejecución de la herramienta. Los mensajes tienen tres secciones principales.

La sección Detalles de cubo de espacio-tiempo de entrada muestra propiedades del cubo de espacio-tiempo de entrada junto con información sobre el número de periodos de tiempo, número de ubicaciones y número de bins espacio-tiempo. Las propiedades mostradas en esta primera sección dependen de cómo se creó originalmente el cubo, por lo que la información varía en función del cubo.

La sección Detalles del análisis muestra propiedades de los resultados de la predicción, incluyendo el número de periodos de tiempo predichos, el número de periodos de tiempo excluidos para validación, el porcentaje de ubicaciones donde se detectó estacionalidad mediante análisis espectral e información sobre los periodos de tiempo predichos. Si no se proporciona ningún valor para el parámetro Ventana de periodo de tiempo, se visualizan las estadísticas resumen de la ventana de periodo de tiempo estimada, incluyendo el mínimo, máximo, promedio, mediana y desviación estándar.

La sección Resumen de precisión a través de ubicaciones muestra estadísticas resumen para el RMSE de previsión y RMSE de validación entre todas las ubicaciones. Para cada valor se muestra el mínimo, máximo, valor medio, mediana y desviación estándar.

La sección Resumen de los valores atípicos de series temporales aparece si elige detectar valores atípicos de series temporales usando el parámetro Opción de valores atípicos. Esta sección muestra información que incluye el número y porcentaje de ubicaciones que contienen valores atípicos, el periodo de tiempo que contiene la mayoría de valores atípicos y estadísticas resumen del número de valores atípicos por ubicación y por periodo de tiempo.

Nota:

Los mensajes de geoprocesamiento aparecen en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente Ventana emergente o expandiendo la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una herramienta ejecutada anteriormente con el historial de geoprocesamiento.

Campos de las entidades de salida

Además de Id. de objeto, campos de geometría y el campo que contiene los gráficos emergentes, las Entidades de salida tendrán los siguientes campos:

  • Id. de ubicación (LOCATION): el Id. de ubicación de la ubicación correspondiente del cubo de espacio-tiempo.
  • Predicción de (variable de análisis) en (periodo de tiempo) (FCAST_1, FCAST_2, etc.): el valor predicho de cada periodo de tiempo futuro. El alias de campo muestra el nombre de la Variable de análisis y la fecha de la predicción. Se crea un campo de este tipo para cada periodo de tiempo predicho.
  • Intervalo alto para (variable de análisis) en (periodo de tiempo) (HIGH_1, HIGH_2 y así sucesivamente): el límite superior de un intervalo de confianza del 90 por ciento para el valor predicho de cada periodo de tiempo futuro. El alias de campo muestra el nombre de la Variable de análisis y la fecha de la predicción. Se crea un campo de este tipo para cada periodo de tiempo predicho.
  • Intervalo bajo para (variable de análisis) en (periodo de tiempo) (LOW_1, LOW_2 y así sucesivamente): el límite inferior de un intervalo de confianza del 90 por ciento para el valor predicho de cada periodo de tiempo futuro. El alias de campo muestra el nombre de la Variable de análisis y la fecha de la predicción. Se crea un campo de este tipo para cada periodo de tiempo predicho.
  • Error cuadrático medio de predicción (F_RMSE): el RMSE de predicción.
  • Error cuadrático medio de Validación (V_RMSE): el RMSE de validación. Si no se excluyeron periodos de tiempo para validación, este campo no se crea.
  • Ventana de tiempo (TIMEWINDOW): la ventana de periodo de tiempo utilizada en la ubicación.
  • Es estacional (IS_SEASON): una variable booleana que indica si la ventana de periodo de tiempo en la ubicación se determinó por densidad espectral. Un valor de 1 indica que se detectó estacionalidad mediante densidad espectral, y un valor de 0 indica que no se detectó estacionalidad. Si se especificó un valor en el parámetro Ventana de tiempo, todas las ubicaciones tienen el valor 0 en este campo.
  • Método de predicción (METHOD): un campo de texto que muestra los parámetros del modelo de bosque, incluyendo valores de inicialización aleatorios, número de árboles, tamaño de muestra, criterio de predicción y si el usuario especificó la ventana de periodo de tiempo o fue determinada por la herramienta. Este campo puede utilizarse para reproducir resultados y permite identificar los modelos que se utilizan en la herramienta Evaluar predicciones por ubicación.
  • Número de valores atípicos de ajuste de modelo (N_OUTLIERS): el número de valores atípicos detectados en la serie temporal de la ubicación. Este campo solo se crea si elige detectar valores atípicos con el parámetro Opción de valores atípicos.

Cubo de espacio-tiempo de salida

Si se especifica un Cubo de espacio-tiempo de salida, el cubo de salida contiene todos los valores originales del cubo de espacio-tiempo de entrada con los valores predichos incorporados. Este nuevo cubo de espacio-tiempo se puede visualizar con las herramientas Visualizar cubo de espacio-tiempo en 2D o Visualizar cubo de espacio-tiempo en 3D, y se puede utilizar como entrada para las herramientas de la caja de herramientas Minería de patrones en espacio-tiempo, tales como Análisis de puntos calientes emergentes y Clustering de serie temporal.

Con la herramienta Evaluar previsiones por ubicación se pueden comparar y fusionar varios cubos de espacio-tiempo previstos. De este modo, puede crear varios cubos de predicción con distintos parámetros y herramientas de predicción, y la herramienta identifica la mejor predicción para cada ubicación mediante el RMSE de Predicción o de Validación.

Prácticas recomendadas y limitaciones

Al decidir si esta herramienta resulta apropiada para sus datos y los parámetros que debe elegir, deben tenerse en cuenta varias cosas.

  • Comparado con otras herramientas de predicción del conjunto de herramientas Predicción de serie temporal, esta herramienta es la más complicada aunque tiene en cuenta el menor número de supuestos sobre los datos. Se recomienda para series temporales con formas complicadas y tendencias que sean difíciles de modelar con funciones matemáticas sencillas. También se recomienda cuando no se satisfacen los supuestos de otros métodos.
  • La decisión sobre cuántos periodos de tiempo deben excluirse para la validación es importante. Cuantos más periodos de tiempo se excluyen, menos periodos de tiempo quedan para estimar el modelo de validación. No obstante, si se excluyen muy pocos periodos de tiempo, el RMSE de validación se estima usando una pequeña cantidad de datos y puede llevar a engaño. Se recomienda excluir el mayor número de periodos de tiempo que sea posible mientras aún se mantienen suficientes periodos de tiempo para estimar el modelo de validación. También se recomienda retener al menos el mismo número de periodos de tiempo para validación que el número de periodos de tiempo de los que pretende realizar la predicción, si su cubo de espacio-tiempo tiene suficientes periodos de tiempo para permitir esto.
  • Esta herramienta puede producir predicciones inestables y poco fiables cuando el mismo valor se repite muchas veces dentro de la serie temporal. Una fuente común de valores idénticos repetidos es inflación cero, en la que sus datos representan recuentos y muchos de los periodos de tiempo tienen el valor 0.
  • Si elige identificar valores atípicos, se recomienda que proporcione un valor para el parámetro Ventana de periodo de tiempo en lugar de dejar el parámetro vacío y estimar una ventana de periodo de tiempo diferente en cada ubicación. Para cada ubicación, el modelo de bosque utiliza los periodos de tiempo de la primera ventana de periodo de tiempo para entrenar el modelo de predicción y solo se detectan valores atípicos para los periodos de tiempo restantes. Si las diferentes ubicaciones excluyen diferentes números de periodos de tiempo para el entrenamiento, las estadísticas de resumen como el valor medio y los números mínimo y máximo de valores atípicos por periodo de tiempo o por ubicación pueden resultar confusas. Estas estadísticas solo se calculan por periodos de tiempo que se incluyeron en todas las ubicaciones.

Recursos adicionales

Para obtener más información sobre modelos de bosque, consulte las siguientes referencias:

  • Breiman, Leo. (2001). "Random Forests." Machine Learning 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.
  • Breiman, L., J.H. Friedman, R.A. Olshen y C.J. Stone. (2017). Classification and regression trees. New York: Routledge. Capítulo 4.

Para disponer de recursos y referencias adicionales para modelos de bosque, consulte Cómo funciona Clasificación y regresión basadas en bosque.

Para más información sobre la función de densidad espectral empleada para la estimación de la duración de ventanas de tiempo, consulte la función findfrequency en las siguientes referencias:

  • Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E y Yasmeen F (2019). "Forecasting functions for time series and linear models". R package version 8.7,https://pkg.robjhyndman.com/forecast.
  • Hyndman RJ and Khandakar Y (2008). "Automatic time series forecasting: the forecast package for R". Journal of Statistical Software, 26(3), pp. 1-22. https://www.jstatsoft.org/article/view/v027i03.

Para obtener más información sobre cómo incluir variables explicativas y el efecto de intervalo, consulte la siguiente referencia:

  • Zheng, H. y Kusiak, A. (2009). "Prediction of Wind Farm Power Ramp Rates: A Data-Mining Approach."ASME. J. Sol. Energy Eng, 131(3): 031011. https://doi.org/10.1115/1.3142727.

Para obtener más información sobre la construcción de intervalos de confianza a partir de modelos de regresión de bosque, consulte la siguiente referencia:

  • Meinshausen, Nicolai. "Quantile regression forests". Journal of Machine Learning Research 7. Junio (2006): 983-999.

Temas relacionados