Previsión basada en bosque (Minería de patrones en espacio-tiempo)

Resumen

Predice los valores futuros de cada ubicación de un cubo de espacio-tiempo utilizando una adaptación del algoritmo de bosque aleatorio de Leo Breiman. El modelo de regresión de bosque se entrena usando ventanas de tiempo en cada ubicación del cubo de espacio-tiempo.

Más información sobre cómo funciona Predicción basada en bosque

Ilustración

La población se predice usando un modelo de bosque
Predice los valores futuros de un cubo de espacio-tiempo.

Uso

  • Esta herramienta acepta archivos netCDF creados con las herramientas Crear cubo de espacio-tiempo agregando puntos, Crear cubo de espacio-tiempo a partir de entidades definidas y Crear cubo de espacio-tiempo a partir de capa ráster multidimensional.

  • En comparación con otras herramientas de predicción del conjunto de herramientas Predicción de serie temporal, esta herramienta es la más compleja, pero es la que hace el menor número de suposiciones acerca de los datos. Se recomienda para series temporales con formas y tendencias complicadas que son difíciles de modelar con funciones matemáticas simples o cuando no se satisfacen las suposiciones de otros métodos.

  • Con la herramienta Evaluar previsiones por ubicación se pueden comparar y fusionar varios cubos de espacio-tiempo previstos. Esto permite crear varios cubos de previsión con parámetros y herramientas de previsión diferentes; la herramienta identificará la mejor previsión correspondiente a cada ubicación por medio del error cuadrático medio de previsión (RMSE) o el RMSE de validación.

  • Para cada ubicación del Cubo de espacio-tiempo de entrada, la herramienta crea dos modelos que sirven para diferentes propósitos.

    • Modelo de predicción: este modelo se utiliza para predecir los valores futuros del cubo de espacio-tiempo creando un bosque con los valores de las series temporales y utilizando este bosque para predecir los valores de los futuros pasos temporales. El encaje del modelo de predicción a los valores del cubo de espacio-tiempo se mide mediante el valor RMSE de Predicción.
    • Modelo de validación: este modelo se utiliza para validar el modelo de predicción y evaluar con qué precisión es capaz de predecir los valores futuros. Si se especifica un número mayor que 0 en el parámetro Número de pasos de tiempo a excluir para la validación, este modelo se crea utilizando los pasos de tiempo no excluidos y se utiliza para predecir los valores de los pasos de tiempo excluidos. Permite ver con qué precisión es capaz el bosque de predecir los valores futuros. El ajuste de los valores predichos a los valores excluidos se mide por el valor RMSE de Validación.

    Más información sobre el modelo de predicción, el modelo de validación y las estadísticas de RMSE

  • Las Entidades de salida se agregarán al panel Contenido con una representación basada en el periodo de tiempo previsto final.

  • Esta herramienta crea mensajes de geoprocesamiento y gráficos emergentes para ayudarle a comprender y visualizar los resultados de la precisión. Los mensajes contienen información sobre la estructura del cubo de espacio-tiempo y estadísticas resumidas de los valores de RMSE y la duración de las estaciones. Al hacer clic en una entidad con la herramienta de navegación Explorar, aparece un gráfico de líneas en el panel Elementos emergentes que muestra los valores del cubo de espacio-tiempo, los valores del bosque ajustados, los valores predichos y los límites de confianza de esa ubicación.

  • La decisión sobre cuántos periodos de tiempo deben excluirse para la validación es importante. Cuantos más periodos de tiempo se excluyen, menos periodos de tiempo quedan para estimar el modelo de validación. No obstante, si se excluyen muy pocos periodos de tiempo, el RMSE de validación se estimará usando una pequeña cantidad de datos y puede llevar a engaño. Se recomienda excluir el mayor número de periodos de tiempo que sea posible mientras aún se mantienen suficientes periodos de tiempo para estimar el modelo de validación. También se recomienda mantener al menos tanto periodos de tiempo para validación como número de periodos de tiempo pretenda pronosticar si el cubo de espacio-tiempo tiene suficientes periodos de tiempo para permitirlo.

Sintaxis

ForestBasedForecast(in_cube, analysis_variable, output_features, {output_cube}, {number_of_time_steps_to_forecast}, {time_window}, {number_for_validation}, {number_of_trees}, {minimum_leaf_size}, {maximum_depth}, {sample_size}, {forecast_approach})
ParámetroExplicaciónTipo de datos
in_cube

Cubo netCDF que contiene la variable cuya predicción en periodos de tiempo futuros desea realizar. Este archivo debe tener una extensión de archivo .nc y se debe haber creado con las herramientas Crear cubo de espacio-tiempo agregando puntos, Crear cubo de espacio-tiempo a partir de ubicaciones definidas o Crear cubo de espacio-tiempo a partir de capa ráster multidimensional.

File
analysis_variable

Variable numérica del archivo netCDF que se pronosticará en periodos de tiempo futuros.

String
output_features

La clase de entidades de salida de todas las ubicaciones del cubo de espacio-tiempo con valores predichos almacenados en forma de campos. La capa muestra la predicción del paso de tiempo final y contiene gráficos emergentes que muestran las series de tiempo, las predicciones y los límites de confianza del 90 por ciento de cada ubicación.

Feature Class
output_cube
(Opcional)

Nuevo cubo de espacio-tiempo (archivo .nc) que contiene los valores del cubo de espacio-tiempo de entrada con los periodos de tiempo previstos anexados. La herramienta Visualizar cubo de espacio-tiempo en 3D puede utilizarse para ver todos los valores observados y previstos de forma simultánea.

File
number_of_time_steps_to_forecast
(Opcional)

Entero positivo que especifica el número de periodos de tiempo de la previsión. Este valor no puede ser mayor que el 50% de los periodos de tiempo totales del cubo de espacio-tiempo de entrada. El valor predeterminado es un periodo de tiempo.

Long
time_window
(Opcional)

El número de pasos de tiempo anteriores que se desea usar para entrenar el bosque. Si sus datos presentan estacionalidad (ciclos que se repiten), proporcione el número de pasos de tiempo correspondientes a una estación para este parámetro. Este valor no puede ser mayor que un tercio del número de pasos de tiempo del cubo de espacio-tiempo de entrada. Si se deja en blanco, se estima una ventana de tiempo para cada ubicación utilizando una función de densidad espectral.

Long
number_for_validation
(Opcional)

Número de periodos de tiempo al final de cada serie temporal que se van a excluir para validación. El valor predeterminado es el 10% (redondeado por defecto) del número de periodos de tiempo de entrada y no puede ser mayor que el 25% del número de periodos de tiempo. Si no quiere excluir ningún periodo de tiempo, introduzca el valor 0.

Long
number_of_trees
(Opcional)

La cantidad de árboles que se crearán en el modelo de bosque. Un mayor número de árboles por lo general dará lugar a una predicción de modelo más precisa, pero el modelo tardará más en calcularse. El número predeterminado de árboles es de 100, y el valor debe ser al menos 1 y no mayor de 1.000.

Long
minimum_leaf_size
(Opcional)

El número mínimo de observaciones que se requieren para conservar una hoja (es decir, el nodo terminal de un árbol que no tiene más divisiones). En el caso de datos muy grandes, si aumenta este número se reducirá el tiempo de ejecución de la herramienta.

Long
maximum_depth
(Opcional)

El número máximo de divisiones que se realizarán en un árbol. Si se utiliza una profundidad máxima grande, se podrán crear más divisiones, lo cual puede aumentar las probabilidades de exceso de ajuste en el modelo. Si se deja en blanco, la herramienta determinará un valor basado en el número de árboles creados por el modelo y el tamaño de la ventana de pasos de tiempo.

Long
sample_size
(Opcional)

El porcentaje de datos de entrenamiento que se utilizarán para ajustar el modelo de predicción. Los datos de entrenamiento constan de variables explicativas y dependientes asociadas construidas usando ventanas de tiempo. Todos los datos de entrenamiento restantes se utilizarán para optimizar los parámetros del modelo de predicción. El valor predeterminado es del 100 por ciento.

Más información sobre el entrenamiento del modelo de predicción de bosque

Long
forecast_approach
(Opcional)

Especifica cómo se representarán las variables explicativas y dependientes al entrenar el modelo de bosque en cada ubicación.

Para entrenar el bosque que se utilizará para la predicción, se deben crear conjuntos de variables explicativas y dependientes utilizando ventanas de tiempo. Utilice este parámetro para especificar si la eliminación de tendencia en estas variables será lineal y si la variable dependiente se representará por su valor bruto o por el residual de un modelo de regresión lineal. Este modelo de regresión lineal utiliza todos los pasos de tiempo de una ventana de tiempo como variables explicativas y utiliza el siguiente paso de tiempo como variable dependiente. El residual se calcula restando el valor predicho basado en la regresión lineal del valor bruto de la variable dependiente.

Más información sobre el parámetro Planteamiento de predicción

  • VALUE Los valores de la ventana de tiempo no son objeto de eliminación de tendencia y la variable dependiente se representa por su valor bruto.
  • VALUE_DETREND Los valores de la ventana de tiempo son objeto de eliminación de tendencia lineal y la variable dependiente se representa por su valor de eliminación de tendencia. Esta es la opción predeterminada.
  • RESIDUAL Los valores de la ventana de tiempo no son objeto de eliminación de tendencia y la variable dependiente se representa por el residual de un modelo de regresión lineal que utiliza los valores de la ventana de tiempo como variables explicativas.
  • RESIDUAL_DETREND Los valores de la ventana de tiempo son objeto de eliminación de tendencia lineal y la variable dependiente se representa por el residual de un modelo de regresión lineal que utiliza los valores de la ventana de tiempo con eliminación de tendencia como variables explicativas.
String

Muestra de código

Ejemplo 1 de ForestBasedForecast (ventana de Python)

En el siguiente script de Python se muestra cómo utilizar la herramienta ForestBasedForecast:

import arcpy
arcpy.env.workspace = "C:/Analysis"
# Forecast four time steps using a random forest with detrending.
arcpy.stpm.ForestBasedForecast("CarTheft.nc","Cars_NONE_ZEROS", 
                               "Analysis.gdb/Forecasts", "outForecastCube.nc"
                               4, 3, 5, 100, "", "", 100, "VALUE_DETREND")
Ejemplo 2 de ForestBasedForecast (script independiente)

En el siguiente script de Python se muestra cómo utilizar la herramienta ForestBasedForecast para predecir el recuento de delitos de robo de vehículos:

# Forecast car thefts using a random forest.
# Import system modules.
import arcpy
# Set property to overwrite existing output, by default.
arcpy.env.overwriteOutput = True
# Set workspace.
workspace = r"C:\Analysis"
arcpy.env.workspace = workspace
# Forecast three time steps using a random forest based on change.
arcpy.stpm.ForestBasedForecast("CarTheft.nc","Cars_NONE_ZEROS", 
                               "Analysis.gdb/Forecasts", "outForecastCube.nc"
                               4, 3, 5, 100, "", "", 100, "CHANGE")
# Create a feature class visualizing the forecasts.
arcpy.stpm.VisualizeSpaceTimeCube3D("outForecastCube.nc", "Cars_NONE_ZEROS", 
                                    "VALUE", "Analysis.gdb/ForecastsFC")

Información de licenciamiento

  • Basic: Sí
  • Standard: Sí
  • Advanced: Sí

Temas relacionados