Cómo funciona Previsión de ajuste de curva

La herramienta Previsión de ajuste de curva utiliza el ajuste a la curva sencillo para modelar una serie temporal y predecir valores futuros en cada ubicación de un cubo de espacio-tiempo. Por ejemplo, al usar un cubo de espacio-tiempo con población anual, esta herramienta puede predecir las poblaciones de los años siguientes. La salida principal es un mapa del periodo de tiempo predicho final, además de mensajes informativos y gráficos emergentes. También puede crear un nuevo cubo de espacio-tiempo que contenga los datos del cubo original junto con valores predichos anexados.

La herramienta ajusta una curva en cada ubicación del Cubo de espacio-tiempo de entrada y predice la serie temporal extrapolando esta curva a periodos de tiempo futuros. Las curvas pueden ser lineales, parabólicas, en forma de S (Gompertz) o exponenciales. Puede utilizar el mismo tipo de curva en cada ubicación del cubo de espacio-tiempo o permitir que la herramienta configure el tipo de curva que mejor se ajuste a cada ubicación. También puede elegir detectar valores atípicos en cada serie temporal para identificar ubicaciones y tiempos que se desvíen significativamente de la curva ajustada.

Tipos de curvas y aplicaciones potenciales

Esta herramienta admite cuatro tipos de curvas que se pueden especificar en el parámetro Tipo de curva. La siguiente imagen muestra un ejemplo típico de cada uno de los cuatro tipos de curvas:

Se muestran cuatro tipos de curvas.
Se proporcionan cuatro tipos de curvas.
  • Lineal: cada serie temporal se modela mediante una línea recta.
    • Ecuación: Ecuación lineal, donde Xt es el valor de la serie temporal en el tiempo t, y a y b se estiman a partir de los datos utilizando una estimación de mínimos cuadrados.
    • Aplicación potencial: el tipo de curva lineal es útil para datos que aumentan o disminuyen paulatinamente con el tiempo. Por ejemplo, esta herramienta se puede utilizar para predecir las poblaciones de comunidades durante la etapa de desarrollo en la que el crecimiento de la población es aproximadamente lineal.
  • Parabólica: cada serie temporal se modela mediante una parábola, también llamada curva cuadrática.
    • Ecuación: Ecuación parabólica, donde Xt es el valor de la serie temporal en el tiempo t, y a, b y c se estiman a partir de los datos utilizando una estimación de mínimos cuadrados.
    • Aplicación potencial: el tipo de curva parabólica es útil para datos que cambian de dirección con el tiempo, ya sea de crecientes a decrecientes, o viceversa. Los demás tipos de curvas suponen que los valores aumentan o disminuyen de forma continua en el tiempo.
  • Exponencial: cada serie temporal se modela mediante una curva exponencial, también llamada curva geométrica.
    • Ecuación: Ecuación exponencial, donde Xt es el valor de la serie temporal en el tiempo t, y a, b y k se estiman a partir de los datos utilizando una estimación de mínimos cuadrados. El valor k permite que la curva exponencial cambie para ajustarse mejor a la serie temporal.
    • Aplicación potencial: el tipo de curva exponencial es útil para datos que aumentan o disminuyen rápidamente con el tiempo. Por ejemplo, los periodos de rápido crecimiento de la población en regiones en desarrollo se pueden modelar con una curva exponencial.
  • En forma de S (Gompertz): cada serie temporal se modela mediante una curva de Gompertz. Estas curvas adquieren forma de S y presentan límites inferiores y superiores en la curva.
    • Ecuación: Ecuación de Gompertz, donde Xt es el valor de la serie temporal en el tiempo t, y a, b, c y k se estiman a partir de los datos utilizando una estimación de mínimos cuadrados. Los valores a y k no deben ser negativos. El valor k permite que la curva de Gompertz cambie para ajustarse mejor a la serie temporal y no excede nunca diez veces el valor más elevado de la serie temporal.
    • Aplicación potencial: el tipo de curva de Gompertz es útil para modelar el crecimiento con restricciones de capacidad. Con frecuencia, las poblaciones empiezan creciendo lentamente antes de aumentar rápidamente una vez que la densidad de población es suficiente para permitir industria. Luego, el crecimiento de la población se ralentiza de nuevo a medida que la densidad de población se aproxima al límite que la región es capaz de sostener.

De forma predeterminada, el parámetro Tipo de curva utiliza la opción Detectar automáticamente, que se ajusta a los cuatro tipos de curvas e identifica la que ofrece la mejor previsión para la serie temporal de cada ubicación. Si se elige esta opción, distintas ubicaciones del cubo de espacio-tiempo pueden usar tipos de curvas diferentes. En cada ubicación se utiliza el tipo de curva con el error cuadrático medio (RMSE) de Validación más pequeño; sin embargo, si no se retienen periodos de tiempo para la validación, se utiliza en su lugar el RMSE de Predicción. Ambas estadísticas se guardan como campos en Entidades de salida y se describen en detalle en la siguiente sección.

Previsión y validación

La herramienta crea dos modelos al realizar la predicción de cada serie temporal. El primero es el modelo de previsión, que se utiliza para realizar la previsión de los valores de futuros periodos de tiempo. El segundo es el modelo de validación, que se utiliza para validar los valores previstos.

Modelo de previsión

El modelo de predicción se construye ajustando el tipo de curva elegido a los valores de la serie temporal de cada ubicación del cubo de espacio-tiempo. A continuación, esta curva se extrapola al futuro para predecir los valores de periodos de tiempo futuros. El ajuste de la curva a cada serie temporal se mide con el RMSE de Predicción, que es igual a la raíz cuadrada de la diferencia cuadrada media entre la curva y los valores de la serie temporal.

RMSE de Predicción, donde T es el número de periodos de tiempo, ct es el valor de la curva y rt es el valor sin procesar de la serie temporal en el tiempo t.

La siguiente imagen muestra los valores sin procesar de una serie temporal junto con una curva de Gompertz ajustada a la serie temporal. El RMSE de Predicción mide cuánto difieren entre sí estas dos series temporales.

Modelo de predicción de Previsión de ajuste de curva

El modelo de predicción se ajusta a todos los periodos de tiempo.

El RMSE de Predicción solo mide con qué precisión se ajusta la curva a los valores de la serie temporal sin procesar. No mide lo bien que el modelo de predicción realiza realmente la predicción de valores futuros. Suele ocurrir que una curva se ajuste en gran medida a una serie temporal, pero que no proporcione predicciones precisas al extrapolarla. Este problema se aborda con el modelo de validación.

Modelo de validación

El modelo de validación se utiliza para determinar lo bien que el modelo de predicción puede realizar la predicción de valores futuros de cada serie temporal. Se construye excluyendo algunos de los últimos periodos de tiempo de cada serie temporal y ajustando la curva a los datos no excluidos. Después, esta curva se utiliza para predecir los valores de los datos que se retuvieron, y los valores predichos se comparan con los valores sin procesar que se ocultaron. De forma predeterminada, se retiene el 10 por ciento de los periodos de tiempo para la validación, pero este número se puede modificar con el parámetro Número de periodos de tiempo que se excluirán para la validación. El número de periodos de tiempo excluidos no puede superar el 25 por ciento del número de periodos de tiempo, y no se realiza ninguna validación si se especifica 0. La precisión de las predicciones se mide calculando una estadística de RMSE de validación, que es igual a la raíz cuadrada de la diferencia cuadrada promedio entre los valores predichos y brutos de los periodos de tiempo excluidos.

RMSE de validación, donde T es el número de periodos de tiempo, m es el número de periodos de tiempo retenidos para validación, ct es el valor predicho de los primeros T-m periodos de tiempo y rt es el valor bruto de la serie temporal retenida para validación en el tiempo t.

La siguiente imagen muestra una curva de Gompertz ajustada a la primera mitad de una serie temporal y extrapolada para predecir la segunda mitad de la serie temporal. El RMSE de validación mide cuánto varían los valores predichos de los valores brutos en los periodos de tiempo retenidos.

Modelo de validación de Previsión de ajuste de curva

El modelo de validación se ajusta a la primera mitad de la serie temporal y se utiliza para predecir la segunda mitad.

El modelo de validación es importante porque puede comparar directamente valores predichos con valores sin procesar para medir la precisión con que la curva es capaz de predecir. Aunque no se utiliza realmente para realizar predicción, se utiliza para justificar el modelo de predicción.

Nota:

La validación en la predicción de serie temporal es similar aunque no idéntica a una técnica habitual denominada validación cruzada. La diferencia es que la validación de predicción siempre excluye los periodos de tiempo finales para validación, y la validación cruzada excluye un subconjunto aleatorio de los datos o excluye cada valor secuencialmente.

Interpretación

Existen varias consideraciones al interpretar los valores de RMSE de predicción y RMSE de validación.

  • Los valores de RMSE no son directamente comparables entre sí porque miden cosas diferentes. El RMSE de Predicción mide el ajuste de la curva a los valores de la serie temporal sin procesar y el RMSE de Validación mide la precisión con que la curva predice futuros valores. Dado que el RMSE de predicción utiliza más datos y no extrapola, generalmente es menor que el RMSE de Validación.
  • Ambos valores de RMSE están en las unidades de los datos. Por ejemplo, si sus datos son mediciones de temperatura en grados centígrados, un RMSE de validación de 50 es muy alto porque significa que los valores predichos varían con respecto a los valores reales en aproximadamente 50 grados en promedio. No obstante, si sus datos son ingresos diarios en dólares estadounidenses de una tienda minorista grande, el mismo RMSE de validación de 50 es muy pequeño porque significa que los ingresos diarios predichos solo varían con respecto a los valores reales en 50 $ al día en promedio.

Identificación de valores atípicos de series temporales

Los valores atípicos de los datos de series temporales son valores que varían significativamente de los patrones y tendencias de los demás valores en series temporales. Por ejemplo, las grandes cifras de compras en línea por las vacaciones o las altas cifras de accidentes de tráfico durante fuertes tormentas probablemente se detecten como valores atípicos en sus series temporales. Errores simples de introducción de datos, como la omisión de la parte decimal de un número, representan otra fuente común de valores atípicos. La identificación de valores atípicos en la previsión de series temporales es importante porque los valores atípicos influyen en el modelo de previsión que se utiliza para prever futuros valores, e incluso un pequeño número de valores atípicos en las series temporales de una ubicación pueden reducir significativamente la precisión y fiabilidad de las previsiones. Las ubicaciones con valores atípicos, particularmente valores atípicos en el comienzo y final de las series temporales, pueden generar previsiones erróneas, y la identificación de estas ubicaciones ayuda a determinar el grado de confianza que debe tener en los valores previstos en cada ubicación.

Los valores atípicos no se determinan simplemente mediante sus valores sin procesar, sino por cuánto varían sus valores con respecto a los valores ajustados del modelo de previsión. Eso significa que la posibilidad de que se determine que un valor es atípico será algo contextual y dependerá de su posición y tiempo. El modelo de previsión define el valor que se espera en función de toda la serie temporal, y los valores atípicos son los valores que se desvían significativamente de esta referencia. Por ejemplo, considere una serie temporal de temperatura media anual. Ya que las temperaturas promedio han aumentado durante las últimas décadas, el modelo de previsión ajustado de temperatura también aumentará con el tiempo para reflejar este aumento. Eso significa que un valor de temperatura que se consideraría típico y no un valor atípico en 1950 es probable que se considere un valor atípico si se produjera la misma temperatura en 2020. En otras palabras, una temperatura típica de 1950 se consideraría muy baja para los estándares de 2020.

Puede elegir detectar valores atípicos de series temporales en cada ubicación usando el parámetro Identificar valores atípicos. Si se especifica, la prueba Extreme Studentized Deviate (ESD) generalizada se realiza para cada ubicación con el fin de probar valores atípicos de series temporales. El nivel de confianza de la prueba puede especificarse con el parámetro Nivel de confianza, y se utiliza el 90 por ciento de confianza como el valor predeterminado. La prueba ESD generalizada prueba iterativamente un único valor atípico, dos valores atípicos, tres valores atípicos, y así sucesivamente, en cada ubicación hasta el valor del parámetro Número máximo de valores atípicos (de forma predeterminada, 5 por ciento del número de periodos de tiempo, redondeado a la baja), y se devuelve el número de valores atípicos estadísticamente significativo más grande. El número de valores atípicos en cada ubicación puede verse en una tabla de atributos de las entidades de salida, y los valores atípicos individuales pueden verse en los gráficos emergentes de la serie temporal que se analizan en la siguiente sección.

Conozca más información sobre valores atípicos en el análisis de series temporales, la prueba ESD generalizada y cómo interpretar los resultados

Salidas de la herramienta

La salida principal de esta herramienta es una clase de entidad 2D que muestra cada ubicación en el Cubo de espacio-tiempo de entrada simbolizado por el periodo de tiempo predicho final con las predicciones para todos los demás periodos de tiempo almacenados como campos. Aunque se realiza la predicción de cada ubicación de forma independiente y las relaciones espaciales no se tienen en cuenta, el mapa puede mostrar patrones espaciales para áreas con series temporales similares.

Gráficos emergentes

Al hacer clic en cualquier entidad del mapa con la herramienta de navegación Explorar, aparece un gráfico en el panel Elementos emergentes que muestra los valores del cubo de espacio-tiempo, junto con la curva ajustada y los valores predichos. Los valores del cubo de espacio-tiempo se muestran en azul y se conectan con una línea azul. Los valores ajustados se representan en naranja y están conectados por una línea discontinua naranja que representa la curva. Los valores predichos se representan en naranja y están conectados por una línea continua naranja que representa la extrapolación y la predicción de la curva. Puede situar el cursor en cualquier punto del gráfico para ver la fecha y valor del punto. Adicionalmente, si elige detectar valores atípicos en series temporales, los valores atípicos se muestran como puntos morados grandes.

Serie temporal emergente

El gráfico emergente muestra los valores originales, los valores ajustados y los valores predichos.

Nota:

Los gráficos emergentes no se crean cuando las entidades de salida se guardan como un shapefile (.shp).

Mensajes de geoprocesamiento

La herramienta proporciona varios mensajes con información sobre la ejecución de la herramienta. Los mensajes tienen tres secciones principales.

La sección Detalles del cubo de espacio-tiempo de entrada muestra propiedades del cubo de espacio-tiempo de entrada, junto con información sobre el intervalo del periodo de tiempo, número de periodos de tiempo, número de ubicaciones y número de bins de espacio-tiempo. Las propiedades mostradas en esta primera sección dependen de cómo se creó originalmente el cubo, por lo que la información varía en función del cubo.

La sección Detalles del análisis muestra propiedades de los resultados de la predicción, incluidos el número de periodos de tiempo predichos, el número de periodos de tiempo excluidos para la validación e información sobre los periodos de tiempo predichos.

La sección Resumen de precisión a través de ubicaciones muestra estadísticas resumen para el RMSE de previsión y RMSE de validación entre todas las ubicaciones. Para cada valor se muestra el mínimo, máximo, valor medio, mediana y desviación estándar.

La sección Resumen de tipos de curvas seleccionadas aparece si se selecciona Detectar automáticamente en el parámetro Tipo de curva. Esta sección muestra el número de ubicaciones y el porcentaje de ubicaciones que se eligieron para cada uno de los cuatro tipos de curvas.

La sección Resumen de los valores atípicos de series temporales aparece si elige detectar valores atípicos de series temporales usando el parámetro Opción de valores atípicos. Esta sección muestra información que incluye el número y porcentaje de ubicaciones que contienen valores atípicos, el periodo de tiempo que contiene la mayoría de valores atípicos y estadísticas resumen del número de valores atípicos por ubicación y por periodo de tiempo.

Nota:

Los mensajes de geoprocesamiento aparecen en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente Ventana emergente o expandiendo la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una herramienta ejecutada anteriormente con el historial de geoprocesamiento.

Campos de las entidades de salida

Además de Id. de objeto, campos de geometría y el campo que contiene los gráficos emergentes, las Entidades de salida tendrán los siguientes campos:

  • Id. de ubicación (LOCATION): el Id. de ubicación de la ubicación correspondiente del cubo de espacio-tiempo.
  • Predicción para (variables de análisis) en (periodo de tiempo) (FCAST_1, FCAST_2 y así sucesivamente): el valor predicho de cada periodo de tiempo futuro. El alias de campo muestra el nombre de la Variable de análisis y la fecha de la predicción. Se crea un campo de este tipo para cada periodo de tiempo previsto.
  • Error cuadrático medio de predicción (F_RMSE): el RMSE de predicción.
  • Error cuadrático medio de validación (V_RMSE): el RMSE de validación. Si no se excluyeron periodos de tiempo para validación, este campo no se crea.
  • Método de predicción (METHOD): el tipo de curva que se utilizó en la ubicación. Este campo se puede utilizar para identificar el tipo de curva de la ubicación cuando se utiliza la opción Detectar automáticamente.
  • Ecuación de predicción (EQUATION): un campo de texto que muestra la ecuación de la curva de predicción en la ubicación. Este campo no se crea si se utiliza la opción Detectar automáticamente.
  • Número de valores atípicos de ajuste de modelo (N_OUTLIERS): el número de valores atípicos detectados en la serie temporal de la ubicación. Este campo solo se crea si elige detectar valores atípicos con el parámetro Opción de valores atípicos.

Cubo de espacio-tiempo de salida

Si se especifica un Cubo de espacio-tiempo de salida, el cubo de salida contiene todos los valores originales del cubo de espacio-tiempo de entrada con los valores predichos incorporados. Este nuevo cubo de espacio-tiempo se puede visualizar con las herramientas Visualizar cubo de espacio-tiempo en 2D o Visualizar cubo de espacio-tiempo en 3D, y se puede utilizar como entrada para las herramientas de la caja de herramientas Minería de patrones en espacio-tiempo, tales como Análisis de puntos calientes emergentes y Clustering de serie temporal.

Con la herramienta Evaluar previsiones por ubicación se pueden comparar y fusionar varios cubos de espacio-tiempo previstos. De este modo, puede crear varios cubos de predicción con distintos parámetros y herramientas de predicción, y la herramienta identifica la mejor predicción para cada ubicación mediante el RMSE de Predicción o de Validación.

Prácticas recomendadas y limitaciones

Al decidir si esta herramienta resulta apropiada para sus datos y los parámetros que debe elegir, deben tenerse en cuenta varias cosas.

  • En comparación con otras herramientas de predicción del conjunto de herramientas Predicción de serie temporal, esta herramienta es la más sencilla, y es la más apropiada para series temporales que siguen una tendencia predecible que no muestra una fuerte estacionalidad. Si sus datos siguen una tendencia compleja o muestran fuertes ciclos estacionales, se recomienda utilizar otras herramientas de predicción.
  • La decisión sobre cuántos periodos de tiempo deben excluirse para la validación es importante. Cuantos más periodos de tiempo se excluyan, menores periodos de tiempo se mantienen para estimar el modelo de validación. No obstante, si se excluyen muy pocos periodos de tiempo, el RMSE de validación se estima usando una pequeña cantidad de datos y puede llevar a engaño. Se recomienda excluir el mayor número de periodos de tiempo que sea posible mientras aún se mantienen suficientes periodos de tiempo para estimar el modelo de validación. También se recomienda retener al menos el mismo número de periodos de tiempo para validación que el número de periodos de tiempo de los que pretende realizar la predicción, si su cubo de espacio-tiempo tiene suficientes periodos de tiempo para permitir esto.
  • Esta herramienta no produce intervalos de confianza para los valores predichos.

Recursos adicionales

Para obtener más información sobre la predicción mediante ajuste a la curva sencillo, consulte el siguiente libro de texto:

  • Klosterman, R. E., Brooks, K., Drucker, J., Feser, E., & Renski, H. (2018). Planning support methods: Urban and regional analysis and projection. Rowman & Littlefield. ISBN: 1442220309

Temas relacionados