Cómo funciona Correlación cruzada de series temporales

La herramienta Correlación cruzada de series temporales compara dos series temporales (llamadas variables de análisis principal y secundaria) en cada ubicación de un cubo espacio-temporal calculando un coeficiente de correlación de Pearson entre los valores correspondientes en cada intervalo de tiempo. Además, la variable de análisis secundaria está desfasada (desplazada en el tiempo) en relación con la variable de análisis principal, y se calculan nuevas correlaciones para varios desfases. Esto le permite estimar los efectos retardados entre las variables de análisis principal y secundaria, como un retraso entre una campaña de marketing y un aumento en los ingresos por ventas. Por ejemplo, si el marketing y las ventas están más correlacionados cuando los ingresos por ventas se retrasan una semana en el tiempo, esto significa que hay un retraso de una semana entre los aumentos en marketing y los aumentos en los ingresos por ventas.

La herramienta se puede utilizar como método descriptivo y exploratorio para calcular la correlación bruta entre las series temporales. También se puede utilizar como método explicativo e inferencial mediante la eliminación de tendencias y el filtrado de autocorrelaciones para aislar la dependencia estadística entre las dos variables. También puede incluir vecinos en los cálculos para incorporar similitudes entre las series temporales de ubicaciones vecinas y capturar interacciones y efectos espaciales.

Potenciales aplicaciones

A continuación, se presentan ejemplos de aplicación de esta herramienta:

  • En un área metropolitana, compare las temperaturas cada hora con el uso de electricidad para prepararse para la demanda eléctrica máxima durante las horas más calurosas de cada día.
  • Estime el retraso entre los aumentos en los niveles de precipitación y los aumentos en el volumen de agua de un embalse. ¿Cuánto tiempo después del pico de una tormenta aumentan más rápidamente los niveles de agua de los embalses? ¿La duración del retraso es diferente para lugares que tienen diferentes condiciones de suelo?
  • Compare la efectividad de diferentes campañas de marketing para determinar qué gasto de campaña se correlaciona más positivamente con los ingresos por ventas. Además, puede estimar el retraso entre el gasto en marketing y las compras de los clientes. ¿Algunas campañas tardan más en generar ventas, pero, en última instancia, son más efectivas para generar ingresos a largo plazo?

Correlación cruzada

Los valores de correlación cruzada miden la fuerza de la relación lineal entre dos series de tiempo: cuando una serie de tiempo aumenta, ¿la otra tiende a aumentar, a disminuir o a no cambiar? Las correlaciones cruzadas cercanas a un valor de uno significan que las dos series temporales se mueven en las mismas direcciones y en las mismas proporciones. Por ejemplo, el número de pasajeros de líneas aéreas y los precios de las líneas aéreas están fuertemente correlacionados de forma positiva: cuanto más personas viajan, más altos son los precios de las líneas aéreas. De manera similar, las correlaciones cruzadas negativas significan que las dos series de tiempo se mueven en direcciones opuestas, como el número de espacios de estacionamiento desocupados y el nivel de tráfico en las calles (el tráfico aumenta cuando hay menos lugares para aparcar). Si dos series de tiempo no están relacionadas y no tienden a cambiar en direcciones similares o diferentes, la correlación cruzada será cercana a cero.

Desfases temporales

Debido a que a menudo hay efectos retardados entre dos series temporales (por ejemplo, el retraso entre un aumento en el número de depredadores en un ecosistema y los cambios en la población de la presa), los valores de correlación cruzada siempre se calculan con respecto a un desfase temporal. El desfase temporal es un desplazamiento de la variable secundaria con respecto a la principal, y se calcula un nuevo valor de correlación cruzada para los nuevos pares de valores correspondientes entre las dos series temporales.

En la imagen siguiente, el gráfico superior muestra las variables de análisis principal y secundaria. El gráfico del medio muestra la variable secundaria desplazada hacia adelante en el tiempo dos intervalos de tiempo (desfase de tiempo 2), y el gráfico inferior muestra la variable secundaria desplazada dos intervalos de tiempo hacia atrás en el tiempo (desfase de tiempo -2). Dado que la variable secundaria parece aumentar o disminuir después de que la variable principal aumenta o disminuye, desplazar la variable secundaria hacia atrás en el tiempo (desfases de tiempo negativos) aumenta la correlación cruzada entre las variables. Observe también que algunos de los intervalos de tiempo al final de la serie temporal de la variable principal ya no tienen un valor emparejado en la variable secundaria después del desplazamiento.

La variable secundaria se desplaza en relación con la variable principal.

Si el desfase de tiempo con la correlación más sólida es positivo, los cambios en el valor de la variable de análisis secundaria se producen antes que los cambios en la variable de análisis principal. De forma similar, si el desfase de tiempo con la correlación más sólida es negativo, los cambios en la variable de análisis principal se producen antes que los cambios en la variable de análisis secundaria.

La herramienta calculará correlaciones cruzadas para todos los desfases de tiempo entre cero y el valor del parámetro Desfase de tiempo máximo. Además, el parámetro Dirección del desfase de la variable secundaria se puede utilizar para especificar la dirección del desplazamiento (en otras palabras, especificar el signo del desfase de tiempo). Puede desplazar la variable de análisis secundaria en ambas direcciones, hacia atrás en el tiempo (desfase negativo) o hacia adelante (desfase positivo). Por ejemplo, utilizar un desfase de tiempo máximo de 10 y desplazarse en ambas direcciones calculará las correlaciones cruzadas para todos los desfases de tiempo entre -10 y 10. De forma similar, usar un desfase de tiempo máximo de 5 y desplazarse solo hacia atrás en el tiempo calculará las correlaciones cruzadas para todos los desfases de tiempo entre -5 y 0.

Nota:

Si no se proporciona ningún valor para el parámetro Desfase de tiempo máximo, el desfase de tiempo máximo será 10*log10(T/2), para T intervalos de tiempo en cada serie temporal (redondeado hacia abajo). El valor no puede ser mayor que (T-5). Proporcionar un valor de cero calculará solo la correlación cruzada bruta de las dos series temporales sin desplazamientos de desfase de tiempo.

Incluir vecinos espaciales

Puede utilizar el parámetro Incluir vecinos espaciales en los cálculos para definir una vecindad alrededor de cada ubicación para mejorar la estimación de la correlación cruzada. Si se incluyen vecinos, la correlación cruzada de cada ubicación para un desfase de tiempo determinado es el promedio (posiblemente ponderado) de las correlaciones cruzadas entre la variable de análisis principal de la ubicación focal y la variable de análisis secundaria desfasada en el tiempo de cada vecino espacial (y ella misma).

Por ejemplo, en la imagen siguiente, la ubicación focal se muestra en rojo con ocho vecinos a su alrededor. La serie de tiempo naranja es la variable de análisis principal de la ubicación focal y la serie de tiempo violeta son las variables de análisis secundarias en la ubicación focal y en cada vecino. En este caso, la correlación cruzada en la ubicación focal será el promedio de nueve correlaciones cruzadas: la correlación cruzada de la entidad focal consigo misma, la correlación cruzada de la ubicación focal con el primer vecino, la correlación cruzada de la ubicación focal con el segundo vecino, y así sucesivamente. En cada comparación, la variable de análisis principal de la ubicación focal se compara con la variable secundaria del vecino (o consigo misma). Al promediar las correlaciones, el valor caracteriza mejor la correlación cruzada del área que la ubicación individual. Este promedio se repite para todos los desfases de tiempo y todas las ubicaciones.

Correlación cruzada usando vecinos

De forma predeterminada, cada correlación se pondera por igual en el promedio, pero si usa una banda de distancia o una vecindad de k vecinos más cercanos, puede usar el parámetro Método de ponderación de vecinos espaciales para proporcionar ponderaciones mayores a los vecinos que están más cerca de la ubicación focal. Puede utilizar un núcleo bicuadrado o gaussiano para definir las ponderaciones.

Nota:

Para vecindades de banda de distancia, el ancho de banda de cada núcleo es igual a la banda de distancia. Consulte Cómo funciona Densidad kernel para saber cómo se calcula la banda de distancia predeterminada. Para los vecindarios de k vecinos más cercanos, el ancho de banda es igual a la distancia al (k+1)º vecino. Esto garantiza que todos los k vecinos estén más cerca que el ancho de banda y tengan ponderaciones distintas de cero. Para las ubicaciones de polígono, se utilizan distancias de centroide a centroide para determinar los vecinos y las ponderaciones.

Filtrar y eliminar tendencias

Para un desfase de tiempo determinado, la correlación cruzada entre dos series temporales mide si las dos series temporales tienden a aumentar y disminuir juntas. Esto puede considerarse un análisis descriptivo que describe y estima en qué medida se corresponden los valores. Sin embargo, la correlación cruzada bruta se compone de varios factores, incluidas las tendencias, la estacionalidad, la autocorrelación y la dependencia estadística de las variables. Los valores brutos de dos series temporales pueden estar altamente correlacionados simplemente debido a autocorrelación y tendencias compartidas; por ejemplo, las ventas de helado y de protector solar están altamente correlacionadas, pero si se eliminan las tendencias estacionales y económicas, la correlación se vuelve muy pequeña. Puede eliminar tendencias, la estacionalidad y la autocorrelación (a menudo denominada preblanqueamiento y filtrado) activando el parámetro Filtrar y eliminar tendencias.

Especialmente cuando el objetivo es estimar el desfase temporal óptimo entre las variables, es importante filtrar y eliminar tendencias. Por ejemplo, en los datos epidemiológicos, hay un desfase entre los aumentos en el recuento de enfermedades y los aumentos en las hospitalizaciones. Sin embargo, el uso de los valores brutos de los recuentos frecuentemente no muestra ningún desfase entre la enfermedad y la hospitalización debido a fuertes tendencias y autocorrelación (en otras palabras, el desfase cero tiene la correlación más fuerte). En cambio, cuando se eliminan las tendencias y se filtra la autocorrelación, el verdadero desfase de tiempo entre la enfermedad y la hospitalización (por ejemplo, 10 días) frecuentemente logra la correlación más fuerte.

Debido a que las tendencias, la estacionalidad y la autocorrelación inflan la tasa de error tipo 1 de las pruebas estadísticas, los valores p y los intervalos de confianza del 95 por ciento para las correlaciones cruzadas solo se calculan si filtra y elimina las tendencias de las dos series de tiempo. Además, los valores p y los intervalos de confianza solo se pueden calcular para comparaciones por pares de dos series temporales. En otras palabras, si incluye vecinos espaciales en los cálculos, los valores p y los intervalos de confianza no se calculan para el promedio ponderado de las correlaciones cruzadas. Sin embargo, puede utilizar el parámetro Tabla de correlaciones por pares de salida para crear una tabla que contenga valores p e intervalos de confianza entre cada ubicación y los vecinos individuales en todos los desfases de tiempo.

Nota:

Los valores p y los intervalos de confianza se calculan asumiendo una distribución normal de la correlación cruzada con una desviación estándar igual a la raíz cuadrada del número de intervalos de tiempo. Este es un resultado asintótico que es más preciso para series temporales con al menos 30 intervalos de tiempo. Se devolverá una advertencia para series temporales más cortas.

Las pruebas de significación estadística se realizan de forma independiente para cada intervalo de tiempo de cada ubicación, y no hay corrección para pruebas de hipótesis múltiples. Tenga cuidado a la hora de interpretar la importancia de cualquier valor p o intervalo de confianza. Todos los valores p se calculan mediante pruebas de hipótesis bilaterales.

Consulte la sección Ajustar un modelo de filtrado y eliminación de tendencias a continuación para obtener información sobre cómo se realiza el filtrado y la eliminación de tendencias.

Salidas de la herramienta

La salida principal de la herramienta es una clase de entidad que contiene campos de los resultados de la correlación cruzada. En un mapa, la clase de entidad se agrega como una capa de grupo que contiene seis capas, cada una de las cuales visualiza un campo diferente de las entidades de salida. Cada capa incluye una opción para cambiar rápidamente entre ellas en lugar de tener que habilitar y deshabilitar cada capa individualmente.

Tres de las capas muestran mapas de las correlaciones más fuertes: correlación positiva más fuerte, correlación negativa más fuerte y correlación absoluta más fuerte. Cada ubicación está coloreada según la correlación positiva más grande, la correlación negativa más grande o la correlación más grande en valor absoluto.

Capa de correlación absoluta más sólida

Las últimas tres capas muestran los desfases de tiempo asociados con las tres capas de correlación más fuertes. Por ejemplo, la capa Desfase de correlación absoluta más sólida muestra los desfases de tiempo que dieron como resultado las correlaciones absolutas más sólidas.

Desfase de tiempo de correlación absoluta más sólida

Al utilizar estas seis capas juntas, puede investigar qué tan fuertemente correlacionada está la variable de análisis principal con la variable de análisis secundaria en cada ubicación y determinar qué desfases de tiempo dieron como resultado estas correlaciones. Es posible que observe patrones espaciales en estos resultados; por ejemplo, algunas regiones pueden tener desfases temporales más pequeños o correlaciones más fuertes que otras. También puede encontrar que la misma ubicación puede tener una correlación cruzada muy positiva y muy negativa, dependiendo del desfase temporal. Por ejemplo, dos series temporales de una relación cíclica depredador-presa se pueden correlacionar positiva o negativamente alineando o desalineando los ciclos de las dos series de tiempo.

Además de los seis campos utilizados en la capa de grupo, las entidades de salida tendrán los siguientes campos:

  • Campos de Id. de objeto y ubicación.
  • Campos de correlación cruzada para cada desfase temporal. Se crea un campo separado para cada desfase de tiempo.
  • El número de vecinos de la ubicación. Este campo solo se crea si incluye vecinos espaciales en los cálculos.

Si filtra y elimina tendencias y no incluye vecinos espaciales en los cálculos, se crearán los siguientes campos para cada una de las correlaciones más sólidas (positivas, negativas y absolutas):

  • Un campo de valor p que prueba la significancia estadística de la correlación cruzada.
  • Campos de los límites superior e inferior de un intervalo de confianza del 95 por ciento para la correlación cruzada.
  • Un campo binario (0 o 1) que indica si la correlación cruzada es estadísticamente significativa (valor de campo 1) o no significativa (valor de campo 0) con un nivel de confianza del 95 por ciento.

Nota:

Si todos los valores de correlación cruzada de una ubicación son positivos, el campo de correlación negativa más sólida y el desfase de tiempo del campo de correlación negativa más sólida contendrán un valor nulo para esa ubicación. De forma similar, todas las correlaciones negativas de una ubicación producirán valores nulos en los campos de correlación positiva más sólida.

El cubo de espacio-tiempo de entrada se actualizará con los resultados del análisis y podrá utilizar la herramienta Visualizar cubo de espacio-tiempo en 2D con la opción de tema de visualización Resultados de correlación cruzada de series temporales para recrear la clase de entidad de salida y la capa de grupo. La variable de análisis con los resultados de la correlación cruzada serán los nombres de las variables de análisis principal y secundaria con un guion bajo entre ellas. Por ejemplo, si las variables de entrada se denominan MARKETING y SALES, la variable de análisis con los resultados se denominará MARKETING_SALES.

Gráficos emergentes

Puede crear gráficos emergentes interactivos en las entidades de salida activando el parámetro Habilitar elementos emergentes de series temporales. Si se crean, puede usar la herramienta Explorar para hacer clic en una entidad y ver un gráfico de barras de las correlaciones cruzadas para cada desfase de tiempo, junto con un gráfico de líneas que muestra las variables de análisis principal y secundaria.

Gráfico emergente de correlación de desfase de tiempo

Puede pasar el cursor sobre cualquiera de las barras del gráfico de barras y la serie temporal siguiente cambiará según el desfase temporal asociado. Esto le permite ver cómo se alinean las dos series temporales después de varios desfases.

Gráfico de barras de series temporales animadas

Si filtra y elimina tendencias y no incluye vecinos espaciales, el gráfico emergente mostrará intervalos de confianza del 95 por ciento (sombreados en azul claro) alrededor de las correlaciones cruzadas de cada desfase temporal. También puede utilizar la casilla de verificación Mostrar series de tiempo filtradas y sin tendencias para mostrar los valores de la serie de tiempo sin procesar o mostrar la serie de tiempo después del filtrado y la eliminación de tendencias.

Gráfico emergente de correlación de desfase temporal con intervalos de confianza y series temporales filtradas

Nota:

Si incluye vecinos espaciales en los cálculos, solo se mostrará el gráfico de barras de desfase temporal. Esto es así para evitar dibujar demasiadas series temporales en cada gráfico emergente.

Los gráficos emergentes no se crearán si las entidades de salida se guardan como shapefile (.shp).

Tablas de correlación de salida

Si lo desea, puede utilizar el parámetro Tabla de correlaciones desfasadas de salida para guardar los resultados de correlación cruzada como una tabla. En la tabla, cada fila contiene la correlación cruzada para una única ubicación y un único desfase temporal. El número de filas de la tabla será igual al número de ubicaciones multiplicado por el número de desfases. Además, si filtra y elimina tendencias y no incluye vecinos espaciales en los cálculos, la tabla contendrá campos del valor p y los límites superior e inferior de un intervalo de confianza del 95 por ciento. Guardar la información por filas como una tabla (en lugar de como campos de las entidades de salida) suele ser más conveniente para exportar y analizar los resultados de correlación cruzada. La tabla también se puede volver a unir a las ubicaciones para un análisis más detallado.

Si incluye vecinos espaciales en los cálculos, también puede usar el parámetro Tabla de correlaciones emparejadas de salida para crear una tabla que contenga comparaciones entre cada ubicación focal y vecino individual para cada desfase de tiempo. Por ejemplo, si hay 10 ubicaciones, 5 desfases de tiempo y 7 vecinos por ubicación, habrá 10*5*(7+1)=400 filas en la tabla de salida (el 1 se agrega para incluir las comparaciones de la ubicación focal consigo misma). Para cada combinación, la correlación cruzada asociada se almacena como un campo. Si filtra y elimina tendencias, la tabla también contendrá campos del valor p y los límites superior e inferior de un intervalo de confianza del 95 por ciento.

Mensajes de geoprocesamiento

La herramienta proporciona varios mensajes con información sobre los resultados de la herramienta. Los mensajes tienen dos secciones.

La sección Detalles del cubo de espacio-tiempo de entrada muestra propiedades del cubo de espacio-tiempo de entrada, junto con información sobre el intervalo del periodo de tiempo, número de periodos de tiempo, número de ubicaciones y número de bins de espacio-tiempo. Las propiedades mostradas en esta primera sección dependen de cómo se creó el cubo, por lo que la información varía en función del cubo.

La sección Resumen de correlaciones por intervalo de tiempo muestra una tabla de estadísticas de resumen de las correlaciones cruzadas en todas las ubicaciones para cada desfase de tiempo. Para cada desfase de tiempo, la tabla muestra el mínimo, el máximo, el valor medio, la desviación estándar y el recuento de las correlaciones cruzadas de todas las ubicaciones. Si filtra y elimina tendencias y no incluye vecinos espaciales, la tabla también contendrá un recuento de ubicaciones con correlaciones cruzadas estadísticamente significativas para cada desfase temporal. Estas estadísticas de resumen le permiten identificar rápidamente desfases de tiempo individuales fuertemente correlacionados en muchas ubicaciones, lo que posiblemente revela patrones que tal vez no se noten al explorar los resultados de ubicaciones individuales.

Gráficos

Las tres capas que muestran los desfases de tiempo de las correlaciones más sólidas (positivas, negativas y absolutas) incluyen cada una un gráfico de barras que muestra los recuentos de ubicaciones que tuvieron la correlación más sólida para cada desfase de tiempo. Por ejemplo, en la imagen siguiente, la mayoría de las ubicaciones lograron la correlación absoluta más sólida con el desfase de tiempo 0, lo que significa que no hay un retraso estimado entre las dos series de tiempo en la mayoría de las ubicaciones.

Gráfico de barras del recuento de ubicaciones con mayor correlación por desfase temporal

Fórmula de correlación cruzada

Para un desfase temporal determinado, la fórmula para la correlación cruzada entre dos series temporales es la siguiente:

Fórmula de correlación cruzada
  • k es el desfase de tiempo.
  • t es el intervalo de tiempo.
  • T es el número de intervalos de tiempo en cada serie temporal.
  • X(t) es el valor de la variable de análisis principal en el intervalo de tiempo t.
  • Y(t) es el valor de la variable de análisis secundaria en el intervalo de tiempo t.
  • es el valor medio de la variable de análisis principal (utilizando todos los intervalos de tiempo).
  • Ȳ es el valor medio de la variable de análisis secundaria (utilizando todos los intervalos de tiempo).

El numerador y el denominador se dividen por el número de términos en las sumas para corregir el sesgo contra desfases temporales más grandes.

Ajustar un modelo de filtrado y eliminación de tendencias

Si filtra y elimina tendencias de la serie temporal, se realizan los siguientes pasos de preprocesamiento en las variables de análisis principal y secundaria antes del desfase de tiempo y de calcular las correlaciones cruzadas:

  1. Se crea un modelo de regresión de mínimos cuadrados ordinarios (OLS) para predecir el siguiente valor de la variable de análisis principal a partir del valor anterior. En el modelo, cada intervalo de tiempo se utiliza como variable explicativa para predecir el valor del siguiente intervalo de tiempo.
  2. Se crea un segundo modelo OLS que predice el siguiente valor de la variable de análisis principal a partir de los dos valores anteriores. Por ejemplo, los dos primeros intervalos de tiempo se utilizan para predecir el tercero; el segundo y tercer intervalo se utilizan para predecir el cuarto; etcétera.
  3. Se crean tres modelos OLS más utilizando tres, cuatro y cinco valores anteriores, respectivamente, para predecir el siguiente valor de la variable de análisis principal.
  4. Una transformada rápida de Fourier (FFT) se utiliza para estimar la estacionalidad de la variable principal, y un sexto modelo OLS utiliza este número de intervalos de tiempo para predecir el siguiente valor.
  5. Los valores AICc se calculan para cada uno de los seis modelos OLS, y el que tiene el valor más bajo se elige como modelo de filtrado y eliminación de tendencias.
  6. Utilizando los coeficientes del modelo elegido, se calculan los valores residuales para la variable de análisis principal, y estos valores residuales se convierten en la nueva variable principal. Este paso a menudo se denomina preblanqueamiento de la variable principal porque se espera que los valores residuales muestren ruido blanco aleatorio.
  7. Los valores residuales se calculan para la variable de análisis secundaria aplicando los coeficientes a los valores de la variable secundaria, y estos valores residuales se convierten en la nueva variable secundaria. Este paso a menudo se denomina filtrado de la variable secundaria. Debido a que los coeficientes se estimaron a partir de la variable principal, todavía se espera que los valores residuales de la variable secundaria contengan algunas tendencias y autocorrelaciones (en lugar de ruido blanco aleatorio).
  8. Este proceso se repite de forma independiente para cada ubicación. Si se utilizan vecinos espaciales, el proceso se realiza en la variable principal de la ubicación focal y en la variable secundaria de cada vecino (y consigo misma).

Nota:

El proceso de filtrado y eliminación de tendencias reducirá la longitud de cada serie de tiempo en la cantidad de intervalos de tiempo utilizados como variables explicativas en el modelo OLS elegido en el paso 5. Por ejemplo, si se utilizan tres intervalos de tiempo para predecir el siguiente valor, los valores residuales no se pueden calcular para los primeros tres intervalos de tiempo de cada serie de tiempo.

Referencias

Brockwell, P. J., and Davis, R. A. (2002). Introduction to Time Series and Forecasting. New York, NY: Springer New York. https://doi.org/10.1007/978-3-319-29854-2.

Chan, K.S. and Cryer, J.D. (2008). Time Series Analysis With Applications in R. New York, NY: Springer New York. https://doi.org/10.1007/978-0-387-75959-3.

Temas relacionados