Cómo funciona Componentes principales multidimensionales

Disponible con licencia de Image Analyst.

El análisis de componentes principales (PCA) es una técnica clásica utilizada en el análisis exploratorio de datos. A menudo se utiliza para reducir la dimensionalidad del dataset para poder identificar entidades y patrones de los datos. Por ejemplo, en un análisis multivariado, el PCA se puede utilizar para identificar qué variables son necesarias y qué variables se pueden excluir sin afectar al resultado del análisis. En el análisis de imágenes multiespectrales e hiperespectrales, la herramienta Componentes principales multidimensionales se puede utilizar para calcular un conjunto de componentes principales que capturan la mayor parte de la información y permiten realizar el análisis en un número reducido de bandas. Los datos de serie temporal de imágenes se han vuelto más comunes, pero plantean desafíos para identificar y extraer información específica. Esta herramienta utiliza la técnica del PCA para analizar datos de serie temporal o datos ráster multidimensionales.

Análisis de componentes principales de datos ráster multidimensionales

Un ráster multidimensional contiene una o varias variables. La herramienta Componentes principales multidimensionales analiza una variable a la vez, un cubo de datos de imagen 3D con (x,y,tiempo) o (x,y,z), y transforma el cubo de datos de imagen en un conjunto de componentes principales donde la varianza se maximiza para que puedan identificarse y extraerse entidades y patrones de los datos. Un cubo de datos de imagen se puede ver de dos maneras: como un conjunto de imágenes (secciones), cada una de las cuales representa una imagen en el tiempo, o como un conjunto de matrices unidimensionales, cada una de las cuales representa una serie temporal de píxeles (perfil temporal). En el siguiente ejemplo, se utilizan datos de serie temporal de imágenes para describir la funcionalidad, con el entendimiento de que la herramienta se puede aplicar a datos con una dimensión no temporal:

Un conjunto de imágenes
El modo de reducción de dimensiones analiza un conjunto de imágenes.

Un conjunto de series temporales de píxeles
Los modos de reducción espacial analizan una serie temporal de píxeles.

Puede aplicar el análisis de componentes principales usando el modo de reducción de dimensiones y el modo de reducción espacial. El procesamiento con estos dos modos implica dos aplicaciones diferentes.

  • El modo de reducción de dimensiones analiza los datos como un conjunto de imágenes. Transforma y reduce los datos en un conjunto de imágenes que captura las entidades y patrones predominantes. Por ejemplo, puede extraer los píxeles de agua predominantes en una serie temporal de imágenes y mapear los cambios de la masa de agua a lo largo del tiempo. El modo de reducción de dimensiones se usa a menudo en el análisis de series temporales de imágenes de datos terrestres, como una serie temporal NDVI.
  • El modo de reducción espacial analiza los datos como un conjunto de series temporales de píxeles. Identifica los patrones temporales principales y las ubicaciones espaciales asociadas de los patrones temporales. Por ejemplo, puede extraer el patrón temporal interanual de los eventos de El Niño y La Niña utilizando los datos de temperatura de la superficie del mar y sus ubicaciones. Esto es adecuado para el análisis de series temporales largas pero no para datos de alta resolución.

Ejemplo de la herramienta Componentes principales multidimensionales

En el siguiente ejemplo, la serie temporal de imágenes contiene k números de imágenes X1, X2, …, Xk, y el componente principal calculado es una combinación lineal de las imágenes expresada de la siguiente manera:

PC1 = a11X1 + a12X2 + … + a1kXk

Su forma matricial para todos los componentes principales es:

Y = XA

donde:

Y = (PC1, PC2, …, PCk)
es la matriz que contiene los componentes principales, y
X = (X1, X2, …, Xk)
es la matriz que contiene los datos de entrada.

La matriz A contiene coeficientes que transforman los datos originales en los componentes principales. Los valores de la matriz A se denominan cargas, que describen cuánto contribuye cada imagen a un componente principal particular. Una carga grande indica que la imagen tiene una fuerte relación con un componente principal en particular. El signo de una carga indica si una imagen y un componente principal están correlacionados positiva o negativamente.

Las columnas normalizadas en la matriz A son vectores propios, que especifican las orientaciones de los componentes principales en relación con las imágenes originales. Los valores propios calculados junto con los vectores propios indican las varianzas explicadas por cada componente principal. Los valores propios, ordenados de mayor a menor, determinan la secuencia de los componentes principales.

El primer componente se calcula para que represente la mayor variación posible en los datos, el segundo componente representa la siguiente variación más alta, con la condición de que no esté correlacionado (perpendicular) con el primer componente, y así sucesivamente. Esto continúa hasta que se haya calculado el número total de componentes especificados. Toda la información contenida en los datos originales se conserva si calcula todos los componentes principales.

Consulte Introducción al análisis de componentes principales (PCA) para obtener más información.

Consulte la herramienta Componentes principales multidimensionales para obtener más detalles.

Temas relacionados