Ajustar para un muestreo preferencial al desagrupar los datos—ArcGIS Pro

Disponible con una licencia de Geostatistical Analyst.

A menudo, las ubicaciones espaciales de los datos no están espaciadas de forma aleatoria o regular. Por diversas razones, los datos pueden haber sido muestreados preferencialmente, con una mayor densidad de puntos de muestra en algunos lugares que en otros. Es importante que la implementación adecuada de la transformación de puntuación normal y el histograma (y también la distribución acumulada) de la muestra reflejen correctamente el histograma de toda la población. Si los datos se muestrean preferencialmente cuando están autocorrelacionados espacialmente, puede que el histograma resultante de la muestra no refleje el histograma de la población.

En la figura superior izquierda en la muestra de desagrupación, toda la población de valores en 100 ubicaciones a lo largo de una línea se proporciona en forma de círculos sólidos. Estos se simularon a partir de un proceso autocorrelacionado espacialmente con un valor medio constante y una autocorrelación positiva sólida. Los datos muestreados son cada dos puntos empezando por el primero y se muestran con círculos. A la derecha de la muestra de desagrupación, el histograma de la población se muestra en azul y el histograma de la muestra se muestra en violeta.

Dado que la muestra es la mitad de toda la población, cabría esperar que las barras del histograma de muestra fueran aproximadamente la mitad de altas que las de la población, con alguna variación. En la figura inferior izquierda, los datos están muestreados preferencialmente, con muestras cada cinco ubicaciones hasta la ubicación 34, luego por cada ubicación hasta la ubicación 70 y, después, otra vez cada cinco ubicaciones hasta el final. El resultado final es, de nuevo, que se muestrea la mitad de toda la población. El muestreo preferencial hacia la mitad de las ubicaciones espaciales hace que la muestra presente una proporción más alta de los valores de datos centrales, razón por la cual las barras del histograma son prácticamente iguales que las barras de la población en los valores comprendidos entre -3 y 1. Además, los valores más altos y más bajos están insuficientemente representados en el histograma de muestra.

Una solución para el muestreo preferencial es ponderar los datos, de modo que los datos en áreas con un muestreo denso reciban una ponderación menor (lo que reduciría la altura de las barras del histograma de muestra para los valores entre -3 y 1 en el ejemplo de muestreo preferencial de arriba) y los datos en áreas con un muestreo disperso reciban una ponderación mayor (lo que aumentaría la altura de las barras del histograma de muestra en los valores de datos más bajos y más altos). Geostatistical Analyst permite dos métodos. El método predeterminado es la desagrupación de celdas. En la desagrupación de celdas, las celdas rectangulares están organizadas por las ubicaciones de datos en una cuadrícula y la ponderación atribuida a cada ubicación de datos es inversamente proporcional al número de puntos de datos de su celda.

Lo único que falta es elegir el tamaño y la orientación de la cuadrícula. Geostatistical Analyst proporciona un gráfico que muestra el valor medio ponderado entre todos los datos para distintos tamaños de celda. Se le ha sugerido elegir el tamaño de celda correspondiente al valor medio ponderado mínimo si los datos se han muestreado preferencialmente en áreas de valores altos y, por el contrario, elegir el tamaño de celda correspondiente al valor medio ponderado máximo si los datos se han muestreado preferencialmente en áreas de valores bajos.

Otro esquema utiliza un método poligonal que define un polígono alrededor de cada ubicación de datos espaciales, de manera que todas las ubicaciones dentro de ese polígono estén más cerca de la ubicación de datos que cualquier otra ubicación de datos, como se muestra en la siguiente figura.

Las ubicaciones de datos se muestran como pequeños puntos y los polígonos se dibujan alrededor de ellas, con un sombreado de color que indica el tamaño de los polígonos. La idea es ponderar cada ubicación de datos en proporción al área que "representa". El problema de este método es que es difícil definir las ponderaciones hacia el borde. Con frecuencia, los puntos de los bordes pueden recibir ponderaciones grandes a menos que un borde encierre los datos. En Geostatistical Analyst, el borde es un rectángulo, lo que a menudo proporciona demasiada ponderación a las ubicaciones de los bordes.

¿Algún comentario sobre este tema?