Ajustement à l’échantillonnage préférentiel par désagrégation des données

Disponible avec une licence Geostatistical Analyst.

Il arrive souvent sur les localisations spatiales de vos données ne soient pas espacées de manière aléatoire ou régulière. Pour diverses raisons, les données peuvent avoir été échantillonnées de manière préférentielle et afficher une plus forte densité de points échantillonnés en certains endroits. Il est important que l’implémentation appropriée de la transformation du score normal et l’histogramme (ainsi que la distribution cumulative) de l’échantillon reflètent correctement l’histogramme de l’ensemble de la population. Si les données sont échantillonnées de manière préférentielle lorsqu’elles sont autocorrélées spatialement, il est possible que l’histogramme qui découle de l’échantillon ne reflète pas l’histogramme de la population.

Exemples de désagrégation

Dans la figure en haut à gauche de l’échantillon de désagrégation, l’ensemble de la population des valeurs à 100 localisations le long d’une ligne sont indiquées sous la forme de cercles solides. Ces valeurs ont été simulées à partir d’un traitement autocorrélé spatialement avec une moyenne constante et une autocorrection positive forte. Les données échantillonnées représentent un point sur deux à partir du premier et sont indiquées par des cercles. À droite de l’échantillon de désagrégation, l’histogramme de la population est illustré en bleu et l’histogramme de l’échantillon est illustré en violet.

Comme l’échantillon représente la moitié de l’ensemble de la population, il serait logique que la hauteur des barres de l’histogramme d’échantillonnage correspondent à environ la moitié de celles de la population, à quelques variations près. En bas à gauche, les données sont échantillonnées de manière préférentielle, les échantillons se produisant toutes les cinquièmes localisations jusqu’à la localisation 34, puis toutes les localisations jusqu’à la localisation 70, puis à nouveau toutes les cinquièmes localisations jusqu’à la fin. Le résultat final est que, encore une fois, la moitié de l’ensemble de la population est échantillonnée. L’échantillonnage préférentiel vers le milieu des localisations spatiales entraîne une plus forte proportion des valeurs de données centrales dans l’échantillon. En conséquence, les barres de l’histogramme sont presque égales aux barres de population pour les valeurs comprises entre -3 et 1. Parallèlement, les valeurs inférieures et supérieures sont sous-représentées dans l’histogramme d’échantillon.

Une des solutions à l’échantillonnage préférentiel consiste à pondérer les données : les données situées dans les zones fortement échantillonnées reçoivent ainsi une pondération moindre (cela devrait réduire les barres de l’histogramme d’échantillonnage pour les valeurs comprises entre -3 et 1 dans l’exemple d’échantillonnage préférentiel ci-dessus) et les données situées dans les zones peu échantillonnées reçoivent une pondération plus élevée (ce qui devrait développer les barres de l’histogramme d’échantillonnage aux valeurs de données inférieures et supérieures). Geostatistical Analyst permet d’utiliser deux méthodes. La méthode par défaut est la désagrégation des cellules. Dans la désagrégation des cellules, les cellules rectangulaires sont organisées sur les localisations de données dans une grille et la pondération liée à chaque localisation de données est inversement proportionnelle au nombre de points de données dans sa cellule.

Le choix de la taille de grille et de l’orientation est tout ce qui reste. Geostatistical Analyst fournit un diagramme qui montre la valeur moyenne pondérée parmi toutes les données pour différentes tailles de cellule. Il a été suggéré de sélectionner la taille de cellule correspondant à la moyenne pondérée minimale si les données ont été échantillonnées de manière préférentielle dans les zones où les valeurs sont élevées et, à l’inverse, de sélectionner la taille de cellule correspondant à la moyenne pondérée maximale si les données ont été échantillonnées de manière préférentielle dans les zones où les valeurs sont faibles.

Il est également possible d’utiliser une méthode polygonale qui définit un polygone autour de chaque localisation de données spatiales de telle sorte que toutes les localisations qui se trouvent à l’intérieur de ce polygone sont plus proches de la localisation de données que de toute autre localisation de données, comme illustré dans la figure suivante.

Exemple de désagrégation polygonale

Les localisations de données sont illustrées sous forme de petits points entourés de polygones, avec un ombrage de couleur indiquant la taille des polygones. L’idée consiste à pondérer chaque localisation de données par rapport à la zone qu’elle « représente ». Le problème de cette méthode, c’est qu’il est difficile de définir des pondérations vers le bord. Les points du bord peuvent souvent recevoir des pondérations élevées, sauf si une bordure entoure les données. Dans Geostatistical Analyst, la bordure est un rectangle, ce qui donne souvent une pondération trop importante aux bords.