Qu’est-ce que la prévision de la régression EBK ?

Disponible avec une licence Geostatistical Analyst.

Introduction

La prévision de la régression EBK est une méthode d’interpolation géostatistique qui utilise le krigeage bayésien empirique (EBK) avec des rasters de variable explicative connus pour affecter la valeur des données que vous interpolez. Cette approche associe le krigeage à l'analyse de régression pour réaliser des prévisions qui sont plus précises que ce qu'il est possible d'obtenir avec chaque méthode de régression ou de krigeage.

En savoir plus sur le krigeage bayésien empirique

En savoir plus sur les informations essentielles sur l’analyse de régression

Informations essentielles sur les modèles de krigeage de régression

Comme leur nom l’indique, les modèles de krigeage de régression sont un mélange de régression par les moindres carrés ordinaires et de krigeage simple. Ces modèles de régression et de krigeage prévoient la variable dépendante en séparant l’estimation de la valeur moyenne et d’un terme d’erreur :

Variable dépendante = (moyenne) + (erreur)

Les moindres carrés ordinaires modélisent la valeur moyenne sous forme de somme pondérée des variables explicatives (équation de régression) et le terme d’erreur est supposé être un bruit non corrélé, aléatoire. Le krigeage simple modélise le terme d’erreur en utilisant un modèle de semi-variogramme/covariance et la valeur moyenne est supposée être une valeur constante. Autrement dit, les moindres carrés ordinaires analysent intensément la valeur moyenne, tandis que le krigeage analyse intensément le terme d’erreur. Cependant, les modèles de krigeage de la régression estiment à la fois un modèle de régression pour la valeur moyenne et un modèle de semi-variogramme/covariance pour le terme d’erreur. En tenant compte des deux composants en même temps, les modèles de krigeage de la régression sont en mesure de réaliser des prévisions plus précises que celles qui sont obtenues par la régression seule ou le krigeage uniquement. En fait, la régression par les moindres carrés ordinaires et le krigeage simple sont des cas particuliers de krigeage de la régression.

Vous devez apporter un soin particulier aux choix des variables à utiliser comme rasters de variable explicative. Chaque variable explicative doit être connue pour affecter la valeur de la variable dépendante. Il est recommandé de choisir des variables explicatives de la même manière que vous choisissez des variables explicatives pour l’outil de géotraitement Moindres carrés ordinaires. Il n’est toutefois pas nécessaire de vérifier si les variables explicatives sont corrélées entre elles. La section suivante explique comment procéder.

Analyse des composantes principales

Avant la création du modèle de krigeage de la régression, les rasters de variable explicative sont transformés en leurs composantes principales et ces composantes principales sont utilisées comme variables explicatives dans le modèle de régression. Les composantes principales sont des combinaisons linéaires (sommes pondérées) des variables explicatives et sont calculées de telle manière que chaque composante principale soit décorrélée de toute autre composante principale. Puisqu’elles sont mutuellement décorrélées, l’utilisation des composantes principale résout le problème de multicolinéarité (lorsque les variables explicatives sont corrélées les unes aux autres) dans le modèle de régression.

Chaque composante principale capture une certaine proportion de la variabilité totale des variables explicatives. Dans de nombreux cas, la majorité des informations contenues dans la totalité des variables explicatives peuvent être capturées dans quelques composantes principales uniquement. Si vous ignorez les composantes principales les moins utiles, le calcul du modèle devient plus stable et efficace sans perte de précision significative. Vous pouvez contrôler la quantité de variation dont les composantes principales doivent tenir compte à l’aide du paramètre Minimum cumulative percent of variance (Pourcentage cumulé minimal de la variance).

Pourquoi les variables explicatives doivent-elles être des rasters ?

Dans cet outil, toutes les variables explicatives doivent être fournies en tant que rasters et le modèle de krigeage de la régression est construit par l’extraction des valeurs des rasters de variable explicative situés sous chaque point en entrée. Vous vous demandez peut-être pourquoi les variables explicatives ne peuvent pas être des champs de la même classe d’entités ponctuelles qui stocke la variable dépendante. Pour réaliser une prévision à une nouvelle localisation, il est nécessaire que les variables explicatives soient mesurées à la nouvelle localisation pour que le calcul de la prévision soit effectué à partir du modèle de krigeage de la régression. Si les variables explicatives étaient des champs des entités de variable dépendante en entrée, vous pourriez uniquement réaliser des prévisions aux localisations des points en entrée. Dans le cadre de l’interpolation (prévision des valeurs aux nouvelles localisations), les variables explicatives doivent être mesurées aux localisations où vous souhaitez procéder à l’interpolation. La manière la plus naturelle de spécifier les variables explicatives à chaque localisation de prévision consiste à stocker les variables explicatives sous forme de rasters.

SI les variables explicatives ne sont pas au format raster, mais qu’elles sont stockées en tant que champs dans les entités de variable dépendante, vous devez convertir chaque variable explicative en raster à l’aide d’une des méthodes d’interpolation disponibles. Notez, toutefois, que la prévision de la régression EBK suppose que les variables explicatives sont des valeurs mesurées (plutôt que des prévisions interpolées) ; toute erreur introduite lors de l’interpolation des variables explicatives n’est donc pas correctement prise en compte dans les calculs suivants. Dans la pratique, cela signifie que les prévisions pourraient être biaisées et que les erreurs standard pourraient être sous-estimées.

Création et évaluation de modèles locaux

Un des plus gros avantages de la prévision de la régression EBK comparée aux autres modèles de krigeage de la régression est que les modèles sont calculés localement. Cela permet au modèle de changer dans les différentes zones et de tenir compte des effets locaux. Par exemple, les relations entre les variables explicatives et la variable dépendante peuvent changer dans différentes régions et la prévision de la régression EBK peut modéliser précisément ces changements régionaux.

La prévision de la régression EBK tient compte de ces effets locaux en divisant les données en entrée en sous-ensembles d’une taille donnée avant de procéder à une modélisation quelconque. Le nombre de points dans chaque sous-ensemble local est contrôlé par le paramètre Maximum number of points in each local model (Nombre maximal de points dans chaque modèle local). Le modèle de krigeage de la régression est calculé de manière indépendante pour chacun de ces sous-ensembles locaux et ces modèles locaux sont mélangés pour produire la carte de prévision finale. Il est également possible de définir les sous-ensembles locaux à l’aide du paramètre Subset polygon features (Sous-ensemble d’entités surfaciques). Si des entités surfaciques sont fournies pour ce paramètre, chaque entité surfacique définit un seul sous-ensemble et tous les points contenus dans une seule entité surfacique sont traités comme un sous-ensemble. Dans ce cas, chaque polygone doit contenir au moins 20 points et tout au plus 1 000 points.

Le paramètre Output diagnostic feature class (Classe d’entités de diagnostic en sortie) peut être utilisé pour produire des diagnostics de modèle pour chacun de ces modèles locaux. L’utilisation de ce paramètre entraîne la création d’une classe d’entités surfaciques dans laquelle chaque polygone contient tous les points qui contribuent au modèle local. Par exemple, s’il existe cinq sous-ensembles, cinq polygones sont créés et chaque polygone affiche la région de chaque sous-ensemble. La classe d’entités surfaciques contient également différents champs qui affichent les informations de diagnostic sur l’adéquation du modèle local au sous-ensemble. Si des sous-ensembles d’entités surfaciques sont fournis, la classe d’entités de diagnostic en sortie possède la même géométrie que les polygones du sous-ensemble.

Transformations et modèles de semi-variogramme

Plusieurs modèles de transformation et de semi-variogramme sont disponibles pour la prévision de la régression EBK.

Les options de transformation disponibles sont les suivantes :

  • None (Aucune) : aucune transformation n’est appliquée à la variable dépendante.
  • Empirical (Empirique) : une combinaison de noyaux non paramétrique est appliquée à la variable dépendante. Cette option est recommandée lorsque la variable dépendante n’est pas normalement distribuée.
  • Log empirical (Logarithmique empirique) : une transformation logarithmique est appliquée à la variable dépendante avant l’application de la transformation empirique. Cette option garantit que chaque prévision est supérieure à zéro. Elle est donc recommandée si la variable dépendante ne peut pas être négative, comme dans le cas de mesures de précipitations.

Les modèles de semi-variogramme suivants sont disponibles :

  • Exponential (Exponentielle) : ce modèle de semi-variogramme suppose que l’autocorrélation spatiale du terme d’erreur diminue relativement rapidement par rapport aux autres options. Il s’agit de l’option par défaut.
  • Nugget (Pépite) : ce modèle de semi-variogramme suppose que le terme d’erreur est spatialement indépendant. Utiliser cette option équivaut à utiliser la régression par les moindres carrés ordinaires ; elle est donc rarement utile pour l’interpolation réelle. Elle peut, en revanche, servir de ligne de base pour déterminer l’amélioration obtenue par l’utilisation du krigeage de la régression comparé à la régression par les moindres carrés ordinaires.
  • Whittle : ce modèle de semi-variogramme suppose que l’autocorrélation spatiale du terme d’erreur diminue relativement lentement par rapport aux autres options.
  • K-Bessel (K de Bessel) : ce modèle de semi-variogramme permet à l’autocorrélation spatiale du terme d’erreur de diminuer lentement, rapidement ou quelque part entre les deux. Puisqu’il est flexible, il donne la plupart du temps les prévisions les plus précises, mais il requiert l’estimation d’un paramètre supplémentaire, donc son calcul est plus long. Si vous ne savez pas quel semi-variogramme utiliser et que vous êtes prêt à attendre plus longtemps pour obtenir les résultats les plus précis, cette option est recommandée.

Bibliographie

  • Chilès, J-P., and P. Delfiner (1999). Chapitre 4 de Geostatistics: Modeling Spatial Uncertainty. New York: John Wiley & Sons, Inc.
  • Krivoruchko K. (2012). "Empirical Bayesian Kriging," ArcUser Fall 2012.
  • Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging," ArcUser Fall 2012.
  • Krivoruchko K. and Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data," Mathematics of Planet Earth. Compte-rendu de la 15e conférence annuelle de l’International Association for Mathematical Geosciences, Springer 2014, pp. 61-64.
  • Krivoruchko K. and Gribov A. (2019). "Evaluation of empirical Bayesian kriging," Spatial Statistics Volume 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • Pilz, J., and G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods," Stochastic Environmental Research and Risk Assessment 22 (5):621–632.

Rubriques connexes