Qu’est-ce que l’interpolation surfacique ?

Disponible avec une licence Geostatistical Analyst.

Dans la plupart des publications liées aux SIG, l’interpolation surfacique signifie la réagrégation des données d’un jeu de polygones (polygones source) vers un autre jeu de polygones (polygones cible). Par exemple, les démographes ont souvent besoin de réduire ou d’augmenter l’échelle des unités administratives des données. Si les dénombrements de population sont établis au niveau d’un comté, un démographe doit réduire l’échelle des données afin de prévoir la population des îlots de recensement. Dans le cas d’un redécoupage à grande échelle, il se peut que vous deviez effectuer des prévisions de population pour un jeu de polygones complètement nouveau.

L’interpolation surfacique dans l’extension ArcGIS Geostatistical Analyst est une technique d’interpolation géostatistique qui étend la théorie du krigeage à la moyenne ou à l’agrégation des données des polygones. Les prévisions et les erreurs standard peuvent être calculées pour tous les points situés dans et entre les polygones en entrée, et les prévisions (ainsi que les erreurs standard) peuvent ensuite être à nouveau réagrégées vers un nouveau jeu de polygones.

D’autres méthodes de krigeage dans Geostatistical Analyst requièrent des données ponctuelles continues et gaussiennes, mais l’interpolation surfacique admet des nombres discrets en tant que données surfaciques. Il est également possible d’utiliser un second jeu de polygones comme variable de cokrigeage ; ces polygones secondaires peuvent avoir une géométrie identique à celle des polygones de la variable principale ou les polygones peuvent être complétement différents.

Remarque :

D’autres méthodes d’interpolation dans Geostatistical Analyst acceptent l’entrée surfacique, mais elles associent la valeur du polygone à son centroïde et la traitent comme un point. Les tailles des polygones ne sont pas pris en compte et les méthodes sont inappropriées pour des données de comptage.

Processus de réagrégation des données polygone vers polygone

La réagrégation des données surfaciques (par exemple, la réduction de l’échelle des dénombrements de population) est un processus à deux étapes. Tout d’abord, une surface de prévision lisse des points individuels est créée à partir des polygones source (cette surface peut souvent être interprétée comme une surface de densité ou de risque) ; la surface de prévision est ensuite réagrégée vers les polygones cible. Étant donné que la création de la surface de prévision requiert une variographie interactive, il est nécessaire de procéder à cette étape dans Geostatistical Wizard (Assistant géostatistique). La sortie de Geostatistical Wizard (Assistant géostatistique) est une couche géostatistique des prévisions ou des erreurs standard de prévision. S’il n’est pas nécessaire de procéder à la réagrégation vers de nouveaux polygones, le processus peut s’arrêter là.

Une fois la surface de prévision créée, la réagrégation vers un autre jeu de polygones est effectuée à l’aide de l’outil de géotraitement Couche d’interpolation surfacique vers polygones. Le graphique ci-dessous représente le processus de prévision du taux d’obésité dans les îlots de recensement de Los Angeles à partir du taux d’obésité des zones scolaires de Los Angeles.

Réagrégation polygone vers polygone
Réagrégation polygone vers polygone

Les détails mathématiques de la désagrégation et de la réagrégation sont précisés dans le document indiqué en référence à la fin de cette rubrique.

Quels sont les types de données pouvant être utilisés dans l’interpolation surfacique ?

L’interpolation surfacique accepte trois différents types de jeux de données surfaciques en entrée. Ces trois types peuvent produire des surfaces de prévision et d’erreur standard, puis être réagrégés vers des polygones cible. Les interprétations des surfaces de prévision et des prévisions réagrégées sont différentes pour chaque type de données, comme décrit ci-dessous.

Données moyennes (gaussiennes)

Pour protéger la confidentialité ou réduire les frais généraux, les mesures de points continus sont parfois moyennées sur les régions surfaciques et les données ponctuelles d’origine sont effacées ou tenues privées. Par exemple, les niveaux de pollution moyens des comtés peuvent être signalés, mais les mesures de chaque point tenues privées. Si vous ne savez pas où la pollution a été mesurée, les autres méthodes de krigeage ne sont pas appropriées.

L’interpolation surfacique des données continues requiert des données gaussiennes et moyennées sur des polygones définis. Compte tenu des polygones et des mesures moyennes, une surface de prévision (ou d’erreur standard) est produite pour la valeur de la variable gaussienne à tous les points du domaine de données.

Les paramètres en entrée sont les suivants :

  • Input Dataset (Jeu de données en entrée) : spécifiez les entités surfaciques.
  • Value Field (Champ de valeurs) : spécifiez la valeur moyenne de chaque polygone du jeu de données en entrée.

Dans le cas de l’interpolation surfacique gaussienne, l’outil de géotraitement Couche d’interpolation surfacique vers polygones prévoit la valeur moyenne de la variable gaussienne (avec des erreurs standard de prévision) des polygones cible. Par exemple, en tenant compte de la température moyenne dans tous les comtés d’un état un jour en particulier, il est possible de prévoir la température moyenne des villes des comtés.

Dénombrement de taux (binomial)

Une méthode courante d’obtention d’une source de données surfaciques consiste à échantillonner de manière aléatoire les individus de la population d’un polygone et de dénombrer les personnes qui possèdent une caractéristique particulière (cette technique est appelée échantillonnage binomial). La valeur d’intérêt est la proportion d’individus échantillonnés possédant cette caractéristique.

Compte tenu du nombre d’individus échantillonnés et du nombre d’individus dotés de la caractéristique pour chaque polygone, l’interpolation surfacique des dénombrements binomiaux produit une surface de prévision du risque (ou surface d’erreur standard) pour tous les points du domaine de données. Le risque à n’importe quel point individuel représente la probabilité qu’un individu échantillonné à cette localisation possède la caractéristique en question.

Par exemple, une entreprise peut demander à certains de ses clients s’ils sont satisfaits du service fourni par l’entreprise. Dans ce cas, la caractéristique d’intérêt est que le soit satisfait du service. Les localisations exactes des clients échantillonnés peuvent ne pas être connues ; il se peut que l’entreprise connaisse uniquement la région géographique (comme la ville ou le code postal). L’interpolation surfacique des dénombrements binomiaux produit une carte affichant les localisations des soutiens forts et faibles de l’entreprise. L’entreprise peut ensuite approfondir sa recherche pour savoir pourquoi les clients de certaines localisations sont plus satisfaits du service que les clients d’autres localisations.

Pour que les prévisions soient exactes, les échantillons doivent être pris de manière aléatoire. Chaque membre de la population d’un polygone doit avoir la même probabilité d’être choisi pour l’échantillon. Si une préférence est affichée pour des individus en particulier, les prévisions sont biaisées.

Les paramètres en entrée sont les suivants :

  • Input Dataset (Jeu de données en entrée) : spécifiez les entités surfaciques.
  • Count Field (Champ de nombre) : spécifiez le champ qui comporte le nombre d’individus possédant une caractéristique spécifique pour chaque polygone.
  • Population Field (Champ de population) : spécifiez le champ qui comporte le nombre d’individus échantillonnés pour chaque polygone.

Dans le cas de l’interpolation surfacique, l’outil de géotraitement Couche d’interpolation surfacique vers polygones prévoit la proportion des individus possédant cette caractéristique pour chaque polygone spécifié. Par exemple, si le nombre de cas de cancer du poumon de chaque comté d’un état est connu (ainsi que la population à risque dans chaque comté), la proportion d’individus affectés par un cancer du poumon peut être prévue pour les codes postaux des comtés. Pour obtenir une estimation du nombre de cas de cancer du poumon pour chaque code postal, multipliez la proportion prévue de cas de cancer du poumon par la population de chaque code postal. De même, la multiplication des erreurs standard par la population de chaque code postal donne l’erreur standard du nombre prévu de cas de cancer du poumon pour chaque code postal.

Dénombrement d’événements (Poisson surdispersé)

Une autre méthode courante d’obtention d’une source de données surfaciques consiste à dénombrer le nombre d’instances d’un événement en particulier dans une zone définie pendant une durée spécifiée. Par exemple, les observateurs des baleines collectent leurs données en naviguant autour de zones définies sur l’océan et en comptant le nombre de baleines observées. Dans ce cas, l’événement est l’observation d’une baleine. Puisque le nombre de baleines observées est supposé être proportionnel à la durée d’observation, il est nécessaire d’enregistrer la durée pendant laquelle le dénombrement a été effectué. Pour chaque expédition, les observateurs des baleines connaissent le polygone de visualisation (zone d’observation), le nombre d’événements observés (nombre de baleines observées) et la durée d’observation.

L’interpolation surfacique du dénombrement d’événements produit une surface qui prévoit le risque sous-jacent d’observation d’un événement à une localisation spécifique. Un risque élevé signifie que la chance d’observer un événement à cette localisation est plus élevée. Lorsque l’événement consiste à trouver un objet physique (comme une baleine), la surface de prévision peut être interprétée comme une carte de densité.

Dans la plupart des cas d’utilisation, la durée d’observation est identique pour chaque polygone. Par exemple, les statistiques relatives à la criminalité sont généralement indiquées sous la forme de dénombrements sur une année pour chaque polygone. Étant donné qu’il est très fréquent d’avoir une durée d’observation constante, si la durée d’observation n’est pas spécifiée, le logiciel suppose que les dénombrements ont été effectués sur une seule unité de temps pour chaque polygone. Dans le cas d’un recensement complet (où chaque événement est observé, comme le nombre total de personnes) la durée d’observation pour chaque polygone doit être supposée comme étant identique.

Lors de l’observation, il n’est pas nécessaire d’être le témoin de chaque événement. Il suffit que le nombre d’événements dont vous êtes le témoin par unité de temps soit proportionnel à la densité sous-jacente de ce qui est observé. En pratique, cela signifie que la méthodologie employée pour réaliser des observations doit être à peu près la même pour chaque polygone. Par exemple, si un observateur de baleines d’une expédition est plus qualifié pour repérer les baleines qu’un observateur d’une autre expédition, les prévisions sont biaisées.

Les paramètres en entrée sont les suivants :

  • Input Dataset (Jeu de données en entrée) : spécifiez les entités surfaciques.
  • Count Field (Champ de nombre) : spécifiez le champ qui comporte le nombre d’événements auxquels vous avez assisté dans chaque polygone.
  • Time Field (Champ de temps) : spécifiez également la durée passée au dénombrement dans chaque polygone. Si le champ est laissé vide, le logiciel suppose que tous les dénombrements ont été effectués dans une unité de temps.

Dans le cas de l’interpolation surfacique de Poisson surdispersé, l’outil de géotraitement Couche d’interpolation surfacique vers polygones prévoit le nombre de dénombrements par unité de temps pour chaque polygone spécifié. Par exemple, si les observateurs des baleines ont enregistré leurs durées d’observation en heures, la prévision pour un nouveau polygone est interprétée comme le nombre attendu de baleines qui seront observées dans ce polygone en une heure. Pour les données de population d’un recensement, l’interprétation est simplement la population prévue du polygone au moment du recensement.

Création d’un modèle valide

À l’instar de toutes les méthodes d’interpolation, la précision des prévisions dans l’interpolation surfacique dépend de la précision du modèle. En gardant ce point à l’esprit, veillez à créer un modèle valide dans Geostatistical Wizard (Assistant géostatistique).

Puisque l’interpolation surfacique dans Geostatistical Analyst est implémentée via une structure de krigeage, la variographie interactive est une étape essentielle de la création du modèle. Il est souvent difficile de juger visuellement de la qualité d’une courbe de covariance. Des intervalles de confiance (les lignes verticales rouges dans le graphique ci-dessous) sont donc fournis pour chaque covariance empirique (croix bleues). Si le modèle de covariance est correctement spécifié, 90 % des covariances empiriques doivent se situer dans les intervalles de confiance. Dans le graphique ci-dessous, 11 des 12 covariances empiriques se trouvent dans les intervalles de confiance et 1 point se situe d’un bit en dehors de l’intervalle de confiance. Cela indique que le modèle est adapté aux données et que les résultats sont fiables.

Création d’un modèle valide
Création d’un modèle valide

La courbe de covariance par défaut n’est pas souvent adaptée aux données. Dans ce cas, il est nécessaire de modifier les paramètres de variographie. Il est souvent difficile d’ajuster une courbe de covariance appropriée et le meilleur moyen de s’améliorer est de pratiquer cette opération de manière répétée ; voici néanmoins quelques règles générales qui facilitent l’ajustement d’un modèle :

  • Réduisez la valeur de Lag Size (Taille des classes de distance) jusqu’à ce que les covariances empiriques ne soient plus négatives.
  • Si le modèle n’est toujours pas adapté, essayez avec le paramètre Model (Modèle). K-Bessel (K de Bessel) et Stable sont les modèles les plus fonctionnels, mais ils nécessitent également le traitement le plus long.
  • Si vous trouvez une combinaison des paramètres Lag Size (Taille des classes de distance) et Model (Modèle) qui est presque adaptée, essayez de réduire la valeur de Lattice Spacing (Espacement du canevas). Toutefois, gardez à l’esprit que la réduction de l’espacement du canevas augment rapidement le temps de traitement. Le paramètre d’espacement de canevas est décrit dans la section Nouveaux paramètres d’interpolation surfacique ci-dessous.

Comme indiqué dans le graphique ci-dessous, si le paramètre Function Type (Type de fonction) est défini sur Semivariogram (Semi-variogramme), la courbe des points du semi-variogramme (la ligne bleue dans le graphique ci-dessous) risque de ne pas passer par les intervalles de confiance. Ce n’est pas un problème et les critères d’un modèle adapté ne changent pas : si un pourcentage élevé des semi-variances empiriques se situent dans les intervalles de confiance et la précision du modèle est fiable.

Création d’un modèle valide
Création d’un modèle valide

Nouveaux paramètres de l’interpolation surfacique

Geostatistical Wizard (Assistant géostatistique) inclut les trois paramètres suivants qui n’apparaissent pas dans les autres méthodes de krigeage :

  • Lattice Spacing (Espacement du canevas) : pour l’estimation des covariances des points, un canevas carré est superposé à chaque polygone et un point est affecté à chaque intersection du canevas. Le paramètre d’espacement du canevas définit la distance horizontale et verticale séparant chaque point. Si l’espacement du canevas est assez grand et qu’un polygone ne reçoit pas de point, un point est placé à son centroïde. Un espacement du canevas plus faible augmente la précision des prévisions, mais également le temps de traitement. Par exemple, si vous divisez par deux l’espacement du canevas, le traitement dure quatre fois plus longtemps.
  • Confidence Level (Niveau de confiance) : spécifie le niveau de confiance des intervalles de confiance des courbes de semi-variogramme/covariance. Si le modèle est correct, cette valeur indique le pourcentage de covariances ou semi-variances empiriques qui doivent se trouver dans les intervalles de confiance. Notez que la ligne du semi-variogramme de points ne se trouve pas forcément dans les intervalles de confiance. Ce paramètre est utilisé à des fins de diagnostic uniquement ; la valeur n’affecte pas les prévisions.
  • Overdispersion Parameter (Paramètre Surdispersion) : applicable uniquement pour les données de dénombrement d’événements (Poisson surdispersé). Dans les données de dénombrement Poisson, on constate fréquemment une surdispersion (variabilité supérieure à celle attendue dans le modèle de type Poisson). Le paramètre de surdispersion permet de résoudre ce problème. Ce paramètre est égal à l’inverse du paramètre de dispersion de la distribution binomiale négative.

Tous les autres paramètres ont la même signification que dans les autres méthodes de krigeage.

Limitations

À l’instar de toutes les méthodes de krigeage, l’interpolation surfacique est soumise à plusieurs limitations susceptibles de vous empêcher de trouver un modèle valide pour les données.

Non-stationnarité

Une des hypothèses de krigeage les plus strictes concerne la stationnarité des données. La stationnarité est l’hypothèse selon laquelle la relation statistique entre deux valeurs de données surfaciques dépend uniquement de la distance entre les polygones. Par exemple, les populations humaines sont souvent agrégées en villes et peu de personnes résident dans les zones qui séparent les villes. Cela pose problème pour l’interpolation surfacique, car selon la stationnarité, la densité de population devrait changer graduellement dans le paysage ; vous ne devriez pas voir de densités de population très élevées juste à proximité de densités de population très faibles. Dans le cas de données non stationnaires telles que celles-ci, il est extrêmement difficile, voire impossible, d’ajuster un modèle d’interpolation surfacique valide.

Polygones de tailles extrêmement différentes

Si certains polygones comportent des zones très petites comparées aux polygones les plus grands, le logiciel risque de ne pas parvenir à différencier les polygones les plus petits et les traitera comme des polygones coïncidents. Cela peut se produire, car le paramètre d’espacement du canevas discrétise les polygones et plusieurs polygones peuvent être représentés sous la forme d’un seul point dans le canevas. Cela génère une erreur, car l’interpolation surfacique ne prend pas en charge les polygones coïncidents. Pour résoudre cette erreur, procédez comme suit :

  1. Utilisez les outils Rechercher les doublons et Supprimer les doublons pour localiser et supprimer les polygones coïncidents. Si aucun polygone coïncident n’est détecté ou si la suppression ne résout pas l’erreur, passez à l’étape suivante.
  2. Réduisez manuellement l’espacement du canevas jusqu’à ce que le logiciel puisse différencier les polygones. Toutefois, la réduction de l’espacement du canevas augmente rapidement le temps de calcul. Si vous estimez que l’espacement du canevas augmente trop le temps de traitement, passez à l’étape suivante.
  3. Désélectionnez les polygones les plus petits de la classe d’entités pour faire en sorte qu’ils ne soient plus utilisés dans le calcul.

Bibliographie

  1. Krivoruchko, K., A. Gribov, E. Krause (2011). « Multivariate Areal Interpolation for Continuous and Count Data », Procedia Environmental Sciences, Volume 3 : 14–19.

Rubriques connexes