Fonctionnement de l’outil Prévision de présence seule (MaxEnt)

ArcGIS Pro 3.4 | | Archive de l’aide

L’outil Prévision de présence seule (MaxEnt) utilise une approche d’entropie maximale (MaxEnt) pour estimer la probabilité de présence d’un phénomène. L’outil utilise des points d’occurrence connus et des variables explicatives sous forme de champs, de rasters ou d’entités de distance pour fournir une estimation de présence à travers une zone d’étude. Le modèle entraîné peut être utilisé pour prédire la présence dans différentes données si les variables explicatives correspondantes sont connues. Contrairement à d’autres méthodes qui soit supposent, soit requièrent explicitement des emplacements d’absence définis, la Prévision de présence seule peut être appliquée aux problèmes de prévision pour lesquels seule la présence de l’événement est connue.

Diagramme de synthèse de l’outil Prévision de présence seule (MaxEnt)

Applications possibles

Bien que la modélisation de la présence d’espèces à des fins écologiques et de préservation soit un exemple classique d’utilisation de cet outil, les problèmes de prévision de présence couvrent en réalité un grand nombre de domaines et d’applications :

  • Un spécialiste de la flore et de la faune sauvage a collecté des données sur le terrain concernant les lieux de présence observée d’une espèce végétale. Il doit estimer la présence de cette espèce dans une zone d’étude plus large. En s’appuyant sur les localisations connues de la plante et en fournissant des facteurs sous-jacents sous forme de rasters, le chercheur peut modéliser la présence de l’espèce et créer une carte des emplacements où cette espèce est le plus susceptible d’être rencontrée.
  • Un chercheur souhaite comprendre l’impact qu’aura le changement climatique sur l’habitat d’une espèce sensible. Il modélise la présence de cette espèce en utilisant des localisations connues et un ensemble de variables explicatives, notamment certains facteurs associés au climat, comme la température et les précipitations. À l’aide de surfaces raster du changement climatique projeté, le chercheur modélise la répartition estimée de l’espèce en fonction de l’impact du changement climatique observé sur les variables explicatives, ce qui lui permet d’établir une estimation du nouvel habitat de l’espèce suite aux effets projetés du changement climatique.
  • Un analyste des risques d’inondations souhaite estimer la probabilité d’une inondation suite au passage d’un ouragan dans une zone d’étude. En complément de l’imagerie aérienne haute résolution prise au cours de l’événement, l’analyste utilise les données physiques et socio-économiques réparties spatialement, et les associe à des données collaboratives pour modéliser la présence d’une inondation. Ce modèle permettra à l’analyste d’identifier les zones les plus susceptibles de nécessiter une aide d’urgence immédiatement après le passage de l’ouragan (Mobley, et. al, 2019).
  • Un épidémiologiste modéliste l’apparition de nouvelles maladies infectieuses. Il utilise les localisations de contagion pathogène et les facteurs écologiques connus existants, tels que la température, les précipitations, l’occupation du sol, l’indice de végétation par différence normalisée (NDVI) et la durée d’ensoleillement comme indicateurs dans un modèle. Le modèle permet de créer une surface de risque préliminaire qui reflète la possibilité d’apparition de nouvelles maladies infectieuses (Du, et.al., 2014).

MaxEnt

Un aspect des problèmes d’analyse spatiale s’intéresse à la modélisation et à l’estimation de l’occurrence d’un événement dans une géographie. Si la modélisation de la présence d’espèces à des fins écologiques et de préservation constitue un exemple courant d’utilisation de cet outil, les problèmes de prévision de présence couvrent en réalité différents domaines et applications.

Dans certains cas, les données de présence sont enregistrées sous la forme d’un décompte d’événements de présence dans des cellules de quadrats : le décompte s’incrémente à chaque observation à un emplacement donné et différentes approches de modélisation peuvent être utilisées pour modéliser ce décompte, comme la méthode Poisson de l’outil de Régression linéaire généralisée. Dans d’autres cas, les données de présence et d’absence explicites sont enregistrées à intervalle déterminé à des emplacements connus, comme les stations de surveillance de la qualité de l’air qui enregistrent les niveaux d’ozone néfastes. Dans ces situations, la modélisation de la présence et de l’absence constitue un problème de classification binaire pouvant être traité à l’aide de différentes méthodes, telles que la régression logistique.

Le domaine de la modélisation d’espèces écologiques et plusieurs autres domaines, où la présence d’un événement est souvent enregistrée, mais l’absence d’un événement l’est rarement, la modélisation de la présence et de l’absence au moyen de méthodes de prévision multiclasses est compliquée par le manque de données d’absence explicites.

La méthode MaxEnt ne suppose, ni ne requiert aucune donnée d’absence. La méthode MaxEnt est une méthode généraliste permettant d’effectuer des prévisions ou des déductions à partir d’informations incomplètes (Phillips et al. 2006). À partir d’un ensemble d’emplacements de présence connue et de variables explicatives données décrivant la zone d’étude, l’approche MaxEnt compare les conditions entre les emplacements de présence et la zone d’étude pour déterminer une surface de probabilité de présence.

La méthode MaxEnt fonctionne avec trois entrées principales :

  • L’emplacement de points de présence connus.
  • Une zone d’étude.
  • Des variables explicatives, ou covariables, qui décrivent les facteurs environnementaux susceptibles d’être liés à la présence dans la zone d’étude.

La zone d’étude définit un paysage ou la présence est possible et est souvent représentée par un ensemble d’emplacements de présence inconnue. Ces emplacements sont également appelés points d’arrière-plan, et la méthode MaxEnt les utilise pour comparer les conditions entre les emplacements de présence et la zone d’étude afin d’estimer une surface de probabilité de présence.

La surface de probabilité de présence peut avoir différentes formes et MaxEnt choisit la forme qui ressemble le plus à l’environnement d’où elle a été tirée tout en réduisant toutes les autres hypothèses (ou en maximisant son entropie). "La méthode valide tout ce qui est connu, mais évite soigneusement de supposer ce qui ne l’est pas." (Jaynes 1990).

Outre son approche de modélisation, MaxEnt, comprend des étapes permettant d’effectuer la préparation des données en entrée, la transformation des variables explicatives, la préparation des données en sortie et la validation du modèle, ce qui en fait une méthode fiable pour modéliser les phénomènes de présence seule.

Utiliser l’outil Prévision de présence seule (MaxEnt)

L’outil Prévision de présence seule intègre certains aspects des processus de préparation des données, de modélisation, de sélection des variables et de prévision de MaxEnt. Cette section vous offre des informations importantes sur chaque paramètre afin de vous aider à créer des modèles plus adaptés.

Spécifier les emplacements de présence connue et les points d’arrière-plan

La prévision de présence seule requiert des données en entrée pour représenter les emplacements de présence connue. Le paramètre Input Point Features (Entités ponctuelles en entrée) permet de désigner un jeu de données existant contenant ces emplacements.

Les entités ponctuelles en entrée ne contiennent pas de points d’arrière-plan

Si vos entités ponctuelles en entrée ne contiennent pas de points d’arrière-plan, vous pouvez laisser le paramètre Contains Background Points (Contient des points d’arrière-plan non sélectionné.

Création automatique de points d’arrière-plan à l’aide de cellules raster

Lorsque le paramètre Contains Background Points (Contient des points d’arrière-plan) n’est pas sélectionné, l’outil utilise les centroïdes de cellules les plus grossiers des valeurs du paramètre Explanatory Training Rasters (Rasters d’entraînement explicatifs) qui s’intersectent dans la zone d’étude pour créer automatiquement des points d’arrière-plan.

Création automatique de points d’arrière-plan à l’aide de cellules raster

Vous pouvez utiliser le paramètre Output Trained Features (Entités formées en sortie) pour créer une sortie comprenant les points d’arrière-plan créés par l’outil.

Les entités ponctuelles en entrée contiennent des points d’arrière-plan

Si vos entités ponctuelles en entrée comprennent des points d’arrière-plan, vous pouvez utiliser les paramètres Contains Background Points (Contient des points d’arrière-plan) et Presence Indicator Field (Champ Indicateur de présence) avec des valeurs de champ identifiant chaque emplacement comme présence (1) ou arrière-plan (0).

Utilisation de points d’arrière-plan dans les entités ponctuelles en entrée

La proportion de points d’arrière-plan par rapport aux points de présence a un impact important sur les résultats de la prévision. Que les points d’arrière-plan soient fournis dans vos entités ponctuelles en entrée ou que l’outil les crée pour vous, nous vous conseillons de tester et de comparer les diagnostics de classification de vos modèles en utilisant différentes quantités de points d’arrière-plan. Vous pouvez utiliser le paramètre Spatial Thinning (Affinage spatial) pour réduire la quantité de points d’arrière-plan dans l’analyse. Consultez les sections Définition d’une zone d’étude et Réduction du biais d’échantillonnage à l’aide de l’affinage spatial pour plus d’informations.

Remarque :

Les données d’entraînement de l’outil doivent comporter au moins deux points de présence et deux points d’arrière-plan pour créer un modèle.

Spécifier des variables explicatives

Outre les points de présence connue et les points d’arrière-plan, l’outil utilise les variables explicatives pour créer le modèle de prévision. Il existe trois façons de spécifier les variables explicatives : en utilisant des rasters, en utilisant des champs dans les entités ponctuelles en entrée et en utilisant des entités de distance. Pour les rasters et les champs, les variables explicatives peuvent être continues ou catégorielles. Pour les variables explicatives catégorielles, l’outil requiert un minimum de trois points de données par catégorie.

Trois types de variables explicatives : raster, entite de distance et champs

Utiliser des variables explicatives issues de rasters

Vous pouvez utiliser les rasters pour représenter des conditions dans le paysage susceptibles d’être des indicateurs utiles de la présence d’un événement. La présence d’une espèce végétale peut par exemple dépendre fortement d’une plage d’altitude, vous pouvez ainsi utiliser un raster d’altitude pour associer les valeurs d’altitude aux emplacements de présence de la plante dans le modèle.

Cochez la case Categorical (Catégorielle) lorsque les rasters représentent des données catégorielles, comme des classes d’occupation du sol.

L’utilisation de variables explicatives issues de rasters est requise lorsque les entités ponctuelles en entrée ne comportent pas de points d’arrière-plan, puisque chaque cellule de la zone d’étude sera utilisée pour créer un point d’arrière-plan.

Les tailles de cellules des valeurs du paramètre Explanatory Training Rasters (Rasters d’entraînement explicatifs) ont un impact important sur le temps de traitement : plus la résolution est élevée plus le temps de traitement est long. Pour cette raison, l’outil est limité à un total de 100 millions de cellules dans la zone d’intérêt. L’outil Rééchantillonner permet de réduire la résolution spatiale du raster afin de diminuer le nombre de cellules et de raccourcir le temps de traitement.

Utiliser les variables explicatives issues de champs

Utilisez le paramètre Explanatory Training Variables (Variables d’entraînement explicatives) afin de spécifier les champs dont les attributs seront utilisés comme variables explicatives pour modéliser la présence du phénomène. Cette option n’est disponible que lorsque les entités ponctuelles en entrée comprennent des points d’arrière-plan et que le paramètre Contains Background Points (Contient des points d’arrière-plan) est sélectionné.

Utilisez la case à cocher Categorical (Catégoriel) pour indiquer si un champ fourni dans le paramètre Explanatory Training Variables (Variables d’entraînement explicatives) est catégoriel.

Utiliser des variables explicatives issues d’entités de distance

Utilisez le paramètre Explanatory Training Distance Features (Entités de distance d’entraînement explicatives) pour désigner les entités dont la proximité aux entités ponctuelles en entrée sera utilisée sous forme de variables explicatives. Cette option n’est disponible que lorsque les entités ponctuelles en entrée comprennent des points d’arrière-plan et que le paramètre Contains Background Points (Contient des points d’arrière-plan) est sélectionné.

Les entités de distance permettent de créer automatiquement des variables explicatives en calculant une distance à partir des entités ponctuelles en entrée vers l’entité spécifiée la plus proche. Si le paramètre Explanatory Training Distance Features (Entités de distance d’entraînement explicatives) a pour valeur des polygones ou des lignes, les attributs de distance sont calculés comme étant la distance entre les segments les plus proches de la paire d’entités. Les distances sont calculées différemment pour les polygones et les lignes ; consultez la rubrique Calcul de la distance avec les outils de proximité pour plus d’informations.

Pour des raisons de performance, le paramètre Explanatory Training Distance Features (Entités de distance d’entraînement explicatives) n’est pas disponible lorsque les entités ponctuelles en entrée ne comprennent pas de points d’arrière-plan. Vous pouvez toutefois utiliser les entités de distance lorsque vous utilisez les points de présence seule à l’aide de l’outil Accumulation de distance pour créer des rasters de distance. Les cellules des rasters de distance contiennent des valeurs décrivant la distance entre la cellule et l’entité la plus proche dans une source de données spécifiée. Une fois les rasters de distance créés, vous pouvez les utiliser comme données d’entrée dans le paramètre Explanatory Training Rasters (Rasters d’entraînement explicatifs) pour les entités ponctuelles en entrée de présence seule.

Préparer les données des entrées du modèle

L’outil intègre des étapes de préparation des données pour les entités ponctuelles en entrée fournies et les variables explicatives sspécifiées. La préparation des données comprend une transformation des variables à l’aide de fonctions de base, la spécification d’une zone d’étude et la réduction du biais d’échantillonnage au moyen de l’outil d’affinage spatial.

Transformer des variables explicatives à l’aide de fonctions de base

Les caractéristiques du paysage sont utilisées comme variables explicatives candidates dans la méthode MaxEnt. Dans certains cas, les relations entre les conditions favorisant la présence d’un événement et l’occurrence de celui-ci peuvent être complexes. Pour faciliter l’intégration de formes de relation plus élaborées dans le modèle, l’outil transforme (ou étend) ces variables explicatives candidates à l’aide de fonctions de base.

Vous pouvez sélectionner plusieurs fonctions de base au cours d’une même exécution de l’outil en utilisant le paramètre Explanatory Variable Expansions (Basis Functions) [Expansions de variables explicatives (fonctions de base)] pour que toutes les versions transformées des variables explicatives soient ensuite utilisées dans le modèle. Les variables les plus performantes sont sélectionnées par régularisation, une méthode de sélection des variables basée sur un équilibre entre complexité et adéquation du modèle.

Il existe cinq types de fonctions de base, qui tiennent compte de différents aspects lorsque l’on essaye de modéliser des phénomènes complexes.

  • Original (Linear) [Original (linéaire)] : une fonction de base linéaire est appliquée aux variables en entrée et peut être utilisée lorsqu’il n’y a pas besoin d’appliquer une transformation. Il s’agit de l’option par défaut.

    Cet outil est par exemple utilisé lorsque l’on souhaite modéliser la présence d’une espèce ayant besoin d’accéder à un cours d’eau. L’utilisation de la fonction de base linéaire pour une variable correspondant à la distance par rapport à un cours d’eau permet au modèle d’estimer la relation linéaire entre la présence d’une espèce et la distance par rapport à un cours d’eau. Le coefficient obtenu peut être utilisé pour interpréter la relation linéaire marginale avant d’essayer des formes de relation plus complexes.

    Utilisez la fonction de base Original (Linear) [Original (linéaire)] lorsque l’interprétabilité est une priorité du modèle. Puisqu’aucune transformation n’a lieu, la méthode linéaire est la plus adaptée pour interpréter des coefficients dans le contexte de leur impact sur la probabilité de présence.

    Fonction de base linéaire

    Remarque :

    Les variables explicatives catégorielles n’autorisent que l’utilisation de la fonction de base Original (Linear) [Original (linéaire)]. Lorsque des variables explicatives continues et catégorielles sont appliquées en même temps, vous pouvez choisir plusieurs fonctions de base, néanmoins seule la fonction de base Original (Linear) [Original (linéaire)] sera appliquée aux variables catégorielles.

  • Squared (Quadratic) [Carré (quadratique)] : transforme chaque valeur de variable explicative en l’élevant au carré, obtenant ainsi une relation quadratique entre la variable explicative et la réponse de présence. Dans certains domaines, comme la répartition de la présence d’une espèce, la réponse d’une espèce à des conditions environnementales est souvent non linéaire et unimodale (Austin 2002, 2007), et une approche quadratique est la plus à même de représenter les relations.

    Dans certains cas, bien qu’une relation quadratique puisse être inhérente à la relation entre une variable explicative et un événement de réponse, il est possible que les données d’échantillonnage des entités ponctuelles en entrée ne représentent qu’un aspect de la relation parabolique. Une espèce tropicale peut par exemple avoir une relation parabolique avec la température : des températures extrêmement froides résultant en une probabilité de présence faible, des températures tropicales entraînant une probabilité élevée et des températures extrêmement chaudes entraînant à nouveau une probabilité faible. Si les données d’échantillonnage de cette espèce n’incluent pas de températures très froides, il est possible de représenter simplement la relation de manière linéaire (Merow et al. 2013).

    Fonction de base quadratique

  • Pairwise interaction (Product) [Interaction deux par deux (produit) : applique une multiplication deux par deux aux variables explicatives. Par exemple, si trois variables, A, B et C, sont sélectionnées, cette fonction de base génère les variables transformées en multipliant A x B, A x C et B x C. Ces variables transformées sont généralement connues en tant que termes d’interaction et peuvent être des représentations utiles des relations complexes dépendant des conditions de plusieurs variables. Par exemple, un terme d’interaction comprenant à la fois un revenu et une distance par rapport à un point de vente peut constituer un meilleur indicateur de la fidélisation des clients que si chaque variable est utilisée indépendamment.

    Si les variables explicatives transformées par la méthode Pairwise interaction (Product) [Interaction deux par deux (Produit)] peuvent être utiles pour modéliser l’interaction entre des conditions environnementales., l’interprétabilité des modèles peut s’avérer plus complexe, les termes d’interaction compliquant la distinction des effets d’une variable explicative par rapport à l’autre. Ceci est particulièrement important lors de l’évaluation du coefficient de chaque variable explicative et des tracés de réponse partiels.

    Fonction de base Produit

    Remarque :

    L’option Pairwise interaction (Product) [Interaction deux par deux (produit)] est uniquement disponible lorsque plusieurs variables continues explicatives sont sélectionnées.

  • Discrete step (Threshold) [Étape discrète (seuil)] : convertit la variable explicative continue en une variable explicative binaire après application d’une fonction par étapes : les valeurs se trouvant sous un seuil donné se voient attribuer une valeur de 0 et celles qui sont supérieures à ce seuil, une valeur de 1.

    Le paramètre Number of Knots (Nombre de nœuds) contrôle le nombre de seuils créés, chaque seuil étant ensuite utilisé pour créer plusieurs variables explicatives transformées. Les seuils sont appliqués entre les valeurs minimale et maximale d’une variable explicative pour créer des segments de même longueur.

    Dans un exemple de cas d’utilisation, l’outil Presence-only Prediction (Prévision de présence seule) est exécuté dans le but d’étudier l’impact des températures élevées sur l’occurrence (par exemple : au-dessus de 32 degrés Celsius ou pas) À l’aide de la fonction de base Seuil, la variable de température continue est divisée en valeurs de 1 (au-dessus de 32 degrés) et 0 (en dessous de 32 degrés), ce qui permet d’interpréter chaque condition selon sa relation à la présence.

    Fonction de base Seuil

  • Smoothed step (Hinge) [Étape lissée (charnière) : convertit la variable explicative continue en deux segments, un segment statique (uniquement des zéros et ou des uns) et une fonction linéaire (croissante ou décroissante), séparés par un seuil appelé nœud. Ceci peut être effectué en utilisant une charnière avant (commencez par des zéros entre le minimum et le nœud, puis appliquez une fonction linéaire croissante entre le nœud et le maximum) ou une charnière inversée (commencez par une fonction linéaire croissante entre le minimum et le nœud, puis appliquez tous les uns entre le nœud et le maximum).

    Le paramètre Number of Knots (Nombre de nœuds) contrôle la quantité de transformations de variables explicatives produites, se traduisant par (Nombre de nœuds - 1) * 2 variables explicatives transformées. Le sens de cette formule est le suivant : le nombre de nœuds détermine le nombre d’intervalles égaux utilisés entre les valeurs minimale et maximale de la variable explicative (soit le nombre de nœuds moins un), et autant de variables transformées par une charnière avant que par une charnière arrière sont créées (multiplication par 2).

    Dans un exemple de cas d’utilisation, l’outil est exécuté dans le but d’étudier l’incidence de la variation des températures chaudes (par exemple : conserver toutes les valeurs supérieures à 32 degrés Celsius et ignorer les températures inférieures). La fonction de base Charnière permet de conserver les variations de la variable au-dessus du nœud (en appliquant une fonction linéaire à toutes les valeurs supérieures à 32 degrés) et d’atténuer le bruit provenant des données en dessous du nœud (en convertissant toutes les valeurs inférieures à 32 degrés en 0).

    Les options Smoothed step (Hinge) [Étape lissée (Charnière)] et Discrete step (Threshold) [Étape discrète (Seuil)] sont des fonctions segmentées qui s’excluent mutuellement : la sélection de l’une empêche la sélection de l’autre. Lorsque l’une de ces options est sélectionnée, il est recommandé de tester plusieurs exécutions du modèle et d’ajuster la valeur du paramètre Number of Knots (Nombre de nœuds) afin d’interpréter la façon dont ces seuils contribuent à améliorer ou à détériorer le modèle.

    Fonction de base Charnière

    L’outil utilise plusieurs versions transformées de chaque variable explicative lorsque vous tentez de modéliser des conditions complexes qui favorisent la présence d’un phénomène. Par exemple, un modèle utilisant la température annuelle moyenne pour estimer la probabilité de présence d’une espèce de tortue du désert peut utiliser différentes expansions de variables pour décrire la relation complexe existant entre les températures et l’habitat des tortues du désert.

    Tracé de réponse partiel de la température annuelle moyenne et de la présence de l’espèce

    Le tracé de réponse partielle ci-dessus montre la réponse marginale de la probabilité de présence selon l’évolution de la température annuelle moyenne. Tous les autres facteurs restant constants, la probabilité de présence se comporte ainsi :

    • Augmente de manière linéaire à mesure que la température annuelle moyenne augmente entre 0 et 15 degrés Celsius
    • Diminue graduellement entre 15 et 21 degrés Celsius
    • Décroît rapidement lorsque les valeurs de température annuelle moyenne sont supérieures à 21 degrés Celsius.

    L’outil utilise plusieurs fonctions de base pour générer des expansions de variables explicatives qui représentent le mieux ce type de relation, en sélectionnant les transformations les plus utiles via un processus nommé régularisation.

Régularisation

La méthode MaxEnt est susceptible de surajuster les données d’entraînement. Pour réduire ce problème, la méthode applique une forme de régularisation qui pénalise les coefficients élevés des variables explicatives, forçant le modèle à se concentrer sur les variables explicatives les plus importantes (Phillips et al. 2006).

Le concept de régularisation peut être comparé, par exemple, au partage d’un budget limité de coefficients entre toutes les variables explicatives fournies à un modèle. À mesure que les coefficients diminuent pour respecter le budget, plusieurs variables explicatives à faibles coefficients sont réduites à zéro et, en conséquence, supprimées du modèle. Le modèle est ainsi contraint de réduire le nombre des variables explicatives, ne conservant que celles dont les coefficients étaient suffisamment élevés pour subsister dans un budget de coefficients. Le nombre de variables explicatives étant restreint, le modèle est moins susceptible de subir des surajustements et plus facile à interpréter. Selon le principe de parcimonie, l’explication la plus simple d’un phénomène est généralement la meilleure (Phillips et al., 2006).

La régularisation permet également de traiter le problème de la multicolinéarité : lorsque des variables explicatives associées sont ajoutées, la valeur de coefficient totale liée à une variable unique se retrouve partagée entre plusieurs variables corrélées, engendrant des coefficients moins élevés pour les variables multicolinéaires. La régularisation pénalisant les valeurs de coefficient restantes, les coefficients des variables multicolinéaires sont plus susceptibles d’être réduits à zéro et supprimés du modèle.

Localiser une zone d’étude

Une zone d’étude doit être spécifiée lorsque les points d’arrière-plan ne font pas partie de vos entités ponctuelles en entrée. Elle définit les lieux où la présence est possible. Vous pouvez utiliser trois options du paramètre Study Area (Zone d’étude) pour définir votre zone d’étude :

  • Convex hull (Enveloppe convexe) : utilise l’enveloppe convexe des entités ponctuelles en entrée.

    Zone d’étude Enveloppe convexe

  • Raster extent (Étendue raster) : l’étendue de l’intersection des rasters fournis dans le paramètre Explanatory Training Rasters (Rasters d’entraînement explicatifs).

    Zone d’étude de l’étendue des rasters

  • Study area polygon (Polygone de zone d’étude) : utilise une limite de classe d’entités surfaciques personnalisée spécifiée dans le paramètre Study Area Polygon (Polygone de zone d’étude).

    Zone d’étude surfacique personnalisée

La zone d’étude a un impact important sur le résultat du modèle : l’étendue de la zone d’étude détermine quelles cellules raster issues des rasters d’entraînement explicatifs seront utilisés pour créer des points d’arrière-plan. Les points d’arrière-plan déterminent les conditions environnementales dans lesquelles une présence est possible et sont comparés aux conditions environnementales où une présence est observée. Les résultats de la prévision varient lorsque la proportion de points d’arrière-plan par rapport aux points de présence change.

La zone d’étude détermine l’étendue des données d’entraînement du modèle. Les entités ponctuelles en entrée dans ce scénario représentent les emplacements où une présence a été observée et la zone d’étude représente les emplacements où une présence est possible (sans avoir été forcément observée). Il est donc recommandé que la zone d’étude d’une analyse soit guidée par la conception de l’enquête au cours de laquelle les points de présence ont été collectés. Par exemple, si une enquête visant à collecter des points de présence a inspecté de manière approfondie une région de 100 kilomètres carrés, le polygone d’emprise délimitant cette région peut être utilisé comme zone d’étude.

Dans certains cas, il peut être utile d’utiliser des zones d’analyse différentes pour un ensemble donné d’entités ponctuelles en entrée afin d’explorer les différentes dynamiques d’un phénomène (Elith et al. 2011, 51–52).

Réduire le biais d’échantillonnage à l’aide de l’affinage spatial

Le biais d’échantillonnage se produit lorsque les zones échantillonnées représentées dans les entités ponctuelles en entrée présentent des agrégats spatiaux distincts. Par exemple, les collectes de données sont en général conduites à proximité de routes, de chemins et d’autres conditions qui facilitent la collecte de données. Le biais d’échantillonnage crée un amalgame entre les données censées indiquer la présence d’un phénomène et les données montrant la présence de conditions favorables à la collecte de données. Le biais d’échantillonnage est inhérent à la plupart des jeux de données de présence seule et n’est mitigé que dans les conceptions d’enquêtes les plus strictes et les plus structurées.

La technique de l’affinage spatial permet de réduire l’incidence du biais d’échantillonnage sur le modèle en supprimant des points de présence et d’arrière-plan dans les données d’entraînement de façon à avoir une distance minimum spécifiée entre les points. En réduisant le nombre de points se trouvant à une distance spécifiée les uns des autres, les zones spatialement suréchantillonnées diminuent dans les données d’entraînement du modèle.

Affinage spatial des points en entrée

Pour utiliser l’affinage spatial, sélectionnez le paramètre Apply Spatial Thinning (Appliquer l’affinage spatial) et renseignez des valeurs pour les deux paramètres suivants :

  • Minimum Nearest Neighbor Distance (Distance minimale par rapport au plus proche voisin) : détermine à quelle proximité deux points peuvent se trouver l’un de l’autre.
  • Number of Iterations for Thinning (Nombre d’itérations pour l’affinage) : définit le nombre de tentatives à effectuer pour supprimer des points et aboutir à une solution appropriée. Une fois que ce nombre d’exécutions d’affinage spatial est atteint, l’exécution comportant le plus de points restants est utilisée pour entraîner le modèle.

L’affinage spatial s’applique à la fois aux points de présence et aux points d’arrière-plan, même si ces derniers sont générés par l’outil lorsque des données de présence seule sont utilisées. L’affinage spatial est appliqué séparément aux points d’arrière-plan et aux points de présence. La distance entre un point de présence et un point d’arrière-plan peut donc être inférieure à la distance minimale du voisin le plus proche.

Affinage spatial séparé appliqué aux points de présence et d’arrière-plan

Lorsque des points d’arrière-plan sont créés par l’outil à l’aide de cellules raster, l’affinage spatial est appliqué en ré-échantillonnant le raster sur la valeur du paramètre Minimum Nearest Neighbor Distance (Distance minimale par rapport au plus proche voisin) et en utilisant les centroïdes des cellules raster obtenus comme points d’arrière-plan affinés spatialement.

L’’affinage spatial est une technique utile pour réduire les problèmes posés par les rasters comportant un grand nombre de cellules, car elle diminue le nombre de points d’arrière-plan. Quelle que soit la résolution du raster, le même nombre approximativement de points d’arrière-plan est conservé après affinage, selon la distance minimale du voisin le plus proche spécifiée.

L’affinage spatial n’est pas appliqué aux cas où la valeur de la distance minimale par rapport au plus proche voisin est inférieure à la distance la plus courte entre deux points quelconques (provenant d’entités ponctuelles en entrée ou découlant de centroïdes de cellules raster), car les données remplissent les critères d’affinage spatial.

Configurer le modèle

L’outil comprend plusieurs paramètres permettant de configuer et d’ajuster le modèle. S’il n’est pas nécessaire d’utiliser tous les paramètres pour exécuter l’outil, comprendre comment fonctionne le modèle et comment chaque paramètre est utilisé peut avoir un impact important sur l’efficacité de l’outil dans vos processus de modélisation de présence.

Définir la pondération relative de présence par rapport à l’arrière-plan

L’outil utilise le paramètre Relative Weight of Presence to Background (Pondération relative de présence par rapport à l’arrière-plan) pour déterminer comment les points d’arrière-plan sont pris en compte par le modèle.

La valeur par défaut de 100 indique que les points de présence dans les entités ponctuelles en entrée constituent la première source d’informations de présence. L’occurrence à chacun des points d’arrière-plan est inconnue, et ceux-ci permettent uniquement de représenter des caractéristiques du paysage où la présence est possible, mais inconnue. Une valeur de 1 indique que les points d’arrière-plan sont aussi significatifs que les points de présence. Comme ce ne sont pas des emplacements de présence mais que leur importance est égale, ils représentent des emplacements d’absence connue. En tant qu’emplacements d’absence, les points d’arrière-plan peuvent alors être utilisés à égalité et en association avec les emplacements de présence pour générer un modèle de classification binaire permettant d’évaluer à la fois la présence et l’absence.

Cette valeur influe fortement sur le fonctionnement du modèle et sur les prévisions générées par l’outil. Si la valeur Relative Weight of Presence to Background (Pondération relative de présence par rapport à l’arrière-plan) est proche de 100, le modèle applique l’approche classique de la méthode MaxEnt. Si la valeur est égale à 1, le modèle traite à égalité chaque point de présence et d’arrière-plan, et est comparable à une régression logistique.

Il est recommandé de s’appuyer sur des experts du domaine pour choisir des valeurs appropriées entre 1 et 100 pour le paramètre Relative Weight of Presence to Background (Pondération relative de présence par rapport à l’arrière-plan), ces valeurs pouvant être considérées comme une représentation de la prévalence de l’événement dans la zone d’étude.

Utiliser des fonctions de liaison et des seuils de probabilité de présence pour interpréter les sorties

Un taux d’occurrence relatif pour chaque emplacement constitue une sortie intermédiaire du modèle (non renvoyée par l’outil). Cette sortie intermédiaire ne représente pas la probabilité de l’occurrence, mais correspond à l’adéquation relative de chaque emplacement pour favoriser la présence sur l’ensemble de la zone d’étude. Pour traduire ces valeurs brutes en valeurs pouvant être interprétées en tant que probabilités de présence et prévisions de présence, utilisez le paramètre Presence Probability Transformation (Link Function) [Transformation de la probabilité de présence (fonction Liaison)] pour spécifier une fonction de liaison et le paramètre Presence Probability Cutoff (Limite de la probabilité de présence) pour spécifier une valeur limite.

Deux options sont disponibles pour le paramètre Presence Probability Transformation (Link Function) [Transformation de la probabilité de présence (fonction Liaison)] :

  • C-log-log : utilise la formule 1-exp(-exp(entropie + sortie brute)) pour calculer la probabilité de présence à chaque emplacement. Il s’agit de l’option par défaut.

  • Logistic (Logistique) : utilise la formule 1/(1+exp(-entropie - sortie brute)) pour calculer la probabilité de présence à chaque emplacement.

Les fonctions de liaison sont associées à l’ambiguité pouvant faire partie des points de présence enregistrés. Utilisez l’option C-log-log lorsque la localisation et l’occurrence d’un phénomène sont claires et sans ambiguité, par exemple, lorsque les points de présence représentent les emplacements d’une espèce végétale. Utilisez l’option Logistic (Logistique) lorsque l’emplacement et l’occurrence d’un phénomène sont ambigus ou difficiles à définir, par exemple lorsque les points de présence représentent les emplacements d’une espèce d’animal migrateur.

Les probabilités de présence générées par ces fonctions de liaison sont fournies sous forme de valeurs comprises entre 0 et 1. Utilisez le paramètre Presence Probability Cutoff (Limite de la probabilité de présence) pour spécifier un seuil de probabilité permettant de classer un emplacement en tant que présence. La valeur par défaut est 0,5 ; une valeur supérieure ou égale à 0,5 est classée en tant que présence. Vous pouvez saisir une limite personnalisée comprise entre 0,01 et 0,99.

Les résultats de classification utilisant la valeur limite sont comparés aux points de présence connue dans les entités ponctuelles en entrée et les diagnostics sont fournis dans les messages de géotraitement et dans les entités entraînées en sortie.

Spécifier les sorties d’entraînement du modèle

Les sorties de l’outil sont organisées en sorties d’entraînement et sorties de prévision. La principale distinction est que les sorties d’entraînement correspondent aux données qui ont été utilisées dans l’entraînement et la sélection du modèle, tandis que les sorties de prévision correspondent à des données qui n’ont pas encore été soumises au modèle.

Entités entraînées en sortie

Le paramètre Output Trained Features (Entités entraînées en sortie) peut être utilisé pour générer une classe d’entités contenant les points utilisés dans l’entraînement du modèle. Cette sortie symbolise chaque point entraîné en comparant la classification issue du modèle à la classification observée.

Symbologie et légende pour les entités entraînées en sortie

Les points inclus dans les entités entraînées en sortie ne sont pas nécessairement les mêmes que les points des entités ponctuelles en entrée, puisque des points d’arrière-plan sont générés lorsque les données de présence seule sont utilisées et puisque l’affinage spatial peut réduire le nombre de points utilisés pour entraîner le modèle.

Trois diagrammes sont inclus avec les entités entraînées en sortie :

  • Classification Result Percentages (Pourcentages du résultat de classification) : permet d’évaluer la part des prévisions correctes à l’aide de la classification observée dans les entités d’entraînement.

    Diagramme Pourcentages du résultat de classification

  • Count of Presence and Background by Probability Ranges (Nombre de points de présence et d’arrière-plan par plages de probabilité) : permet de comparer la distribution des valeurs de probabilité de présence du modèle aux classifications d’arrière-plan et de présence observées.

    Diagramme du nombre de points de présence et d’arrière-plan par plages de probabilité

  • Distribution of Probability of Presence by Classifications (Distribution de la probabilité de présence par classifications) : permet de visualiser la distribution des plages de probabilité de présence par désignation de classification.

    Diagramme de distribution des probabilités de présence par classifications

Raster entraîné en sortie

Vous pouvez choisir d’utiliser le paramètre Output Trained Raster (Raster entraîné en sortie) pour créer un raster qui classe la probabilité de présence à chaque cellule dans l’étendue des données d’entraînement en sortie en quatre catégories. Ce paramètre est disponible uniquement lorsque les entités ponctuelles utilisées n’incluent pas de points d’arrière-plan.

L’étendue du raser entraîné en sortie correspond à l’intersection des rasters d’entraînement explicatifs dans la zone d’étude. La taille de cellule par défaut correspond à la taille de cellule maximale des entrées raster que vous pouvez modifier dans l’environnement Taille de cellule.

Symbologie et légende de raster entraîné en sortie

Table de courbe de réponse et table de sensibilité

Vous pouvez utiliser le paramètre Output Response Curve Table (Table de courbe de réponse en sortie) pour créer une table avec des diagrammes permettant de visualiser l’incidence marginale de chaque variable explicative sur la prévision de présence. Ceci est également appelé dépendance partielle, ou réponse partielle, de la présence du phénomène par rapport à chaque variable explicative.

Le diagramme Partial Response of Continuous Variables (Réponse partielle de variables continues) se compose de plusieurs diagrammes ; chacun d’entre eux représentant l’effet de la variation des valeurs de chaque variable explicative sur la probabilité de présence, les autres facteurs demeurant identiques.

Diagramme Réponse partielle des variables continues

Le diagramme Réponse partielle des variables catégorielles est un diagramme à barres unique qui illustre la réponse marginale de la présence de chaque catégorie de variable explicative.

Diagramme réponse partielle des variables catégorielles

Le paramètre Output Sensitivity Table (Table de sensibilité en sortie) génère une table comprenant deux diagrammes :

  • Diagramme Omission Rates (Taux d’omission) : permet d’évaluer la part des points de présence connue classés par erreur comme points de non présence par le modèle, à l’aide d’une plage de valeurs limites de probabilité de présence comprise entre zéro et un.

    Diagramme Taux d’omission

  • Diagramme ROC Plot (Courbe ROC) : permet de comparer la part des points de présence connue correctement classés, connue sous le nom de sensibilité du modèle, et la part des points d’arrière-plan qui ont été classés en tant que présence. Comme pour le diagramme Omission Rates (Taux d’omission), cette comparaison est effectuée sur une plage de valeurs limites de probabilité de présence comprise entre zéro et un.

    Diagramme Courbe ROC

Appliquer le modèle de prévision

Outre les modèles d’entraînement, l’outil Prévision de présence seule permet d’appliquer des modèles entraînés pour estimer la présence à de nouveaux emplacements à l’aide des paramètres figurant dans la catégorie de paramètres Prediction Options (Options de prévision).

Configurer l’outil de prévision à l’aide de nouvelles entités de prévision en entrée

Le paramètre Input Prediction Features (Entités de prévision en entrée) spécifie les emplacements où l’outil appliquera le modèle entraîné pour estimer la présence. Le paramètre Output Prediction Features (Entités de prévision en sortie) indique une sortie contenant les résultats de la prévision appliquée à la valeur du paramètre Input Prediction Features (Entités de prévision en entrée).

Pour chaque variable explicative utilisée dans l’entraînement du modèle, vous devez spécifier une variable explicative appariée sous la forme d’un champ, d’une entité de distance ou d’un raster à l’aide des paramètres Match Explanatory Variables (Apparier les variables explicatives), Match Distance Features (Apparier les entités de distance) et Match Explanatory Rasters (Apparier les rasters explicatifs).

Les plages des valeurs rencontrées dans les données de prévision peuvent différer des plages des valeurs trouvées dans les données d’entraînement. Ainsi, un raster d’altitude pour entraîner un modèle peut inclure des valeurs comprises entre 400 et 1 000 mètres, tandis que le raster d’altitude correspondant pour la prévision des emplacements comporte des zones doù l’altitude est comprise entre 200 et 1 200 mètres. S’il est conseillé de conserver les plages de variables explicatives des emplacements de prévision dans les limites des plages trouvées dans les données d’entraînement, le paramètre Allow Predictions Outside of Data Ranges (Autoriser les prévisions en dehors des plages de données) permet au modèle d’extrapoler et de fournir également des estimations pour ces emplacements. Les messages de géotraitement de l’outil permettent de déterminer si des plages des variables explicatives dépassent les plages des données d’entraînement.

Vous pouvez également utiliser le paramètre Output Prediction Raster (Raster de prévision en sortie) pour créer un raster contenant les résultats des prévisions du modèle appliquées à chaque cellule dans l’étendue de l’intersection des rasters fournis par le paramètre Match Explanatory Rasters (Apparier les rasters explicatifs). L’utilisation de ce paramètre permet d’obtenir une surface de prévision sur l’ensemble des conditions environnementales disponibles pour les emplacements de prévision.

Symbologie et légende du raster de prévision en sortie

La différence entre raster de prévision en sortie et raster d’entraînement en sortie réside en ce que le raster d’entraînement est généré uniquement pour l’étendue des données d’entraînement utilisées dans le modèle, tandis que le raster de prévision est généré pour l’étendue des entités de prévision en entrée et de l’intersection de leurs rasters explicatifs appariés.

Valider le modèle

L’outil propose des options permettant de valider et d’évaluer un modèle. Il est recommandé d’utiliser ces options en conjonction avec les paramètres Output Response Curve Table (Table de courbe de réponse en sortie) et Output Sensitivity Table (Table de sensibilité en sortie) pour évaluer la qualité et l’utilité d’un modèle.

Utiliser le ré-échantillonnage et la validation croisée

Les paramètres Resampling Scheme (Structure de ré-échantillonnage) et Number of Groups (Nombre de groupes) de la catégorie de paramètres Validation Options (Options de validation) indiquent si une validation croisée sera appliquée au modèle.

Si la structrure de ré-échantillonnage Random (Aléatoire) est sélectionnée, l’outil subdivisionne les données d’entraînement selon le nombre de groupes spécifiés.

Structure de ré-échantillonnage utilisant des groupes aléatoires

L’outil démarre ensuite une itération à travers chaque groupe : en sélectionnant les données pour que le groupe actuel devienne le sous-ensemble de validation et en sélectionnant les données collectives pour que tous les groupes restants forment le sous-ensemble d’entraînement.

Sous-ensembles de validation et d’entraînement du premier groupe

L’outil crée un modèle en utilisant le sous-ensemble d’entraînement du groupe et prévoit la présence de chaque entité de validation. Les résultats de la prévision sont ensuite comparés aux désignations de présence connue et d’arrière-plan dans le sous-ensemble de validation.

L’outil continue ce traitement par itération et en autorisant chaque groupe à endosser le rôle du sous-ensemble de validation. Ce traitement est généralement désigné sous le nom de validation croisée à K volets, où K correspond au nombre de groupes.

Validation croisée à travers chaque groupe

Pour chaque groupe, le pourcentage d’entités de présence correctement classées et le pourcentage d’entités d’arrière-plan classées comme présence potentielle sont enregistrés. Les diagnostics de chaque groupe aident à déterminer comment le modèle fonctionnera lors de l’estimation de la présence dans des emplacements inconnus. Ces diagnostics sont inclus dans les messsages de géotraitement de l’outil.

Diagnostics de validation croisée dans les messages de géotraitement

L’outil requiert au moins deux points de présence et deux points d’arrière-plan dans le sous-ensemble d’entraînement afin que chaque groupe puisse créer un modèle de validation croisée. Si les groupes sélectionnées aléatoirement par l’outil ne génèrent pas au moins deux points de présence et deux points d’arrière-plan dans les sous-ensembles d’entraînement de chaque groupe, l’outil tente de recréer les groupes jusqu’à ce que cette exigence soit remplie ou jusqu’à 10 tentatives. Si l’outil ne parvient toujours pas à satisfaire cette exigence pour la validation croisée après 10 tentatives à l’aide des données fournies, il émet un avertissement indiquant que la validation croisée n’est pas possible.

Messages de géotraitement

Le rapport inclus dans les messages de géotraitement est une sortie importante de l’outil. Le rapport comprend des données importantes sur le modèle entraîné, notamment une table des paramètres du modèle, les diagnostics de comparaison du modèle, les coefficients de régression, un résumé catégoriel (si certaines variables explicatives sont catégorielles), un résumé de la validation croisée (pour la structure de rééchantillonnage aléatoire) et des diagnostics de plage de variables explicatives pour les données d’entraînement et de prévision (si des entités de prévision ont été utilisées en entrée).

Messages de caractéristiques du modèle

La table Regression Coefficients (Coefficients de régression) présente les variables explicatives utilisées dans l’entraînement du modèle après régularisation. Chaque entrée comprend le nom de la variable explicative, l’expansion de base correspondante et le coefficient obtenu. Les noms des variables explicatives indiquent la nature de l’expansion de base. Par exemple, une variable de produit composée d’une variable Elevation et d’une variable ClimaticWaterDeficit est nommée product(ELEVATION, CLIMACTICWATERDEFICIT). Les coefficients sont arrondis à quatre chiffres après la virgule.

Messages des coefficients de régression

La table Cross-Validation Summary (Résumé de validation croisée) comprend l’ID de chaque groupe de validation croisée, le nombre d’observations dans ses sous-ensembles de validation et d’entraînement, le pourcentage d’entités de présence observées prévues comme présence, et le pourcentage d’entités d’arrière-plan observées prévues comme arrière-plan.

Diagnostics de validation croisée dans les messages de géotraitement

La table Explanatory Variable Range Diagnostics (Diagnostics de plage de variables explicatives) comprend chaque variable explicative fournie (sous la forme d’un champ, d’une entité de distance ou d’un raster), ses valeurs minimum et maximum trouvées dans les données d’entraînement et, si des entités de prévision sont utilisées en entrée, les valeurs minimum et maximum trouvées dans les données de prévision.

Messages des diagnostics de plage de variables explicatives

Pratiques conseillées et éléments à prendre en compte

Plusieurs pratiques conseillées et éléments sont à prendre à compte lors de l’utilisation de cet outil :

Multicolinéarité

Même si la régularisation de l’outil permet d’atténuer l’impact de la multicolinéarité sur les variables explicatives, il est néanmoins recommandé d’identifier et de réduire le nombre de variables explicatives corrélées. Les outils généralement utilisés pour analyser la multicolinéarité comprennent les diagrammes de matrice de nuages de points, la régréssion exploratoire et la réduction de dimension.

Données catégorielles

L’outil subdivise les données d’entraînement en entrée en plusieurs groupes pour effectuer la validation croisée lorsque l’option Random (Aléatoire) est sélectionnée pour le paramètre Resampling Scheme (Structure de ré-échantillonnage). Dans ce cas, les catégories comportant moins de trois points de données dans les groupes obtenus bloquent l’exécution de la validation croisée et un avertissement vous informe que la méthode de ré-échantillonnage n’a pas pu être appliquée. L’exécution de l’outil avec une valeur inférieure pour le paramètre Number of Groups (Nombre de groupes), réduit la probabilité de faire face à ce problème : chaque groupe étant plus grand et les catégories davantage susceptibles d’appartenir à chaque groupe.

Affinage spatial

Utilisez le paramètre Output Training Features (Entités d’entraînement en sortie) pour étudier les résultats de l’affinage spatial sur la valeur Input Point Features (Entités ponctuelles en entrée).

Pour créer un modèle à l’aide de l’affinage spatial et appliquer le modèle à toutes les entités ponctuelles en entrée, indiquez les mêmes entités dans les paramètres Input Point Features (Entités ponctuelles en entrée) et Input Prediction Features (Entités de prévision en entrée).

Valeur limite de probabilité

Pour déterminer une valeur appropriée pour le paramètre Presence Probability Cutoff (Limite de la probabilité de présence), utilisez les diagrammes Omission Rates (Taux d’omission) et ROC Plot (Courbe ROC).

Le diagramme Omission Rates (Taux d’omission) permet de visualiser comment plusieurs valeurs de paramètre Presence Probability Cutoff (Limite de la probabilité de présence) produisent différents taux de points de présence classés de manière erronée, également appelés taux d’omission. S’il est souhaitable d’avoir un taux d’omission proche de 0, il est également important de ne pas baisser la valeur limite dans le seul but deminimiser le taux d’omission, puisque ceci minimise également la façon dont de nombreux points d’arrière-plan sont classés comme présence potentielle (ce qui est un résultat utile dans de nombreux scénarios).

Diagramme Taux d’omission

Pour évaluer comment différentes valeurs de limite affectent le taux de points d’arrière-plan classés comme présence, utilisez le diagramme ROC Plot (Courbe ROC). Celui-ci comprend une comparaison entre les points de présence classés correctement et les points d’arrière-plan classés comme présence potentielle en fonction de différentes valeurs de limite de probabilité.

Diagramme Courbe ROC

L’objectif d’un diagramme ROC Plot (Courbe ROC) varie selon la nature des points d’arrière-plan. Lorsque des points d’arrière-plan représentent l’absence et que la valeur du paramètre Relative Weight of Presence to Background (Pondération relative de la présence par rapport à l’arrière-plan) est égale 1, le diagramme peut être utilisé comme une courbe ROC classique dans laquelle la sensibilité (points de présence correctement classés) est maximisée et la valeur 1-spécificité (arrière-plan et absence classés comme présence) est minimisée. Dans ce cas, les valeurs limites proche de l’angle supérieur gauche sont plus appropriées. Lorsque les points d’arrière-plan représentent des occurrences inconnues, mais possibles, la courbe ROC montre l’impact des différents taux de limite sur le nombre d’emplacements d’arrière-plan potentiels estimés comme présence.

Il est recommandé d’utiliser les deux diagrammes conjointement. Lorsque vous évaluez le diagramme des taux d’omission pour la valeur de limite par défaut de 0,5, sélectionnez le point de limite candidat dans le diagramme Omission Rates (Taux d’omission), et comparez cette entrée dans le diagramme ROC Plot (Courbe ROC).

Carte avec taux d’omission et diagrammes de Courbe ROC

Diagrammes d’entités entraînées en sortie pour validation

Le diagramme Classification Result Percentages (Pourcentages du résultat de classification) affiche une comparaison des classifications observées et prévues. Vous pouvez utiliser le diagramme pour évaluer la capacité du modèle à prévoir la performance sur les points de présence connue. Vous pouvez par exemple évaluer la performance du modèle en matière de prévision de présence sur les points de présence connue en examinant la portion de points de présence incorrectement classés. Dans les cas d’utilisation pour lesquels il est important de prévoir la présence sur les points d’arrière-plan, vous pouvez aussi utiliser ce diagramme pour afficher et sélectionner les points d’arrière-plan dont la présence est prévue.

Diagramme Pourcentages du résultat de classification utilisé pour évaluer les vrais et les faux positifs

Critère de sélection du modèle général

Voici un processus de sélection de modèle pouvant être appliqué à vos cas d’utilisation :

  1. Évaluez la valeur limite par défaut de probabilité de présence de 0,5 et son impact sur la capacité du modèle à identifier les emplacements de présence connue comme présence (sensibilité) à l’aide de l’axe y de la courbe ROC.

    Ouvrez les diagrammes Omission Rates (Taux d’omission) et ROC Plot (Courbe ROC) côte à côte. Sélectionnez la valeur limite par défaut de probabilité de présence de 0,5 dans la courbe des taux d’omission et notez la sensibilité obtenue sur l’axe y de la courbe ROC.

    Courbe des taux d’omission et courbe ROC représentant la valeur de sensibilité correspondant à la valeur limite

  2. Évaluez la valeur limite par défaut de probabilité de présence de 0,5 et son impact sur la capacité du modèle à identifier les emplacements d’arrière-plan connus comme arrière-plan (1-spécificité) à l’aide de l’axe x de la courbe ROC.

    Ouvrez les diagrammes Omission Rates (Taux d’omission) et ROC Plot (Courbe ROC) côte à côte. Sélectionnez la valeur limite par défaut de probabilité de présence de 0,5 dans la courbe des taux d’omission et notez la valeur (1-spécificité) obtenue sur l’axe x de la courbe ROC.

    Lorsque les points d’arrière-plan reflètent des emplacements avec une présence inconnue (en utilisant la valeur par défaut de 100 du paramètre Relative Weight of Presence to Background (Pondération relative de la présence par rapport à l’arrière-plan), ceci reflète la part des emplacements d’arrière-plan dans les données d’entraînement soumises qui sont estimées correspondre à une présence potentielle.

    Lorsque les points d’arrière-plan correspondent à une absence connue (en utilisant une valeur de 1 pour le paramètre Relative Weight of Presence to Background (Pondération relative de la présence par rapport à l’arrière-plan), ceci reflète la part de faux-positifs (emplacements d’absence connue étiquetés par erreur comme présence).

    Diagrammes de taux d’omission et de courbe ROC affichant les valeurs de limite

  3. Interprétez la surface sous la courbure (AUC) dans la courbe ROC, qui est un diagnostic d’évaluation de la capacité du modèle à estimer les emplacements de présence connue en tant que présence et les emplacements d’arrière-plan connu comme arrière-plan. Plus la surface sous la courbe est élevée, plus le modèle est adapté pour la tâche de prévision de présence.

    Courbe ROC montrant la surface sous la courbe

    Bien que la surface sous la courbe soit un diagnostic d’évaluation général utile, il est important de décider si l’objectif du modèle est de réduire les faux positifs (en d’autres termes, de s’assurer que la présence prévue a réellement de grandes chances d’être une présence) ou de réduire les faux-négatifs (c’est-à-dire de s’assurer que la non présence prévue a réellement de grandes chances d’être une absence. La valeur de la courbe ROC la plus proche de l’angle supérieur gauche du diagramme est un équilibre entre les deux objectifs.

    Courbe ROC montrant des valeurs de limite assurant un équilibre entre sensibilité et spécificité

  4. Lorsque plusieurs modèles ont des diagnostics de validation similaires, sélectionnez le modèle le plus simple. Il peut être plus facile d’interpréter et d’expliquer un modèle utilisant des variables explicatives moins nombreuses et plus simples. Selon le principe de parcimonie, l’explication la plus simple d’un phénomène est généralement la meilleure (Phillips et al., 2006).

    Avant tout, utilisez l’expertise d’un domaine et une compréhension approfondie du problème pour guider la conception, la validation et l’utilisation d’un modèle.

Ressources supplémentaires

Pour plus d’informations, consultez les ressources suivantes :

  • Aiello-Lammens, Matthew E., Robert A. Boria, Aleksandar Radosavljevic, Bruno Vilela, Robert P. Anderson. 2015. "spThin: an R package for spatial thinning of species occurrence records for use in ecological niche models." Ecography 38: 541-545.

  • Du, Zhaohui , Zhiqiang Wang, Yunxia Liu, Hao Wang, Fuzhong Xue, Yanxun Liu. 2014. "Ecological niche modeling for predicting the potential risk areas of severe fever with thrombocytopenia syndrome." International Journal of Infectious Diseases, 26: 1-8. ISSN 1201-9712. https://doi.org/10.1016/j.ijid.2014.04.006
  • Elith, Jane, Steven J. Phillips, Trevor Hastie, Miroslav Dudík, Yung En Chee, and Colin J. Yates. 2011. "A statistical explanation of MaxEnt for ecologists." Diversity and Distributions, 17: 43-57. pdf

  • Fithian, William, Jane Elith, Trevor Hastie, David A. Keith. 2014. "Bias Correction in Species Distribution Models: Pooling Survey and Collection Data for Multiple Species." arXiv:1403.7274v2 [stat.AP].

  • Fithian, William, Trevor Hastie. 2013. "Finite-sample equivalence in statistical models for presence-only data." The Annals of Applied Statistics, 7, no. 4 (décembre), 1917-1939.

  • Merow, Cory, Matthew J. Smith, and John A. Silander, Jr. 2013. "A practical guide to MaxEnt for modeling species’ distributions: what it does, and why inputs and settings matter." Ecography, 36: 1058–1069. pdf

  • Mobley W, Sebastian A,Highfield W, Brody SD. 2019. "Estimating flood extent during Hurricane Harvey using maximum entropy to build a hazard distribution model." J Flood Risk Management. 2019;12 (Suppl. 1):e12549. https://doi.org/10.1111/jfr3.12549

  • Phillips, Steven J., Miroslav Dudik. 2008. "Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation." Ecography 31: 161-175.

  • Phillips, Steven J. , Robert P. Anderson, Robert E. Schapire. 2006. "Maximum entropy modeling of species geographic distributions." Ecological Modelling, 190: 231-259. pdf

  • Radosavljevic, Aleksandar, Robert P. Anderson. 2014. "Making better Maxent models of species distributions: complexity, overfitting and evaluation." Journal of Biogeography 41, 629-643.