Fonctionnement de l’outil Prévision de présence uniquement (MaxEnt)

L’outil Prévision de présence uniquement (MaxEnt) utilise l’approche d’entropie maximale (MaxEnt) pour estimer la probabilité de présence d’un phénomène. Cet outil utilise les points d’occurrence connue et les variables explicatives sous la forme de champs, de rasters ou d’entités de distance pour fournir une estimation de présence sur une zone d’étude. Vous pouvez utiliser le modèle formé pour prévoir la présence sur différentes données si les variables explicatives correspondantes sont connues. Contrairement à d’autres méthodes qui supposent ou bien nécessitent explicitement des emplacements d’absence définis, l’outil Prévision de présence uniquement peut être appliqué aux problèmes de prévision où seule la présence de l’événement est connue.

Diagramme de présentation de l’outil Prévision de présence uniquement (MaxEnt)

Applications possibles

Même si la modélisation de la présence d’espèces à des fins écologiques et de conservation font partie des exemples courants, les problèmes de prévision de présence couvrent une variété de domaines et d’applications :

  • Un écologiste a collecté sur le terrain des données relatives aux emplacements de présence observée d’une espèce végétale. Il a besoin d’estimer la présence de cette espèce dans une zone d’étude plus vaste. S’il utilise les emplacements de présence connue et fournit les facteurs sous-jacents en tant que rasters, cet écologiste peut modéliser la présence de cette espèce et créer une carte des emplacements prévus où elle est le plus susceptible d’être trouvée.
  • Un chercheur souhaite comprendre l’impact qu’aura le changement climatique sur l’habitat d’une espèce sensible. Il modélise sa présence à l’aide des emplacements d’occurrence connue et d’une série de variables explicatives, notamment plusieurs facteurs liés au climat comme la température et les précipitations. En s’appuyant sur des surfaces raster du changement climatique projeté, le chercheur modélise une estimation de la distribution de l’espèce en fonction de l’incidence du changement climatique observé sur les variables explicatives et reçoit une estimation du nouvel habitat de l’espèce suite aux effets projetés du changement climatique.
  • Un analyste des risques d’inondation souhaite estimer la probabilité d’une inondation après le passage d’un ouragan dans une zone d’étude. En complément de l’imagerie aérienne haute résolution prise au cours de l’événement, l’analyste utilise les profils physiques et socio-économiques répartis spatialement, associés à des données collaboratives pour modéliser la présence d’une inondation. L’analyste utilise ce modèle pour identifier les endroits où les gens sont les plus susceptibles de nécessiter une aide d’urgence immédiate après l’ouragan (Mobley, et. al, 2019).
  • Un épidémiologiste modélise l’apparition de nouvelles maladies infectieuses. Ils utilisent les localisations de contagion pathogène et les facteurs écologiques connus existants, tels que la température, les précipitations, l’occupation du sol, l’indice de végétation par différence normalisée (NDVI) et la durée d’ensoleillement comme indicateurs dans un modèle. Le modèle permet de créer une surface à risque préliminaire qui reflète l’adéquation pour l’émergence de nouvelles maladies infectieuses (Du, et.al., 2014).

MaxEnt

Les problèmes d’analyse spatiale nécessitent notamment de modéliser et d’estimer l’occurrence d’un événement dans une géographie. Même si la modélisation de la présence d’espèces à des fins écologiques et de conservation font partie des exemples courants, les problèmes de prévision de présence couvrent une variété de domaines et d’applications.

Dans certains cas, les données de présence sont enregistrées sous la forme d’un décompte d’événements de présence dans des cellules de quadrats : chaque observation incrémente un décompte à son emplacement, puis ce décompte peut être modélisé selon différentes approches, comme la méthode Poisson de l’outil Régression linéaire généralisée. Dans d’autres cas, les données d’absence et de présence explicites sont enregistrées à intervalles spécifiés à des emplacements connus, comme par exemple des stations de surveillance de la qualité de l’air qui enregistrent les niveaux d’ozone néfastes. Dans ces situations, la modélisation de la présence et de l’absence constitue un problème de classification binaire, qui peut être traité avec de nombreuses méthodes, comme la régression logistique.

S’agissant de la modélisation d’espèces et de plusieurs autres domaines, où la présence d’un événement est souvent enregistrée alors que son absence l’est rarement, la modélisation de la présence et de l’absence au moyen de méthodes de prévision multiclasses est compliquée par le manque de données d’absence explicite.

L’approche MaxEnt ne suppose ni ne nécessite aucune donnée d’absence. Il s’agit d’une méthode généraliste pour réaliser des prévisions ou des déductions à partir de données incomplètes (Phillips et autres 2006). À partir d’un ensemble d’emplacements de présence connue et de variables explicatives données décrivant la zone d’étude, l’approche MaxEnt compare les conditions entre les emplacements de présence et la zone d’étude pour déterminer une surface de probabilité de présence.

MaxEnt fonctionne essentiellement avec trois entrées principales :

  • La localisation des points de présence connue.
  • Une zone d’étude.
  • Des variables explicatives, ou covariables, qui décrivent les facteurs environnementaux susceptibles d’être en lien avec la présence dans la zone d’étude.

La zone d’étude définit un paysage où la présence est possible, et est souvent représentée par un ensemble de localisations de présence inconnue. Ces localisations sont également connues sous le nom de points d’arrière-plan, et la méthode MaxEnt les utilise pour comparer les conditions entre les localisations de présence et la zone d’étude en vue d’estimer une surface de probabilité de présence.

Cette surface pouvant prendre plusieurs formes, l’approche MaxEnt sélectionne la forme la plus semblable à l’environnement dont la surface a été tirée et atténue toutes les autres hypothèses (ou maximise son entropie). « Cette approche valide tout ce qui est connu, mais évite prudemment de supposer tout ce qui est inconnu. » (Jaynes 1990).

Outre son approche de modélisation, la méthode MaxEnt comprend des étapes de préparation des données en entrée, de transformation des variables explicatives, de préparation des données en sortie et de validation du modèle, ce qui en fait une méthode fiable dédiée à la modélisation des phénomènes de présence uniquement.

Utiliser l’outil Prévision de présence uniquement (MaxEnt)

L’outil Prévision de présence uniquement intègre certains aspects des processus de préparation des données, de modélisation, de sélection de variables et de prévision de la méthode MaxEnt. Cette section fournit des informations importantes sur chaque paramètre pour vous aider à créer des modèles plus adaptés.

Spécifier les emplacements de présence connue et les points d’arrière-plan

L’outil de prévision de présence uniquement nécessite des données en entrée pour représenter les emplacements de présence connue. Le paramètre Input Point Features (Entités points en entrée) permet de désigner un jeu de données existant contenant ces emplacements.

Les entités ponctuelles en entrée ne contiennent pas de points d’arrière-plan

Si vos entités ponctuelles en entrée n’incluent pas de points d’arrière-plan, vous pouvez laisser le paramètre Contains Background Points (Contient des points d’arrière-plan) désactivé.

Création automatique de points d’arrière-plan à l’aide de cellules raster

Si le paramètre Contains Background Points (Contient des points d’arrière-plan) est désactivé, l’outil utilise les centroïdes de cellules les plus grossiers des valeurs du paramètre Explanatory Training Rasters (Rasters d’entraînement explicatifs) qui s’intersectent dans la zone d’étude pour créer automatiquement des points d’arrière-plan.

Création automatique de points d’arrière-plan à l’aide de cellules raster

Vous pouvez utiliser le paramètre Output Trained Features (Entités formées en sortie) pour créer une sortie incluant les points d’arrière-plan générés par l’outil.

Les entités ponctuelles en entrée contiennent des points d’arrière-plan

Si vos entités ponctuelles en entrée contiennent des points d’arrière-plan, vous pouvez utiliser les paramètres Contains Background Points (Contient des points d’arrière-plan) et Presence Indicator Field (Champ Indicateur de présence) avec des valeurs de champ identifiant chaque emplacement en tant que présence (1) ou arrière-plan (0).

Utilisation de points d’arrière-plan dans les entités ponctuelles en entrée

La proportion de points d’arrière-plan par rapport aux points de présence a un impact important sur les résultats de la prévision. Que les points d’arrière-plan soient fournis dans vos entités ponctuelles en entrée ou qu’ils soient créés pour vous par l’outil, il est recommandé de tester et comparer les diagnostics de classification de vos modèles en utilisant différents nombres de points d’arrière-plan. Vous pouvez utiliser le paramètre Spatial Thinning (Affinage spatial) pour diminuer le nombre de points d’arrière-plan dans l’analyse. Pour plus d’informations, reportez-vous aux sections Définition d’une zone d’étude et Réduction du biais d’échantillonnage à l’aide de l’affinage spatial ci-après.

Remarque :

L’outil requiert au moins deux points de présence et deux points d’arrière-plan dans les données d’entraînement pour créer un modèle.

Spécifier les variables explicatives

Outre les points de présence connue et les points d’arrière-plan, des variables explicatives sont utilisées par l’outil pour créer le modèle. Vous pouvez spécifier des variables explicatives de trois façons : à l’aide de rasters, à l’aide de champs dans les entités ponctuelles en entrée et à l’aide d’entités de distance. Si des rasters ou des champs sont utilisés, les variables explicatives peuvent être continues ou catégorielles. Si les variables explicatives sont catégorielles, l’outil nécessite un minimum de trois points de données par catégorie.

Trois types de variables explicatives : raster, entité de distance et champ

Utiliser des variables explicatives issues de rasters

Vous pouvez utiliser des rasters pour représenter des conditions dans le paysage susceptibles d’être des variables prédictives utiles de la présence d’un événement. Par exemple, si une espèce végétale dépend fortement d’une plage d’altitude précise, vous pouvez utiliser un raster d’altitude pour associer les valeurs d’altitude aux emplacements de présence de la plante dans le modèle.

Cochez la case Catégoriel lorsque les rasters représentent des données catégorielles, comme des classes d’occupation ou d’utilisation du sol.

Il est nécessaire d’utiliser des variables explicatives issues de rasters si les entités ponctuelles en entrée n’incluent pas de points d’arrière-plan, étant donné que chaque cellule de la zone d’étude sera utilisée pour créer un point d’arrière-plan.

Les tailles de cellule des valeurs du paramètre Explanatory Training Rasters (Rasters d’entraînement explicatifs) ont un impact important sur le temps de traitement : plus la résolution est élevée, plus le traitement est long. C’est pourquoi cet outil est limité à un total de 100 millions de cellules dans la zone d’intérêt. L’outil Rééchantillonner permet de réduire la résolution spatiale du raster, afin de diminuer le nombre de cellules et d’accélérer le traitement.

Utiliser des variables explicatives issues de champs

Le paramètre Explanatory Training Variables (Variables d’entraînement explicatives) permet de spécifier des champs dont les attributs sont utilisés en tant que variables explicatives dans la modélisation de la présence d’un phénomène. Cette option est disponible uniquement si les entités ponctuelles en entrée incluent des points d’arrière-plan et que le paramètre Contains Background Points (Contient des points d’arrière-plan) est activé.

Utilisez la case à cocher Catégoriel pour indiquer si un champ spécifié dans le paramètre Variables d’entraînement explicatives est catégoriel.

Utiliser des variables explicatives issues d’entités de distance

Le paramètre Explanatory Training Distance Features (Entités de distance d’entraînement explicatives) permet d’identifier des entités dont la proximité aux entités ponctuelles en entrée sera utilisée sous forme de variables explicatives. Cette option est disponible uniquement si les entités ponctuelles en entrée incluent des points d’arrière-plan et que le paramètre Contains Background Points (Contient des points d’arrière-plan) est activé.

Les entités de distance permettent de créer automatiquement des variables explicatives en calculant une distance à partir des entités ponctuelles en entrée vers l’entité spécifiée la plus proche. Si la valeur du paramètre Explanatory Training Distance Features (Entités de distance d’entraînement explicatives) désigne des polygones ou des lignes, les attributs de distance sont calculés comme étant la distance entre les segments les plus proches de la paire d’entités. Si les entités de distance en entrée sont des polygones ou des lignes, les attributs de distance sont calculés comme la distance entre les segments les plus proches de la paire d’entités. Les distances sont calculées différemment pour les polygones et pour les lignes. Pour plus d’informations, reportez-vous à la rubrique Calcul de la distance avec les outils de proximité.

Le paramètre Explanatory Training Distance Features (Entités de distance d’entraînement explicatives) n’est pas disponible si les entités ponctuelles en entrée n’incluent pas de points d’arrière-plan, pour des raisons de performance. Toutefois, l’outil Accumulation de distance vous permet d’utiliser des entités de distance lorsque vous avez des points de présence uniquement afin de créer des rasters de distance. Les cellules des rasters de distance contiennent des valeurs qui décrivent la distance entre chaque cellule et l’entité la plus proche dans une source de données spécifiée. Une fois les rasters de distance créés, vous pouvez les utiliser comme données d’entrée dans le paramètre Explanatory Training Rasters (Rasters d’entraînement explicatifs) pour les entités ponctuelles en entrée de présence uniquement.

Préparer les données des entrées du modèle

Cet outil comprend des étapes de préparation des données pour les entités ponctuelles fournies en entrée et les variables explicatives spécifiées. La préparation des données inclut la transformation des variables à l’aide de fonctions de base, la spécification d’une zone d’étude et la réduction du biais d’échantillonnage à l’aide de l’affinage spatial.

Transformer des variables explicatives à l’aide de fonctions de base

Les caractéristiques du paysage sont utilisées comme variables explicatives candidates dans l’approche MaxEnt. Dans certains cas, les relations entre les conditions qui valorisent la présence et l’occurrence de l’événement peuvent être complexes. Pour faciliter l’intégration de formes de relation plus complexes au modèle, l’outil transforme (ou développe) ces variables explicatives candidates à l’aide de fonctions de base.

Lors d’une exécution de l’outil, vous pouvez sélectionner plusieurs fonctions de base à l’aide du paramètre Explanatory Variable Expansions (Basis Functions) (Expansions de variables explicatives [fonctions de base]). Par la suite, toutes les versions transformées des variables explicatives sont utilisées dans le modèle. Les variables les plus performantes sont sélectionnées par régularisation. Cette méthode permet de sélectionner des variables en équilibrant ajustement et complexité du modèle.

Il existe cinq types de fonctions de bases, qui tiennent compte de différents aspects lors de la modélisation de phénomènes complexes.

  • Original (Linear) (Original [Linéaire]): une fonction de base linéaire est appliquée aux variables en sortie ‎; utilisable lorsqu’il n’y a pas besoin d’appliquer une transformation. Il s’agit de l’option par défaut.

    L’utilisation de l’outil avec pour objectif de modéliser la présence d’une espèce qui est connue pour avoir besoin d’accéder à un cours d’eau est un exemple de cas d’usage. L’utilisation de la fonction de base linéaire pour une variable correspondant à la distance par rapport à un cours d’eau permet au modèle d’estimer la relation linéaire entre la présence d’une espèce et la distance par rapport à un cours d’eau. Le coefficient obtenu permet d’interpréter la relation linéaire marginale avant d’essayer des formes de relation plus complexes.

    Utilisez la fonction de base Original (Linear) (Original [Linéaire]) lorsque la possibilité d’interprétation est essentielle dans le modèle. Aucune transformation n’étant appliquée, la méthode Linéaire permet d’interpréter plus facilement les coefficients dans le cadre de leur incidence sur la probabilité de présence.

    Fonction de base Linéaire

    Remarque :

    Les variables explicatives catégorielles permettent uniquement l’utilisation de la fonction de base Original (Linear) (Original [Linéaire]). Lorsque des variables explicatives continues et catégorielles sont appliquées en même temps, vous pouvez choisir plusieurs fonctions de base, néanmoins seule la fonction de base Original (Linear) (Original [Linéaire]) est appliquée aux variables catégorielles.

  • Squared (Quadratic) (Carré [Quadratique]) : la valeur de chaque variable explicative est transformée par une élévation au carré, ce qui établit une relation quadratique entre la variable explicative et la réponse à la présence. Dans certains domaines, comme la distribution des espèces, les réponses des espèces aux conditions environnementales sont souvent non linéaires et unimodales (Austin 2002, 2007). Une forme quadratique est alors plus adaptée pour représenter les relations.

    Parfois, alors qu’une relation quadratique peut être inhérente à la relation d’une variable explicative à un événement de réponse, les données d’échantillonnage des entités ponctuelles en entrée peuvent ne représenter qu’un aspect de la relation parabolique. Par exemple, une espèce tropicale peut avoir une relation parabolique avec la température : des températures extrêmement basses entraînent une probabilité de présence faible, des températures tropicales induisent une probabilité forte et des températures extrêmement élevées entraînent à nouveau une probabilité faible. Si les données d’échantillonnage de cette espèce n’incluent pas de températures très froides, il est possible de représenter simplement la relation de manière linéaire (Merow et autres, 2013).

    Fonction de base Quadratique

  • Pairwise interaction (Product) (Interaction deux par deux [Produit]) : une multiplication par paire est appliquée aux variables explicatives. Par exemple, si trois variables A, B et C sont sélectionnées, cette fonction de base produit des variables transformées correspondant aux résultats de A x B, A x C et B x C. Ces variables transformées sont généralement connues sous le nom de termes d’interaction. Ils peuvent utilement représenter des relations complexes basées sur des conditions liant plusieurs variables. Par exemple, un terme d’interaction incluant à la fois le revenu et la distance par rapport à un point de vente peut constituer une variable prédictive plus efficace de la fidélisation des clients que chaque variable utilisée seule.

    Les variables explicatives transformées par la méthode Pairwise interaction (Product) (Interaction deux par deux [Produit]) permettent de modéliser utilement l’interaction entre des conditions environnementales. Cependant, les modèles sont plus compliqués à interpréter car les termes d’interaction permettent difficilement de démêler l’incidence d’une variable explicative par rapport à l’autre. Ce problème important se pose notamment lors de l’évaluation du coefficient de chaque variable explicative et des tracés de réponse partiels.

    Fonction de base Produit

    Remarque :

    L’option Pairwise interaction (Product) (Interaction deux par deux [Produit]) est uniquement disponible lorsque plusieurs variables explicatives continues sont sélectionnées.

  • Discrete step (Threshold) (Étape discrète [Seuil]) : la variable explicative continue est convertie en une variable explicative binaire après application d’une fonction par étapes : une valeur de 0 est attribuée aux valeurs en dessous d’un seuil défini, tandis qu’une valeur de 1 est attribuée aux valeurs au-dessus de ce seuil.

    Le paramètre Number of Knots (Nombre de nœuds) contrôle le nombre de seuils créés, chacun permettant ensuite de créer plusieurs variables explicatives binaires transformées. Les seuils sont appliqués entre les valeurs minimale et maximale d’une variable explicative pour créer des segments de même longueur.

    Dans un exemple de cas d’utilisation, l’outil Presence-only Prediction (Prévision de présence uniquement) est exécuté dans le but d’étudier l’incidence des températures chaudes sur l’occurrence (par exemple : au-dessus de 32 degrés Celsius ou pas). À l’aide de la fonction de base Seuil, la variable de température continue est divisée en valeurs de 1 (au-dessus de 32 degrés) et 0 (en dessous de 32 degrés), ce qui permet d’interpréter chaque condition selon sa relation à la présence.

    Fonction de base Seuil

  • Smoothed step (Hinge) (Étape lissée [Charnière]) : la variable explicative continue est convertie en deux segments, un segment statique (contenant uniquement des zéros ou des uns) et une fonction linéaire (croissante ou décroissante), séparées par un seuil dénommé nœud. Pour ce faire, vous pouvez utiliser une charnière avant (commencez par des zéros entre la valeur minimale et le nœud, puis appliquez une fonction linéaire croissante entre le nœud et la valeur maximale) ou une charnière arrière (commencez par une fonction linéaire croissante entre la valeur minimale et le nœud, puis appliquez tous les uns entre le nœud et la valeur maximale).

    Le paramètre Number of Knots (Nombre de nœuds) contrôle le nombre de transformations de variables explicatives générées, qui donnent (Nombre de nœuds – 1) x 2 variables explicatives transformées. Le sens de cette formule est le suivant : le nombre de nœuds détermine le nombre d’intervalles égaux utilisés entre les valeurs minimale et maximale de la variable explicative (soit le nombre de nœuds moins un), et autant de variables transformées par une charnière avant que par une charnière arrière sont créées (multiplication par 2).

    Dans un exemple de cas d’utilisation, l’outil est exécuté dans le but d’étudier l’incidence de la variation des températures chaudes (par exemple : conserver toutes les valeurs supérieures à 32 degrés Celsius et ignorer les températures inférieures). La fonction de base Charnière permet de conserver les variations de la variable au-dessus du nœud (en appliquant une fonction linéaire à toutes les valeurs supérieures à 32 degrés) et d’atténuer le bruit provenant des données en dessous du nœud (en convertissant toutes les valeurs inférieures à 32 degrés en 0).

    Les options Étape lissée (Charnière) et Étape discrète (Seuil) sont des fonctions segmentées qui s’excluent mutuellement : la sélection de l’une empêche la sélection de l’autre. Lorsque l’une de ces options est sélectionnée, il est recommandé de tester plusieurs exécutions du modèle et d’ajuster la valeur du paramètre Number of Knots (Nombre de nœuds) afin d’interpréter la façon dont ces seuils contribuent à améliorer ou à détériorer le modèle.

    Fonction de base Charnière

    L’outil utilise plusieurs versions transformées de chaque variable explicative lorsque vous tentez de modéliser des conditions complexes qui promeuvent la présence d’un phénomène. Par exemple, un modèle qui utilise la température moyenne annuelle pour estimer la probabilité de présence d’une espèce de tortue du désert peut utiliser différentes expansions de variables pour décrire une relation complexe entre la température et l’habitat des tortues du désert.

    Courbe de réponse partielle de la température moyenne annuelle et de la présence de l’espèce

    La courbe de réponse partielle ci-dessus illustre la réponse marginale de la probabilité de présence à mesure que la température moyenne annuelle évolue. En conservant tous les autres facteurs constants, la probabilité de présence se comporte ainsi :

    • Augmente de manière linéaire à mesure que la température moyenne annuelle augmente entre 0 et 15 degrés Celsius
    • Diminue graduellement entre 15 et 21 degrés Celsius
    • Décroît rapidement pour les valeurs de température moyenne annuelle supérieures à 21 degrés Celsius.

    L’outil utilise plusieurs fonctions de base pour générer des expansions de variables explicatives qui représentent le mieux ce type de relation, en sélectionnant les transformations les plus utiles via un processus nommé régularisation.

Régularisation

La méthode MaxEnt est susceptible de surajuster les données d’apprentissage. Pour éviter ce problème, la méthode applique une forme de régularisation qui pénalise les forts coefficients des variables explicatives, ce qui oblige le modèle à se concentrer sur les variables explicatives les plus importantes (Phillips et autres, 2006).

Le concept de régularisation peut être comparé, par exemple, au partage d’un budget limité de coefficients entre toutes les variables explicatives fournies à un modèle. À mesure que les coefficients diminuent pour respecter le budget, plusieurs variables explicatives à faibles coefficients sont réduites à zéro et, en conséquence, supprimées du modèle. Cela contraint le modèle à réduire le nombre de ses variables explicatives pour conserver uniquement celles dont les coefficients sont suffisamment forts pour subsister dans ces conditions budgétaires. Doté d’un nombre restreint de variables explicatives, le modèle est moins enclin aux surajustements et plus facile à interpréter. Selon le principe de parcimonie, l’explication la plus simple d’un phénomène est généralement la meilleure (Phillips et autres, 2006).

La régularisation permet également de traiter le problème de la multicolinéarité : lorsque des variables explicatives associées sont ajoutées, la valeur de coefficient totale liée à une variable unique se retrouve partagée entre plusieurs variables corrélées, et les coefficients des variables multicolinéaires baissent. Comme la régularisation pénalise les valeurs des autres coefficients, les coefficients des variables multicolinéaires sont plus susceptibles d’être réduits à zéro et supprimés du modèle.

Localiser une zone d’étude

Il est nécessaire de spécifier une zone d’étude lorsque vos entités ponctuelles en entrée ne contiennent pas de points d’arrière-plan. Elle définit la région où une présence est possible. Vous pouvez définir votre zone d’étude à l’aide de trois options du paramètre Study Area (Zone d’étude) :

  • Convex hull (Enveloppe convexe) : l’enveloppe convexe des entités ponctuelles en entrée est utilisée.

    Zone d’étude Enveloppe convexe

  • Raster extent (Étendue raster) : étendue de l’intersection des rasters spécifiés dans le paramètre Explanatory Training Rasters (Rasters d’entraînement explicatifs).

    Zone d’étude Étendue raster

  • Study area polygon (Polygone de zone d’étude) : la limite d’une classe d’entités surfaciques personnalisée, spécifiée dans le paramètre Study Area Polygon (Polygone de zone d’étude), est utilisée.

    Zone d’étude Polygone personnalisée

La zone d’étude a un impact important sur le résultat du modèle : l’étendue de la zone d’étude détermine quelles cellules raster seront extraites des rasters d’entraînement explicatifs pour créer des points d’arrière-plan. Les points d’arrière-plan définissent les conditions environnementales dans lesquelles une présence est possible. Ces conditions sont comparées aux conditions environnementales où une présence est observée. Les résultats de la prévision varient lorsque la proportion de points d’arrière-plan par rapport aux points de présence change.

La zone d’étude détermine l’étendue des données d’apprentissage du modèle. Alors que les entités ponctuelles en entrée dans ce scénario représentent les emplacements où une présence a été observée, la zone d’étude représente les emplacements où une présence est possible (sans avoir été forcément observée). Par conséquent, il est recommandé que la zone d’étude d’une analyse suive la conception de l’enquête ayant permis la collecte des points de présence. Par exemple, si une région de 100 kilomètres carrés fait l’objet d’une inspection approfondie dans le cadre d’une enquête pour collecter des données de présence, le polygone d’emprise délimitant cette région peut être utilisé en tant que zone d’étude.

Dans certains cas, il peut être utile d’avoir des zones d’étude différentes pour un ensemble donné d’entités ponctuelles en entrée, afin d’explorer les diverses dynamiques d’un phénomène (Elith et autres, 2011, 51–52).

Réduire le biais d’échantillonnage à l’aide de l’affinage spatial

Un biais d’échantillonnage se produit lorsque les zones échantillonnées représentées dans les entités ponctuelles en entrée présentent des agrégats spatiaux distincts. Par exemple, des enquêtes pour collecter des données sont généralement conduites à proximité de routes, de chemins et selon d’autres conditions facilitant la collecte de données. Le biais d’échantillonnage a pour effet d’enrichir les données destinées à décrire la présence d’un phénomène avec des données indiquant la présence de conditions favorables à la collecte de données. Propre à la plupart des jeux de données de présence unique, le biais d’échantillonnage n’est atténué que dans les conceptions d’enquête les plus strictes et structurées.

La technique de l’affinage spatial permet de réduire l’incidence du biais d’échantillonnage sur le modèle en supprimant des points de présence et d’arrière-plan dans les données d’apprentissage, de façon à obtenir une distance minimale spécifiée entre les points. En diminuant le nombre de points se trouvant à une distance spécifiée les uns des autres, les zones spatialement suréchantillonnées diminuent en importance dans les données d’apprentissage du modèle.

Affinage spatial des points en entrée

Pour utiliser l’affinage spatial, sélectionnez le paramètre Apply Spatial Thinning (Appliquer l’affinage spatial) et indiquez des valeurs pour les deux paramètres suivants :

  • Minimum Nearest Neighbor Distance (Distance minimale par rapport au plus proche voisin) : détermine la proximité possible entre deux points.
  • Number of Iterations for Thinning (Nombre d’itération pour l’affinage) : définit le nombre de tentatives à effectuer pour supprimer des points et aboutir à une solution appropriée. Une fois le nombre d’exécutions d’affinage spatial effectué, l’exécution comportant le plus de points restants est utilisée pour entraîner le modèle.

L’affinage spatial s’applique à la fois aux points de présence et aux points d’arrière-plan, même si ces derniers sont générés par l’outil lorsque des données de présence unique sont utilisées. L’affinage spatial est appliqué, d’une part, aux points d’arrière-plan et, d’autre part, aux points de présence. Il peut donc arriver que la distance entre un point de présence et un point d’arrière-plan soit inférieure à la distance minimale du voisin le plus proche.

Affinage spatial appliqué séparément aux points de présence et d’arrière-plan

Lorsque des points d’arrière-plan sont créés par l’outil à l’aide de cellules raster, l’affinage spatial est appliqué en rééchantillonnant le raster sur la valeur du paramètre Distance minimale par rapport au plus proche voisin et en utilisant les centroïdes de cellule raster obtenus comme points d’arrière-plan affinés spatialement.

La technique de l’affinage spatial permet de réduire les problèmes posés par les rasters comportant un grand nombre de cellules, car elle fait baisser le nombre de points d’arrière-plan. Quelle que soit la résolution du raster, le même nombre approximativement de points d’arrière-plan est conservé après affinage, selon la distance minimale du voisin le plus proche spécifiée.

L’affinage spatial n’est pas appliqué aux cas où la valeur de la distance minimale par rapport au plus proche voisin est inférieure à la distance la plus proche entre deux points (provenant d’entités ponctuelles en entrée ou découlant de centroïdes de cellules raster), car les données remplissent les critères d’affinage spatial.

Configurer le modèle

Plusieurs paramètres de l’outil permettent de configurer et d’ajuster le modèle. Même si vous pouvez exécuter cet outil sans utiliser tous les paramètres, comprendre le fonctionnement des modèles et l’utilisation de chaque paramètre peut avoir un impact important sur l’efficacité de l’outil dans vos processus de modélisation de présence.

Définir la pondération relative de présence par rapport à l’arrière-plan

Le paramètre Relative Weight of Presence to Background (Pondération relative de présence par rapport à l’arrière-plan) de l’outil permet de définir la manière dont les points d’arrière-plan sont pris en compte par le modèle.

La valeur par défaut de 100 indique que les points de présence dans les entités ponctuelles en entrée constituent la première source d’informations de présence. L’occurrence à chacun des points d’arrière-plan est inconnue, et ceux-ci permettent uniquement de représenter des caractéristiques du paysage où la présence est possible, mais inconnue. Une valeur de 1 indique que les points d’arrière-plan sont aussi significatifs que les points de présence. Comme ce ne sont pas des emplacements de présence mais que leur importance est égale, ils représentent des emplacements d’absence connue. En tant qu’emplacements d’absence, les points d’arrière-plan peuvent alors être utilisés à égalité et en association avec les emplacements de présence pour générer un modèle de classification binaire permettant d’évaluer à la fois la présence et l’absence.

Cette valeur exerce une influence importante sur le fonctionnement du modèle et sur les prévisions générées par l’outil. Si la valeur Relative Weight of Presence to Background (Pondération relative de présence par rapport à l’arrière-plan est proche de 100, le modèle applique la forme classique de la méthode MaxEnt. Si la valeur est égale à 1, le modèle traite à égalité chaque point de présence et d’arrière-plan, et est comparable à une régression logistique.

Il est recommandé de vous faire aider par des experts du domaine pour choisir des valeurs adaptées entre 1 et 100 pour le paramètre Relative Weight of Presence to Background (Pondération relative de présence par rapport à l’arrière-plan) car elles peuvent être considérées comme une représentation de la prévalence de l’événement dans la zone d’étude.

Utiliser des fonctions Liaison et des seuils de probabilité de présence pour interpréter les sorties

Un taux d’occurrence relatif pour chaque emplacement constitue une sortie intermédiaire du modèle (non renvoyée par l’outil). Cette sortie intermédiaire ne représente pas la probabilité d’occurrence, mais correspond à l’aptitude relative de chaque emplacement de favoriser la présence sur l’ensemble de la zone d’étude. Pour transformer ces valeurs brutes en valeurs interprétables en tant que probabilités de présence et prévisions de présence, utilisez les paramètres Presence Probability Transformation (Link Function) (Transformation de la probabilité de présence (fonction Liaison)) et Presence Probability Cutoff (Limite de la probabilité de présence).

Deux options sont disponibles pour le paramètre Presence Probability Transformation (Link Function) (Transformation de la probabilité de présence (fonction Liaison)) :

  • C-log-log : utilise la formule 1-exp(-exp(entropie + sortie brute)) pour calculer la probabilité de présence à chaque emplacement. Il s’agit de l’option par défaut.

  • Logistique : utilise la formule 1/(1+exp(-entropie - sortie brute)) pour calculer la probabilité de présence à chaque emplacement.

Les fonctions Liaisons ont une association avec l’ambiguïté pouvant faire partie des points de présence enregistrés. Utilisez l’option C-log-log lorsque l’emplacement et l’occurrence d’un phénomène sont clairs et non ambigus (par exemple, lorsque les points de présence représentent des emplacements d’espèces de plantes immobiles). Utilisez l’option Logistic (Logistique) lorsque l’emplacement et l’occurrence d’un phénomène sont ambigus ou difficiles à définir (par exemple, lorsque les points de présence représentent les emplacements d’une espèce d’animal migrateur).

Les probabilités de présence générées par ces fonctions Liaison sont fournies sous forme de valeurs comprises entre 0 et 1. Utilisez le paramètre Presence Probability Cutoff (Limite de la probabilité de présence) pour spécifier un seuil de probabilité permettant de classer un emplacement en tant que présence. La valeur par défaut est 0,5 ; une valeur supérieure ou égale à 0,5 est classée en tant que présence. Vous pouvez saisir une limite personnalisée comprise entre 0,01 et 0,99.

Les résultats de classification utilisant la valeur limite sont comparés aux points de présence connue dans les entités ponctuelles en entrée. Les diagnostics sont fournis dans les messages de géotraitement et dans les entités formées en sortie.

Spécifier les sorties d’entraînement du modèle

Les sorties de l’outil sont organisées en sorties d’entraînement et sorties de prévision. Elles se distinguent essentiellement par le fait que les sorties d’entraînement correspondent aux données qui ont été utilisées dans l’entraînement et la sélection du modèle, tandis que les sorties de prévision correspondent à des données qui n’ont pas encore été soumises au modèle.

Entités formées en sortie

Le paramètre Output Trained Features (Entités formées en sortie) permet de générer une classe d’entités contenant les points utilisés pour entraîner le modèle. Dans cette sortie, chaque point entraîné est symbolisé d’après une comparaison entre la classification issue du modèle et la classification observée.

Symbologie et légende des entités formées en sortie

Les points inclus dans les entités formées en sortie ne sont pas forcément les mêmes que les points des entités ponctuelles en entrée. En effet, des points d’arrière-plan sont générés lorsque des données de présence unique sont utilisées et l’affinage spatial peut réduire le nombre de points utilisés pour entraîner le modèle.

Trois diagrammes sont inclus avec les entités formées en sortie :

  • Classification Result Percentages (Pourcentages du résultat de classification) : la part des prévisions correctes est évaluée à l’aide de la classification observée dans les entités d’entraînement.

    Diagramme Pourcentages du résultat de classification

  • Count of Presence and Background by Probability Ranges (Nombre de points de présence ou d’arrière-plan par plages de probabilité) : la distribution des valeurs de probabilité de présence du modèle est comparée aux classifications d’arrière-plan et de présence observées.

    Diagramme Nombre de points de présence ou d’arrière-plan par plages de probabilité

  • Distribution of Probability of Presence by Classifications (Distribution de la probabilité de présence par classifications) : la distribution des plages de probabilité de présence est affichée par désignation de classification.

    Diagramme Distribution de la probabilité de présence par classifications

Raster formé en sortie

Le paramètre Output Trained Raster (Raster formé en sortie) permet de créer un raster qui classe la probabilité de présence à chaque cellule de l’étendue des données d’apprentissage en sortie en quatre catégories. Ce paramètre est disponible uniquement lorsque les entités ponctuelles utilisées n’incluent pas de points d’arrière-plan.

L’étendue du raster formé en sortie correspond à l’intersection des rasters d’entraînement explicatifs dans la zone d’étude. La taille de cellule par défaut est égale à la taille de cellule maximale des entrées raster, modifiable dans l’environnement Taille de cellule.

Symbologie et légende du raster formé en sortie

Table de courbe de réponse et table de sensibilité

Vous pouvez utiliser le paramètre Table de courbe de réponse en sortie pour créer une table avec des diagrammes permettant de visualiser l’incidence marginale de chaque variable explicative sur la prévision de présence. Cet effet est également connu sous le nom de dépendance partielle, ou réponse partielle, de la présence du phénomène par rapport à chaque variable explicative.

Le diagramme Réponse partielle des variables continues se compose de plusieurs diagrammes, dont chacun représente l’incidence de la variation des valeurs de chaque variable explicative sur la probabilité de présence, les autres facteurs demeurant inchangés.

Diagramme Réponse partielle des variables continues

Le diagramme Réponse partielle des variables continues est un diagramme à barres unique qui illustre la réponse marginale de la présence de chaque catégorie de variable explicative.

Diagramme Réponse partielle des variables catégorielles

Le paramètre Output Sensitivity Table (Table de sensibilité en sortie) génère une table incluant deux diagrammes :

  • Diagramme Taux d’omission : il permet d’évaluer la part des points de présence connue classés par erreur en tant que non-présence par le modèle, à partir d’une plage de valeurs limites de probabilité de présence comprises entre zéro et un.

    Diagramme Taux d’omission

  • Diagramme ROC Plot (Courbe ROC) : il permet de comparer la part des points de présence connue correctement classés, connue sous le nom de sensibilité du modèle, et la part des points d’arrière-plan qui ont été classés en tant que présence. Comme avec le diagramme Omission Rates (Taux d’omission), cette comparaison est effectuée sur une plage de valeurs limites de probabilité de présence comprises entre zéro et un.

    Diagramme Courbe ROC

Appliquer le modèle à prédire

Outre les modèles d’entraînement, l’outil Prévision de présence uniquement permet d’appliquer des modèles entraînés pour estimer la présence à de nouveaux emplacements à l’aide des paramètres figurant dans la catégorie de paramètres Prediction Options (Options de prévision).

Configuration de l’outil pour effectuer des prévisions à partir de nouvelles entités de prévision en entrée

Le paramètre Input Prediction Features (Entités de prévision en entrée) spécifie les emplacements où l’outil applique le modèle entraîné pour estimer la présence. Le paramètre Output Prediction Features (Entités de prévision en sortie) indique une sortie contenant les résultats de la prévision appliquée à la valeur du paramètre Input Prediction Features (Entités de prévision en entrée).

Pour chaque variable explicative utilisée pour entraîner le modèle, vous devez spécifier une variable explicative appariée sous la forme d’un champ, d’une entité de distance ou d’un raster à l’aide des paramètres Match Explanatory Variables (Apparier les variables explicatives), Match Distance Features (Apparier les entités de distance) et Match Explanatory Rasters (Apparier les rasters explicatifs).

Les plages de valeurs détectées dans les données de prévision peuvent être différentes de celles trouvées dans les données d’apprentissage. Par exemple, un raster d’altitude pour l’entraînement du modèle peut inclure des valeurs entre 400 et 1 000 mètres, alors que le raster d’altitude correspondant aux emplacements de prévision comporte des zones où l’altitude est comprise entre 200 et 1 200 mètres. S’il est conseillé de maintenir les plages de variables explicatives des emplacements de prévision dans les limites des plages trouvées dans les données d’apprentissage, le paramètre Allow Predictions Outside of Data Ranges (Autoriser les prévisions en dehors des plages de données) permet au modèle d’extrapoler et de fournir quand même des estimations pour ces emplacements. Les messages de géotraitement de l’outil permettent de déterminer si des plages de variables explicatives sont hors des plages de données d’entraînement.

Vous pouvez également utiliser le paramètre Raster de prévision en sortie pour créer un raster contenant les résultats des prévisions du modèle appliquées à chaque cellule dans l’étendue de l’intersection des rasters fournis par le paramètre Apparier les rasters explicatifs. L’utilisation de ce paramètre permet d’obtenir une surface de prévision sur l’ensemble des conditions environnementales disponibles pour les emplacements de prévision.

Symbologie et légende du raster de prévision en sortie

La différence entre raster de prévision en sortie et raster d’entraînement en sortie réside en ce que le raster d’entraînement est généré uniquement sur l’étendue des données d’apprentissage utilisées dans le modèle, tandis que le raster de prévision est généré sur l’étendue des entités de prévision en entrée et de l’intersection de leurs rasters explicatifs appariés.

Valider le modèle

L’outil fournit des options permettant de valider et d’évaluer un modèle. Il est recommandé d’utiliser ces options en conjonction avec les paramètres Output Response Curve Table (Table de courbe de réponse en sortie) et Output Sensitivity Table (Table de sensibilité en sortie) pour évaluer la qualité et l’efficacité d’un modèle.

Utiliser le rééchantillonnage et la validation croisée

Les paramètres Resampling Scheme (Structure de rééchantillonnage) et Number of Groups (Nombre de groupes) de la catégorie de paramètres Validation Options (Options de validation) indiquent si le modèle fera l’objet d’une validation croisée.

Si la structure de rééchantillonnage Aléatoire est sélectionnée, les données d’apprentissage sont subdivisées selon le nombre de groupes spécifié.

Structure de rééchantillonnage avec des groupes aléatoires

L’outil lance ensuite une itération sur chaque groupe : en sélectionnant les données pour que le groupe actuel devienne le sous-ensemble de validation et en sélectionnant les données collectives pour que tous les groupes restants deviennent le sous-ensemble d’entraînement.

Sous-ensembles de validation et d’entraînement du premier groupe

L’outil crée un modèle en utilisant le sous-ensemble d’entraînement du groupe et prévoit la présence de chaque entité de validation. Les résultats de la prévision sont ensuite comparés aux désignations d’arrière-plan et de présence connue dans le sous-ensemble de validation.

L’outil continue ce traitement par itération et en autorisant chaque groupe à endosser le rôle du sous-ensemble de validation. Ce traitement est généralement connu sous le nom de validation croisée à K volets, K correspondant au nombre de groupes.

Validation croisée sur chaque groupe

Pour chaque groupe, le pourcentage d’entités de présence correctement classées et le pourcentage d’entités d’arrière-plan classées comme présence potentielle sont consignés. Les diagnostics de chaque groupe permettent d’indiquer la façon dont le modèle se comportera lors de l’estimation de présence dans des localisations inconnues. Ces diagnostics sont inclus dans les messages de géotraitement de l’outil.

Diagnostics de validation croisée dans les messages de géotraitement

L’outil requiert au moins deux points de présence et deux points d’arrière-plan dans le sous-ensemble d’entraînement afin que chaque groupe puisse créer un modèle pour la validation croisée. Si les groupes sélectionnés de façon aléatoire par l’outil ne génèrent pas au moins deux points de présence et deux points d’arrière-plan dans les sous-ensembles d’entraînement de chaque groupe, l’outil tente de recréer les groupes jusqu’à ce que cette exigence soit remplie ou jusqu’à 10 tentatives. Si l’outil ne parvient toujours pas à satisfaire cette exigence pour la validation croisée après 10 tentatives à l’aide des données fournies, il émet un avertissement indiquant que la validation croisée n’est pas possible.

Messages de géotraitement

Le rapport inclus dans les messages de géotraitement constitue une sortie importante de l’outil. Ce rapport recense des données importantes sur le modèle entraîné, notamment une table des paramètres du modèle, les diagnostics de comparaison du modèle, les coefficients de régression, un résumé catégoriel (si certaines variables explicatives sont catégorielles), un résumé de la validation croisée (pour la structure de rééchantillonnage aléatoire) et des diagnostics de plage de variables explicatives pour les données d’apprentissage et de prévision (si des entités de prévision ont été utilisées en entrée).

Messages Caractéristiques du modèle

La table Coefficients de régression présente les variables explicatives utilisées pour entraîner le modèle après régularisation. Chaque entrée inclut le nom de la variable explicative, l’expansion de base correspondante et le coefficient obtenu. Les noms des variables explicatives indiquent la nature de l’expansion de base. Par exemple, une variable de produit composée d’une variable Elevation et d’une variable ClimaticWaterDeficit est nommée product(ELEVATION, CLIMACTICWATERDEFICIT). Les coefficients sont arrondis à quatre chiffres après la virgule.

Messages Coefficients de régression

La table Cross-Validation Summary (Résumé de la validation croisée) recense l’ID de chaque groupe de validation croisée, le décompte des observations dans ses sous-ensembles de validation et d’entraînement, le pourcentage d’entités de présence observées prévues en tant que présence et le pourcentage d’entités d’arrière-plan observées prévues en tant qu’arrière-plan.

Diagnostics de validation croisée dans les messages de géotraitement

La table Explanatory Variable Range Diagnostics (Diagnostics de plage de variables explicatives) recense chaque variable explicative fournie (sous la forme d’un champ, d’une entité de distance ou d’un raster), ses valeurs minimale et maximale détectées dans les données d’apprentissage et, si des entités de prévision sont utilisées en entrée, les valeurs minimale et maximale détectées dans les données de prévision.

Messages Diagnostics de plage de variables explicatives

Pratiques recommandées et éléments à prendre en compte

Plusieurs bonnes pratiques et éléments sont à prendre à compte lors de l’utilisation de cet outil :

Multicolinéarité

Même si la régularisation de l’outil permet d’atténuer l’impact de la multicolinéarité sur les variables explicatives, il est néanmoins recommandé d’identifier les variables corrélées et d’en réduire le nombre. Les outils habituellement utilisés pour analyser la multicolinéarité sont notamment les diagrammes de matrice de nuages de points, la régression exploratoire et la réduction de dimension.

Données catégorielles

Lorsque l’option Aléatoire est sélectionnée pour le paramètre Structure de rééchantillonnage, l’outil subdivise les données d’entraînement en entrée en plusieurs groupes pour effectuer la validation croisée. Dans ce cas, les catégories comportant moins de trois points de données dans les groupes obtenus bloquent l’exécution de la validation croisée, et un message vous informe que la méthode de rééchantillonnage n’a pas pu être appliquée. Si l’outil est exécuté avec une valeur inférieure pour le paramètre Number of Groups (Nombre de groupes), ce problème risque moins de se produire : les groupes constitués sont plus grands et les catégories sont plus susceptibles d’appartenir à chaque groupe.

Affinage spatial

Le paramètre Output Training Features (Entités d’entraînement en sortie) permet d’étudier les résultats de l’affinage spatial sur la valeur Input Point Features (Entités points en entrée).

Pour établir un modèle à partir de l’affinage spatial et appliquer ce modèle à toutes les entités ponctuelles en entrée, indiquez les mêmes entités dans les paramètres Entités ponctuelles en entrée et Entités de prévision en entrée.

Valeur limite de probabilité

Pour choisir une valeur adéquate pour le paramètre Presence Probability Cutoff (Limite de la probabilité de présence), utilisez les diagrammes Omission Rates (Taux d’omission) et ROC Plot (Courbe ROC).

Le diagramme Omission Rates (Taux d’omission) permet de visualiser comment plusieurs valeurs du paramètre Presence Probability Cutoff (Limite de la probabilité de présence) produisent différents taux de points de présence incorrectement classés, également connus sous le nom de taux d’omission. S’il est souhaitable que le taux d’omission soit proche de 0, il est également important de ne pas baisser la valeur limite dans le seul but de minimiser le taux d’omission. En effet, cela minimise également le nombre de points d’arrière-plan classés en tant que présence potentielle (un résultat utile, dans beaucoup de scénarios).

Diagramme Taux d’omission

Pour évaluer l’incidence de différentes valeurs limites sur le nombre de points d’arrière-plan classés en tant que présence, utilisez le diagramme ROC Plot (Courbe ROC). Ce diagramme permet de comparer des points de présence correctement classés et des points d’arrière-plan classés en tant que présence potentielle selon différentes valeurs limites de la probabilité de présence.

Diagramme Courbe ROC

Le diagramme ROC Plot (Courbe ROC) répond à des objectifs différents selon la nature des points d’arrière-plan. Lorsque les points d’arrière-plan représentent une absence et que le paramètre Relative Weight of Presence to Background (Pondération relative de présence par rapport à l’arrière-plan) a une valeur de 1, vous pouvez utiliser le diagramme comme une courbe ROC classique dont la sensibilité (points de présence classés correctement) est au maximum et la valeur 1-spécificité (arrière-plans ou absences classés en tant que présence) est au minimum. Dans ce cas, les valeurs limites proches de l’angle supérieur gauche du diagramme sont plus adéquates. Lorsque les points d’arrière-plan représentent une occurrence inconnue mais possible, la courbe ROC indique l’impact de différentes valeurs limites sur le nombre d’emplacements d’arrière-plan potentiels estimés en tant que présence.

Il est recommandé d’utiliser les deux diagrammes à la fois. Si vous souhaitez évaluer le diagramme des taux d’omission pour la valeur limite par défaut de 0,5, sélectionnez le point limite candidat dans le diagramme Omission Rates (Taux d’omission), puis comparez cette entrée au diagramme ROC Plot (Courbe ROC).

Carte avec diagrammes Taux d’omission et Courbe ROC

Diagrammes des entités formées en sortie pour la validation

Le diagramme Classification Result Percentages (Pourcentages du résultat de classification) affiche une comparaison des classifications observées et prévues. Ce diagramme vous permet d’évaluer la capacité du modèle à prévoir les performances sur les points de présence connue. Par exemple, vous pouvez évaluer les performances du modèle en matière de prévision de présence sur les points de présence connue en examinant la portion de points de présence incorrectement classés. Dans les cas d’utilisation pour lesquels il est important de prévoir la présence sur les points d’arrière-plan, vous pouvez aussi utiliser ce diagramme pour afficher et sélectionner les points d’arrière-plan prévus pour avoir une présence.

Diagramme Pourcentages du résultat de classification utilisé pour évaluer les vrais et faux positifs

Critères généraux de sélection du modèle

Voici un processus de sélection de modèle pouvant s’appliquer à votre cas d’utilisation :

  1. Évaluez la valeur limite par défaut de probabilité de présence de 0.5 et son effet sur la capacité du modèle à identifier les localisations de présence connue comme présence (sensibilité) en utilisant l’axe y de la courbe ROC.

    Ouvrez les diagrammes Taux d’omission et Courbe ROC côte à côte. Sélectionnez la valeur limite par défaut de probabilité de présence de 0.5 dans la courbe des taux d’omission et notez la sensibilité obtenue sur l’axe y de la courbe ROC.

    Courbe des taux d’omission et courbe ROC indiquant les valeurs limites qui correspondent à la valeur de sensibilité

  2. Évaluez la valeur limite par défaut de probabilité de présence de 0.5 et son effet sur la capacité du modèle à identifier les localisations d’arrière-plan connu comme arrière-plan (1-spécificité) en utilisant l’axe x de la courbe ROC.

    Ouvrez les diagrammes Taux d’omission et Courbe ROC côte à côte. Sélectionnez la valeur limite par défaut de probabilité de présence de 0.5 dans la courbe des taux d’omission et notez la valeur obtenue (1-spécificité) sur l’axe x de la courbe ROC.

    Lorsque les points d’arrière-plan reflètent des localisations avec une présence inconnue (en utilisant la valeur par défaut du paramètre Pondération relative de présence par rapport à l’arrière-plan de 100), ceci reflète la portion de localisations d’arrière-plan dans les données d’entraînement soumises qui sont estimées pour correspondre à la présence potentielle.

    Lorsque les points d’arrière-plan correspondent à l’absence connue (en utilisant la valeur par défaut du paramètre Pondération relative de présence par rapport à l’arrière-plan de 1), ceci reflète la portion de faux positifs (localisations d’absence connue qui sont étiquetées par erreur comme présence).

    Courbes des taux d’omission et ROC illustrant les valeurs limites

  3. Interprétez la surface sous la courbure (AUC) dans la courbe ROC, qui est un diagnostic d’évaluation sur la capacité du modèle à estimer les localisations de présence connue en tant que présence et les localisations d’arrière-plan connu en tant qu’arrière-plan. Plus la surface sous la courbure est élevée et plus le modèle est approprié pour la tâche de prévision de présence.

    Courbe ROC illustrant la surface sous la courbure

    Même si la surface sous la courbe est un diagnostic d’évaluation général utile, il est important de savoir si l’objectif du modèle est de réduire les faux positifs (en d’autres termes, de s’assurer que la présence prédite a réellement de très grandes chances d’être une présence) ou de réduire les faux négatifs (en d’autres termes, de s’assurer que la non-présence prédite a de très grandes chances d’être une absence). L’équilibre entre les deux objectifs est la valeur de courbe ROC la plus proche de l’angle supérieur gauche du diagramme.

    Courbe ROC illustrant les valeurs limites qui assurent un équilibre entre sensibilité et spécificié

  4. Lorsque plusieurs modèles ont des diagnostics de validation similaire, sélectionnez le modèle le plus simple. Le modèle qui utilise des variables explicatives moins nombreuses et plus simples peut être souhaitable car il est plus facile à interpréter et à expliquer. Selon le principe de parcimonie, l’explication la plus simple d’un phénomène est généralement la meilleure (Phillips et autres, 2006).

    Avant tout, recourez à l’expertise d’un domaine et à une compréhension approfondie du problème pour sous-tendre la conception, la validation et l’utilisation d’un modèle.

Ressources supplémentaires

Pour plus d’informations, consultez les ressources suivantes :

  • Matthew E. Aiello-Lammens, Robert A. Boria, Aleksandar Radosavljevic, Bruno Vilela et Robert P. Anderson. 2015. « spThin: an R package for spatial thinning of species occurrence records for use in ecological niche models. » Ecography 38 : 541-545.

  • Du, Zhaohui , Zhiqiang Wang, Yunxia Liu, Hao Wang, Fuzhong Xue, Yanxun Liu. 2014. « Ecological niche modeling for predicting the potential risk areas of severe fever with thrombocytopenia syndrome. » International Journal of Infectious Diseases, 26: 1-8. ISSN 1201-9712. https://doi.org/10.1016/j.ijid.2014.04.006
  • Jane Elith, Steven J. Phillips, Trevor Hastie, Miroslav Dudík, Yung En Chee et Colin J. Yates. 2011. « A statistical explanation of MaxEnt for ecologists. » Diversity and Distributions, 17 : 43-57. pdf

  • William Fithian, Jane Elith, Trevor Hastie et David A. Keith. 2014. « Bias Correction in Species Distribution Models: Pooling Survey and Collection Data for Multiple Species. » arXiv:1403.7274v2 [stat.AP].

  • William Fithian et Trevor Hastie. 2013. « Finite-sample equivalence in statistical models for presence-only data. » The Annals of Applied Statistics, 7, n° 4 (décembre), 1917-1939.

  • Cory Merow, Matthew J. Smith et John A. Silander, Jr. 2013. « A practical guide to MaxEnt for modeling species’ distributions: what it does, and why inputs and settings matter. » Ecography, 36 : 1058–1069. pdf

  • Mobley W, Sebastian A,Highfield W, Brody SD. 2019. « Estimating flood extent during Hurricane Harvey using maximum entropy to build a hazard distribution model. » J Flood Risk Management. 2019;12 (Suppl. 1):e12549. https://doi.org/10.1111/jfr3.12549

  • Steven J. Phillips et Miroslav Dudik. 2008. « Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation. » Ecography 31 : 161-175.

  • Steven J. Phillips, Robert P. Anderson et Robert E. Schapire. 2006. « Maximum entropy modeling of species geographic distributions. » Ecological Modelling, 190 : 231-259. pdf

  • Aleksandar Radosavljevic et Robert P. Anderson. 2014. « Making better Maxent models of species distributions: complexity, overfitting and evaluation. » Journal of Biogeography 41, 629-643.