Fonctionnement de l’outil Évaluer les prévisions avec la validation croisée

L’outil Évaluer les prévisions avec la validation croisée procède à une validation croisée à K blocs pour évaluer l’exactitude avec laquelle un modèle prévoit les données non visibles au moyen de plusieurs validations. Il divise le jeu de données en entrée en plusieurs groupes, en désigne un comme jeu de test, entraîne un modèle à l’aide des groupes restants, puis calcule des mesures d’évaluation pour déterminer la précision avec laquelle le modèle a prévu les valeurs du groupe de test. Il répète ce traitement pour chaque groupe. Les groupes peuvent être sélectionnés de manière aléatoire (K blocs aléatoires) ou agrégés spatialement (K blocs spatiaux) lorsque vous voulez déterminer l’efficacité avec laquelle le modèle prévoit les données inconnues dans les nouvelles régions géospatiales. L’outil dispose également d’options d’équilibrage des données, qui peuvent faciliter la classification des événements rares. Il est utilisé conjointement avec des outils de prévision, tels que Classification et régression basées sur une forêt et boostées, Régression linéaire généralisée et Prévision de présence seule (Max-Ent). Il offre une méthode de validation permettant d’évaluer les performances d’un modèle supérieure à celles fournies par les outils de prévision.

Validation croisée à K blocs

L’outil Évaluer les prévisions avec la validation croisée évalue l’exactitude avec laquelle un modèle prévoit les données non visibles au moyen de plusieurs validations. Lors de la validation croisée à K blocs, les entités de résultat d’analyse en entrée sont d’abord divisées en plusieurs (K) groupes (blocs) de taille identique ou similaire. Lors d’une exécution de validation, un groupe est désigné en tant que jeu de test, tandis que le modèle est entraîné sur les groupes restants. Le modèle permet ensuite de prévoir le jeu de test et des métriques statistiques sont générées pour évaluer les performances du modèle. L’outil utilise ensuite chaque groupe l’un après l’autre comme jeu de test, et exécute une validation.

La validation croisée à K blocs répète le traitement de validation plusieurs fois et crée une évaluation plus complète des performances du modèle avec différents jeux de test. Bien que la validation avec un seul jeu d’entraînement-test soit simple et utile, la validation croisée à K blocs fournit davantage d’informations. Les outils de prévision, tels que Classification et régression basées sur une forêt et boostées et Régression linéaire généralisée comprennent une étape de validation. Toutefois, la validation croisée à K blocs est supérieure, car elle fractionne plusieurs fois les données en plusieurs jeux d’entraînement et de test. Cela permet d’obtenir une estimation plus fiable des performances du modèle pour la prévision de nouvelles données et contribue à éviter un surajustement potentiel lors de l’entraînement.

Regroupement d’entités

La validation croisée à K blocs divise les entités d’analyse en plusieurs groupes. Le paramètre Nombre de groupes contrôle le nombre de groupes (K) créés. La valeur de ce paramètre est comprise entre 2 et le nombre d’entités dans le jeu de données. Le paramètre Type d’évaluation indique si les entités d’un groupe sont sélectionnées de manière aléatoire ou agrégées spatialement. Lorsque des variables catégorielles sont utilisées, tous les niveaux catégoriels peuvent ne pas être représentés de manière égale. Certaines catégories peuvent être rares, alors que d’autres sont fréquentes.

K blocs aléatoires

La validation croisée à K blocs aléatoires divise les entités de résultat d’analyse en K groupes de manière aléatoire. Chaque groupe contient un nombre d’entités identique ou similaire.

K blocs spatiaux

La validation à K blocs spatiaux garantit que tous les groupes d’entraînement et de test sont séparés spatialement les uns des autres. Les groupes spatiaux sont créés à l’aide de l’agrégation par K-moyennes. Les coordonnées de chaque entité sont utilisées pour créer K groupes partitionnés spatialement. Toutefois, il est possible que ces groupes ne contiennent pas le même nombre d’entités dans chaque jeu de validation. La validation à K blocs spatiaux est utile pour déterminer l’efficacité avec laquelle le modèle prévoit les données inconnues dans les nouvelles régions géospatiales.

Validation croisée de type « leave-one-out » (laisser un élément de côté).

Si le nombre de groupes correspond au nombre d’entités en entrée, une LOOCV (Leave One Out Cross-Validation, validation croisée de type « leave-one-out » [laisser un élément de côté]) est effectuée ; par exemple, si une sortie d’analyse Régression linéaire généralisée comprenant 100 entités utilisé dans le paramètre Entité de résultat d’analyse et que le paramètre Nombre de groupes défini sur 100. Le modèle est entraîné sur 99 entités, puis prévu, puis évalué sur l’entité restante. Ce traitement est répété 100 fois. L’avantage de la LOOCV est qu’elle offre une mesure robuste et objective des métriques d’erreur telles que MSE, RMSE et MAPE. Toutefois, elle ne doit pas être utilisée pour évaluer les métriques globales telles que R2, car celles-ci ne peuvent pas être calculées avec une taille d’échantillon de 1 et qu’elles ne sont pas très fiables pour les jeux de données de petite taille.

Évaluation des résultats des K blocs spatiaux

Les métriques d’évaluation pour la validation croisée spatiale sont influencées par le nombre de groupes sélectionnés. Plus l’agrégat spatialement contigu utilisé comme jeu de validation est petit, plus les métriques d’évaluation se rapprochent de celles de la LOOCV. Un petit jeu de validation spatialement contigu est susceptible de présenter une extrapolation spatiale inférieure, car ses voisins dans le jeu d’entraînement sont plus proches. D’autre part, les métriques de validation croisée aléatoire ont tendance à rester stables et similaires à celles de la LOOCV, quel que soit le nombre de groupes sélectionné. Ainsi, le nombre de groupes sélectionnés pour la validation croisée spatiale est un paramètre essentiel. Par exemple, si vous entraînez le modèle sur les données des comtés de 49 États sur les 50 que comptent les États-Unis, et que vous souhaitez que les prévisions portent sur le 50ème État, il est souhaitable de sélectionner 49 groupes. Cette approche garantit que chaque bloc représente un État hypothétique et, par conséquent, que les mesures finales reflètent précisément les performances du modèle pour la prévision dans un nouvel État.

Comparaison des types d’évaluation

En général, les métriques de validation croisée spatiale ont tendance à produire des résultats d’évaluation moins fiables que la validation croisée aléatoire. Par exemple, tandis que la validation croisée aléatoire peut atteindre une précision moyenne de 90 % pour tous les blocs, celle de la validation croisée spatiale se situe autour de 70 %. Cet écart s’explique par le fait que la validation croisée aléatoire bénéficie de l’auto-corrélation spatiale. Dans les jeux de validation aléatoire, les entités ont souvent des voisins spatiaux qui leur ressemblent fortement dans le jeu d’entraînement correspondant, en particulier lorsque l’auto-corrélation est importante. En revanche, les sous-ensembles de validation spatiale n’ont pas cet avantage, ce qui entraîne un certain niveau d’extrapolation spatiale. Dans ce cas, les prévisions sont effectuées dans une nouvelle zone spatiale sur laquelle le modèle n’a pas été entraîné. L’utilisation de la validation croisée aléatoire pour évaluer un modèle ne rend pas le modèle sous-jacent plus performant, même si les métriques semblent meilleures. En fait, elle surestime les performances du modèle dans un scénario réel dans lequel de nouvelles régions sont utilisées.

Vérification des résultats de validation croisée

On pense souvent à tort que la validation croisée et les autres procédures de validation de modèle sont conçues pour déterminer si le modèle est correct pour les données. Les modèles ne sont jamais corrects pour les données collectées dans le monde réel, mais ils n’ont pas besoin d’être corrects pour fournir des informations utiles en vue d’une prise de décision. Les statistiques de validation croisée sont un moyen de quantifier l’utilité d’un modèle, et non une liste de contrôle visant à déterminer si un modèle est correct. Grâce aux nombreuses statistiques disponibles (valeurs individuelles, résumés statistiques et diagrammes), un examen trop approfondi est susceptible de révéler des problèmes et des écarts par rapport aux valeurs et aux modèles idéaux. Les modèles ne sont jamais parfaits, car ils ne représentent jamais parfaitement les données.

Lorsque vous examinez des résultats de validation croisée, il est important de garder en tête les objectifs et les attentes de l’analyse. Supposez, par exemple, que vous prévoyez les températures en degrés Celsius pour effectuer des recommandations de santé publique pendant une vague de chaleur. Dans ce scénario, comment interpréter une valeur d’erreur moyenne de 0,1 ? Littéralement, cela signifie que le modèle a un biais positif et tend à surestimer les valeurs de température. Cependant, le biais moyen n’est que d’un dixième de degré, ce qui n’est pas assez important pour être pertinent dans le cadre d’une politique de santé publique. D’un autre côté, une valeur d’erreur quadratique moyenne de 10 degrés signifie qu’en moyenne, les valeurs prévues sont supérieures de 10 degrés aux températures réelles. Ce modèle est donc susceptible d’être trop imprécis pour être utile, car des différences de 10 degrés entraîneraient de grandes modifications dans les recommandations de santé publique.

Sorties

L’outil génère des messages de géotraitement et deux sorties : une classe d’entités et une table. La classe d’entités enregistre le jeu de données d’entraînement et les résultats d’entraînement et de prévision de chaque entité du jeu de données d’entraînement. La table enregistre les métriques d’évaluation pour chaque exécution de validation. L’outil produit également de nombreux messages de géotraitement, notamment la table Statistiques de diagnostic moyennes hors échantillon.

Messages de géotraitement

Vous pouvez accéder aux messages en passant le curseur de la souris sur la barre d’avancement, en cliquant sur le bouton de menu contextuel ou en développant la section de messages dans la fenêtre Géotraitement. Vous pouvez également accéder aux messages d’une précédente exécution de cet outil via l’historique de géotraitement. Les messages incluent une table Statistiques de diagnostic moyennes hors échantillon.

Table Statistiques de diagnostic moyennes hors échantillon

La table Statistiques de diagnostic moyennes hors échantillon fournit des diagnostics d’analyse.

La table Statistiques de diagnostic moyennes hors échantillon contient les diagnostics suivants :

  • R-carré : R-carré est une mesure de la qualité d’ajustement. Il s’agit de la proportion de variance de la variable dépendante prise en compte par le modèle de régression. La valeur varie entre 0,0 et 1,0. Une valeur élevée désigne un modèle de meilleure qualité. Contrairement à la valeur R-carré des données d’entraînement, la sortie de la valeur R-carré de l’échantillon peut diminuer lorsque des variables explicatives supplémentaires sont incluses ; il peut donc être utile de déterminer si l’inclusion de nouvelles variables explicatives est efficace. La valeur R-carré n’est pas calculée lorsque les groupes comprennent moins de trois entités.
  • R-carré ajusté : la valeur R-carré ajusté est similaire à la R-carré ; elle ajoute toutefois une pénalité pour l’inclusion de variables explicatives supplémentaires pour donner une certaine préférence aux modèles comportant moins de variables explicatives. Les calculs de la valeur R-carré ajusté normalisent le numérateur et le dénominateur par leurs degrés de liberté. En effectuant cet ajustement, vous perdez l’interprétation de la valeur en tant que proportion de la variance expliquée. Cette métrique n’est calculée que pour les modèles de régression linéaire généralisée. La valeur R-carré ajusté n’est pas calculée lorsque les groupes comprennent moins de trois entités.
  • Racine carrée de l’erreur quadratique moyenne (RMSE) : racine carrée de la différence carrée moyennée entre les valeurs réelles et les valeurs prévues. Comme l’erreur absolue moyenne (MAE), la racine carrée de l’erreur quadratique moyenne (RMSE) représente l’erreur moyenne de prévision du modèle dans les unités de la variable d’intérêt. Cependant, RMSE est plus sensible aux erreurs importantes et aux points aberrants. Cette statistique est généralement utilisée pour mesurer l’exactitude de la prévision. La racine carrée de l’erreur quadratique moyenne étant indiquée dans les unités de la variable d’intérêt, elle ne peut pas être comparée entre différents modèles.
  • Erreur absolue moyenne (MAE) : erreur absolue moyenne de la différence absolue entre les valeurs réelles et les valeurs prévues du paramètre Variable d’intérêt. La valeur 0 implique que le modèle a correctement prévu chaque valeur observée. L’erreur absolue moyenne étant indiquée dans les unités de la variable d’intérêt, elle ne peut pas être comparée entre différents modèles.
  • Erreur absolue moyenne en pourcentage (MAPE) : similaire à l’erreur absolue moyenne, elle représente la différence entre les valeurs d’origine et les valeurs prévues. Toutefois, tandis que MAE représente la différence dans les unités d’origine, MAPE représente la différence en pourcentage. MAPE étant une erreur relative, elle constitue un meilleur diagnostic pour comparer différents modèles. En raison du mode de calcul de l’erreur MAPE, elle ne peut pas être utilisée si l’une des valeurs d’origine est égale à 0. Si les valeurs d’origine sont proches de 0, l’erreur MAPE tend vers l’infini et sa valeur est nulle dans la table. Sa dépendance de l’échelle constitue une autre limitation de l’erreur MAPE. Par exemple, si la différence entre les valeurs réelles et les valeurs prévues est la même dans deux cas, le cas où la valeur réelle est inférieure impacte davantage l’erreur MAPE.

Sorties supplémentaires

Cet outil génère également une table et une classe d’entités en sortie.

Table en sortie

La table de validation en sortie contient les mêmes diagnostics que les messages de géotraitement : R-carré ajusté, R-carré, Racine carrée de l’erreur quadratique moyenne (RMSE), erreur absolue moyenne en pourcentage (MAPE) et erreur absolue moyenne (MAE). La table affiche de chacun des K blocs.

Entités en sortie

Les champs des entités en sortie comprennent les variables d’entraînement explicatives utilisées dans le modèle, la variable à prévoir, la valeur d’entraînement prévue moyenne, le résidu d’entraînement moyen, la valeur prévue hors échantillon et le résidu hors échantillon. Vous pouvez utiliser la valeur d’entraînement prévue moyenne, le résidu d’entraînement moyen, la valeur prévue hors échantillon et le résidu hors échantillon pour évaluer l’exactitude de la prévision de la valeur du champ.

Pratiques conseillées et limitations

Voici les meilleures pratiques et limitations concernant l’utilisation de l’outil :

  • Utilisez cet outil lors du réglage des paramètres et de l’optimisation du modèle. Par exemple, vous pouvez spécifier des valeurs de paramètres dans l’outil Classification et régression basées sur une forêt et boostées, et évaluer le modèle entraîné en utilisant le jeu de données d’entraînement en sortie comme entrée de l’outil Évaluer les prévisions avec la validation croisée. Avec le résultat de la validation croisée, vous pouvez retourner dans l’outil Régression et classification basées sur une forêt et boostées pour affiner le réglage de certains paramètres. Vous pouvez répéter ces deux étapes jusqu’à trouver les métriques de validation croisée appropriées pour votre modèle. Vous pouvez préparer le modèle final à l’aide du jeu de données d’entraînement complet ou du jeu de données équilibré, puis l’utiliser pour la prévision de nouvelles données inconnues.
  • Déterminez la métrique d’évaluation qui compte le plus pour votre cas d’utilisation spécifique. Considérez les éléments suivants :
    • Pour la classification : si vous prévoyez un événement rare et très important, vous pouvez optimiser la sensibilité de cette catégorie. Si vous utilisez de nombreuses catégories et que vous souhaitez le modèle qui propose les meilleures prévisions pour toutes les catégories, utilisez la métrique MCC ou F1 globale. La précision n’est pas toujours la meilleure métrique, en particulier lorsque des catégories rares sont concernées. Par exemple, si 99 % de vos données appartiennent à la catégorie A et 1 % à la catégorie B, un modèle qui prévoit chaque entité comme appartenant à la catégorie A présente une précision de 99 %, mais une sensibilité de 0 % pour la catégorie B.
    • Pour la régression : si c’est l’adaptation globale du modèle aux données qui vous intéresse, il est conseillé d’optimiser la valeur R-carré. Si les erreurs individuelles du modèle vous préoccupent, optimisez MAPE ou MAE. Si les erreurs individuelles du modèle vous préoccupent et que vous voulez minimiser les erreurs extrêmes, optimisez RMSE.
  • Les hyperparamètres qui produisent des métriques optimales pour un fractionnement aléatoire peuvent ne pas être les mêmes que pour un fractionnement spatial. Si votre objectif consiste à effectuer des prévisions pour une nouvelle zone spatiale, utilisez des fractionnements spatiaux pour l’évaluation. Testez différentes sélections de modèles et de paramètres et entrez-les dans l’outil pour identifier la combinaison qui produit les meilleures métriques moyennes avec la validation croisée spatiale.
  • Les valeurs R-carré et R-carré ajusté ne sont pas calculées lorsque le nombre de jeux de données de validation est inférieur à trois. Par conséquent, elles ne sont pas calculées si le nombre de groupes est supérieur à un tiers du nombre d’entités.
  • Le coefficient de corrélation de Matthews (MCC) ne peut pas être calculé si toutes les sorties prévues ont la même valeur.
  • L’équilibrage des données peut permettre d’améliorer l’exactitude du modèle lors de la classification d’événements rares.

Rubriques connexes