Équité dans l’outil Entraîner à l’aide d’AutoML

Au tout début du développement de l’intelligence artificielle (IA), les développeurs accordaient peu d’attention au risque d’introduction de biais ou de discriminations. Ils s’intéressaient surtout à l’exactitude et à l’efficacité des algorithmes. Cela a eu pour conséquence un traitement parfois non équitable de divers groupes par les algorithmes d’IA. Des critiques ont signalé, par exemple, que la reconnaissance faciale est moins précise lorsqu’il s’agit d’identifier des personnes à la peau foncée. Toutefois, au fur et à mesure que l’on a mieux mesuré l’impact des algorithmes d’IA, des questions en matière d’équité de l’IA ont été soulevées. Il s’en est suivi un mouvement pour comprendre et atténuer les préjugés, ce qui a abouti à une certaine équité dans le domaine de l’IA.

L’équité en IA vise à concevoir et mettre en œuvre des systèmes d’IA d’une manière qui soit impartiale et équitable, sans aucune discrimination fondée sur des facteurs tels que la race, le genre ou le statut socio-économique. Elle implique d’atténuer les partis pris et de s’assurer que les systèmes d’IA ne désavantagent pas certains groupes. Privilégier l’équité dans le champ de l’intelligence artificielle renforce la confiance envers ces technologies tout en réduisant le risque de préjudice ou d’effets négatifs sur les populations vulnérables.

Dans le cadre du Machine Learning, l’équité passe par l’analyse des données et le développement de modèles sans favoriser ni discriminer des groupes protégés. Son objectif consiste à s’assurer que tous les groupes sont représentés de façon égale dans le jeu de données utilisé pour l’entraînement des modèles de Machine Learning. Cette approche vise à empêcher que des préjugés hérités du passé influencent les prévisions actuelles et renforce l’inclusion des communautés vulnérables ou marginalisés au cours du développement du modèle et de son application.

Par exemple, l’existence d’idées préconçues sur certains quartiers ou certaines communautés peut engendrer une répartition inégale des ressources, qu’il s’agisse de parcs, d’écoles ou de transports publics. Des personnes vivant dans des zones à faibles revenus peuvent être indûment pénalisées par des modèles de notation de crédits reposant sur des informations liées aux codes postaux, et ce, sans tenir compte de leur dossier de crédit. Des schémas historiques de discrimination peuvent être perpétués si les modèles de Machine Learning sont entraînés sur des jeux de données reflétant d’anciennes pratiques discriminatoires telles que le redlining (refus de consentir des prêts hypothécaires dans certains quartiers) ou le profilage racial. Pour résoudre ces problèmes et promouvoir l’équité, des efforts constants ont permis d’améliorer les outils de Machine Learning en mesurant et en atténuant les préjugés à l’égard des groupes protégés.

Le manque d’équité peut avoir différentes origines, notamment des jeux de données partiaux, des sources de données différentes ou le calendrier de la collecte de données, le manque de compréhension du sujet, des techniques de traitement et des formats de données variés, des algorithmes erronés et un accès inégal aux ressources. Avec la reconnaissance de ces sources potentielles d’absence d’équité et les efforts pour les résoudre activement grâce à l’amélioration des méthodologies et à la prise en compte de considérations éthiques au cours des processus de développement de l’IA, il est possible de parvenir à des résultats plus équitables et de diminuer les impacts négatifs des préjugés dans les systèmes de Machine Learning.

Outil Entraîner à l’aide d’AutoML

L’outil Entraîner à l’aide d’AutoML utilise les outils et des techniques de Machine Learning automatisé (AutoML) sans nécessiter une intervention humaine importante. En automatisant une grande partie des tâches impliquées dans la construction d’un modèle, AutoML contribue à créer des modèles ultra précis basés sur les données d’entraînement. Afin de promouvoir l’équité, AutoML incorpore des métriques d’équité et une atténuation des biais dans le processus de construction du modèle. Les outils AutoML de la boîte à outils GeoAI ont été optimisés pour atteindre une grande exactitude et équité, ce qui garantit que le modèle obtenu est non seulement exact, mais ne présente ni biais ni discrimination à l’égard des groupes protégés.

Pour prendre en compte l’équité dans le Machine Learning, l’outil Entraîner à l’aide d’AutoML inclut les paramètres Attributs d’entité sensible et Métrique d’équité.

Le paramètre Attributs d’entité sensible comporte les colonnes suivantes :

  • Entités sensibles : attributs subjectifs ou sensibles dans le jeu de données qui peuvent introduire une absence d’équité dans les modèles de Machine Learning. Parmi ces attributs, citons la race, le genre ou le statut socio-économique. En entraînant le modèle sur une sélection de telles entités sensibles, vous pouvez atténuer les préjugés qui leur sont associés et produire un modèle plus objectif. L’outil évalue et optimise l’équité en se basant sur chaque attribut individuel.
  • Groupes défavorisés : pour chaque attribut spécifié, vous pouvez définir et spécifier des groupes défavorisés. Ces groupes représentent les groupes discriminés en lien avec l’entité sensible. Si, par exemple, le genre correspond à l’entité sensible, il est possible de signaler que les femmes forment un groupe défavorisé. De même, si l’on considère la race, les Afro-Américains peuvent constituer un groupe défavorisé. Si le statut socio-économique est spécifié comme une entité sensible, les personnes à faibles revenus peuvent être identifiées comme des groupes défavorisés.

Le paramètre Métrique d’équité comporte un ensemble d’options. Le choix de la métrique dépend du type de problème à traiter. Pour les problèmes de classification, utilisez les options Différence de chances égalisée, Différence de parité démographique, Ratio de chances égalisé ou Ratio de parité démographique. Pour les problèmes de régression, utilisez l’option Ratio de perte pour un groupe. La métrique d’équité joue un rôle important au cours du processus de recherche dans la grille effectué par l’outil. Ce processus inclut l’évaluation de diverses combinaisons des paramètres du modèle et la détermination du modèle le plus équitable en fonction de son adéquation par rapport à la métrique d’équité spécifiée.

La prise en charge de l’équité dans AutoML permet d’évaluer et d’améliorer l’équité des modèles entraînés pour les données tabulaires à l’aide de l’apprentissage machine. Cela permet une évaluation juste et une atténuation des modèles de classification et de régression, grâce à des métriques d’équité prédéfinies appropriées pour chaque type de modèle. Les métriques peuvent être classées comme suit :

Métriques d’équité utilisées par AutoML

Métriques d’équité pour les modèles de classification

En classification, l’objectif consiste à attribuer des points de données en entrée aux catégories ou classes prédéfinies. Cela comprend l’entraînement d’un modèle à l’aide d’exemples étiquetés dans lesquels chaque exemple est associé à une étiquette de classe spécifique. Le modèle apprend les schémas et les relations des données pour établir des prévisions pour de nouvelles instances qui n’ont pas encore été observées. Les problèmes de classification peuvent comporter des paramètres binaires (deux classes) ou multiclasses (plus de deux classes). La détection de courriers électroniques indésirables, la reconnaissance d’images, l’analyse de sentiments et le diagnostic de maladies sont des exemples de tâches de classification.

Les métriques suivantes visant à mesurer l’équité des problèmes de classification sont disponibles dans le paramètre Métrique d’équité :

  • Différence de chances égalisée : quantifie la disparité des taux de vrais positifs et de faux positifs parmi les différents groupes, tels que les groupes raciaux ou de genre. Elle calcule la plus grande différence pour déterminer la différence globale de chances égalisée. La valeur idéale pour cette métrique est 0, indiquant l’absence de variation des taux de vrais positifs, vrais négatifs, faux positifs et faux négatifs entre les groupes. La plage d’équité pour cette métrique varie entre 0 et 0,25. Le fait d’atteindre une différence de chances égalisée dans cette plage garantit que les différences entre les taux de vrais positifs et de faux positifs parmi les groupes ne dépassent pas 25 pour cent. Cela contribue à empêcher la pénalisation injuste de certains groupes en fonction d’entités sensibles telles que la race ou le genre. Utilisez cette métrique pour mesurer la disparité des taux de vrais positifs et de faux positifs parmi différents groupes.
  • Différence de parité démographique : évalue la disparité des taux de sélection parmi différents groupes d’individus. Le taux de sélection représente la proportion d’individus qui sont classés comme positifs par le modèle. La valeur idéale pour cette métrique est 0, ce qui indique qu’il n’existe pas de différence de taux de sélection entre les groupes. Cela signifie que tous les groupes sont traités de manière égale et présentent des chances semblables d’être classés comme positifs par le modèle. La plage d’équité associée à cette métrique est comprise entre 0 et 0,25, ce qui indique que les différences de taux de sélection entre les groupes ne doivent pas dépasser 25 pour cent.
  • Ratio de chances égalisé : semblable à la métrique Différence de chances égalisée, cette métrique mesure le ratio des taux de vrais positifs et de faux positifs entre les groupes, plutôt que la différence. Plus le ratio du taux de vrais positifs est petit, plus le ratio de faux positifs correspond au ratio de chances égalisé. La valeur idéale pour cette métrique est 1, ce qui indique que les taux de vrais positifs et de faux positifs sont égaux pour les différents groupes. L’équité de cette métrique varie entre 0,8 et 1. Une valeur proche de 1 indique qu’il existe peu, voire pas de différence en termes de performances du modèle (taux de vrais positifs et taux de faux positifs) entre les groupes sensibles pour chaque entité sensible.
  • Ratio de parité démographique : semblable à la métrique Différence de parité démographique, cette métrique mesure le ratio des taux de sélection entre les groupes, plutôt que la différence. La valeur idéale pour cette métrique est 1, ce qui indique que les taux de sélection sont égaux pour les différents groupes. L’équité de cette métrique varie entre 0,8 et 1. Une valeur proche de 1 indique qu’il existe peu, voire pas de différence en termes de performances du modèle entre les groupes sensibles pour chaque entité sensible.

Les plages d’équité de chaque métrique sont quelque peu arbitraires et dépendent du contexte spécifique dans lequel le modèle est utilisé. En général, de faibles différences ou des ratios élevés entre les groupes sont considérés comme des marqueurs d’une plus grande équité. Toutefois, il est important de tenir compte, lors de l’évaluation de l’équité, d’autres facteurs comme l’impact du modèle sur divers groupes et l’exactitude globale du modèle.

Le choix de la métrique d’équité à utiliser dépend du contexte spécifique et de l’application des modèles de Machine Learning. Chaque métrique possède ses points forts et ses faiblesses, et certaines d’entre elles conviennent mieux que d’autres selon les finalités du modèle et les sources de partialité potentielles. Si, par exemple, un modèle est utilisé dans lequel les faux positifs ont des conséquences fâcheuses, l’option Ratio de chances égalisé pourrait être une meilleure métrique afin de s’assurer que les différents groupes ne sont pas influencés de manière disproportionnée par les taux de faux positifs.

Par ailleurs, le modèle d’équité peut fonctionner avec des problèmes de classification binaire et de classification multiclasse. La détermination du type de problème de classification à effectuer repose sur le nombre de valeurs uniques dans la variable cible et le type de données de la cible.

Si la variable cible ne possède que 2 valeurs uniques, l’outil effectue une classification binaire. Si le nombre de valeurs uniques se trouve entre 2 et 20 (inclus), l’outil effectue une classification multiclasse pour les données de type nombre entier, nombre flottant et chaîne. Pour les données de type nombre entier ou nombre flottant avec plus de 20 valeurs uniques, l’outil effectue une classification multiclasse. Pour les données de type nombre entier ou nombre flottant avec plus de 20 valeurs uniques, l’outil effectue une analyse de régression sur le jeu de données.

Métriques d’équité pour les modèles de régression

Les régressions ont pour but de prévoir des valeurs numériques continues basées sur les entités en entrées. La régression implique la modélisation de la relation existant entre les variables indépendantes (entités en entrée) et des variables dépendantes (valeurs en sortie). Les modèles de régression utilisent des données d’entraînement étiquetées pour estimer la fonction sous-jacente qui convient le mieux aux entrées et sorties fournies. La prévision des prix dans l’immobilier, des tendances boursières, des températures et des ventes sont des problèmes de régression. Dans le cadre de l’évaluation de l’équité des problèmes de régression, utilisez la métrique Ratio de perte pour un groupe pour le paramètre Métrique d’équité.

La métrique Ratio de perte pour un groupe privilégie l’évaluation de l’équité en examinant les pertes ou erreurs des prévisions du modèle dans les différents groupes ou sous-groupes. Elle calcule le ratio de perte moyenne ou d’erreur pour un sous-groupe par rapport à un autre sous-groupe et fournit une mesure relative de la disparité des pertes entre différents groupes. La valeur 1 indique qu’il n’existe pas de différence de perte entre les groupes, tandis que des valeurs supérieures ou inférieures à 1 indiquent des disparités relatives. L’identification des biais dans les prévisions des modèles grâce aux métriques permet de prendre des mesures appropriées pour traiter les problèmes d’équité durant les processus d’entraînement à l’aide d’AutoML.

Optimiser un modèle de Machine Learning pour en faire un modèle équitable

Le processus d’optimisation d’un modèle de Machine Learning afin d’obtenir un modèle équitable commence comme l’entraînement d’un modèle de régression ou de classification à l’aide de l’outil Entraîner à l’aide d’AutoML. Pour améliorer un modèle de Machine Learning et le rendre équitable, procédez comme suit :

  1. Entraînez un modèle de Machine Learning à l’aide de l’outil Entraîner à l’aide d’AutoML.
  2. Lorsque le modèle de base est entraîné, identifiez les éventuelles entités sensibles susceptibles d’introduire une forme de partialité. Consultez le rapport en sortie du modèle de base entraîné qui met en avant les entités significatives (importance SHAP) qui ont le plus d’impact sur les sorties du modèle. Si des entités sensibles identifiées apparaissent également dans la liste des entités significatives, considérez-les comme des entités sensibles afin de les évaluer à un stade ultérieur. Cela garantira que les entités sensibles contribuent de manière significative aux prévisions du modèle. Si certaines entités sensibles ont peu d’importance et contribuent dans une moindre mesure aux résultats du modèle, vous pouvez les exclure de l’évaluation de l’équité.

    Paramètre Rapport en sortie du modèle ML de base entraîné (étape 1) afin de vérifier les entités significatives

  3. À l’issue de l’identification des entités sensibles et de la sélection éventuelle de groupes défavorisés, spécifiez une valeur pour le paramètre Métrique d’équité en fonction du type de problème (classification ou régression).
  4. Entraînez le modèle avec la valeur spécifiée pour le paramètre Attributs d’entité sensible.

    L’outil va produire un modèle de Machine Learning avec réduction des biais. Le modèle le plus performant à utiliser avec l’outil Prévoir à l’aide d’AutoML sera au format DLPK.

  5. Évaluez l’équité du modèle.

    Durant l’atténuation des biais, la recherche dans la grille est réalisée afin de déterminer le modèle le plus équitable en fonction des seules métriques d’équité définies par l’utilisateur. AutoML choisit le modèle dont la métrique d’équité se situe au-dessus du niveau d’un seuil et qui comporte la mesure Logloss la plus faible. Logloss : également connu sous les noms de perte logarithmique, perte logistique et perte d’entropie croisée, ce paramètre indique le degré de proximité d’une probabilité d’une prévision par rapport à la valeur vraie correspondante ou réelle. Si aucun modèle ne comporte de métrique d’équité au-dessus du seuil, AutoML enregistre le modèle ayant le paramètre Logloss le plus petit comme le meilleur modèle. En pareil cas, il est stipulé dans le rapport que l’outil n’a pas déterminé un modèle équitable.

  6. Pour accéder à un rapport d’analyse complet sur l’équité du modèle après avoir exécuté l’outil, cliquez sur l’option Afficher les détails en bas de la fenêtre Géotraitement, et sous l’onglet Paramètres, cliquez sur Rapport en sortie.

Interprétation du rapport sur l’équité

Les sections ci-après décrivent comment interpréter le rapport sur l’équité.

Modèles de classification

Les sections ci-après décrivent comment interpréter le rapport HTML généré en sortie à partir de l’outil Entraîner à l’aide d’AutoML pour les modèles de classification.

Tableau de classement AutoML

La page principale du rapport affiche le tableau de classement AutoML. Il inclut la table des métriques, divers diagrammes de performances et un diagramme de corrélation de Spearman pour les modèles.

  • Table des métriques : les modèles qui ont été entraînés avec le jeu de données sont indiqués, ainsi que le nom et le type du modèle, la valeur de la métrique, le modèle le plus adapté et la durée d’entraînement en secondes. Ces informations sont également disponibles dans les résultats de l’outil, le modèle le plus adapté étant indiqué dans la première colonne.
  • Diagrammes de performances : le rapport inclut divers graphiques de performances. Ces diagrammes donnent des renseignements sur les performances des modèles selon les différentes métriques et mettent en évidence les variations entre les modèles évalués.
    • Diagramme des performances d’AutoML : ce diagramme montre comment la métrique de classification de l’évaluation (Logloss) pour des modèles individuels varie selon les différentes itérations. Le diagramme d’itération vous éclaire sur la cohérence du modèle lors de ses différentes exécutions.

      Diagramme Performances d’AutoML

    • Diagramme de boîte à moustaches Performances d’AutoML : cette boîte à moustaches représente la variation des performances du modèle. Le diagramme est une représentation graphique de la distribution des valeurs Logloss selon les itérations des différents modèles évalués par AutoML. La boîte à moustaches inclut les éléments suivants :
      • Médiane : ligne dans la boîte à moustaches qui représente la valeur médiane de la perte logarithmique pour ce modèle.
      • Boîte : la boîte donne des informations sur la distribution plus ou moins proche ou éloignée des valeurs Logloss par rapport à leur médiane.
      • Moustaches : les moustaches indiquent les valeurs de perte logarithmique minimale et maximale lors des itérations d’un modèle.
      • Points aberrants : les points situés au-delà des moustaches sont considérés comme des points aberrants. Il s’agit de points de données dont les valeurs de perte logarithmique sont inhabituellement élevées ou faibles par rapport aux autres valeurs.

      Le diagramme suivant indique que modèle XGBoost possédant la valeur Logloss la plus basse est le modèle le plus adapté. Le diagramme montre également la grande variation comparativement des valeurs Logloss pour le modèle d’arbres aléatoires.

      Diagramme de boîte à moustaches Performances d’AutoML

    • Diagrammes des métriques de performances et d’équité d’AutoML : ces diagrammes sont également désignés comme des diagrammes de compromis entre la valeur Logloss et la métrique d’équité dans la classification. Ces diagrammes sont particulièrement pertinents dans le cadre de l’évaluation de l’équité. Ils déterminent l’équité d’un modèle en corrélant les performances du modèle (Logloss) aux métriques d’équité sélectionnées. Par exemple, le diagramme suivant montre comment la perte logarithmique est associée au ratio de parité démographique (DPR) pour une entité sensible telle que le genre. L’axe X représente les valeurs Logloss lesquelles sont faibles, ce qui indique de meilleures performances du modèle. L’axe Y représente le ratio de parité démographique, généralement exprimé sous la forme d’un ratio ou d’un pourcentage. Un modèle équitable devrait posséder une valeur DPR supérieure à 0,8. La zone verte de ces diagrammes indique que le modèle XGBoost répond au critère de l’entité sensible de genre tout en mettant en évidence les compromis potentiels entre exactitude et équité.

      Diagrammes des métriques de performances et d’équité d’AutoML

    • Diagramme de corrélation de Spearman : ce diagramme est généré pour tous les modèles ayant été évalués. Les modèles associés plus étroitement sont affichés dans des tons plus foncés de bleu.

Rapports en sortie

Pour obtenir des informations plus détaillées sur le modèle le plus adapté (ou tout autre modèle), cliquez sur le nom du modèle identifié comme le meilleur dans la table des métriques du modèle. Lorsque vous cliquez sur le nom, une page de rapport dédiée présente des informations détaillées et complètes sur le modèle en question. Cette page de rapport fournit une analyse approfondie des performances du modèle, des métriques, de l’importance des entités, ainsi que d’autres renseignements. L’examen de ce rapport permet de connaître les raisons pour lesquelles le modèle a été identifié comme le modèle le plus adapté et de comprendre ses forces et faiblesses.

La page du modèle inclut le nom et les paramètres du modèle, la métrique optimisée, la durée de l’entraînement, etc. La table Détails des métriques présente les scores de chaque métrique d’évaluation et le seuil correspondant. Ces métriques montrent les performances du modèle à différents égards. Par ailleurs, les visualisations et les graphiques peuvent vous aider à comprendre les caractéristiques des performances du modèle. Ils comportent une table et un graphique de matrice de confusion, les métriques d’équité pour chaque entité sensible et sa classe cible, les taux de sélection, de faux positifs/négatifs pour les entités sensibles, les courbes d’apprentissage, le diagramme d’une matrice de confusion normalisée, la courbe ROC (caractéristique de fonctionnement du récepteur), la courbe de rappel-précision, le graphique de l’importance des entités SHAP et les graphiques de dépendance SHAP.

Dans l’exemple suivant, la table Détails des métriques illustre différentes métriques d’évaluation avec les scores et les seuils associés :

Table Détails des métriques

La table suivante est un exemple de table Matrice de confusion pour un modèle de classification :

Table Matrice de confusion

Vous trouverez ci-dessous l’exemple d’une table de métriques d’équité pour des groupes sensibles. Cette table convient pour évaluer l’équité des prévisions du modèle le plus adapté. La table fournit une vue d’ensemble des métriques d’évaluation pour une entité sensible en particulier (le genre, par exemple).

Table Métriques d’équité pour des groupes sensibles

Les colonnes de la table Métriques d’équité pour des groupes sensibles peuvent être interprétées de la manière suivante :

  • Échantillons : nombre d’échantillons ou de points de données au sein d’un groupe sensible et jeu de données global en cours d’évaluation.
  • Exactitude : proportion des prévisions correctes établies par le modèle pour chaque classe sensible et pour l’ensemble. Ce paramètre représente le ratio du nombre de prévisions correctes par rapport au nombre total de prévisions. Par exemple, une valeur de précision globale de 0,8548 implique que le modèle a correctement prévu 85,48 pour cent d’échantillons du jeu de données.
  • Taux de sélection : proportion d’échantillons d’un groupe sensible particulier qui sont sélectionnés ou prévus comme positifs par le modèle. Par exemple, pour le groupe des hommes, un taux de sélection d’une valeur de 0,1896 implique qu’environ 18,96 pour cent des hommes sont prévus en tant que résultats positifs par le modèle.
  • Taux de vrais positifs (sensibilité) : cette métrique indique dans quelle mesure les cas positifs sont correctement prévus par le modèle. Il représente le ratio entre le nombre de vrais positifs et le nombre total de positifs réels au sein d’un groupe sensible particulier ou de l’ensemble du jeu de données. Par exemple, pour le groupe des femmes, un taux de vrais positifs (sensibilité) d’une valeur de 0,8087 implique qu’environ 80,87 pour cent des résultats positifs parmi les femmes sont correctement identifiés par le modèle.
  • Taux de faux négatifs : cette métrique complète le taux de vrais positifs. Il calcule le nombre de cas positifs qui ont été prévus à tort comme négatifs par le modèle au sein d’un groupe sensible particulier ou de l’ensemble du jeu de données. Cela se produit lorsque le modèle prévoit un résultat négatif alors que le résultat réel devrait être positif. Ce taux peut également être calculé à partir du taux de vrais positifs selon la formule FNR =1 - TPR. Par exemple, pour le groupe des femmes, un taux de faux négatifs dont la valeur calculée est égale à (1 - 0,8087) = 0,1913 implique qu’environ 19,13 pour cent des résultats positifs réels concernant les femmes ont été incorrectement classés comme négatifs par le modèle.
  • Taux de faux positifs : cette métrique calcule le nombre de cas négatifs réels qui ont été prévus à tort comme positifs par le modèle au sein d’un groupe sensible particulier ou de l’ensemble du jeu de données. Cela se produit lorsque le modèle prévoit un résultat positif alors que le résultat réel devrait être négatif. Par exemple, dans l’ensemble du jeu de données, un taux de faux positifs d’une valeur de 0,056 implique qu’environ 5,6 pour cent des cas négatifs réels ont été faussement prévus comme des cas positifs. Le taux de faux positifs du groupe des hommes s’élève à 0,0408, ce qui implique qu’environ 4,08 pour cent des cas négatifs réels parmi les hommes sont prévus de manière inexacte par le modèle comme étant positifs.
  • Taux de vrais négatifs (spécificité) : cette métrique complète le taux de faux positifs. Il calcule la proportion des cas négatifs réels correctement prévus comme négatifs par le modèle. Il représente le ratio entre le nombre de vrais négatifs et le nombre total de négatifs réels au sein d’un groupe sensible particulier ou du jeu de données entier. Par exemple, pour le groupe des hommes, le taux de vrais négatifs est calculé comme étant égal à 0,9592. Cela signifie que le modèle a correctement prévu environ 95,92 pour cent des résultats négatifs impliquant des hommes.

L’analyse de ces colonnes correspondant à différents groupes d’une entité sensible vous éclaire sur les disparités ou les biais potentiels présents dans les performances du modèle le plus adapté selon diverses métriques d’évaluation en lien avec l’équité.

La table des métriques d’équité suivante illustre la manière dont le modèle le plus adapté corrige les biais, ce qui permet d’évaluer son efficacité à produire des résultats plus équitables. La table donne des indications sur l’étendue dans laquelle le modèle traite et réduit les biais associés aux entités sensibles. Les scores des métriques montrent l’atténuation des biais obtenue par le modèle le plus adapté.

Table Métriques d’équité

Les métriques peuvent être interprétées comme suit :

  • Différence de parité démographique : la différence des taux de sélection observée entre hommes et femmes s’élève à 0,0291. Une valeur inférieure indique une moindre disparité des taux de sélection. Dans ce cas de figure, il existe une différence de 2,91 pour cent dans les taux de sélection des résultats positifs entre les genres, ce qui inférieur à la limite autorisée de 25 pour cent. Ceci suggère la présence d’un faible biais potentiel ou d’un traitement moins inégal en fonction du genre dans les prévisions du modèle et, par voie de conséquence, un modèle plus équitable pour l’entité sensible qu’est le genre.
  • Ratio de parité démographique : le ratio des taux de sélection est égal à 0,8465 après atténuation (entraînement avec les paramètres d’équité). Une valeur proche de 1 indique un meilleur équilibre des taux de sélection parmi les résultats positifs entre les genres.
  • Différence de chances égalisée : la différence des taux de faux positifs et de faux négatifs entre les deux genres s’élève à 0,2795 après atténuation, soit une valeur proche de la limite autorisée de 0,25. Ceci indique que le modèle est sensible aux disparités des erreurs de prévision observées entre les deux sexes.
  • Ratio de chances égalisé : cette métrique représente le ratio des taux de faux positifs et de faux négatifs après atténuation des biais. Avec une valeur d’à peine 0,5119, il est possible d’apporter des améliorations afin d’atteindre une distribution plus équitable des erreurs de prévision parmi les genres, sachant que plus la valeur est proche de 1, plus les résultats sont équilibrés.

Comparaison d’un modèle sans atténuation des biais et avec atténuation des biais

Dans la table des métriques du modèle, les noms de modèle portant le suffixe __SampleWeighting indiquent qu’ils ont fait l’objet d’une atténuation. Les tables sans le suffixe représentent la version non atténuée du modèle. Les deux tables donnent la possibilité de comparer directement les modèles avec et sans atténuation en termes de performances et d’équité. Cette comparaison vous renseigne sur la façon dont l’application des techniques d’atténuation influe sur les métriques d’équité et vous aide à évaluer l’efficacité des efforts de réduction des biais. Grâce à l’examen des deux versions d’un même modèle, vous êtes à même de mieux comprendre le traitement des biais et d’évaluer les améliorations apportées pour atteindre des résultats objectifs.

Lorsque le modèle final ne parvient pas à une équité parfaite selon toutes les métriques, il présente des améliorations en termes de différence de parité démographique et de ratio de parité démographique pour les prévisions liées au genre. En général, grâce à des mesures d’atténuation efficaces mises en place au cours de l’entraînement via les paramètres d’équité, des progrès significatifs sont réalisés afin de créer un modèle plus juste dans le cadre des prévisions sensibles au genre en réduisant les différences et en améliorant l’équilibre des résultats. Ce résumé confirme que l’entité sensible sélectionnée (le genre) a été traitée de manière adéquate par l’atténuation des biais et l’amélioration de l’équité du modèle final.

Le diagramme illustrant le taux de sélection constitue une validation supplémentaire de l’impartialité du modèle. Dans ce contexte, le taux de sélection désigne la proportion des échantillons issus d’un groupe particulier que le modèle prévoit comme étant positifs ou auxquels il attribue un certain résultat. Ce taux mesure la fréquence à laquelle le modèle sélectionne ou prévoit un résultat particulier pour un groupe donné par rapport au nombre total d’échantillons de ce groupe.

Diagramme Taux de sélection par genre

Le diagramme ci-dessus affiche un taux de sélection de 0,1896 pour le groupe des hommes. Cela signifie que, parmi tous les échantillons identifiés comme masculins, le modèle prévoit qu’environ 18,96 pour cent d’entre eux ont un salaire supérieur ou sont classés comme ayant un résultat positif. Pour le groupe des femmes, le taux de sélection est égal à 0,1605. Ce chiffre indique que le modèle prévoit qu’environ 16,05 pour cent de tous les échantillons identifiés comme féminins ont un résultat positif eu égard à un salaire supérieur ou des critères analogues.

Le taux de sélection montre la fréquence et la constance à laquelle le modèle attribue des prévisions positives aux différents groupes sensibles. Dans le cas de figure actuel, même si on constate une légère variation entre les hommes et les femmes, les deux taux dépassent la limite autorisée définie par les seuils d’équité. Ces légères différences des taux de sélection suggèrent l’absence de biais ou déséquilibres significatifs en termes de prévisions basées sur le genre et établies par le modèle. Comme les deux taux sont supérieurs aux seuils d’équité et présentent une disparité minime, on peut en conclure que les prévisions du modèle ne sont pas biaisées et sont équitables à l’égard des différents groupes sensibles.

Dans le diagramme suivant, les métriques Taux de faux négatifs et Taux de faux positifs donnent d’autres indications sur les performances du modèle avec correction des biais vis-à-vis des différents groupes sensibles des hommes et des femmes. Ces métriques sont importantes dans le cadre de l’évaluation des biais et des questions d’équité dans de tels modèles. Ses valeurs peuvent être analysées de la même manière que nous l’avons vu dans la description de la table Métriques d’équité pour des groupes sensibles précédemment.

Diagramme représentant les taux faussés par genre

La comparaison des taux de faux négatifs parmi les groupes des hommes et des femmes révèle les informations suivantes quant à l’équité du modèle :

  • Le taux supérieur de faux négatifs du groupe des hommes suggère que le modèle est davantage susceptible de manquer des résultats positifs réels d’individus gagnant de hauts salaires parmi les hommes. En d’autres termes, il peut prévoir de manière erronée que les hommes ont des salaires inférieurs à ceux qu’ils gagnent effectivement.
  • À l’inverse, le plus faible taux de faux négatifs associé au groupe féminin indique que le modèle parvient mieux à prévoir correctement les résultats positifs pour les femmes que pour les hommes. Il est moins susceptible de classer par erreur les femmes en leur attribuant des salaires inférieurs à leurs rémunérations réelles.
  • Si l’on observe les taux de faux positifs, le groupe des femmes comporte un taux plus élevé que le groupe des hommes. Cela signifie que le modèle est plus enclin à prévoir des résultats positifs incorrects en termes d’individus avec des salaires élevés pour les femmes alors qu’elles gagnent en réalité des revenus inférieurs.
  • À l’inverse, le taux de faux positifs plus faible associé aux hommes indique que le modèle donne de meilleurs résultats en ce qui concerne la production de faux positifs pour ce groupe. Il a moins tendance à attribuer par erreur des salaires plus élevés aux hommes que ceux qu’ils obtiennent en réalité.

Dans l’ensemble, même si la plupart des biais de prévision ont été corrigés par des taux similaires de faux positifs et de faux négatifs, il existe encore des différences de comportement liées au genre. Ces différences sont le signe qu’il est encore possible d’apporter des améliorations supplémentaires afin d’atteindre des prévisions plus objectives pour les deux sexes.

Les métriques d’équité jouent un rôle important en matière de détection des incohérences dans les résultats des prévisions parmi divers groupes associés à des entités sensibles. Dans certains cas, il n’est pas possible d’atteindre l’équité durant l’entraînement. En pareille situation, il est important de planifier des stratégies adaptées pour œuvrer en faveur d’un modèle plus juste. En outre, lors de la comparaison de nouveaux modèles d’équité par rapport à des modèles précédents, pensez à évaluer et mesurer les améliorations apportées spécifiquement en termes d’équité.

Améliorer l’équité d’un modèle

Les actions suivantes peuvent améliorer l’équité d’un modèle :

  • Augmenter l’inclusion d’échantillons non biaisés : en incorporant une gamme d’échantillons plus variés dans le jeu de données, vous pouvez améliorer la capacité d’entraînement et de généralisation du modèle parmi les différents groupes. Cela permet de modérer des biais figurant éventuellement dans les données d’entraînement.
  • Ajouter des entités pertinentes : ajoutez des entités pertinentes et des facteurs pouvant influer sur les résultats sachant que cela contribue à développer un modèle plus équitable et plus précis.
  • Analyser des échantillons traités de manière non équitable : examinez les prévisions et les résultats des échantillons traités de manière partiale, notamment ceux qui proviennent de groupes défavorisés. S’attacher à comprendre les raisons pour lesquelles certains échantillons font l’objet d’un traitement non équitable permet de découvrir l’origine d’éventuels biais ou discriminations dans le processus décisionnel du modèle.

La mise en œuvre de ces actions favorise l’amélioration de l’équité du modèle en éliminant les partis pris, en réduisant les disparités et en s’assurant d’un traitement équitable des différents groupes.

Modèles de régression

Pour les tâches de régression, utilisez la métrique Ratio de perte pour un groupe pour le paramètre Métrique d’équité et choisissez des entités sensibles dont les groupes sont susceptibles d’être discriminés ou biaisés. Comme pour le rapport de classification, la page principale du rapport de régression présente un tableau de classement dans lequel la première colonne indique le modèle le plus adapté.

Parmi les différents diagrammes de performances, les diagrammes de comparaison des métriques de performances et des entités sensibles d’AutoML sont particulièrement pertinents dans le cadre de l’évaluation de l’équité. Ces diagrammes montrent comment les performances du modèle, mesurées par l’erreur quadratique moyenne (EQM), sont corrélées à la métrique Ratio de perte pour un groupe pour des entités sensibles particulières, telles que l’âge. L’axe X représente l’EQM, qui est une mesure courante utilisée dans les activités de régression. L’EQM mesure la différence moyenne entre les valeurs prévues et les valeurs réelles. Des valeurs EQM faibles sont le signe de bonnes performances de prévision. L’axe Y représente le ratio de perte pour un groupe et compare les métriques de perte (EQM) pour différents sous-groupes d’âges à l’EQM général du modèle. Le ratio de perte pour un groupe indique les performances du modèle pour un groupe en particulier, par rapport à ses performances globales. La valeur 1 suggère qu’il n’existe pas de différence de perte entre les groupes, tandis que des valeurs supérieures ou inférieures à 1 indiquent des disparités relatives. Pour un modèle équitable, le ratio de perte pour un groupe devrait être supérieur à 0,8. La zone verte des diagrammes suivants indique les modèles qui répondent à ce critère et sont considérés comme des modèles non faussés. Néanmoins, si les modèles s’agrègent dans la partie inférieure de la plage du ratio de perte pour un groupe, cela suggère des disparités potentielles en matière d’exactitude et d’équité des prévisions pour les différents groupes. Des ajustements sont nécessaires pour garantir des résultats équitables.

Diagramme des métriques de performances et d’équité d’AutoML

Cliquez sur l’option Meilleur modèle pour ouvrir la page spécifique d’un modèle. Cette page fournit des informations sur les performances générales du modèle le plus adapté dans le diagramme Détails des métriques. Le diagramme présente une vue d’ensemble de diverses métriques qui procèdent à l’évaluation des performances du modèle. Le diagramme suivant figurant sur cette page est spécifique à l’entité sensible sélectionnée, telle que le genre. Ce diagramme s’intéresse aux performances du modèle en fonction des différents groupes sensible tout en considérant l’exactitude et l’équité des prévisions. La première ligne de ce diagramme indique les métriques globales du modèle et fournit une vue agrégée de ses performances. Les métriques de groupe individuel suivantes sont ensuite présentées et montrent les performances du modèle pour chaque groupe spécifique au sein de l’entité sensible.

ExemplesMAEMCEEQMR2MAPESpearman

Global

6105

7,1448

110,228

10,4989

0,270251

0,288477

0,517567

Homme

4 080

7,27697

114,756

10,7124

0,232757

0,261594

0,465998

Femmes

2025

6,8785

101,104

10,055

0,225144

0,34264

0,436187

Les métriques indiquées incluent les métriques MAE, MCE, EQM, R2, MAPE et la corrélation de Spearman pour chaque groupe de genre. Ces métriques permettent une appréciation générale des performances du modèle sans biais. Le diagramme permet d’évaluer si l’exactitude des prévisions du modèle et les métriques de performances sont cohérentes pour les différents sous-groupes concernant une entité sensible, telle que le genre. Il contribue également à identifier les éventuelles disparités susceptibles de demander un examen plus approfondi et de possibles ajustements afin de garantir l’équité. De plus, les performances du modèle sont évaluées en termes d’équité à l’aide de l’EQM. Cette évaluation implique de comparer les métriques de performances du modèle pour les différents groupes de genre, en examinant notamment les groupes favorisés et défavorisés. La métrique EQM sert à évaluer l’équité.

Différence EQM : la différence EQM est une composante clé de cette métrique d’équité. Elle quantifie la différence absolue des valeurs EQM entre les sous-groupes masculin et féminin. Dans la table ci-dessus, cette différence s’élève à 0,6574. Une différence EQM élevée indique une plus grande disparité en matière d’erreurs de prévision entre ces deux groupes tandis qu’une faible valeur suggère une moindre disparité. Du point de vue de l’équité, une faible différence EQM signifie généralement une moindre disparité entre les différents groupes, ce qui est considéré comme un point positif pour atteindre l’équité. Toutefois, déterminer la plage ou le seuil approprié de la différence EQM comme un indicateur d’équité dépend du contexte propre au problème et peut exiger une expertise en la matière.

Ratio EQM : le ratio EQM représente le ratio entre la valeur EQM du groupe défavorisé (les hommes) et celle du groupe favorisé (les femmes). Dans la table ci-dessus, le ratio correspond à 0,9386. Une valeur proche de 1 indique une distribution plus équitable des erreurs de prévision et laisse présumer des taux d’erreurs similaires pour les deux groupes. D’autre part, une valeur nettement différente de 1 suggère un taux d’erreur plus élevé chez l’un des deux groupes. Dans le cas étudié, un ratio EQM de 0,9386, valeur proche de 1, est le signe d’une distribution plus équitable des erreurs de prévision entre le groupe favorisé (les femmes) et le groupe défavorisé (les hommes). Cela signifie que les performances du modèle quant à l’exactitude des prévisions sont semblables pour les deux groupes. Atteindre l’équité a été possible grâce à l’utilisation de la métrique Ratio de perte pour un groupe visant à optimiser les résultats des problèmes de régression. La prise en compte de cette métrique et le fait d’atteindre un ratio EQM proche de 1 suggère que les prévisions établies par le modèle sont plus équitables avec des taux d’erreurs comparables pour les différents groupes de genre.

Options du paramètre Métriques d’équité pour les modèles de régression

Conclusion

Assurer l’équité dans les modèles de Machine Learning est indispensable pour promouvoir des résultats impartiaux. La sélection judicieuse des entités sensibles et des métriques d’équité, l’analyse des diagrammes de performances et l’examen de l’impact sur les différents groupes sensibles permet d’identifier les biais potentiels et d’œuvrer à les atténuer. Par le biais d’actions comme l’inclusion d’échantillons non biaisés, l’examen de cas traités de manière inéquitable et l’évaluation en continu des performances du modèle eu égard aux métriques d’équité, vous pouvez développer des modèles équitables et plus fiables. En privilégiant l’équité ainsi que l’exactitude, vous pouvez construire des systèmes d’intelligence artificielle fiables qui respectent les normes de déontologie et promeuvent l’égalité des chances pour tous les individus.

Rubriques connexes