使用 AutoML 进行训练工具的公平性

在人工智能 (AI) 发展的早期阶段,并未对潜在的偏见或歧视予以太多关注。 主要关注的是准确性和效率。 因此,某些群组受到了 AI 算法的不公平影响。 例如,批评者指出,面部识别在识别肤色较深的人时准确性较低。 然而,随着人们对 AI 算法的影响了解加深,关于 AI 公平性的担忧也随之产生。 因此,人们致力于理解和减轻偏见,从而推动 AI 的公平性。

AI 的公平性意味着以一种无偏和公正的方式设计和实施 AI 系统,不会因种族、性别、年龄或社会经济地位而产生歧视。 它涉及减轻偏见,并确保 AI 系统不会不公平地对待某些群组。 在 AI 中优先考虑公平性可以增加对这些技术的信任和信心,同时减少对弱势群体的伤害或负面影响的风险。

在机器学习中,公平性的重点是在不偏袒或歧视受保护群组的情况下分析数据和开发模型。 目标是确保在用于训练机器学习模型的数据集中,平等的代表所有群组。 这种方法旨在防止历史偏见影响当下的预测,并强调在模型开发和应用过程中包括弱势或边缘化社区。

例如,当对某些社区或地区存在偏见的假设时,可能会导致资源(如公园、学校或公共交通)的不平等分配。 住在低收入地区的人群可能会因依赖邮政编码信息的信用评分模型而受到不公平的惩罚,而不考虑他们的信用历史。 如果机器学习模型基于反映过去歧视做法(如红线政策或种族定性)的数据集进行训练,则可能延续历史上的歧视模式。 为了解决这些问题并促进公平性,目前正在通过测量和减轻对受保护群组的偏见来增强机器学习工具。

不公平性可能来自多个来源,包括有偏见的数据集、不同的数据来源或数据收集的时机、缺乏主题理解、不同的数据处理技术和格式、有缺陷的算法以及不平等的资源获取。 通过认识这些潜在的不公平来源,并通过改进方法和在 AI 开发过程中考虑伦理原则,积极努力解决这些问题,可以实现更加公平的结果,并减少机器学习系统中偏见的负面影响。

使用 AutoML 进行训练工具

使用 AutoML 进行训练工具使用自动化机器学习 (AutoML) 工具和技术,无需大量人工干预。 通过自动化模型构建过程中的许多任务,AutoML 可以在基于训练数据创建高度准确的模型时提供支持。 AutoML 促进公平性的一种方式是将公平性指标和偏见减轻纳入到模型构建过程中。 GeoAI 工具箱中的 AutoML 工具经过优化,旨在提高准确性和公平性,确保生成的模型不仅准确,而且不会对受保护群组展现出偏见或歧视。

为了将公平性纳入机器学习中,使用 AutoML 进行训练工具包括敏感要素属性公平性指标参数。

敏感要素属性参数具有以下列:

  • 敏感要素 - 数据集中可能导致机器学习模型不公平的偏见或敏感属性。 此类属性的例子包括种族、性别或社会经济地位。 通过选择这些敏感要素来训练模型,可以减轻与它们相关的偏见,得到一个更加公正的模型。 该工具将根据每个属性单独评估和增强公平性。
  • 弱势群体 - 对于每个指定的属性,您可以定义和指定弱势群体。 这些群组代表与指定敏感要素相关的受到歧视的群组。 例如,如果性别是敏感要素,则女性可以被标记为弱势群体。 同样地,对于种族,非洲裔美国人可能被视为弱势群体。 如果社会经济地位被指定为敏感要素,则低收入背景的人群可以被识别为弱势群体。

公平性指标参数提供了一组选项。 指标的选择取决于所解决问题的类型。 对于分类问题,可以使用均等赔率差人口奇偶差均等赔率比人口奇偶比选项。 对于基于回归的问题,可以使用群组损失率选项。 公平性指标在工具执行的格网搜索过程中发挥着重要作用。 该过程包括评估各种模型参数的组合,并根据模型与指定的公平性指标的一致程度确定最佳的公平模型。

AutoML 支持公平性,可以使用机器学习对表数据训练模型进行公平性的评估和改进。 它允许对分类和回归模型进行公平性评估和缓解,为每种模型类型使用适当的预定义公平性指标。 这些指标可以分为以下几类:

AutoML 使用的公平性指标

分类模型的公平性指标

在分类中,目标是将输入数据点分配到预定义的类别中。 其中包括使用带有特定类别标注的标记示例来训练模型。 模型通过学习数据中的模式和关系来为新的未见实例进行预测。 分类问题可以具有二元(两个类别)或多类(超过两个类别)的设置。 分类任务的示例包括电子邮件垃圾邮件检测、图像识别、情感分析和疾病诊断。

公平性指标参数中,可以使用以下用于衡量分类问题公平性的指标:

  • 均等赔率差 - 量化不同群组(例如种族或性别群组)之间真正率和假正率的差异。 它可计算这些差异中的较大值,以确定整体均等赔率差。 该指标的理想值为 0,表示不同群组之间的真正率、真负率、假正率和假负率没有变化。 该指标的公平性范围为 0 到 0.25。 在此范围内实现均等赔率差可以确保不同群组之间的真正率和假正率差异不超过 25%。 这有助于防止基于敏感要素(如种族或性别)对某些群组进行不公平惩罚。 使用此指标来衡量不同群组之间的真正率和假正率的差异。
  • 人口奇偶差 - 评估不同群组之间的选择率差异。 选择率表示被模型分类为正的个体比例。 该指标的理想值为 0,表示不同群组之间的选择率没有差异。 这意味着被平等对待所有群组,并且具有相似的被模型分类为正的概率。 该指标的公平性范围为 0 到 0.25,表示不同群组之间的选择率差异不应超过 25%。
  • 均等赔率比 - 类似于均等赔率差指标,该指标测量的是群组之间真正率和假正率的比率而不是差异。 真正率比例和假正率比例中的较小值被视为均等赔率比。 该指标的理想值为 1,表示不同群组的真正率和假正率相等。 该指标的公平性范围在 0.8 和 1 之间。 接近 1 的值表示模型在每个敏感要素的敏感组之间的性能(真正率和假正率)几乎没有差异。
  • 人口奇偶比 - 与人口奇偶差指标类似,该指标衡量的是不同群组之间选择率的比例,而不是差异。 该指标的理想值为 1,这表明不同组的选择率是相等的。 该指标的公平性范围在 0.8 和 1 之间。 接近 1 的值表示模型在每个敏感要素的敏感组之间的性能几乎没有差异。

每个指标的公平性范围在一定程度上是任意的,取决于使用模型的具体上下文。 通常情况下,较小的差异或较高的比率被认为公平性更高。 然而,在评估公平性时,还应考虑其他因素,如模型对多样性群组的影响和模型的整体准确性。

选择使用的公平性指标取决于具体的上下文和机器学习模型的应用。 每个指标均有其优势和劣势,根据模型的目标和潜在的偏见来源,某些指标可能比其他指标更合适。 例如,如果使用的模型中误报会产生严重后果,则均等赔率比可能是更好的指标,可确保不同群组不会因假正率而受到严重影响。

此外,公平模型可以用于二元分类和多类分类问题。 确定要执行的分类问题类型基于目标变量中唯一值的数量和目标的数据类型。

如果目标变量仅包含 2 个唯一值,则工具执行二元分类。 如果唯一值的数量在 2 到 20 之间(包括 20),则工具对整型、浮点型和字符串数据类型执行多类分类。 对于具有超过 20 个唯一值的整型或浮点型数据类型,工具执行多类分类。 对于具有超过 20 个唯一值的整型或浮点型数据类型,工具在数据集上执行回归分析。

回归模型的公平性指标

回归旨在基于输入要素预测连续数值。 回归涉及对独立变量(输入要素)和因变量(输出值)之间的关系建模。 回归模型学习标注的训练数据,以估计最佳拟合输入和输出之间的潜在函数。 回归问题包括预测房价和股市趋势、温度预测和销售预测。 在回归问题的公平性评估方面,使用群组损失率指标作为公平性指标参数。

群组损失率指标通过检查不同群组或子群组中模型预测的损失或错误来评估公平性。 它计算了一个子群组与另一个子群组之间平均损失或错误的比率,并提供了不同群组之间损失差异的相对测量值。 值为 1 表示各组之间的损失没有差异,而大于或小于 1 的值表示相对差异。 通过使用这些指标识别模型预测中的偏见,可以在 AutoML 训练过程中采取适当的措施来解决公平性问题。

将机器学习模型转化为公平模型

将机器学习模型转化为公平模型的过程类似于利用使用 AutoML 进行训练工具训练回归或分类模型的过程。 要将机器学习模型增强为公平模型,请完成以下步骤:

  1. 利用使用 AutoML 进行训练工具训练基本的机器学习模型。
  2. 训练基本模型后,识别可能引入不公平性的敏感要素。 参考训练基本模型的输出报告,该报告突出显示对模型输出影响最大的显著要素(SHAP 重要性)。 如果这些被识别的敏感要素也出现在显著要素列表中,则其将被视为进一步评估的敏感要素。 这将确保敏感要素在模型预测中具有显著的贡献。 如果某些敏感要素重要性较低且对模型的结果贡献较小,则可以将其排除在公平性评估之外。

    使用步骤 1 中训练的基本机器学习模型的“输出报告”参数检查显著要素。

  3. 在确定敏感要素并选择弱势群组后,根据问题类型(分类或回归),指定适当的公平性指标参数值。
  4. 使用指定的敏感要素属性参数值训练模型。

    工具将输出一个缓解后的机器学习模型。 最佳性能模型将以 DLPK 格式提供,可用于使用 AutoML 工具进行预测工具。

  5. 评估模型的公平性。

    在缓解过程中,执行格网搜索以确定基于用户定义的公平性指标的最佳公平模型。 AutoML 选择公平性指标超过阈值级别且具有最低对数损失的模型。 对数损失也称为逻辑损失和交叉熵损失,指示预测概率与实际或相应真实值之间的接近程度。 如果模型的公平性指标未超过阈值,AutoML 将保存对数损失最低的模型作为最佳模型。 当发生这种情况时,报告中将指示工具未确定公平模型。

  6. 在工具完成运行后,要访问模型公平性的详细分析报告,请单击地理处理窗格底部的查看详细信息选项,在参数选项卡上单击输出报告

公平性报告解释

以下部分介绍了解释公平性报告的方法。

分类模型

以下部分介绍了解释使用 AutoML 进行训练的分类模型生成的输出 HTML 报告的方法。

AutoML 排行榜

报告的主页显示了 AutoML 排行榜。 其中包括指标表、各种性能图表以及模型的 Spearman 相关性图表。

  • 指标表 - 显示使用数据集训练的模型,包括模型名称、模型类型、指标值、最佳模型和训练时间(以秒为单位)。 在工具结果中也提供了这些信息,其中在第一列中标明了最佳模型。
  • 性能图表 - 报告包括各种性能图表。 这些图表提供了关于模型在不同指标上的性能的见解,并突出显示了评估模型之间的变化。
    • AutoML 性能图表 - 此图表显示了不同迭代中各个模型的评估分类指标(对数损失)的变化情况。 迭代图表可以洞察模型在不同运行中的一致性。

      AutoML 性能图表

    • AutoML 性能箱形图 - 此箱形图表示模型性能的变化。 该图表是对 AutoML 评估的不同模型在迭代中对数损失值分布的图形表示。 箱形图包括以下组成部分:
      • 中位数 - 框中的线表示该模型的中位数对数损失值。
      • 框 - 框提供了对数损失值围绕中位数分布的紧密程度或广泛程度的见解。
      • 须线 - 须线表示模型在迭代中的最小和最大对数损失值。
      • 异常值 - 如果存在异常值,则在须线之外的个别点将被视为异常值。 这些异常值是与其他值相比具有异常高或低对数损失值的数据点。

      以下图表表明最佳模型是具有最低对数损失值的 XGBoost 模型。 该图表还显示了“随机树”模型在迭代中对数损失值的相对较大变化。

      AutoML 性能箱形图

    • AutoML 性能与公平性指标图表 - 这些图表在分类中也称为对数损失与公平性指标图表。 这些图表对于评估公平性至关重要。 这些图表通过将模型性能(对数损失)与选择的公平性指标相关联来评估模型公平性。 例如,下图说明了对于性别等敏感要素,对数损失与人口奇偶比 (DPR) 的关系。 x 轴表示对数损失值,较低的值表示模型性能更好。 y 轴表示通常以比率或百分比表示的 DPR。 公平模型的 DPR 值应高于 0.8。 这些图表上的绿色区域表示 XGBoost 满足此性别敏感要素条件,同时突出显示了准确性和公平性之间的潜在权衡取舍。

      AutoML 性能与公平性指标图表

    • Spearman 相关性图表 - 此图表用于显示评估的所有模型之间的相关性。 颜色较深的蓝色表示模型的相关性更高。

输出报告

要获取关于最佳模型(或任何其他模型)的详细信息,请单击模型指标表中标识为最佳模型的模型名称。 单击名称将打开一个专用报告页面,该页面提供有关该特定模型的全面和详细信息。 该报告页面提供了关于模型性能、指标、要素重要性和其他详细信息的深入分析。 通过探索该报告可以了解为什么将该模型确定为最佳模型,并了解模型的优势和劣势。

模型页面包括模型名称、模型参数、优化指标、训练时间等信息。 指标详细信息表提供了评估指标得分及其相应的阈值。 这些指标展示了模型在各个方面的表现情况。 此外,可视化和图表可以帮助您了解模型的性能特征。 其中包括混淆矩阵表和图表、每个敏感要素和目标类别的公平性指标、敏感要素的选择率和误报率、学习曲线、归一化混淆矩阵图、接收器操作特性 (ROC) 曲线、精确率-召回率 (PR) 曲线、SHAP 重要性图和 SHAP 依赖性图。

下面是一个指标详细信息表的示例,其中显示了各种评估指标及其得分和阈值:

指标详细信息表

下面是分类模型的混淆矩阵表示例:

混淆矩阵表

下面是敏感组公平性指标表的示例。 该表在评估最佳模型的预测公平性方面至关重要。 其中提供了特定敏感要素(例如性别)的评估指标的全面视图:

敏感组公平性指标表

可按如下方式解释敏感组公平性指标表中的列:

  • 样本数 - 在评估中涉及的每个敏感组和整个数据集中的样本或数据点数量。
  • 准确率 - 模型对每个敏感类别以及整体数据集进行的正确预测的比例。 它表示正确预测与总预测数之间的比例。 例如,整体准确率值为 0.8548 表示模型正确预测了数据集中约 85.48% 的样本。
  • 选择率 - 特定敏感组中被模型选择或预测为正例的样本比例。 例如,对于男性组,选择率值为 0.1896 表示约 18.96% 的男性样本被模型预测为正结果。
  • 真正率(敏感性)- 此指标表示模型正确预测正例的能力。 它表示特定敏感组或整体数据集中真正例与实际正例总数之间的比例。 例如,对于女性组,真正率值(敏感性)为 0.8087 表示在女性中正确识别约 80.87% 的正结果。
  • 假负率 - 该指标是真正率的补充,计算在特定敏感组或整体数据集中被模型错误预测为负例的正例数量。 当模型实际结果应为正,而预测为负时,生成生该比率。 它也可以使用真正率计算,公式为 FNR = 1 - TPR。 例如,对于女性组,假负率值可以计算为 (1 - 0.8087) = 0.1913,这意味着约 19.13% 的女性实际正结果被模型错误分类为负例。
  • 假正率 - 该指标计算在特定敏感组或整体数据集中被模型错误预测为正例的实际负例数量。 当模型实际结果应为负,而预测为正时,生成生该比率。 例如,在整个数据集中,假正率值为 0.056 表示约 5.6% 的实际负例被错误预测为正例。 男性组的假正率为 0.0408,表示男性组内约 4.08% 的实际负例被模型错误地预测为正例。
  • 真负率(特性) - 该指标是假负率的补充,计算模型在特定敏感组或整个数据集中正确预测为负例的实际负例的比例。 它表示真负例与实际负例总数之间的比例。 例如,对于男性组,真负率计算为 0.9592,则表示模型正确预测了约 95.92% 的涉及男性的负结果。

通过分析敏感要素的不同组之间的这些列,可以了解最佳模型在公平性考虑的各种评估指标上的表现是否存在潜在的差异或偏见。

以下公平性指标表说明了最佳模型如何减轻偏见,使您能够评估其在实现更公正结果方面的有效性。 该表提供了有关模型解决和减少与敏感要素相关的偏见程度的见解。 指标得分显示了最佳模型实现的偏见减轻程度。

公平性指标表

这些指标可以解释如下:

  • 人口奇偶差 - 性别选择率之间的差异为 0.0291。 较低的值表示选择率的差异较小。 在这种情况下,不同性别之间的正结果选择率存在 2.91% 的差异,低于 25% 的可接受限制。 这表明模型预测中基于性别的潜在偏见较低或不平等待遇较少,即对于性别敏感要素来说,该模型更加公平。
  • 人口奇偶差 - 经过缓解(使用公平性参数进行训练)后的选择率比例为 0.8465。 接近 1 的值表示性别之间的正结果选择率更加平衡。
  • 均等赔率差 - 经过缓解后,两个性别之间的假正率和假负率之差为 0.2795,接近 0.25 的可接受限制。 这表明模型对性别之间的预测误差差异敏感。
  • 均等赔率比 - 该指标表示经过缓解后的假正率和假负率之间的比例。 值为 0.5119,仍有改进的空间,可以实现性别之间预测误差的公平分配,值越接近 1,表示结果更加平衡。

缓解和未缓解模型的比较

在模型指标表中,带有 __SampleWeighting 后缀的模型名称表示它们经过缓解。 没有后缀的表表示模型的未缓解版本。 这两个表允许直接比较缓解和未缓解模型的性能和公平性。 它提供了应用缓解技术如何影响公平性指标的见解,可帮助您评估减少偏见的工作是否有效。 通过检查模型的两个版本,可以更好地了解偏见如何得到解决,并评估在实现更公平结果方面所做的改进。

虽然最终模型可能无法在所有指标上实现完美的公平性,但它在性别相关预测的人口奇偶差和人口奇偶比方面有所改进。 总体而言,通过在训练中应用公平性参数的有效缓解措施,我们在为性别敏感预测创建更公平的模型方面取得了显著进展,减少了差异并改善了结果的平衡性。 这个总结证实了通过减轻偏见并改善最终模型的公平性,所选敏感要素(性别)得到了适当处理。

报告选择率的图表进一步验证了模型的公平性。 在此上下文中,选择率是指模型将特定组的样本预测为正例或为其分配某个结果的比例。 它计算了模型相对于该组中样本总数,进行选择或预测特定结果的频率。

性别选择率图表

上面的图表显示男性组的选择率为 0.1896。 这意味着在被识别为男性的所有样本中,约有 18.96% 被模型预测为具有更高的薪资或被分类为正结果。 对于女性组,选择率为 0.1605,表示被识别为女性的所有样本中约 16.05% 被模型预测为具有与更高薪资或相似条件相关的正结果。

选择率显示了模型将正预测分配给不同敏感组的频率和一致性。 在这种情况下,尽管男性和女性组之间存在一些差异,但两个比率都超过了公平性阈值所设定的限制。 选择率的轻微差异表明,模型在基于性别的预测中不存在显著的偏见或不平衡。 由于这两个比率都超过了公平性阈值并且存在最小的差异,可以得出结论,该模型对各种敏感组的预测是无偏的和公平的。

在下面的图表中,通过假负率假正率指标可以进一步了解经缓解的公平性模型在不同敏感组(男性和女性)中的表现。 这些指标对于评估此类模型中的偏见和公平性问题至关重要。 其值的分析方式与前面在敏感组表中描述的公平性指标相同。

性别假率图表

通过对比男性和女性组的假负率,揭示了以下关于模型公平性的见解:

  • 男性组的较高假负率表明,该模型更有可能错过男性中工资较高的个体的实际正结果。 即会将男性的薪资错误地预测为低于他们的实际收入。
  • 相反,女性组的假负率较低,表明该模型相对于男性能够更好地正确预测女性的正结果。 将女性错误地归类为工资低于实际收入的可能性较小。
  • 对于假阳性率,女性组的比率较男性组高。 这意味着当女性的实际收入较低时,模型更容易将其错误地预测高薪资的正结果。
  • 相反,男性的假正率较低表明该模型在避免对这个性别组进行错误的正预测方面性能相对较好。 在将实际收入较低的男性错误地归类为收入较高的情况较少。

总体而言,尽管已经通过相似假正率和假负率解决了大部分预测中的偏见问题,但在性别上仍存在一些行为差异。 这些差异指出了需要进一步改进以实现不同性别组之间更公平预测的领域。

在检测与敏感要素相关的不同群组的预测结果中,公平性指标至关重要。 在某些情况下,可能无法在训练过程中实现公平性。 在这种情况下,需要制定适当的策略,从而实现更公平的模型。 此外,在比较新公平模型与先前的公平模型时,应考虑特别评估和评估在公平性方面所做的改进。

提高模型的公平性

可以通过以下操作来提高模型的公平性:

  • 增加无偏样本的包容性 - 通过将更多样本纳入数据集中,可以提高模型学习和在不同群组中概化的能力。 这有助于减轻训练数据中可能存在的偏见。
  • 添加相关要素 - 添加可能影响结果的相关要素和因素,有助于构建更公平和准确的模型。
  • 分析受不公平对待的样本 - 审查受不公平对待的样本的预测和结果,特别是来自弱势群体的样本。 通过了解某些样本受到不公平对待的原因,可以发现模型决策过程中潜在的偏见或歧视来源。

实施这些操作将有助于通过解决偏见、减少差距和确保对各种群组的公平对待来提高模型的公平性。

回归模型

对于回归任务,可以使用公平性指标参数中的群组损失率指标,并选择易受歧视和偏见的敏感要素群组。 与分类报告类似,回归报告的主页面显示了一个排行榜,其中最佳模型在第一列中表示出来。

在各种性能图表中,自动化机器学习性能与敏感要素图表特别适合评估公平性。 这些图表展示了模型性能(使用均方根误差 (RMSE) 衡量)与特定敏感要素(例如年龄)的群组损失率指标之间的相关性。 x 轴表示均方根误差 (RMSE) ,这是回归任务中常用的性能指标。 RMSE 衡量预测值与实际值之间的平均差异。 较低的 RMSE 值表示预测性能更好。 y 轴表示群组损失率 (GLR),它将不同年龄子组的损失指标 (RMSE) 与整体模型 RMSE 进行比较。 GLR 指示模型在特定群组中的表现与整体表现的差异。 值为 1 表示各组之间的损失没有差异,而大于或小于 1 的值表示相对差异。 对于公平模型,GLR 应高于 0.8。 以下图表中的绿色区域表示符合此条件且被视为无偏模型。 然而,如果模型聚集在 GLR 较低范围附近,则说明在不同群组之间的预测准确性和公平性存在潜在的差异。 需要进行调整以确保公平的结果。

AutoML 性能与公平性指标图表

单击最佳模型选项以打开特定模型的页面。 该页面提供了关于最佳模型在指标详细信息图表中的总体性能的信息。 该图表概述了评估模型性能的各种指标。 该页面上的下一个图表是针对所选敏感要素(例如性别)的特定图表。 该图表重点关注模型在考虑预测准确性和公平性的情况下针对不同敏感群组的表现。 该图表的第一行报告了模型的整体指标,提供了其性能的综合视图。 接下来呈现了各个群组的指标,显示了模型针对敏感要素中的每个特定群组的表现情况。

示例MAEMSERMSER2MAPESpearman

整体

6105

7.1448

110.228

10.4989

0.270251

0.288477

0.517567

男性

4080

7.27697

114.756

10.7124

0.232757

0.261594

0.465998

女性

2025

6.8785

101.104

10.055

0.225144

0.34264

0.436187

所报告的指标包括每个性别群组的 MAEMSERMSER2MAPESpearman 相关性。 这些指标提供了对改进模型性能的总体评估。 该图表可帮助您评估模型的预测准确性和性能指标在基于敏感要素(如性别)的不同子组之间是否一致。 它还有助于识别可能需要进一步调查和潜在调整以确保公平的差异。 此外,也可使用 RMSE 来评估模型的公平性性能。 这种评估涉及比较模型在不同性别群组之间的性能指标,特别是审查特权群体和弱势群体。 RMSE 指标可用于评估公平性。

RMSE 差异 - RMSE 差异是此公平性指标的关键组件。 它量化了男性和女性子组之间 RMSE 值的绝对差异。 在上表中,差异为 0.6574。 较大的 RMSE 差异表示这两个群组之间的预测误差具有更大的差异,而较低的值则表示预测误差的差异较小。 在公平性方面,较低的 RMSE 差异通常表示不同群组之间预测误差的差异较小,这有利于实现公平性。 然而,确定 RMSE 差异的合适阈值或范围作为公平性指标取决于具体问题的特定背景,并可能需要领域专业知识。

RMSE 比率 - RMSE 比率表示弱势群体(男性)的 RMSE 值与特权群体(女性)的 RMSE 值之间的比率。 在上表中,比率为 0.9386。 接近 1 的值表示预测误差的分布更公平,即两个群组的误差率相似。 另一方面,与 1 差异显著的值表示一个群组的误差率高于另一个群组。 在本例中,值为 0.9386 的 RMSE 比率接近 1,表示特权群体(女性)和弱势群体(男性)之间的预测误差的分布更公平。 这意味着模型在预测准确性方面对于两个性别群组表现相似。 通过在优化回归问题的结果中使用群组损失率指标,可以实现这种公平性。 通过考虑该指标并实现接近 1 的 RMSE 比率,表明模型的预测更加公平,不同性别群体之间的误差率相似。

回归模型的公平性指标参数选项

结论

确保机器学习模型的公平性对于促进公平结果是必要的。 通过仔细选择敏感要素和公平性指标、分析性能图表以及考虑对不同敏感群组的影响,可以识别潜在的偏见并采取措施减轻这些偏见。 通过采取措施,如包括无偏样本、审查受不公平对待的情况以及持续评估模型性能与公平性指标,可以开发更加公平和可靠的模型。 通过将公平性与准确性放在同等重要的位置,可以构建值得信赖的人工智能系统,遵守伦理标准,并促进所有个体的平等机会。

相关主题