AutoML を使用したトレーニング (Train Using AutoML) ツールの公平性—ArcGIS Pro

人工知能 (AI) 開発の初期段階では、潜在的なバイアスや差別はさほど考慮されていませんでした。むしろ、焦点は正確性と効率性を確保することに当てられていました。そのため、一部のグループが AI アルゴリズムによって不公平な影響を受けることもありました。たとえば、顔認識で肌の色が濃い人々を識別する場合、精度が落ちることが評論家から指摘されていました。しかし、AI アルゴリズムの影響が明らかになるにつれ、AI の公平性が懸念されるようになりました。その後、バイアスに対する理解と緩和への取り組みが進み、AI の公平性を高める動きが見られるようになりました。

AI における公平性とは、人種、性別、年齢、社会経済的地位などの要素で差別することなく、偏りのない公平な方法で AI システムを設計し、実装することを意味します。バイアスを緩和し、AI システムが特定のグループに不当な不利益を与えないようにすることが必要です。 AI における公平性を優先することで、AI 技術に対する信頼と信用が高まると同時に、社会的弱者に対する危害や悪影響のリスクを軽減できるようになります。

機械学習における公平性では、保護グループを優遇したり差別したりすることなく、データを解析してモデルを開発することに焦点を当てています。その目的は、機械学習モデルのトレーニングに使用されるデータセット内で、すべてのグループを平等に表すよう担保することです。このアプローチは、過去のバイアスが現在の予測に影響を及ぼさないようにすることを目的とし、モデルの開発と応用を通して社会的弱者や取り残されたコミュニティを含めることに重きを置いています。

たとえば、特定の地域やコミュニティに対して偏見のある思い込みが存在する場合、公園、学校、公共交通機関などの資源の分配が不平等になるおそれがあります。低所得地域の住民は、自身の信用履歴にかかわらず、郵便番号情報に依存する信用格付けモデルによって不当な不利益を被る可能性があります。機械学習モデルが、赤線引きやレイシャルプロファイリングなどの過去の差別的慣行を反映したデータセットでトレーニングされると、差別の歴史的パターンが続くことも考えられます。このような問題に対処して公平性を期するために、保護グループに対するバイアスを計測し、緩和することによって機械学習ツールを強化する取り組みが行われています。

不公平の原因としては、バイアスのあるデータセット、異なるデータソースやデータ収集の時期、対象者の理解不足、多岐にわたるデータ処理の方法と形式、欠陥のあるアルゴリズム、リソースへのアクセスの不平等などが挙げられます。不公平を生むこのような潜在的な原因を認識し、AI 開発プロセスにおける方法論の改善や倫理的な配慮を通じて積極的に対処することで、より公平な成果を得ることができるとともに、機械学習システム内でのバイアスの悪影響を減らすことができます。

AutoML を使用したトレーニングツール

[AutoML を使用したトレーニング (Train Using AutoML)] ツールは自動機械学習 (AutoML) ツールとテクニックを使用します。手動による操作はあまり必要ではありません。 AutoML では、モデル構築に関わる多くのタスクが自動化されているため、トレーニングデータに基づく精度の高いモデルを作成することができます。 AutoML では、公平性を促進する方法の 1 つとして、モデル構築プロセスに公平性メトリックとバイアス緩和を組み込んでいます。 GeoAI ツールボックスの AutoML ツールは、精度と公平性を担保できるよう最適化されており、結果として生成されるモデルが正確であるだけでなく、保護グループに対するバイアスや偏見を示しません。

機械学習に公平性を取り入れるために、[AutoML を使用したトレーニング (Train Using AutoML)] ツールには [センシティブな特徴量の属性] パラメーターと [公平性メトリック] パラメーターが含まれています。

[センシティブな特徴量の属性] パラメーターには、以下の列があります。

[センシティブな特徴量] - データセット内で偏りのある、あるいはセンシティブな属性。機械学習モデルの不公平の原因にある可能性があります。このような属性には、人種、性別、社会的地位などがあります。これらのセンシティブな特徴量を選択してモデルをトレーニングすることにより、これらに関連するバイアスを緩和できるため、バイアスの少ないモデルが構築されます。このツールは、それぞれの属性に基づいて公平性を評価し、強化します。
[不利なグループ] - 所定の属性ごとに、社会的に不利なグループを定義し、指定することができます。これらのグループは、所定のセンシティブな特徴量に関連して区別されたグループを表します。たとえば、性別がセンシティブな特徴量である場合、女性を不利なグループに指定することができます。同様に、人種であればアフリカ系アメリカ人が社会的に不利なグループと見なされることがあります。社会経済的地位がセンシティブな特徴量として指定されていれば、低所得世帯の人々が社会的に不利なグループとして識別されることがあります。

[公平性メトリック] パラメーターには、一連のオプションがあります。選択するメトリックは、対処する問題の種類に応じて異なります。分類問題に対しては、[等価オッズ差] オプション、[人口均等差] オプション、[等価オッズ比率] オプション、[人口均等率] オプションのいずれかを使用します。回帰に基づく問題については、[グループ損失比率] オプションを使用します。公平性メトリックは、ツールが実行するグリッド検索プロセスにおいて重要な役割を果たします。このプロセスでは、モデルパラメーターのさまざまな組み合わせを評価し、モデルが所定の公平性メトリックにどれだけ合致しているかによって、最適な公平性モデルを決定します。

AutoML で公平性がサポートされていることで、機械学習を用いたテーブルデータのトレーニング済みモデルの公平性の評価と改善が可能になります。各モデルタイプに適した、定義済みの公平性メトリックを使用することで、分類モデルと回帰モデルの公平性の評価と緩和を行います。メトリックは、次のように分類されています。

分類モデルの公平性メトリック

分類における目標とは、事前定義されたカテゴリやクラスに入力データポイントを割り当てることです。これには、それぞれの例が特定のクラスラベルに関連付けられているラベル付きの例を使用して、モデルをトレーニングすることも含まれます。モデルがデータのパターンと関係を学習し、新しい未知のインスタンスに対する予測を行います。分類問題では、バイナリ (2 つのクラス) またはマルチクラス (2 つ以上のクラス) の設定が可能です。分類タスクの例としては、電子メールのスパム検出、画像認識、感情分析、病気の診断などが挙げられます。

[公平性メトリック] パラメーターには、分類問題の公平性を計測するための、次のメトリックがあります。

[等価オッズ差] - 人種や性別など、異なるグループ間の真陽性率と偽陽性率の格差を定量化します。これらの差の高い方を計算し、全体的な等価オッズ差を決定します。このメトリックの理想値は 0 で、グループ間で真陽性率、真陰性率、偽陽性率、偽陰性率のばらつきがないことを意味します。このメトリックの公平性の範囲は、0 ～ 0.25 です。この範囲内で等価オッズ差を達成すると、グループ間の真陽性率と偽陽性率の差が 25% を超えないことが保証されます。そうすると、人種や性別などのセンシティブな特徴量によって特定のグループが不当に不利益を被ることがなくなります。このメトリックを使用し、さまざまなグループ間の真陽性率と偽陽性率の格差を計測します。
[人口均等差] - 異なるグループ間の選択率の格差を評価します。選択率は、モデルによって正として分類された個人の割合を表します。このメトリックの理想値は 0 で、グループ間の選択率に差がないことを示します。つまり、すべてのグループが平等に扱われ、モデルによって正と分類される確率も均等であることを意味します。このメトリックの公平性の範囲は 0 ～ 0.25 であり、グループ間の選択率の差が 25 パーセント以下であることを示します。
[等価オッズ比率] - [等価オッズ差] メトリックと似ていますが、このメトリックはグループ間の真陽性率と偽陽性率の差ではなく、その比率を計測します。真陽性率の比率と偽陽性率の比率の小さい方が、等価オッズ比率と見なされます。このメトリックの理想値は 1 で、これはさまざまなグループの真陽性率と偽陽性率が等しいことを示します。このメトリックの公平性の範囲は 0.8 ～ 1 です。 1 に近い値は、センシティブな特徴超のセンシティブグループ間で、モデルのパフォーマンス (真陽性率と偽陽性率) にほとんど差がない、またはまったく差がないことを意味します。
[人口均等率] - [人口均等差] メトリックと似ていますが、このメトリックではグループ間の選択率の差ではなく比率を計測します。このメトリックの理想値は 1 で、これはさまざまなグループの選択率が等しいことを示します。このメトリックの公平性の範囲は 0.8 ～ 1 です。 1 に近い値は、センシティブな特徴量のセンシティブグループ間で、モデルのパフォーマンスにほとんど差がない、またはまったく差がないことを意味します。

各メトリックの公平性の範囲はやや恣意的であり、モデルが使用されるコンテキストによって異なります。一般的に、グループ間の差が小さい、または比率が高い方が公平であると考えられています。しかし、公平性を評価するには、多様なグループに対するモデルの影響や、モデルの全体的な精度など、他の要素を考慮することも重要です。

どの公平性メトリックを使用するかは、それぞれのコンテキストと、機械学習モデルの用途に左右されます。各メトリックにはそれぞれ長所と短所があり、モデルの目標や潜在的なバイアスの原因によっては、他のメトリックよりも適したメトリックがあるでしょう。たとえば、偽陽性が深刻な結果をもたらす可能性があるモデルが使用されている場合、さまざまなグループが偽陽性率の影響を過大に受けないようにするには、[等価オッズ比率] オプションが適したメトリックであると考えられます。

さらに、公平性モデルはバイナリ分類とマルチクラス分類の両方の問題でも使用できます。どの分類問題のタイプを実施するかは、ターゲット変数の個別値の数と、ターゲットのデータタイプに基づいて決定されます。

ターゲット変数の個別値が 2 つしかない場合、ツールはバイナリ分類を実施します。個別値の数が 2 ～ 20 (2 と 20 を含む) である場合、integer、float、string のデータタイプに対してマルチクラス分類が行われます。個別値が 20 個以上ある integer または float データタイプの場合、マルチクラス分類が行われます。個別値が 20 個以上ある integer または float データタイプの場合、データセットに対して回帰分析が行われます。

回帰モデルの公平性メトリック

回帰は、入力フィーチャに基づいて連続的な数値を予測することを目的としています。回帰は、独立変数 (入力フィーチャ) と従属変数 (出力値) 間の関係をモデル化します。回帰モデルはラベル付きトレーニングデータから学習し、指定された入力と出力にベストフィットする、基礎的な関数を予測します。回帰問題には、住宅価格や株式市場の動向の予測、気温予測、売上予測などがあります。回帰問題の公平性評価では、[公平性メトリック] パラメーターに [グループ損失比率] メトリックを使用します。

[グループ損失比率] メトリックでは、多様なグループやサブグループにわたるモデル予測の損失または誤差を検証することにより、公平性を評価することに重きを置いています。あるサブグループと別のサブグループ間の平均損失または誤差の比率を計算し、異なるグループ間の損失の格差を相対的に計測します。値 1 はグループ間で損失に差がないことを示し、値が 1 より大きいまたは小さい場合は相対的な差があることを示します。これらのメトリックを通じて、モデル予測のバイアスを特定することで、AutoML トレーニング処理における公平性の懸念に対処するための策を講じられるようになります。

機械学習モデルを公平なモデルに強化する

機械学習モデルを公平なモデルに強化するプロセスの始めは、[AutoML を使用したトレーニング (Train Using AutoML)] ツールによる回帰モデルまたは分類モデルのトレーニングに似ています。機械学習モデルを強化して公平にするには、次の手順を実行します。

[AutoML を使用したトレーニング (Train Using AutoML)] ツールを使用し、基本的な機械学習モデルをトレーニングします。
基本的なモデルがトレーニングされると、不公平の原因となりかねないセンシティブな特徴量を特定します。モデル出力に最も大きな影響を及ぼす有意な特徴 (SHAP 重要度) をハイライトする、トレーニング済みの基本モデルの出力レポートをご参照ください。特定されたセンシティブな特徴量のいずれかが有意な特徴リストにも出現する場合、これらの特徴もセンシティブと見なして、さらに評価を行います。これにより、センシティブ特徴がモデル予測に大きく寄与することになります。重要度が低く、モデルの成果への貢献度が少ないセンシティブな特徴量は、公平性の評価から除外してもかまいません。
センシティブな特徴量を特定し、必要に応じて、社会的に恵まれないグループを選択した後、問題のタイプ (分類または回帰) に応じて適切な [公平性メトリック] パラメーター値を指定します。
所定の [センシティブな特徴量の属性] パラメーター値でモデルをトレーニングします。
ツールは、緩和された機械学習モデルを出力します。最適なモデルは、[AutoML を使用した予測 (Predict Using AutoML)] ツールで使用される DLPK 形式です。
モデルの公平性を評価します。
緩和の際、ユーザー定義された公平性メトリックにのみ基づいて最適に公平なモデルを決定するために、グリッド検索が行われます。 AutoML は、公平性メトリックが閾値レベル以上であり、ログ損失が最も低いモデルを選択します。ログ損失 - 対数損失、ロジスティック損失、交差エントロピー損失とも呼ばれ、予測確率が実際の値または対応する真の値にどれだけ近いかを示します。公平性メトリックが閾値を超えるモデルがない場合、AutoML はログ損失が最小のモデルをベストモデルとして保存します。この場合、ツールは公平なモデルを決定できなかった旨がレポートに記されます。
ツールが完了した後に、モデルの公平性に関する包括的な解析レポートにアクセスするには、[ジオプロセシング] ウィンドウ下部の [詳細の表示] オプションをクリックし、[パラメーター] タブで [レポートの出力] をクリックします。

公平性レポートの解釈

以下のセクションでは、公平性レポートを解釈する方法について説明します。

分類モデル

以下のセクションでは、分類モデルの [AutoML を使用したトレーニング (Train Using AutoML)] から生成された出力 HTML レポートを解釈する方法について説明します。

AutoML リーダーボード

レポートのメインページには、AutoML のリーダーボードが表示されます。メトリックテーブル、さまざまなパフォーマンスチャート、モデルのスピアマン相関チャートが含まれます。

メトリックテーブル - データセットでトレーニングされたモデルが表示され、モデル名、モデルタイプ、メトリック値、ベストモデル、トレーニング時間 (秒単位) が含まれます。この情報はツールの結果でも見ることができ、ベストモデルは最初の列に表示されます。
パフォーマンスチャート - レポートには、さまざまなパフォーマンスチャートが含まれます。これらのチャートでは、さまざまなメトリックにおけるモデルのパフォーマンスに関する洞察を提供し、評価されたモデル間のばらつきを浮き彫りにします。
- AutoML パフォーマンスチャート - このチャートは、個々のモデルの評価分類メトリック (ログ損失) が、さまざまな反復によって異なる様子を示します。反復チャートは、モデルの各実行間の一貫性について洞察を提供します。
- AutoML パフォーマンス箱ひげ図 - この箱ひげ図は、モデルのパフォーマンスのばらつきを表します。このチャートは、AutoML によって評価されたさまざまなモデルの反復におけるログ損失値の分布をグラフ表示したものです。箱ひげ図には、次のコンポーネントが含まれます。
  - 中央値 - 箱の中のラインは、そのモデルのログ損失の中央値を表します。
  - 箱 - 箱は、ログ損失値が中央値付近でどの程度狭く、あるいは広く分布しているか、洞察を提供します。
  - ひげ - ひげは、反復における最小ログ損失値と最大ログ損失値を示します。
  - 外れ値 - 外れ値が存在する場合は、ひげの外側にある個々のポイントは外れ値と見なされます。これは、他の値と比べてログ損失の値が異常に高い、または異常に低いデータポイントです。
  次のチャートでは、ベストモデルはログ損失値が最小の XGBoost モデルであることを示されます。また、反復にわたってランダムツリーモデルのログ損失値が比較的広くばらついていることも示されています。
- AutoML パフォーマンス vs 公平性メトリックチャート - これらのチャートは、分類ではログ損失チャート vs 公平性メトリックチャートとも呼ばれます。これらのチャートは、公平性を評価するうえで特に重要です。チャートは、モデルのパフォーマンス (ログ損失) と選択された公平性メトリックがどの程度合致するか相関させることによって、モデルの公平性を評価します。たとえば、以下のチャートでは、センシティブな特徴量 (性別など) について、ログ損失と人口均等率 (DPR) との関係を示します。 X 軸はログ損失値を表し、値が低いとモデルのパフォーマンスが良いことを意味します。 Y 軸は、通常は比率または割合で表される DPR を示します。公平なモデルであれば、DPR 値は 0.8 以上になります。これらのチャートの緑色のゾーンは、精度と公平性との潜在的なトレードオフをハイライトしつつ、XGBoost がセンシティブ特徴 (性別) の基準を満たしていることを示しています。
- スピアマン相関チャート - このチャートは、評価されたすべてのモデルに対して生成されます。より密接に関連するモデルは、濃い青で表示されます。

出力レポート

ベストモデル (あるいはその他のモデル) に関する詳細情報を得るには、モデルのメトリックテーブルでベストとして特定されたモデルの名前をクリックします。名前をクリックすると、そのモデルに関する包括的かつ詳細な情報を提供する、専用のレポートページが開きます。このレポートページでは、モデルのパフォーマンス、メトリック、特徴量の重要度、その他の詳細について、詳しい解析結果が表示されます。このレポートを読むことで、モデルがベストとして特定された理由や、モデルの長所と短所を理解するための洞察を得ることができます。

モデルページには、モデル名、モデルパラメーター、最適化されたメトリック、トレーニング時間などが記載されます。 [メトリックの詳細] テーブルには、評価メトリックのスコアと、それに対応する閾値が記されます。これらのメトリックは、さまざまな側面におけるモデルのパフォーマンスを示します。さらに、視覚化とチャートはモデルのパフォーマンス特性を把握する際にも役立ちます。これには、混同行列テーブルおよびチャート、それぞれのセンシティブな特徴量とターゲットクラスの公平性メトリック、センシティブな特徴量の選択率と偽陽性率/偽陰性率、学習曲線、正規化された混同行列、ROC (Receiver Operating Characteristic) 曲線、精度-再現率 (PR) 曲線、SHAP 重要度プロット、SHAP 依存度プロットなどがあります。

次の例は、さまざまな評価メトリックをスコアと閾値で示す、[メトリックの詳細] テーブルです。

次の例は、分類モデルの [混同行列] テーブルです。

次の例は、センシティブグループテーブルの公平性メトリックです。このテーブルは、ベストモデルの予測の公平性を評価するうえで重要です。このテーブルでは、特定のセンシティブの特徴量 (性別など) に対する評価メトリックを包括的に見ることができます。

[センシティブグループの公平性メトリック] テーブルの列は、次のように解釈されます。

[サンプル] - それぞれのセンシティブグループ内と、データセット全体で評価されるサンプルまたはデータポイントの数。
[精度] - それぞれのセンシティブクラスと全体について、モデルが行った正確な予測の割合。予測の総数に対する正しい予測の比率を表します。たとえば、全体的な精度値が 0.8548 である場合、データセットのサンプルのうちおよそ 85.48 パーセントがモデルによって正しく予測されたことを意味します。
[選択率] - モデルによって選択されたか、正として予測された、特定のセンシティブグループのサンプルの割合。たとえば、男性グループの選択率の値が 0.1896 である場合、男性サンプルのおよそ 18.96 パーセントが、モデルによって正として予測されたことを意味します。
[真陽性率] (感度) - このメトリックは、正のケースがモデルによってどの程度正確に予測されたかを示します。特定のセンシティブグループまたは全体的なデータセット内で、真陽性と実際の正の総数の比率を表します。たとえば、女性グループの真陽性率の値 (感度) が 0.8087 である場合、女性の正の結果のうちおよそ 80.87 パーセントが、モデルによって正しく予測されたことを意味します。
[偽陰性率] - このメトリックは真陽性率を補完するもので、特定のセンシティブグループまたはデータセット全体において、モデルによって負として不正に予測された正ケースの数を計算します。これは、実際の結果が正であるべきにもかかわらず、モデルが負として予測した場合に起こります。また、FNR = 1 - TPR という式を用いて、真陽性率から計算することもできます。たとえば、女性グループの偽陰性率の値は (1 - 0.8087) = 0.1913 と計算することができます。つまり、女性の実際の正の結果のうちおよそ 19.13 パーセントが、モデルによって誤って負として分類されたことを意味します。
[偽陽性率] - このメトリックは、特定のセンシティブグループまたはデータセット全体において、モデルによって正として不正に予測された実際の負ケースの数を計算します。これは、実際の結果が負であるべきにもかかわらず、モデルが正として予測した場合に起こります。たとえば、データセット全体の偽陽性率の値が 0.056 である場合、実際の負のうちおよそ 5.6 パーセントが正として誤って予測されたことを意味します。男性グループの偽陽性率は 0.0408 です。つまり、男性グループの実際の負ケースのうち、およそ 4.08 パーセントが、モデルによって正として誤って予測されたことになります。
[偽陰性率] (特異度) - このメトリックは偽陽性率を補完するもので、モデルによって負として正しく予測された実際の負ケースの割合を計算します。特定のセンシティブグループまたはデータセット全体内で、真陰性と実際の負の総数の比率を表します。たとえば、男性グループの真陰性率が 0.9592 である場合、男性に関する負の結果のうちおよそ 95.92 パーセントが、モデルによって正しく予測されたことを意味します。

センシティブ特徴内の異なるグループに関してこれらの列を解析することにより、公平性の考慮に伴うさまざまな評価メトリックにおけるベストモデルのパフォーマンスについて、潜在的な格差やバイアスの洞察を得ることができます。

以下の公平性メトリックのテーブルでは、ベストモデルがバイアスを緩和することで、より公平な結果を得るうえの有効性を評価できることを示します。このテーブルでは、モデルがセンシティブ特徴に関連するバイアスにどの程度対処して軽減しているか、洞察を提供します。メトリックスコアは、ベストモデルによって達成したバイアスの緩和を示します。

メトリックは、次のように解釈できます。

[人口均等差] - 性別の選択率の差は 0.0291 です。小さい値は、選択率の格差が少ないことを意味します。この場合、異なる性別間の正の結果の選択率には 2.91 パーセントの差があり、許容限度である 25 パーセントより低い値です。つまり、モデルの予測において性別に基づく潜在的なバイアスが低い、あるいは不平等な扱いが少ないことを意味し、性別のセンシティブ特徴に対して公平なモデルであることがわかります。
[人口均等率] - 緩和 (公平性パラメーターによるトレーニング) 後の選択率の比率は 0.8465 です。 1 に近い値は、性別間の正の結果の選択率のバランスが取れていることを意味します。
[等価オッズ差] - 2 つの性別間の偽陽性率と偽陰性率の差は、緩和後に 0.2795 となっています。これは、許容限度である 0.25 に近い値です。つまり、このモデルは、性別間の予測誤差の格差に対する感度が高いことがわかります。
[等価オッズ比率] - このメトリックは、緩和後の偽陽性率と偽陰性率の比率を表します。値が 1 に近いほどバランスの取れた結果となるため、値が 0.5119 であれば性別間の予測誤差の公平な分布を達成するには改善の余地があります。

緩和モデルと非緩和モデルの比較

モデルのメトリックテーブルで、__SampleWeighting という接尾辞が付くモデル名は緩和済みであることを示します。接尾辞が付かないテーブルは、モデルの非緩和バージョンを表します。これら 2 つのテーブルを使用することで、緩和モデルと非緩和モデル間で、パフォーマンスと公平性を直接的に比較できるようになります。緩和手法の利用が公平性メトリックに及ぼす影響について洞察を得て、バイアス軽減の取り組みが効果的であったかどうかを評価するうえで役立ちます。モデルの両バージョンを検証することで、バイアスへの対処について理解を深められるとともに、より公平な結果を達成するための改善点を評価することができます。

最終的なモデルでは、すべてのメトリックにおいて完全な公平性を達成できないかもしれませんが、性別関連の予測については、人口均等差と人口均等率に改善が見られます。全体的に、トレーニング段階で公平性パラメーターを用いた効果的な緩和策を取り入れて結果の差異を減らし、バランスを改善することにより、性別にセンシティブな予測を行う公平なモデル構築に向けて大きな進展を遂げることができました。このサマリーでは、最終モデルでバイアスを緩和し、公平性を改善させることによって、選択されたセンシティブ特徴 (性別) が適切に対処されたことを確認しました。

選択率を報告するチャートでは、モデルの公平性をさらに深く検証します。このコンテキストでは、選択率とは、モデルが正として予測する、あるいは特定の結果を割り当てる、特定のグループのサンプルの割合を表します。これは、所定のグループのサンプルについて、そのグループのサンプル総数と比較し、モデルが特定の結果を選択または予測する頻度を計測します。

上のチャートは、男性グループの選択率が 0.1896 であることを示します。つまり、男性として識別されたすべてのサンプルのうちおよそ 18.96 パーセントが給与が高い、あるいは正の結果を持つものとして分類されると、モデルによって予測されたことを意味します。女性グループの場合、選択率は 0.1605 です。つまり、女性として識別されたすべてのサンプルのうちおよそ 16.05 パーセントが給与が高い、または同様の基準に関連する正の結果を持つものとして、モデルによって予測されたことを意味します。

選択率は、モデルがさまざまなセンシティブグループに対して、正の予測をどれだけ頻繁に、かつ一貫的に割り当てたかを示します。ここでは、男性グループと女性グループ間に多少のばらつきはあるものの、どちらの比率も公平性の閾値で定められた許容限度を超えています。このような選択率のわずかな差は、モデルによって行われた性別に基づく予測については、大きなバイアスや不均衡が存在しないことを示唆しています。両方の比率が公平性の閾値を上回り、格差も最小限に抑えられていることから、このモデルによる予測にはバイアスがなく、さまざまなセンシティブグループ間で公平であることを結論付けることができます。

以下のチャートでは、[偽陰性率] と [偽陽性率] のメトリックから、男性と女性の異なるセンシティブグループに対して、公平性の緩和済みモデルがどのようなパフォーマンスを発揮しているか、さらに詳しい洞察を得ることができます。これらのメトリックは、このようなモデルのバイアスと公平性における懸念を評価するうえで重要です。その値は、このトピックの前半で説明したセンシティブグループテーブルの公平性メトリックと同じ方法で解析できます。

男性グループと女性グループの偽陰性率を比較すると、モデルの公平性に関する次の洞察が明らかになります。

男性グループの偽陰性率が高いことは、男性の中でも給与が高い個人の実際の正の結果を見逃す可能性が高いことを示唆しています。つまり、男性の給与は実際よりも低いと誤って予測されることがあります。
反対に、女性グループの偽陰性率は低いので、このモデルは男性よりも女性に対して正の結果を比較的正しく予測できることを示しています。女性の給与が実際の稼ぎよりも少ないと誤分類される可能性が低いということです。
偽陽性率は、女性グループの方が男性グループよりも高くなっています。つまり、このモデルは、実際には女性の所得が低くても、給与の高い個人の正の結果を不正に予測しがちです。
反対に、男性の偽陽性率は低いので、このモデルはこの性別グループの偽陽性予測を比較的うまく回避できることを示唆しています。男性の給与が実際の稼ぎよりも少なくても、給与が高いとして誤分類されることが少なくなります。

全体的に、予測におけるほとんどのバイアスは、同様の偽陽性率と偽陰性率によって対処されていますが、性別に基づく行動の違いはある程度まだ残っています。この違いは、異なる性別グループ間でより公平な予測を行ううえで、さらに改善の余地がある場所を示しています。

公平性メトリックは、センシティブな特徴量に関連する多様なグループ間で、予測結果の不一致を検出するうえで重要な役割を果たしています。場合によっては、トレーニング中に公平性を期することが不可能であることもあります。そのような場合、より公平なモデルを達成するために、適切な戦略を練ることが重要です。さらに、新しい公平なモデルと過去の公平なモデルを比較する際には、特に公平性において改善された点を評価することも考慮してください。

モデルの公平性の向上

以下のアクションにより、モデルの公平性を向上させることができます。

バイアスのないサンプル数を増やす - より多様なサンプル範囲をデータセットに組み込むことで、さまざまなグループにわたって学習し、一般化するモデルの能力を高めることができます。これは、トレーニングデータに存在した可能性があるバイアスを緩和することにもつながります。
関連する特徴量の追加 - 結果に影響を及ぼす可能性がある、関連する特徴と要素を追加します。これにより、より公平かつ正確なモデルを構築できるようになります。
不当に扱われているサンプルの解析 - 不当な扱いを受けているサンプル (特に社会的に恵まれないグループ) のサンプルの予測と結果を確認します。一部のサンプルが不公平な扱いを受ける理由を理解すると、モデルの意思決定プロセスにおけるバイアスやサンプルの潜在的な原因を特定することができます。

このようなアクションを取り入れることでバイアスに対処し、格差を軽減し、さまざまなグループを公平に扱い、モデルの公平性を向上させることができます。

回帰モデル

回帰タスクでは、[公平性メトリック] パラメーターの [グループ損失比率] メトリックを使用し、差別やバイアスの影響を受けやすいグループを含むセンシティブな特徴量を選択します。分類レポートと同様、回帰レポートのメインページにもリーダーボードが示されており、ベストモデルが最初の列に表示されます。

さまざまなパフォーマンスチャートの中でも、AutoML パフォーマンスチャート vs センシティブな特徴量のチャートは、公平性の評価において特に重要です。これらのチャートは、RMSE (二乗平均平方根誤差) で計測されるモデルのパフォーマンスが、特定のセンシティブな特徴量 (年齢など) の [グループ損失比率] メトリックとどのように相関するかを示します。 X 軸は RMSE を表します。これは、回帰タスクで一般的に使われるパフォーマンスメトリックです。 RMSE は、予測値と実際値の平均差を計測します。 RMSE 値が低いと、予測のパフォーマンスが高いことを意味します。 Y 軸はグループ損失比率 (GLR) を表します。これは、異なる年齢サブグループの損失メトリック (RMSE) と全体的なモデルの RMSE を比較するものです。 GLR は、全体的なパフォーマンスと比べ、特定のグループに対するモデルのパフォーマンスを示します。値 1 はグループ間で損失に差がないことを示し、値が 1 より大きいまたは小さい場合は相対的な差があることを示します。公平なモデルであれば、GLR は 0.8 以上になります。次のチャートの緑のゾーンは、この基準を満たし、バイアスがないと見なされるモデルを示します。しかし、モデルが GLR の低い範囲に集まっている場合は、異なるグループ間の予測精度と公平性に格差がある可能性を示唆しています。公平な結果を得るために、調整が必要となります。

[ベストモデル] オプションをクリックし、モデル固有のページを開きます。このページは、[指標の詳細] チャートのベストモデルの一般的なパフォーマンスに関する情報を提供します。チャートは、モデルのパフォーマンスを評価するさまざまなメトリックの概要を示します。このページの次のチャートは、選択したセンシティブな特徴量 (性別など) に特化しています。このチャートは、予測精度と公平性を考慮しつつ、さまざまなセンシティブグループに対するモデルのパフォーマンスの違いに焦点を当てています。チャートの最初の行では、モデルの全体的なメトリックについて報告しており、そのパフォーマンスの集約ビューを表示します。その後、個々のグループメトリックが示されます。ここでは、センシティブな特徴量内のそれぞれのグループに対し、モデルがどのようなパフォーマンスを発揮したかを表示します。


	サンプル	MAE	MSE	RMSE	R2	MAPE	スピアマン
全体	6105	7.1448	110.228	10.4989	0.270251	0.288477	0.517567
男性	4080	7.27697	114.756	10.7124	0.232757	0.261594	0.465998
女性	2025	6.8785	101.104	10.055	0.225144	0.34264	0.436187

報告されるメトリックには、各性別グループの [MAE]、[MSE]、[RMSE]、[R2]、[MAPE]、[スピアマン] 相関が含まれます。これらのメトリックでは、緩和済みモデルのパフォーマンスに関する総合的な評価が示されます。このチャートは、センシティブな特徴量 (性別など) に基づく異なるサブグループ間で、モデルの予測精度とパフォーマンスメトリックが一貫しているかどうかを評価するのに役立ちます。また、公平性を担保するために、さらなる調査や潜在的な調整が必要となる可能性がある格差を識別する際にも有益です。さらにモデルのパフォーマンスは、RMSE を使用して、公平性の観点から評価されます。この評価では、異なる性別グループ間のモデルのパフォーマンスメトリックを比較します (社会的に恵まれているグループと、不利なグループを検証)。公平性の評価には、[RMSE] メトリックが使用されます。

RMSE の差 - この公平性メトリックの主要コンポーネントは、RMSE の差です。男性サブグループと女性サブグループ間の、RMSE 値の絶対差を定量化します。上のテーブルでは、差は 0.6574 です。 RMSE の差が大きいと、これら 2 つのグループ間の予測誤差における格差が大きいことを意味し、値が低い場合は予測誤差の格差が少ないことを意味します。公平性の観点からは、RMSE 差が小さいほど、さまざまなグループ間の予測誤差の格差が小さいことを意味し、公平性を達成するにあたってプラスに働くとされています。しかし、公平性の指標として RMSE 差の適切な閾値や範囲を決定することは、問題の特定のコンテキストに依存するとともに、ドメインの専門知識が必要となることがあります。

RMSE 比率 - RMSE 比率は、社会的に不利なグループ (男性) の RMSE 値と、社会的に不利なグループ (女性) の RMSE 値の比率を表します。上のテーブルでは、比率は 0.9386 です。値が 1 に近いほど予測誤差の分布が公平になるため、両方のグループのエラー率が同程度になります。一方で、値が 1 から大幅に乖離している場合は、あるグループのエラー率が他のグループよりも高いことを意味します。ここでは、RMSE 比率は 0.9386 で、1 に近い値です。すなわち、不利なグループ (女性) と不利なグループ (男性) との間で予測誤差の分布がより公平であることがわかります。これは、両方の性別グループの予測精度の点で、モデルのパフォーマンスが似ていることを意味しています。このような公平性は、[グループ損失比率] メトリックを使用して回帰問題の結果を最適化することで達成できます。このメトリックを考慮し、1 に近い RMSE 比率を達成することにより、異なる性別グループ間でエラー率が同程度であることから、モデルによる予測はより公平であることを示唆しています。

まとめ

公平な結果を得るには、機械学習モデルの公平性を担保する必要があります。センシティブな特徴量や公平性メトリックを慎重に選択し、パフォーマンスチャートを解析し、異なるセンシティブグループへの影響を考慮することにより、潜在的バイアスを識別して、その緩和に取り組むことができるようになります。バイアスのないサンプルを含める、不当に扱われたケースを検証する、公平性メトリックについてモデルのパフォーマンスを継続的に評価するなどのアクションを通じて、より公平で信頼性の高いモデルを構築することができます。精度とともに公平性を優先することで、倫理基準を順守し、すべての人に平等な機会を促進する、信頼できる AI システムの構築が可能になります。

AutoML を使用したトレーニング ツール