Справедливость в инструменте Обучение с использованием AutoML

На ранних этапах развития искусственного интеллекта (ИИ) не уделялось должного внимания возможности допущения предвзятости или дискриминации. Основное внимание уделялось точности и эффективности. Это приводило к ситуациям, когда алгоритмы ИИ оказывали необъективное влияние на какие-либо группы. Например, критики отмечают, что распознавание лиц имеет меньшую точность при идентификации людей с более темным оттенком кожи. По мере изучения негативного влияния алгоритмов искусственного интеллекта возникли опасения по поводу справедливости ИИ. Впоследствии стремление к пониманию и смягчению этих предубеждений привело к понятию справедливости ИИ.

Справедливость ИИ означает разработку и внедрение беспристрастных и справедливых систем ИИ, без дискриминации по таким факторам, как раса, пол, возраст или социально-экономический статус. Это предполагает снижение предвзятости и обеспечение того, что системы ИИ не будут необъективно ставить в невыгодное положение определенные группы. Первостепенное внимание к справедливости ИИ повышает доверие и надежность этой технологии, одновременно снижая риск причинения вреда или негативного воздействия на уязвимые группы населения.

В машинном обучении справедливость фокусируется на анализе данных и разработке моделей без предпочтения или дискриминации защищаемых групп. Цель состоит в том, чтобы гарантировать, что все группы одинаково представлены в наборе данных, используемом для обучения моделей машинного обучения. Этот подход направлен на предотвращение влияния прошлых предубеждений на современные прогнозы и подчеркивает необходимость включения уязвимых или маргинализированных сообществ в процесс разработки и применения модели.

Например, предвзятые предположения об определенных районах или сообществах могут привести к неравномерному распределению таких ресурсов, как парки, школы или общественный транспорт. Кредитоспособность людей, живущих в районах с низкими доходами, может быть несправедливо занижена моделями, основанными на информации о почтовом индексе, независимо от их кредитной истории. Исторические шаблоны дискриминации могут повторяться и дальше, если модели машинного обучения обучаются на наборах данных, отражающих прошлые дискриминационные практики, такие как практика "красной черты" или расовая дискриминация. Для решения этих проблем и обеспечения справедливости постоянно предпринимаются усилия по совершенствованию инструментов машинного обучения путем измерения и смягчения предвзятости в отношении защищаемых групп.

Несправедливость может возникать по разным причинам, включая смещенные наборы данных, разные источники данных или сроки сбора данных, отсутствие понимания предмета, неоднотипные методы и форматы обработки данных, ошибочные алгоритмы и неравный доступ к ресурсам. Признавая эти потенциальные источники несправедливости и активно работая над их устранением посредством совершенствования методологий и этических аспектов в процессах разработки ИИ, можно достичь более справедливых результатов и уменьшить негативное воздействие предвзятости в системах машинного обучения.

Инструмент Обучение с использованием AutoML

Инструмент Обучение с использованием AutoML использует инструменты и методы автоматизированного машинного обучения (AutoML), не требуя значительного вмешательства человека. Автоматизируя многие задачи, связанные с построением модели, AutoML может помочь создавать высокоточные модели на основе обучающих данных. Один из способов, с помощью которого AutoML может способствовать обеспечению справедливости, — это включение метрик справедливости и смягчения предвзятости в процесс построения модели. Инструменты AutoML в наборе инструментов GeoAI оптимизированы для обеспечения точности и справедливости, гарантируя, что полученная модель не только точна, но она также не будет проявлять предвзятость или дискриминацию в отношении защищаемых групп.

Чтобы обеспечить справедливость в машинном обучении, инструмент Обучение с использованием AutoML включает параметры Чувствительные атрибуты пространственных объектов и Метрика справедливости.

Параметр Чувствительные атрибуты пространственных объектов имеет следующие столбцы:

  • Чувствительные признаки — необъективные или чувствительные атрибуты в наборе данных, которые могут внести несправедливость в модели машинного обучения. Примеры таких атрибутов включают расу, пол или социально-экономический статус. Обучая модель с выбором этих чувствительных признаков, вы можете смягчить связанные с ними предвзятости, в результате чего модель станет более объективной. Инструмент будет оценивать и повышать справедливость на основе каждого атрибута в отдельности.
  • Незащищенные группы — для каждого указанного атрибута вы можете определить и указать незащищенные группы. Эти группы представляют дискриминируемые по указанному чувствительному признаку группы. Например, если пол является чувствительным признаком, женщин можно отнести к незащищенной группе. Точно так же с точки зрения расы афроамериканцы могут считаться незащищенной группой. Если социально-экономический статус указан как чувствительный признак, люди с низкими доходами могут быть идентифицированы как незащищенные группы.

Параметр Метрика справедливости предоставляет набор опций. Выбор метрики зависит от типа решаемой проблемы. Для задач классификации используйте опции Выровненная разница шансов, Разница в демографическом паритете, Выровненное отношение шансов или Коэффициент демографического паритета. Для задач на основе регрессии используйте параметр Коэффициент убыточности группы. Метрика справедливости играет важную роль в процессе поиска по сетке, выполняемом инструментом. Этот процесс включает в себя оценку различных комбинаций параметров модели и определение наилучшей справедливой модели на основе того, насколько хорошо модель соответствует указанному показателю справедливости.

Поддержка справедливости в AutoML позволяет оценивать и улучшать справедливость обученных моделей для табличных данных с помощью машинного обучения. Это позволяет проводить справедливую оценку и смягчение последствий для моделей классификации и регрессии, используя соответствующие предопределенные метрики справедливости для каждого типа модели. Метрики подразделяются на следующие категории:

Метрики справедливости, используемые AutoML

Метрики справедливости для моделей классификации

Цель классификации — отнести точки входных данных к заранее определенным категориям или классам. Это включает в себя обучение модели с использованием надписанных примеров, в которых каждый пример связан с определенной надписью класса. Модель изучает закономерности и взаимосвязи в данных, чтобы делать прогнозы для новых, неявных случаев. Задачи классификации могут иметь двоичную (два класса) или многоклассовую (более двух классов) настройки. Примеры задач классификации включают обнаружение спама в электронной почте, распознавание изображений, анализ настроений и диагностику заболеваний.

В параметре Метрика справедливости доступны следующие метрики для измерения справедливости задач классификации:

  • Выровненная разница шансов — количественно определяет разницу истинно положительных и ложно положительных коэффициентов в различных группах, таких как расовые или гендерные группы. Вычисляет наибольшую из этих разностей, чтобы определить общую выровненную разницу шансов. Идеальное значение этого показателя — 0, что указывает на отсутствие различий в истинно положительных, истинно отрицательных, ложно положительных и ложно отрицательных коэффициентах между группами. Диапазон справедливости для этой метрики составляет от 0 до 0,25. Значение выравненной разницы шансов в этом диапазоне гарантирует, что различия в показателях истинно и ложно положительных коэффициентов между группами не превысят 25 процентов. Это помогает предотвратить несправедливую дискриминацию определенных групп на основе таких чувствительных признаков, как раса или пол. Используйте эту метрику для измерения разницы в показателях истинно положительных и ложно положительных коэффициентов между различными группами.
  • Разница в демографическом паритете — оценивает разницу коэффициентов выборки в разных группах людей. Коэффициент выборки представляет собой долю лиц, классифицированных моделью как положительные. Идеальное значение этого показателя — 0, что указывает на отсутствие различий в коэффициентах выборки между группами. Это означает, что все группы будут рассматриваться одинаково и будут иметь одинаковые шансы быть классифицированными моделью как положительные. Диапазон справедливости для этой метрики оставляет от 0 до 0,25, что указывает на то, что различия в коэффициентах выборки между группами не должны превышать 25 процентов.
  • Выровненное отношение шансов – подобно метрике Выровненная разница шансов, эта метрика измеряет соотношение истинно положительных и ложно положительных коэффициентов между группами, а не разницу. Меньшее из значений отношения истинно положительных результатов и отношения ложно положительных результатов считается выравненным отношением шансов. Идеальное значение этого показателя — 1, что указывает на то, что истинные и ложные коэффициенты для разных групп одинаковы. Диапазон справедливости для этой метрики оставляет от 0,8 до 1. Значение, близкое к 1, указывает на то, что разница в производительности модели (истинно положительный коэффициент и ложно положительный коэффициент) мала или практически отсутствует между чувствительными группами для каждого чувствительного признака.
  • Коэффициент демографического паритета – Подобно метрике Разница в демографическом паритете, эта метрика измеряет отношение коэффициентов выборки между группами, а не разницу. Идеальное значение этой метрики равно 1, что свидетельствует о равенстве коэффициентов отбора для различных групп. Диапазон справедливости для этой метрики оставляет от 0,8 до 1. Значение, близкое к 1, указывает на то, что разница в производительности модели мала или практически отсутствует между чувствительными группами для каждого чувствительного признака.

Диапазоны справедливости для каждой метрики в некоторой степени субъективны и зависят от контекста, в котором используется модель. В целом, меньшие различия или более высокие значения отношений между группами считаются более справедливыми. Однако при оценке справедливости важно учитывать и другие факторы, такие как влияние модели на различные группы и общую точность модели.

Выбор того, какую метрику справедливости использовать, зависит от контекста и применения модели машинного обучения. Каждая метрика имеет свои сильные и слабые стороны, и некоторые из них могут быть более подходящими, чем другие, в зависимости от целей модели и потенциальных источников необъективности. Например, если используется модель, в которой ложно положительные результаты могут иметь серьезные последствия, опция Выровненное отношение шансов может быть лучшей метрикой, гарантирующей, что разные группы не будут непропорционально подвержены влиянию ложно положительных результатов.

Кроме того, модель справедливости может работать как с задачами бинарной классификации, так и с задачами многоклассовой классификации. Определение типа задачи классификации, которую необходимо выполнить, основано на количестве уникальных значений в целевой переменной и типе данных цели.

Если целевая переменная имеет только два уникальных значения, инструмент выполняет бинарную классификацию. Если количество уникальных значений находится в диапазоне от 2 до 20 (включительно), инструмент выполняет многоклассовую классификацию для целочисленных, с плавающей запятой и строковых типов данных. Для целочисленных типов данных или типов данных с плавающей запятой, содержащих более 20 уникальных значений, инструмент выполняет многоклассовую классификацию. Для целочисленных типов данных или типов данных с плавающей запятой, содержащих более 20 уникальных значений, инструмент выполняет регрессионный анализ набора данных.

Метрики справедливости для регрессионных моделей

Регрессия направлена на прогнозирование непрерывных числовых значений на основе входных объектов. Регрессия включает моделирование взаимосвязи между независимыми переменными (входными объектами) и зависимыми переменными (выходными значениями). Модели регрессии обучаются на основе надписанных обучающих данных, чтобы оценить базовую функцию, которая лучше всего соответствует предоставленным входным и выходным данным. Задачи регрессии включают прогнозирование цен на жилье и трендов фондового рынка, прогнозирование температуры и прогнозирование продаж. В контексте оценки справедливости для задач регрессии используйте метрику Коэффициент убыточности группы для параметра Метрика справедливости.

Метрика Коэффициент убыточности группы фокусируется на оценке справедливости путем изучения потерь или ошибок прогнозов модели в различных группах или подгруппах. Она вычисляет отношение средних потерь или ошибок между одной подгруппой и другой и предоставляет относительную меру различий в потерях между различными группами. Значение 1 указывает на отсутствие разницы в потерях между группами, а значения больше или меньше 1 - на относительное неравенство. Выявляя отклонения в прогнозах модели с помощью этих метрик, можно принять соответствующие меры для решения проблем справедливости в процессах обучения AutoML.

Превратите модель машинного обучения в справедливую модель

Процесс преобразования модели машинного обучения в справедливую модель начинается аналогично обучению модели регрессии или классификации с помощью инструмента Обучение с использованием AutoML. Чтобы улучшить модель машинного обучения и сделать ее справедливой, выполните следующие шаги:

  1. Обучите базовую модель машинного обучения с помощью инструмента Обучение с использованием AutoML.
  2. После обучения базовой модели определите все чувствительные признаки, которые могут привести к несправедливости. Обратитесь к выходному отчету обученной базовой модели, в котором выделены значимые признаки (важность SHAP), оказывающие наибольшее влияние на выходные данные модели. Если какие-либо из этих выявленных чувствительных признаков также фигурируют в списке значимых признаков, считайте их чувствительными признаками для дальнейшей оценки. Это гарантирует, что чувствительный признак внесет значительный вклад в прогнозы модели. Если определенные чувствительные признаки имеют низкую значимость и меньше влияют на результаты модели, их можно исключить из оценки справедливости.

    Параметр Выходной отчет для базовой модели машинного обучения, обученной в шаге 1, для проверки значимых признаков

  3. После определения чувствительных признаков и (при необходимости) выбора незащищенных групп укажите соответствующее значение параметра Метрика справедливости в зависимости от типа проблемы (классификация или регрессия).
  4. Обучите модель с указанным значением параметра Чувствительные атрибуты пространственных объектов.

    Инструмент выведет смягченную модель машинного обучения. Наиболее эффективная модель будет в формате DLPK для использования с инструментом Прогнозирование с помощью инструмента AutoML.

  5. Оцените справедливость модели.

    Во время снижения негативного воздействия выполняется поиск по сетке для определения лучшей справедливой модели исключительно на основе определяемых пользователем метрик справедливости. AutoML выбирает модель, метрика справедливости которой превышает пороговый уровень и имеет наименьшие логарифмические потери. Logloss — также известно как логарифмическая потеря, логистическая потеря и потеря перекрестной энтропии — указывает, насколько близка вероятность прогнозирования к фактическому или соответствующему истинному значению. Если ни одна из моделей не имеет метрики справедливости выше порогового значения, AutoML сохраняет модель с наименьшими логарифмическими потерями как лучшую модель. В этом случае в отчете будет указано, что инструмент не определил справедливую модель.

  6. Чтобы получить доступ к подробному отчету об анализе справедливости модели после завершения работы инструмента, щелкните опцию Просмотреть детали в нижней части панели Геообработка и на вкладке Параметры щелкните Выходной отчет.

Интерпретация отчета о справедливости

В разделах ниже описывается, как интерпретировать отчет о справедливости.

Модели классификации

В разделах ниже описано, как интерпретировать выходной HTML-отчет, созданный инструментом Обучение с использованием AutoML для моделей классификации.

Список лидеров AutoML

На главной странице отчета отображается список лидеров AutoML. Он включает таблицу метрик, различные диаграммы производительности и диаграмму корреляции Спирмена для моделей.

  • Таблица метрик – Показаны модели, обученные с использованием набора данных, включая имя модели, тип модели, значение метрики, лучшую модель и время обучения в секундах. Эта информация также доступна в результатах инструмента, где в первом столбце указана лучшая модель.
  • Диаграммы производительности – Отчет включает в себя различные диаграммы производительности. Эти диаграммы дают представление об эффективности модели по различным метрикам и подчеркивают различия между оцениваемыми моделями.
    • Диаграмма производительности AutoML – На этой диаграмме показано, как метрика оценки классификации (логарифмическая потеря) меняется для отдельных моделей на разных итерациях. Диаграмма итераций дает представление о согласованности модели в различных запусках.

      Диаграмма производительности AutoML

    • Ящичковая диаграмма производительности AutoML – Эта ящичковая диаграмма представляет изменение производительности модели. Диаграмма представляет собой графическое представление распределения значений логарифмических потерь по итерациям для различных моделей, оцениваемых AutoML. Ящиковая диаграмма включает в себя следующие компоненты:
      • Медиана — линия в блоке представляет собой медианное значение логарифмических потерь для этой модели.
      • Блок — блок дает представление о том, насколько близко или широко распределены значения логарифмических потерь вокруг медианы.
      • Усы – усы обозначают минимальные и максимальные значения логарифмических потерь для модели для всех итераций.
      • Выбросы – если присутствуют выбросы, отдельные точки за пределами усов считаются выбросами. Это точки данных с необычно высокими или низкими значениями логарифмических потерь по сравнению с другими значениями.

      На следующей диаграмме показано, что лучшей моделью является модель XGBoost с наименьшим значением логарифмических потерь. Диаграмма также показывает сравнительно большие различия в значениях логарифмических потерь модели случайных деревьев для всех итераций.

      Диаграмма производительности AutoML

    • Диаграммы производительности и метрик справедливости AutoML – в классификации эти диаграммы также называются диаграммами логарифмических потерь и метрик справедливости. Эти диаграммы особенно важны для оценки справедливости. Диаграммы оценивают справедливость модели путем корреляции того, как производительность модели (логарифмические потери) согласуется с выбранными метриками справедливости. Например, на следующей диаграмме показано, как логарифмические потери связаны с коэффициентом демографического паритета (DPR) для такого чувствительного признака, как пол. Ось x представляет значения логарифмических потерь, где более низкие значения указывают на лучшую производительность модели. Ось y представляет DPR, обычно выражаемый в виде отношения или процента. Справедливая модель должна иметь значение DPR выше 0,8. Зеленая зона на этих диаграммах указывает на то, что XGBoost соответствует этому критерию для чувствительного признака пола, одновременно подчеркивая потенциальный компромисс между точностью и справедливостью.

      Диаграммы производительности и метрик справедливости AutoML

    • Диаграмма корреляции Спирмена – эта диаграмма создается для всех оцененных моделей. Наиболее тесно связанные модели показаны более темными оттенками синего.

Выходные данные отчетов

Чтобы получить более подробную информацию о лучшей модели (или любой другой модели), щелкните название модели, признанной лучшей в таблице показателей моделей. При нажатии на имя открывается специальная страница отчета, на которой представлена исчерпывающая и подробная информация об этой конкретной модели. На этой странице отчета представлен углубленный анализ производительности модели, ее метрик, значимость признаков и другие детали. Изучение этого отчета может помочь понять, почему модель была признана лучшей, а также понять ее сильные и слабые стороны.

Страница модели содержит название модели, параметры модели, оптимизированную метрику, время обучения и многое другое. В таблице Информация о метрике представлены баллы оценки метрик вместе с соответствующими пороговыми значениями. Эти метрики показывают, насколько хорошо модель работает по различным аспектам. Кроме того, визуализации и диаграммы помогают понять характеристики производительности модели. К ним относятся таблица и диаграмма матрицы неточностей, метрики справедливости для каждого чувствительного признака и целевого класса, коэффициенты выборки и коэффициенты ложных результатов для чувствительных признаков, кривые обучения, нормализованная диаграмма матрицы неточностей, кривая соотношений правильно и ложно классифицированных характеристик (ROC), кривая Precision-Recall (PR), график значимости SHAP и графики зависимости SHAP.

Ниже приведен пример таблицы Информация о метрике, в которой показаны различные метрики оценки с баллами и пороговыми значениями:

Таблица Информация о метрике

Ниже приведен пример таблицы Матрица неточностей для модели классификации:

Таблица Матрица неточностей

Ниже приведен пример метрик справедливости для таблицы чувствительных групп. Эта таблица актуальна для оценки справедливости прогнозов лучшей модели. В таблице представлено подробное представление метрик оценки конкретного чувствительного признака, например пола.

Метрики справедливости для таблицы чувствительных групп

Столбцы в таблице Метрики справедливости для таблицы чувствительных групп можно интерпретировать следующим образом:

  • Выборки — количество выборок или точек данных в каждой чувствительной группе и общем наборе данных, которые оцениваются.
  • Точность — доля правильных прогнозов, сделанных моделью для каждого чувствительного класса, а также в целом. Она представляет собой отношение правильных прогнозов к общему количеству прогнозов. Например, общее значение точности 0,8548 означает, что модель правильно спрогнозировала примерно 85,48% выборок в наборе данных.
  • Коэффициент выборки — доля выборок из определенной чувствительной группы, которые были выбраны или спрогнозированы моделью как положительные. Например, значение коэффициента выборки 0,1896 для группы мужчин указывает на то, что примерно 18,96% выборок мужчин были предсказаны моделью как положительные результаты.
  • Доля истинных положительных результатов (чувствительность) – эта метрика показывает, насколько хорошо модель прогнозирует положительные случаи. Она представляет собой отношение между истинными положительными результатами и общим количеством фактических положительных результатов в конкретной чувствительной группе или общем наборе данных. Например, для группы женщин Доля истинных положительных результатов (чувствительность) равная 0,8087 означает, что примерно 80,87% положительных результатов среди женщин были правильно определены моделью.
  • Доля ложно отрицательных результатов – эта метрика дополняет долю истинных положительных результатов и подсчитывает количество положительных случаев, которые модель ошибочно спрогнозировала как отрицательные в конкретной чувствительной группе или общем наборе данных. Это происходит, когда модель предсказывает отрицательный результат, хотя фактический результат должен был быть положительным. Ее также можно рассчитать на основе доли истинных положительных результатов, используя формулу FNR = 1 - TPR. Например, для группы женщин значение доли ложно отрицательных результатов будет рассчитываться как (1 – 0,8087) = 0,1913, что означает, что примерно 19,13% фактических положительных результатов для женщин были ошибочно классифицированы моделью как отрицательные.
  • Доля ложно положительных результатов – эта метрика рассчитывает количество фактически отрицательных случаев, которые модель ошибочно спрогнозировала как положительные в конкретной чувствительной группе или общем наборе данных. Это происходит, когда модель предсказывает положительный результат, хотя фактический результат должен был быть отрицательным. Например, в общем наборе данных значение доли ложно положительных результатов равное 0,056 означает, что примерно 5,6% фактических отрицательных результатов были ошибочно предсказаны как положительные. Доля ложно положительных результатов для группы мужчин составляет 0,0408, что указывает на то, что примерно 4,08% фактически отрицательных случаев в группе мужчин были ошибочно предсказаны моделью как положительные.
  • Доля истинно отрицательных результатов (специфичность) – этот показатель дополняет долю ложно положительных результатов и рассчитывает долю фактических отрицательных случаев, правильно спрогнозированных моделью как отрицательные. Представляет собой отношение между истинными отрицательными результатами и общим количеством фактических отрицательных результатов в пределах конкретной чувствительной группы или всего набора данных. Например, для группы мужчин доля истинно отрицательных результатов рассчитывается как 0,9592, что означает, что модель правильно предсказала примерно 95,92% отрицательных результатов с участием мужчин.

Анализируя эти столбцы по отношению к различным группам внутри чувствительного признака, вы можете получить представление о потенциальных различиях или предвзятости, присутствующих в работе лучшей модели, используя различные метрики оценки, связанные с понятием справедливости.

Следующая таблица метрик справедливости показывает, как лучшая модель смягчает предвзятость, позволяя вам оценить ее эффективность в достижении более справедливых результатов. Таблица дает представление о том, в какой степени модель учитывает и уменьшает предвзятости, связанные с чувствительными признаками. Оценки метрик показывают снижение предвзятости, достигнутое лучшей моделью.

Таблица метрик справедливости

Метрики можно интерпретировать следующим образом:

  • Разница в демографическом паритете – разница между коэффициентами выборки по полу составляет 0,0291. Более низкое значение указывает на меньшее неравенство в коэффициентах выборки. При этом разница коэффициентов выборки положительных результатов между разными полами составляет 2,91 процента, что ниже допустимого предела в 25 процентов. Это предполагает низкую потенциальную предвзятость или небольшое неравенство в отношении полов в прогнозах модели, что означает более справедливую модель для чувствительного признака пола.
  • Коэффициент демографического паритета – после смягчения (обучение с параметрами справедливости) отношение коэффициентов выборки составляет 0,8465. Значение ближе к 1 указывает на лучший баланс коэффициентов выборки положительных результатов между полами.
  • Выровненная разница шансов – Разница коэффициентов ложно положительных и ложно отрицательных результатов между двумя полами составляет 0,2795 после смягчения, что близко к допустимому пределу в 0,25. Это указывает на то, что модель чувствительна к различиям в ошибках прогнозирования между полами
  • Выровненное отношение шансов – эта метрика представляет собой соотношение коэффициентов ложно положительных и ложно отрицательных результатов после смягчения. Значение 0,5119 говорит о возможности улучшения модели, чтобы добиться более справедливого распределения ошибок прогнозирования между полами, поскольку на более сбалансированные результаты указывают значения ближе к 1.

Сравнение модели со смягчением и без

В таблице метрик моделей имена моделей с суффиксом __SampleWeighting указывают на то, что они подверглись смягчению. Таблицы без суффикса представляют версию модели без смягчения. Две таблицы позволяют провести прямое сравнение моделей со смягчением и без смягчения с точки зрения их производительности и справедливости. Это дает представление о том, как применение методов смягчения влияет на показатели справедливости, и помогает оценить, были ли эффективны усилия по снижению предвзятости. Изучив обе версии модели, вы сможете лучше понять, как устраняется предвзятость, и оценить улучшения, сделанные для получения более справедливых результатов.

Хотя окончательная модель, возможно, не обеспечивает идеальной справедливости по всем показателям, она демонстрирует улучшения с точки зрения разницы в демографическом паритете и коэффициенте демографического паритета для прогнозов, связанных с гендером. В целом, благодаря эффективным мерам по смягчению, реализованным в обучении с использованием параметров справедливости, был достигнут значительный прогресс в создании более справедливой модели гендерно-чувствительных прогнозов за счет уменьшения различий и улучшения баланса результатов. Это подтверждает, что выбранный чувствительный признак (пол) был учтен надлежащим образом путем смягчения предвзятости и повышения справедливости в окончательной модели.

Диаграмма, показывающая коэффициент выборки, обеспечивает дальнейшую проверку справедливости модели. В этом контексте коэффициент выборки относится к доле выборки из определенной группы, которую модель прогнозирует как положительную или которой присваивается определенный результат. Он измеряет, как часто модель выбирает или предсказывает конкретный результат для данной группы по сравнению с общим количеством выборки в этой группе.

Диаграмма Коэффициент выборки для гендерного признака

На приведенной выше диаграмме показан коэффициент выборки 0,1896 для группы мужчин. Это означает, что среди всех выборок, идентифицированных как мужчины, примерно 18,96% прогнозируются моделью как имеющие более высокую зарплату или классифицированы с положительным результатом. Для женской группы коэффициент выборки составляет 0,1605, что указывает на то, что примерно 16,05% всех выборок, идентифицированных как женщины, прогнозируются моделью с положительным результатом, связанным с более высокой зарплатой или аналогичными критериями.

Коэффициент выборки показывает, насколько часто и стабильно модель дает положительные прогнозы различным чувствительным группам. В данном случае, несмотря на некоторые различия между мужскими и женскими группами, оба показателя превышают допустимый предел, установленный пороговыми значениями справедливости. Эти небольшие различия в коэффициентах выборки позволяют предположить, что в гендерных прогнозах, сделанных с помощью модели, не существует значительных предубеждений или дисбаланса. Поскольку оба коэффициента превышают пороговые значения справедливости и демонстрируют минимальное неравенство, можно сделать вывод, что прогнозы, сделанные с помощью этой модели, являются беспристрастными и справедливыми для различных чувствительных групп.

На следующей диаграмме метрики Доля ложно отрицательных результатов и Доля ложно положительных результатов могут дать дополнительное представление о том, как модель смягчения справедливости работает для различных чувствительных групп мужчин и женщин. Эти метрики важны для оценки предвзятости и проблем справедливости в таких моделях. Их значения можно анализировать так же, как описано для метрики справедливости в описании таблицы чувствительных групп ранее в этом разделе.

Диаграмма Ложных результатов для гендерного признака

Сравнение ложно отрицательных результатов между мужской и женской группами позволяет сделать следующие выводы о справедливости модели:

  • Более высокий уровень ложно отрицательных результатов для мужской группы предполагает, что модель с большей вероятностью упустит фактические положительные результаты людей с более высокими зарплатами среди мужчин. Другими словами, она может неверно предсказать, что мужчины будут получать более низкую зарплату, чем они на самом деле зарабатывают.
  • И наоборот, более низкий уровень ложно отрицательных результатов для женской группы указывает на то, что модель относительно лучше правильно прогнозирует положительные результаты для женщин по сравнению с мужчинами. Менее вероятно ошибочное отнесение женщин к людям с более низкой зарплатой, чем они на самом деле зарабатывают.
  • Если посмотреть на уровень ложно положительных результатов, то в женской группе этот показатель выше, чем в мужской группе. Это означает, что модель более склонна неправильно предсказывать положительные результаты лиц с более высокой зарплатой для женщин, хотя на самом деле у них более низкие доходы.
  • И наоборот, более низкий уровень ложно положительных результатов для мужчин предполагает, что модель относительно лучше справляется с недопущением ложно положительных прогнозов для этой гендерной группы. Она допускает меньше ошибок при отнесении мужчин к людям с более высокой зарплатой, хотя на самом деле они зарабатывают меньше.

В целом, хотя большинство ошибок в прогнозировании устраняется с помощью одинаковых показателей ложно положительных и ложно отрицательных результатов, все же существуют некоторые различия в поведении в зависимости от пола. Эти различия указывают на области, в которых можно внести дальнейшие улучшения для достижения более справедливого прогноза для разных гендерных групп.

Показатели справедливости играют важную роль в обнаружении расхождений в результатах прогнозирования среди различных групп, связанных с чувствительными признаками. В некоторых случаях может оказаться невозможным добиться справедливости во время обучения. В таких ситуациях важно спланировать соответствующие стратегии для достижения более справедливой модели. Кроме того, при сравнении новых справедливых моделей с предыдущими справедливыми моделями рассмотрите возможность оценки улучшений, внесенных специально с точки зрения справедливости.

Повысьте справедливость модели

Следующие действия могут повысить справедливость модели:

  • Увеличьте количество несмещенных выборок – включая в набор данных более разнообразные выборки, вы можете улучшить способность модели к обучению и обобщению по различным группам. Это помогает смягчить систематические ошибки, которые могли присутствовать в обучающих данных.
  • Добавьте подходящие признаки – добавьте подходящие характеристики и факторы, которые могут повлиять на результаты, поскольку это может способствовать построению более справедливой и точной модели.
  • Анализируйте выборки, для которых наблюдалась несправедливость – рассмотрите прогнозы и результаты для выборок, для которых наблюдалась несправедливость, особенно из незащищенных групп. Понимая, почему определенные выборки подвергаются несправедливому прогнозу, вы можете обнаружить потенциальные источники предвзятости или дискриминации в процессе принятия решений модели.

Реализация этих действий поможет повысить справедливость модели за счет устранения предубеждений, сокращения неравенства и обеспечения равного отношения к различным группам.

Регрессионные модели

Для задач регрессии используйте метрику Коэффициент убыточности группы в параметре Метрика справедливости и выбирайте чувствительные признаки, в которых есть группы, подверженные дискриминации и предвзятости. Как и в отчете о классификации, на главной странице отчета о регрессии отображается список лидеров, где в первом столбце указана лучшая модель.

Среди различных диаграмм производительности диаграммы производительности AutoML в сравнении с диаграммами чувствительных признаков особенно важны для оценки справедливости. Эти диаграммы демонстрируют, как производительность модели, измеренная среднеквадратической ошибкой (RMSE), коррелирует с метрикой Коэффициент убыточности группы для определенных чувствительных признаков, таких как возраст. Ось x представляет RMSE, которая является общим показателем производительности, используемым в задачах регрессии. RMSE измеряет среднюю разницу между прогнозируемыми и фактическими значениями. Более низкие значения RMSE указывают на лучшую прогностическую эффективность. Ось y представляет Коэффициент убыточности группы (GLR), который сравнивает метрики потерь (RMSE) для разных возрастных подгрупп с общим RMSE модели. GLR показывает, насколько хорошо модель работает для конкретной группы по сравнению с общей производительностью. Значение 1 предполагает отсутствие различий в потерях между группами, тогда как значения больше или меньше 1 указывают на относительные различия. Для справедливой модели GLR должен быть выше 0,8. Зеленая зона на следующих диаграммах обозначает модели, которые соответствуют этому критерию и считаются несмещенными моделями. Но если модели группируются вблизи нижнего диапазона GLR, предполагаются потенциальные различия в точности и справедливости прогнозирования между разными группами. Для обеспечения справедливых результатов необходимо выравнивание.

Диаграмма производительности AutoML и метрик справедливости

Нажмите опцию Лучшая модель, чтобы открыть страницу, посвященную модели. На этой странице на диаграмме Информация о метрике представлена информация об общей производительности лучшей модели. На диаграмме представлен обзор различных метрик, оценивающих производительность модели. Следующая диаграмма на этой странице относится к выбранному чувствительному признаку, например полу. На этой диаграмме показано, как модель работала по-разному для разных чувствительных групп с учетом как точности прогнозирования, так и справедливости. В первой строке этой диаграммы представлены общие показатели модели, дающие совокупное представление о ее производительности. Далее представлены следующие метрики отдельной группы, показывающие, насколько хорошо модель работает для каждой конкретной группы в рамках чувствительного признака.

ПримерыMAEMSERMSER2MAPESpearman

Overall

6105

7.1448

110.228

10.4989

0.270251

0.288477

0.517567

Male

4080

7.27697

114.756

10.7124

0.232757

0.261594

0.465998

Female

2025

6.8785

101.104

10.055

0.225144

0.34264

0.436187

Сообщаемые метрики включают MAE, MSE, RMSE, R2, MAPE и корреляцию Spearman для каждой гендерной группы. Эти метрики дают общую оценку производительности модели со смягчением. Диаграмма помогает вам оценить, согласуются ли точность прогнозирования и метрики производительности модели в разных подгруппах на основе такого важного признака, как пол. Это также помогает выявить любые различия, которые могут потребовать дальнейшего изучения и возможных корректировок для обеспечения справедливости. Кроме того, эффективность модели оценивается с точки зрения справедливости с помощью RMSE. Эта оценка включает в себя сравнение метрик эффективности модели между различными гендерными группами, в частности с изучением защищенных и незащищенных групп. Метрика RMSE используется для оценки справедливости.

Разница RMSE – разница RMSE является ключевым компонентом этой метрики справедливости. Она количественно определяет абсолютную разницу в значениях RMSE между мужской и женской подгруппами. В таблице выше разница составляет 0,6574. Большая разница RMSE указывает на большее различие в ошибках прогнозирования между этими двумя группами, тогда как более низкое значение предполагает меньшее расхождение в ошибках прогнозирования. С точки зрения справедливости, более низкая разница RMSE обычно означает меньшую разницу в ошибках прогнозирования между разными группами, что считается положительным моментом для достижения справедливости. Однако определение подходящего порога или диапазона для разницы RMSE в качестве показателя справедливости зависит от контекста проблемы и может потребовать экспертизы в предметной области.

Коэффициент RMSE – коэффициент RMSE представляет собой соотношение между значением RMSE для незащищенной группы (мужчины) и защищенной группы (женщины). В таблице выше коэффициент равен 0,9386. Значение, близкое к 1, указывает на более справедливое распределение ошибок прогнозирования, что предполагает схожие уровни ошибок для обеих групп. С другой стороны, значение, значительно отличающееся от 1, предполагает более высокий уровень ошибок для одной группы по сравнению с другой. В этом случае коэффициент RMSE 0,9386, который близок к 1, указывает на более справедливое распределение ошибок прогнозирования между защищенной группой (женщины) и незащищенной группой (мужчины). Это означает, что модель работает одинаково с точки зрения точности прогнозирования для обеих гендерных групп. Достижение этой справедливости стало возможным благодаря использованию метрики Коэффициент убыточности группы при оптимизации результатов для задач регрессии. Принимая во внимание этот показатель и то, что значение коэффициента RMSE близко к 1, можно предположить, что прогнозы, сделанные с помощью модели, справедливы и имеют сопоставимые коэффициенты ошибок в разных гендерных группах.

Опции параметра Метрика справедливости для регрессионных моделей

Заключение

Обеспечение справедливости в моделях машинного обучения необходимо для достижения справедливых результатов. Тщательно выбирая чувствительные признаки и метрики справедливости, анализируя диаграммы производительности и учитывая воздействие на различные чувствительные группы, вы можете выявить потенциальные предвзятости и работать над их смягчением. Такие действия, как включение объективных выборок, изучение случаев несправедливого подхода и постоянная оценка эффективности модели с учетом метрик справедливости, помогут вам разработать более справедливые и надежные модели. Отдавая приоритет справедливости и точности, вы можете создавать надежные системы искусственного интеллекта, которые поддерживают этические стандарты и обеспечивают равные возможности для всех людей.

Связанные разделы