En las primeras etapas del desarrollo de la inteligencia artificial (IA), no se prestó mucha atención a la posibilidad de sesgo o discriminación. El énfasis se puso principalmente en la precisión y la eficiencia. La consecuencia es que había grupos que se vieron injustamente afectados por los algoritmos de la IA. Por ejemplo, los críticos han señalado que el reconocimiento facial es menos preciso cuando identifica a personas con tonos de piel más oscuros. Sin embargo, a medida que se fue conociendo mejor el impacto de los algoritmos de IA, surgieron dudas sobre la equidad en la IA. Con el tiempo, ha surgido un impulso hacia la comprensión y la mitigación de los sesgos, lo que conduce a la equidad en la IA.
La equidad en la IA significa el diseño y la implementación de sistemas de IA de forma imparcial y equitativa, sin discriminar por factores como la raza, el sexo, la edad o el estatus socioeconómico. Implica mitigar los sesgos y garantizar que los sistemas de IA no perjudiquen injustamente a determinados grupos. La priorización de la equidad en la IA aumenta la confianza en estas tecnologías, al tiempo que reduce el riesgo de daños o impactos negativos en las poblaciones vulnerables.
En el aprendizaje automático, la equidad se centra en analizar los datos y desarrollar modelos sin favorecer ni discriminar a los grupos protegidos. Lo que se persigue es garantizar que todos los grupos estén representados por igual en el dataset utilizado para modelar el aprendizaje automático. Es un planteamiento con el que se pretende evitar que los sesgos del pasado influyan en las predicciones actuales y hace hincapié en incluir a las comunidades vulnerables o marginadas a lo largo de todo el proceso de modelado y aplicación.
Por ejemplo, si existen suposiciones sesgadas sobre determinados vecindarios o comunidades, se puede dar lugar a una distribución desigual de los recursos, como parques, escuelas o transporte público. Las personas que viven en áreas de bajos ingresos pueden verse injustamente penalizadas por los modelos de calificación crediticia basados en la información del código postal, independientemente de su historial de crédito. Los patrones históricos de discriminación pueden perpetuarse si los modelos de aprendizaje automático se modelan con datasets que reflejen las prácticas discriminatorias del pasado, como las líneas rojas o los perfiles raciales. Para abordar estos problemas y promover la equidad, se están realizando esfuerzos para mejorar las herramientas de aprendizaje automático, a través de la medición y la mitigación de los sesgos contra los grupos protegidos.
La inequidad puede surgir de varias fuentes, como los conjuntos de datos sesgados, las fuentes de datos diferentes o el momento de la recopilación de datos, la falta de comprensión del tema, las técnicas y formatos variados de procesamiento de datos, los algoritmos defectuosos y el acceso desigual a los recursos. Al reconocer estas posibles fuentes de inequidad y se trabaja activamente para abordarlos mediante la mejora de las metodologías y las consideraciones éticas en los procesos de desarrollo de la IA, se pueden conseguir resultados más equitativos y reducir los efectos negativos de los sesgos en los sistemas de aprendizaje automático.
Herramienta Entrenar con AutoML
La herramienta Entrenar con AutoML utiliza herramientas y técnicas de aprendizaje automático (AutoML) sin necesidad de demasiada intervención humana. Al automatizar muchas de las tareas implicadas en la construcción de un modelo, AutoML puede ayudar a crear modelos de gran precisión basados en los datos de entrenamiento. Una forma en que AutoML puede promover la equidad es incorporando métricas de equidad y mitigación de sesgos en el proceso de creación de modelos. Las herramientas AutoML de la caja de herramientas GeoAI están optimizadas pensando en la precisión y la equidad, lo que garantiza que el modelo resultante no solo sea preciso, sino que además no muestre sesgos ni discrimine a los grupos protegidos.
Para incorporar la equidad al aprendizaje automático, la herramienta Entrenar con AutoML contiene los parámetros Atributos de entidades sensibles y Métrica de equidad.
El parámetro Atributos de entidades sensibles tiene las siguientes columnas:
- Entidades sensibles: atributos sesgados o sensibles del dataset que pueden introducir inequidad en los modelos de aprendizaje automático. Algunos ejemplos de estos atributos son la raza, el sexo o el estatus socioeconómico. Al entrenar el modelo seleccionando estas entidades sensibles, podrá mitigar los sesgos que conllevan, lo que dará como resultado un modelo menos sesgado. La herramienta evaluará y mejorará la equidad basándose en cada atributo individualmente.
- Grupos desfavorecidos: para cada atributo especificado, puede definir y especificar grupos desfavorecidos. Estos grupos representan los grupos discriminados relacionados con la entidad sensible especificada. Por ejemplo, si el género es la entidad sensible, es posible marcar a las mujeres como grupo desfavorecido. Del mismo modo, por raza, los afroamericanos podrían considerarse un grupo desfavorecido. Si se especifica el estatus socioeconómico como entidad sensible, las personas con bajos ingresos se pueden identificar como grupos desfavorecidos.
El parámetro Métrica de equidad ofrece una serie de opciones. La elección de la métrica depende del tipo de problema que se aborde. Para los problemas de clasificación, utilice las opciones Diferencia de probabilidades ecualizadas, Diferencia de paridad demográfica, Relación de probabilidades ecualizadas o Relación de paridad demográfica. Para los problemas basados en la regresión, utilice la opción Relación de pérdidas del grupo. La métrica de equidad desempeña un rol importante en el proceso de búsqueda de cuadrículas realizado por la herramienta. Este proceso incluye la evaluación de varias combinaciones de parámetros del modelo y la determinación del mejor modelo equitativo basándose en lo bien que el modelo se alinea con la métrica de equidad especificada.
La funcionalidad relacionada con la equidad en AutoML habilita la evaluación y mejora de la equidad de los modelos entrenados para datos tabulares mediante aprendizaje automático. Permite evaluar y mitigar de forma equitativa los modelos de clasificación y regresión utilizando métricas de equidad predefinidas apropiadas para cada tipo de modelo. Las métricas se clasifican de la siguiente manera:
Métricas de equidad para modelos de clasificación
En la clasificación, el objetivo es asignar puntos de datos de entrada a categorías o clases predefinidas. Supone el entrenamiento de un modelo partiendo de ejemplos etiquetados en los que cada ejemplo está asociado a una etiqueta de clase específica. El modelo aprende los patrones y relaciones presentes en los datos para hacer predicciones para nuevos casos no vistos hasta ese momento. Los problemas de clasificación pueden ser binarios (dos clases) o multiclase (más de dos clases). Algunos ejemplos de tareas de clasificación son la detección de spam en el correo electrónico, el reconocimiento de imágenes, el análisis de opiniones y el diagnóstico de enfermedades.
Las siguientes métricas para medir la equidad en los problemas de clasificación están disponibles en el parámetro Métrica de equidad:
- Diferencia de probabilidades ecualizadas: cuantifica la disparidad en las tasas de verdaderos y falsos positivos entre otros grupos, como los grupos raciales o de género. Calcula la mayor de estas diferencias para determinar la diferencia de probabilidades global igualada. El valor ideal de esta métrica es 0, lo que indica que no hay variación en las tasas de verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos entre los grupos. El rango de equidad de esta métrica está entre 0 y 0,25. Lograr una diferencia de probabilidades igualada dentro de este rango garantiza que las diferencias en las tasas de verdaderos y falsos positivos entre los grupos no superen el 25 %. Ayuda a evitar la penalización injusta de ciertos grupos a causa de entidades sensibles como la raza o el género. Utilice esta métrica para medir la disparidad en las tasas de verdaderos positivos y falsos positivos entre otros grupos.
- Diferencia de paridad demográfica: evalúa la disparidad de las tasas de selección entre otros grupos de individuos. La tasa de selección representa la proporción de individuos clasificados como positivos por el modelo. Un valor ideal para esta métrica es 0, lo que indica que no hay diferencias en las tasas de selección entre los grupos. Supone que todos los grupos serán tratados por igual y tendrán posibilidades similares de ser clasificados como positivos por el modelo. El rango de equidad para esta métrica se sitúa entre 0 y 0,25, lo que indica que las diferencias en las tasas de selección entre grupos no deben superar el 25 %.
- Relación de probabilidades ecualizadas: de modo parecido a la métrica Diferencia de probabilidades ecualizadas, esta métrica mide la relación entre las tasas de verdaderos positivos y falsos positivos entre grupos, en lugar de la diferencia. El valor menor entre la relación de la tasa de verdaderos positivos y la relación de la tasa de falsos positivos se considera como la relación de probabilidades ecualizadas. El valor ideal para esta métrica es 1, lo que indica que las tasas de verdaderos y falsos positivos para otros grupos son iguales. La equidad para esta métrica se sitúa entre 0,8 y 1. Un valor cercano a 1 indica que hay poca o ninguna diferencia en el rendimiento del modelo (tasa de verdaderos positivos y tasa de falsos positivos) entre los grupos sensibles para cada entidad sensible.
- Relación de paridad demográfica: de forma parecida a la métrica Diferencia de paridad demográfica, esta métrica mide la relación entre las tasas de selección entre grupos en lugar de la diferencia. El valor ideal para esta métrica es 1, lo que indica que las tasas de selección para diferentes grupos son iguales. La equidad para esta métrica se sitúa entre 0,8 y 1. Un valor cercano a 1 indica que hay poca o ninguna diferencia en el rendimiento del modelo entre los grupos sensibles para cada entidad sensible.
Los rangos de equidad para cada métrica son arbitrarios hasta cierto punto y dependen del contexto específico en el que se utilice el modelo. En general, las diferencias más pequeñas o las relaciones más elevadas entre grupos se consideran más justas. Sin embargo, es importante tener en cuenta otros factores, como el impacto del modelo en diversos grupos y la precisión general del modelo a la hora de evaluar la equidad.
La elección de qué métrica de equidad utilizar depende del contexto específico y de la aplicación de los modelos de aprendizaje automático. Cada métrica tiene sus propios puntos fuertes y débiles, y algunas pueden ser más apropiadas que otras en función de los objetivos del modelo y de los posibles orígenes del sesgo. Por ejemplo, si se está utilizando un modelo en el que los falsos positivos pueden tener consecuencias graves, la opción Relación de probabilidades ecualizadas puede ser una mejor métrica para garantizar que los diferentes grupos no se vean afectados de forma desproporcionada por las tasas de falsos positivos.
Además, el modelo de equidad puede funcionar tanto con problemas de clasificación binaria como de clasificación multiclase. La determinación del tipo de problema de clasificación a realizar se basa en el número de valores únicos de la variable objetivo y en el tipo de datos del objetivo.
Si la variable objetivo solo tiene 2 valores únicos, la herramienta realiza una clasificación binaria. Si el número de valores únicos se sitúa entre 2 y 20 (ambos inclusive), la herramienta realiza una clasificación multiclase para los tipos de datos entero, flotante y cadena de caracteres. En el caso de los tipos de datos enteros o flotantes con más de 20 valores únicos, la herramienta realiza una clasificación multiclase. En el caso de los tipos de datos enteros o flotantes con más de 20 valores únicos, la herramienta realiza un análisis de regresión en el dataset.
Métricas de equidad para modelos de regresión
La regresión pretende predecir valores numéricos continuos basándose en las entidades de entrada. La regresión consiste en modelar la relación entre las variables independientes (entidades de entrada) y las variables dependientes (valores de salida). Los modelos de regresión aprenden de los datos de entrenamiento etiquetados para estimar la función subyacente que mejor se ajusta a las entradas y salidas proporcionadas. Entre los problemas de regresión están la predicción de los precios de la vivienda y las tendencias del mercado de valores, la previsión de la temperatura y la predicción de ventas. En el contexto de la evaluación de la equidad en problemas de regresión, utilice la métrica Relación de pérdidas del grupo para el parámetro Métrica de equidad.
La métrica Relación de pérdidas del grupo se centra en evaluar la equidad examinando las pérdidas o los errores de las predicciones del modelo en diversos grupos o subgrupos. Calcula el ratio de pérdida o error medio entre un subgrupo y otro y proporciona una medida relativa de la disparidad de pérdidas entre distintos grupos. Un valor de 1 indica que no hay diferencias en las pérdidas entre los grupos, mientras que valores mayores o menores que 1 indican disparidades relativas. Al identificar los sesgos en las predicciones de los modelos a través de estas métricas, se pueden tomar las medidas apropiadas para abordar los problemas de equidad durante los procesos de entrenamiento de AutoML.
Convertir un modelo de aprendizaje automático en un modelo equitativo
El proceso de convertir un modelo de aprendizaje automático en un modelo equitativo comienza de forma similar al entrenamiento de un modelo de regresión o clasificación utilizando la herramienta Entrenar con AutoML. Para mejorar un modelo de aprendizaje automático y hacerlo equitativo, siga estos pasos:
- Entrene un modelo básico de aprendizaje automático utilizando la herramienta Entrenar con AutoML.
- Una vez entrenado el modelo básico, identifique cualquier entidad sensible que pueda introducir inequidad. Consulte el informe de resultados del modelo básico entrenado, que destaca las entidades significativas (importancia SHAP) con mayor impacto en los resultados del modelo. Si alguna de estas entidades sensibles identificadas también aparece en la lista de entidades significativas, considérela una entidad sensible para su posterior evaluación. De esta forma, se garantiza que la entidad sensible contribuya de forma significativa a las predicciones del modelo. Si ciertas entidades sensibles tienen poca importancia y contribuyen en menor medida a los resultados del modelo, pueden excluirse de la evaluación de equidad.
- Tras identificar las entidades sensibles y, opcionalmente, seleccionar los grupos desfavorecidos, especifique un valor apropiado del parámetro Métrica de equidad en función del tipo de problema (clasificación o regresión).
- Entrene el modelo con un valor especificado del parámetro Atributos de entidades sensibles.
La herramienta dará como resultado un modelo de aprendizaje automático mitigado. El modelo con mejores resultados estará en formato DLPK para su uso con la herramienta Predecir con AutoML.
- Evalúe la equidad del modelo.
Durante la mitigación, se realiza una búsqueda en la cuadrícula para determinar el mejor modelo de equidad basado únicamente en las métricas de equidad definidas por el usuario. AutoML elige el modelo cuya métrica de equidad esté por encima de un nivel de umbral y que tenga la menor pérdida logarítmica. El logloss (también conocido como pérdida logarítmica, pérdida logística y pérdida de entropía cruzad) indica en qué medida una probabilidad de predicción está cerca del valor real o verdadero correspondiente. Si ningún modelo tiene una métrica de equidad por encima del umbral, AutoML guarda el modelo con la menor pérdida logarítmica como el mejor modelo. Cuando esto ocurra, se indicará en el informe que la herramienta no determinó un modelo equitativo.
- Para acceder a un informe de análisis exhaustivo de la equidad del modelado una vez finalizada la herramienta, haga clic en la opción Ver detalles de la parte inferior del panel Geoprocesamiento y, en la pestaña Parámetros, haga clic en Informe de salida.
Interpretación del informe de equidad
Las secciones siguientes describen cómo interpretar el informe de equidad.
Modelos de clasificación
Las secciones siguientes describen cómo interpretar el informe HTML de salida generado a partir de Entrenar con AutoML para modelos de clasificación.
Tabla de clasificación de AutoML
La página principal del informe muestra la clasificación de AutoML. Contiene la tabla de métricas, varios gráficos de rendimiento y un gráfico de correlación de Spearman para los modelos.
- Tabla de métricas: se muestran los modelos que se entrenaron con el dataset, incluyendo el nombre del modelo, el tipo de modelo, el valor de la métrica, el mejor modelo y el tiempo de entrenamiento en segundos. Esta información también está disponible en los resultados de la herramienta, donde se indica el mejor modelo en la primera columna.
- Gráficos de rendimiento: el informe incluye varios gráficos de rendimiento. Estos gráficos proporcionan perspectivas sobre el rendimiento del modelo a través de otro tipo de métricas y ponen de relieve las variaciones entre los modelos evaluados.
- Gráfico de rendimiento de AutoML: este gráfico muestra cómo varía la métrica de clasificación de la evaluación (logloss) de los modelos individuales en las distintas iteraciones. El gráfico de iteración proporciona una perspectiva de la coherencia del modelo en otros ciclos del mismo.
- Diagrama de caja del rendimiento de AutoML: este diagrama de caja representa la variación del rendimiento del modelo. El gráfico es una representación gráfica de la distribución de los valores de logloss a lo largo de las iteraciones para otros modelos evaluados por AutoML. El diagrama de caja contiene los siguientes componentes:
- Mediana: la línea del recuadro representa la mediana del valor de pérdida logarítmica para ese modelo.
- Recuadro: el recuadro proporciona perspectivas sobre lo estrecha o ampliamente distribuidos que están los valores de pérdida logarítmica en torno a su mediana.
- Bigotes: los bigotes indican los valores mínimo y máximo de pérdida logarítmica de un modelo a lo largo de las iteraciones.
- Valores atípicos: si hay valores atípicos, los puntos individuales situados fuera de los bigotes se consideran valores atípicos. Se trata de puntos de datos con valores de pérdida logarítmica inusualmente altos o bajos en comparación con otros valores.
El gráfico siguiente indica que el mejor modelo es el modelo XGBoost con el valor logloss más bajo. El gráfico también muestra la variación comparativamente amplia de los valores de logloss del modelo de árboles aleatorios a lo largo de las iteraciones.
- Gráficos de rendimiento de AutoML frente a métrica de equidad: estos gráficos también se denominan gráficos de logloss frente a métrica de equidad en la clasificación. Estos gráficos son especialmente relevantes a la hora de evaluar la equidad. Los gráficos evalúan la equidad del modelo correlacionando cómo se alinea el rendimiento del modelo (pérdida logarítmica) con las métricas de equidad seleccionadas. Por ejemplo, el siguiente gráfico ilustra cómo se relaciona la pérdida logarítmica con el ratio de paridad demográfica (DPR) para una entidad sensible, por ejemplo, el género. El eje x representa los valores de pérdida logarítmica, en el que los valores más bajos indican un mejor rendimiento del modelo. El eje y representa el DPR expresado normalmente como ratio o porcentaje. Un modelo equitativo debería tener un valor de DPR superior a 0,8. La zona verde de estos gráficos indica que XGBoost cumple este criterio en cuanto a la entidad sensible al género, al tiempo que pone de relieve las posibles compensaciones entre precisión y equidad.
- Gráfico de correlación de Spearman: este gráfico se genera para todos los modelos evaluados. Los modelos que están más estrechamente relacionados se muestran en tonos azules más oscuros.
Informes de salida
Para obtener información más detallada sobre el mejor modelo (o cualquier otro modelo), haga clic en el nombre del modelo identificado como el mejor en la tabla de métricas de los modelos. Al hacer clic en el nombre, se abre una página dedicada al informe que proporciona información exhaustiva y detallada sobre ese modelo en concreto. Esta página del informe proporciona un análisis en profundidad del rendimiento del modelo, las métricas, la importancia de las entidades y otros detalles. La exploración de este informe puede proporcionar perspectivas sobre por qué el modelo se identificó como el mejor y para comprender los puntos fuertes y débiles del modelo.
La página del modelo contiene el nombre del modelo, los parámetros del modelo, la métrica optimizada, el tiempo de entrenamiento, etc. La tabla Detalles de la métrica proporciona las puntuaciones de las métricas de evaluación junto con sus umbrales correspondientes. Estas métricas muestran el rendimiento del modelo en varias orientaciones. Además, las visualizaciones y los gráficos pueden ayudarle a comprender las características de rendimiento del modelo. Entre ellos están una tabla y un gráfico de matrices de confusión, métricas de equidad para cada entidad sensible y clase de entidad objetivo, tasas de selección y tasas de falsos para las entidades sensibles, curvas de aprendizaje, un gráfico de matrices de confusión normalizadas, la curva de características operativas del receptor (ROC, por sus siglas en inglés), la curva de precisión-recuperación (PR), el gráfico de importancia SHAP y los gráficos de dependencia SHAP.
A continuación, se muestra un ejemplo de la tabla Detalles de la métrica que muestra varias métricas de evaluación con puntuaciones y umbrales:
A continuación, se muestra un ejemplo de tabla Matriz de confusión para un modelo de clasificación:
A continuación, se muestra un ejemplo de la tabla de métricas de equidad para los grupos sensibles. Esta tabla es relevante a la hora de evaluar la equidad de las predicciones del mejor modelo. La tabla ofrece una visión global de las métricas de evaluación de una entidad sensible específica, como el género.
Las columnas de la tabla Métricas de equidad para los grupos sensibles pueden interpretarse como sigue:
- Muestras: el número de muestras o puntos de datos de cada grupo sensible y dataset global que se están evaluando.
- Precisión: la proporción de predicciones correctas realizadas por el modelo para cada clase sensible, así como en general. Representa el ratio de predicciones correctas respecto al número total de predicciones. Por ejemplo, un valor de precisión global de 0,8548 significa que aproximadamente el 85,48 % de las muestras del dataset se predijeron correctamente con el modelo.
- Tasa de selección: proporción de muestras de un grupo sensible específico que se seleccionaron o predijeron como positivas con el modelo. Por ejemplo, para el grupo masculino, un valor de la tasa de selección de 0,1896 indica que aproximadamente el 18,96 % de las muestras de hombres se predijeron como resultados positivos con el modelo.
- Tasa de positivos verdaderos(sensibilidad): esta métrica indica hasta qué punto el modelo predice los casos positivos correctamente. Representa el ratio entre los verdaderos positivos y el total de positivos reales dentro de un grupo sensible específico o dataset global. Por ejemplo, para el grupo femenino, un valor de la tasa de verdaderos positivos (sensibilidad) de 0,8087 significa que aproximadamente el 80,87 % de los resultados positivos de entre las mujeres se identificaron correctamente con el modelo.
- Tasa de falsos negativos: esta métrica complementa la tasa de verdaderos positivos y calcula el número de casos positivos que el modelo predijo incorrectamente como negativos dentro de un grupo sensible específico o del dataset global. Se produce cuando el modelo predice un resultado negativo cuando el resultado real debería haber sido positivo. También puede calcularse a partir de la tasa de verdaderos positivos utilizando FNR =1 - TPR. Por ejemplo, para el grupo femenino, el valor de la tasa de falsos negativos se calcularía como (1 - 0,8087) = 0,1913, lo que implica que aproximadamente el 19,13 % de los resultados positivos reales de las mujeres se clasificaron erróneamente como negativos con el modelo.
- Tasa de falsos positivos: esta métrica calcula el número de casos negativos reales que el modelo predijo incorrectamente como positivos dentro de un grupo sensible específico o dataset global. Se produce cuando el modelo predice un resultado positivo cuando el resultado real debería haber sido negativo. Por ejemplo, en el dataset global, un valor de la tasa de falsos positivos de 0,056 significa que aproximadamente el 5,6 % de los negativos reales se predijeron erróneamente como positivos. La tasa de falsos positivos para el grupo de varones es de 0,0408, lo que indica que aproximadamente el 4,08 % de los casos negativos reales dentro del grupo de varones se predijeron incorrectamente como positivos con el modelo.
- Tasa de negativos verdaderos (especificidad): esta métrica complementa a la tasa de falsos positivos y calcula la proporción de casos reales negativos correctamente predichos como negativos con el modelo. Representa el ratio entre los verdaderos negativos y el total de negativos reales dentro de un grupo sensible específico o de todo el dataset. Por ejemplo, para el grupo masculino, la tasa de verdaderos negativos se calcula en 0,9592, lo que significa que el modelo predijo correctamente aproximadamente el 95,92 % de los resultados negativos referidos a hombres.
Al analizar estas columnas en relación con otros grupos dentro de una entidad sensible, se pueden obtener perspectivas sobre las posibles disparidades o sesgos presentes en el rendimiento del mejor modelo en relación con diversas métricas de evaluación relacionadas con consideraciones de equidad.
La siguiente tabla de métricas de equidad ilustra cómo el mejor modelo mitiga el sesgo, permitiéndole evaluar su eficacia para lograr unos resultados más justos. La tabla proporciona perspectivas sobre la medida en que el modelo aborda y reduce los sesgos relacionados con las entidades sensibles. Las puntuaciones métricas muestran la mitigación del sesgo conseguida por el mejor modelo.
Las métricas pueden interpretarse del siguiente modo:
- Diferencia de paridad demográfica: la diferencia entre las tasas de selección de ambos géneros es de 0,0291. Un valor más bajo indica una menor disparidad en las tasas de selección. En este caso, hay una diferencia del 2,91% en las tasas de selección de resultados positivos entre los distintos géneros, lo que es inferior al límite permitido del 25 %. Sugiere un sesgo potencial bajo o un tratamiento menos desigual basado en el género en las predicciones del modelo, lo que significa un modelo más justo para la entidad sensible del género.
- Relación de paridad demográfica: la relación entre las tasas de selección es de 0,8465 tras la mitigación (entrenamiento con parámetros de equidad). Un valor más cercano a 1 indica un mayor equilibrio en las tasas de selección de resultados positivos entre géneros.
- Diferencia de probabilidades ecualizadas: la diferencia en las tasas de falsos positivos y falsos negativos entre dos géneros es de 0,2795 después de la mitigación, lo que se acerca al límite permitido de 0,25. Indica que el modelo es sensible a las disparidades en los errores de predicción entre géneros
- Relación de probabilidades ecualizadas: esta métrica representa la relación entre las tasas de falsos positivos y falsos negativos tras la mitigación. Con un valor de 0,5119, existe margen de mejora para lograr una distribución equitativa de los errores de predicción entre géneros, ya que los valores más cercanos a 1 indican unos resultados más equilibrados.
Comparación de modelos atenuados y no atenuados
En la tabla de métricas de los modelos, los nombres de modelos que presentan el sufijo __SampleWeighting indican que se han sometido a mitigación. Las tablas que no presentan el sufijo representan la versión no mitigada del modelo. Las dos tablas permiten comparar directamente los modelos mitigados y no mitigados en cuanto a su rendimiento y equidad. Proporciona perspectivas sobre cómo repercute la aplicación de técnicas de mitigación en las métricas de equidad y le ayuda a evaluar si los esfuerzos de reducción del sesgo han sido eficaces. Al examinar las dos versiones de un modelo, podrá comprender mejor cómo se ha abordado el sesgo y evaluar las mejoras realizadas para lograr resultados más justos.
Aunque el modelo final no consiga una equidad perfecta en todos los parámetros, demuestra mejoras en cuanto a la diferencia de paridad demográfica y la relación de paridad demográfica para las predicciones relacionadas con el género. En general, gracias a unas medidas de mitigación eficaces implementadas durante el entrenamiento con parámetros de equidad, se han logrado avances significativos hacia la creación de un modelo más justo para las predicciones con perspectiva de género al reducir las diferencias y mejorar el equilibrio en los resultados. Este resumen confirma que la entidad sensible seleccionada (el género) se ha abordado apropiadamente mitigando los sesgos y mejorando la equidad en el modelo final.
El gráfico que informa de la tasa de selección proporciona una validación adicional de la equidad del modelo. En este contexto, la tasa de selección se refiere a la proporción de muestras de un grupo específico que el modelo predice como positivas o a las que asigna un resultado determinado. Mide con qué frecuencia selecciona o predice el modelo un resultado concreto para un grupo determinado en comparación con el número total de muestras de ese grupo.
El gráfico anterior muestra una tasa de selección de 0,1896 para el grupo masculino. Significa que, entre todas las muestras identificadas como masculinas, aproximadamente el 18,96 % se predicen con el modelo como poseedoras de un salario más alto o clasificadas con un resultado positivo. Para el grupo femenino, existe una tasa de selección de 0,1605, lo que indica que aproximadamente el 16,05 % de todas las muestras identificadas como mujeres se predicen con el modelo con un resultado positivo relacionado con un salario más alto o criterios similares.
La tasa de selección muestra con qué frecuencia y coherencia asigna el modelo predicciones positivas a otros grupos sensibles. En este caso, aunque existe cierta variación entre los grupos de hombres y mujeres, ambas tasas superan el límite permisible establecido por los umbrales de equidad. Estas diferencias sutiles en las tasas de selección sugieren que no existen sesgos o desequilibrios significativos en cuanto a las predicciones basadas en el género realizadas por el modelo. Dado que ambos índices superan los umbrales de equidad y presentan una disparidad mínima, puede concluirse que las predicciones realizadas por este modelo son imparciales y equitativas en los distintos grupos sensibles.
En el siguiente gráfico, las métricas Tasa de falsos negativos y Tasa de falsos positivos pueden ofrecer una perspectiva más amplia del rendimiento del modelo de equidad mitigada para los distintos grupos sensibles masculino y femenino. Estas métricas son importantes para evaluar los problemas de sesgo y equidad en este tipo de modelos. Sus valores pueden analizarse del mismo modo que en la descripción de la tabla de métricas de equidad para los grupos sensibles que abordamos anteriormente en este tema.
La comparación de las tasas de falsos negativos entre los grupos de hombres y mujeres revela las siguientes perspectivas sobre la equidad en el modelo:
- La mayor tasa de falsos negativos para el grupo masculino sugiere que es más probable que el modelo pase por alto los resultados positivos reales de los individuos con salarios más altos entre los hombres. En otras palabras, puede predecir incorrectamente que los hombres tienen salarios más bajos de los que ganan en realidad.
- Por el contrario, la menor tasa de falsos negativos para el grupo femenino indica que el modelo es relativamente mejor a la hora de predecir correctamente resultados positivos para las mujeres en comparación con los hombres. Es menos probable que clasifique erróneamente a las mujeres con salarios inferiores a los que ganan en realidad.
- Si nos fijamos en las tasas de falsos positivos, el grupo femenino presenta una tasa más alta en comparación con el grupo masculino. Significa que el modelo es más propenso a predecir incorrectamente resultados positivos de individuos con salarios más altos para las mujeres cuando en realidad tienen ingresos más bajos.
- Por el contrario, la menor tasa de falsos positivos en el caso de hombres sugiere que el modelo funciona relativamente mejor a la hora de evitar predicciones falsas positivas para este grupo de género. Comete menos errores al clasificar a los hombres con salarios más altos cuando en realidad ganan menos.
En general, aunque la mayoría de los sesgos en la predicción se han solucionado con tasas similares de falsos positivos y falsos negativos, sigue habiendo algunas diferencias de comportamiento en función del sexo. Estas diferencias indican áreas en las que pueden introducirse nuevas mejoras para lograr una predicción más equitativa entre los distintos grupos de género.
Las métricas de equidad tienen un rol importante en la detección de discrepancias en los resultados de predicción entre diversos grupos asociados a entidades sensibles. En algunos casos, puede que no sea posible lograr la equidad durante el entrenamiento. En tales situaciones, es importante planificar estrategias apropiadas para trabajar en la consecución de un modelo más justo. Además, al comparar los nuevos modelos justos con los modelos justos anteriores, considere la posibilidad de evaluar y valorar las mejoras realizadas específicamente en términos de equidad.
Mejorar la equidad de un modelo
Las siguientes acciones pueden mejorar la equidad de un modelo:
- Aumentar la inclusión de muestras no sesgadas: al incorporar un rango más diverso de muestras al dataset, puede mejorar la capacidad del modelo para aprender y generalizar entre distintos grupos. Este planteamiento ayuda a mitigar los sesgos que puedan haber estado presentes en los datos de entrenamiento.
- Agregar entidades relevantes: agregar entidades y factores relevantes que puedan influir en los resultados, ya que puede contribuir a construir un modelo más equitativo y preciso.
- Analizar aquellas muestras que se hayan tratado sin equidad: consulte las predicciones y los resultados de las muestras que han sido tratadas sin equidad, en particular las de grupos desfavorecidos. Si comprende por qué determinadas muestras son objeto de un trato no equitativo, podrá descubrir posibles orígenes de sesgo o discriminación en el proceso de toma de decisiones del modelo.
La implementación de estas acciones ayudará a mejorar la equidad en el modelo abordando los sesgos, reduciendo las disparidades y garantizando un trato equitativo entre los diversos grupos.
Modelos de regresión
Para las tareas de regresión, utilice la métrica Relación de pérdidas del grupo en el parámetro Métrica de equidad, y elija entidades sensibles que tengan grupos susceptibles de discriminación y sesgos. De forma similar al informe de clasificación, la página principal del informe de regresión muestra una tabla clasificatoria en la que se indica el mejor modelo en la primera columna.
Entre los distintos gráficos de rendimiento, los de rendimiento de AutoML frente a entidades sensibles son especialmente relevantes a la hora de evaluar la equidad. Estos gráficos demuestran cómo el rendimiento del modelo, medido por el error cuadrático medio (RMSE), se correlaciona con la métrica Relación de pérdidas del grupo para las entidades sensibles específicas, como la edad. El eje x representa el RMSE, que es una métrica de rendimiento común utilizada en tareas de regresión. El RMSE mide la diferencia media entre los valores de predicción y los valores reales. Los valores de RMSE más bajos indican un mejor rendimiento de predicción. El eje y representa la relación de pérdidas del grupo (GLR), que compara las métricas de pérdidas (RMSE) de subgrupos de edad diferentes con el RMSE global del modelo. El GLR indica lo bien que funciona el modelo para un grupo concreto en comparación con su rendimiento global. Un valor de 1 sugiere que no hay diferencias en las pérdidas entre los grupos, mientras que valores mayores o menores que 1 indican disparidades relativas. Para que el modelo sea equitativo, el GLR debe ser superior a 0,8. La zona verde de los gráficos siguientes indica los modelos que cumplen este criterio y se consideran modelos no sesgados. Sin embargo, que los modelos se agrupen cerca del rango inferior del GLR sugiere posibles disparidades en la precisión de la predicción y la equidad entre los distintos grupos. Es necesario realizar ajustes para garantizar unos resultados equitativos.
Haga clic en la opción Mejor modelo para abrir una página específica del modelo. Esta página proporciona información sobre el rendimiento general del mejor modelo del gráfico Detalles de la métrica. El gráfico ofrece una visión general de varias métricas que evalúan el rendimiento del modelo. El siguiente gráfico de esta página es específico de la entidad sensible seleccionada, como el sexo. Este gráfico se centra en cómo el modelo funcionó de forma diferente para los distintos grupos sensibles, teniendo en cuenta tanto la precisión de la predicción como la equidad. La primera fila de este gráfico indica las métricas generales del modelo, proporcionando una visión agregada de su rendimiento. A continuación, se presentan las métricas individuales de cada grupo, que muestran lo bien que funcionó el modelo para cada grupo específico dentro de la entidad sensible.
Muestras | MAE | MSE | RMSE | R2 | MAPE | Spearman | |
---|---|---|---|---|---|---|---|
Total | 6105 | 7,1448 | 110,228 | 10,4989 | 0,270251 | 0,288477 | 0,517567 |
Masculino | 4080 | 7,27697 | 114,756 | 10,7124 | 0,232757 | 0,261594 | 0,465998 |
Femenino | 2025 | 6,8785 | 101,104 | 10,055 | 0,225144 | 0,34264 | 0,436187 |
Las métricas comunicadas son MAE, MSE, RMSE, R2, MAPE, y la correlación de Spearman para cada grupo de género. Estas métricas proporcionan una evaluación general del rendimiento del modelo mitigado. Este gráfico le ayuda a evaluar si la precisión de predicción y las métricas de rendimiento del modelo son coherentes en los distintos subgrupos en función de una entidad sensible, como el género. También ayuda a identificar cualquier disparidad que pueda requerir una mayor investigación y posibles ajustes para garantizar la equidad. Además, el rendimiento del modelo se evalúa en términos de equidad utilizando el RMSE. Esta evaluación implica la comparación de las métricas de rendimiento del modelo entre distintos grupos de género, examinando específicamente los grupos privilegiados y desfavorecidos. La métrica RMSE se utiliza para evaluar la equidad.
Diferencia de RMSE: la diferencia de RMSE es un componente clave de esta métrica de equidad. Cuantifica la diferencia absoluta en los valores de RMSE entre los subgrupos masculino y femenino. En la tabla anterior, la diferencia es de 0,6574. Una diferencia de RMSE mayor indica una mayor disparidad en los errores de predicción entre estos dos grupos, mientras que un valor inferior sugiere una menor discrepancia en los errores de predicción. En términos de equidad, una menor diferencia de RMSE significa generalmente una menor disparidad en los errores de predicción entre los distintos grupos, lo que se considera positivo para lograr la equidad. Sin embargo, determinar un umbral o rango apropiado para la diferencia de RMSE como indicador de equidad depende del contexto específico del problema y puede requerir conocimientos especializados.
Ratio RMSE: el ratio RMSE representa el ratio entre el valor RMSE del grupo desfavorecido (maasculino) y el del grupo privilegiado (femenino). En la tabla anterior, el ratio es de 0,9386. Un valor más cercano a 1 indica una distribución más equitativa de los errores de predicción, lo que sugiere tasas de error similares para ambos grupos. Por otro lado, un valor significativamente distinto de 1 sugiere una mayor tasa de error para un grupo en comparación con el otro. En este caso, un ratio RMSE de 0,9386, más cercano a 1, indica una distribución más equitativa de los errores de predicción entre los grupos privilegiados (femenino) y desfavorecidos (masculino). Supone que el modelo funciona de forma similar en términos de precisión de la predicción para ambos grupos de género. Lograr esta equidad fue posible utilizando la métrica de Relación de pérdidas del grupo en la optimización de los resultados de los problemas de regresión. Al considerar esta métrica y lograr un ratio RMSE cercano a 1, se sugiere que las predicciones realizadas por el modelo son más justas, con índices de error comparables en los distintos grupos de género.
Conclusión
Garantizar la equidad en los modelos de aprendizaje automático es necesario para promover unos resultados equitativos. Al seleccionar cuidadosamente las entidades sensibles y las métricas de equidad, analizar los gráficos de rendimiento y considerar el impacto en los diferentes grupos sensibles, podrá identificar los sesgos potenciales y trabajar para mitigarlos. Mediante acciones como la inclusión de muestras no sesgadas, el examen de los casos tratados injustamente y la evaluación continua del rendimiento del modelo con respecto a las métricas de equidad, podrá desarrollar modelos más justos y fiables. Al priorizar la equidad a la par que la precisión, podrá crear sistemas de IA fiables que respeten las normas éticas y promuevan la igualdad de oportunidades para todas las personas.