Étiquette | Explication | Type de données |
Entités ou table en entrée | Table ou entités en entrée contenant des champs des variables d’exposition, de résultat et de confusion. | Feature Layer; Table View |
Champ de résultat | Champ numérique de la variable de résultat. Il s’agit de la variable qui réagit aux modifications de la variable d’exposition. La variable de résultat doit être continue ou binaire (et non catégorielle). | Field |
Champ d’exposition | Champ numérique de la variable d’exposition (parfois appelée variable de traitement). Il s’agit de la variable à l’origine des modifications dans la variable de résultat. La variable d’exposition doit être continue (et non binaire ou catégorielle). | Field |
Variables de confusion | Champs des variables de confusion. Il s’agit des variables qui sont liées à la fois à la variable d’exposition et à la variable de résultat. Elles doivent être équilibrées pour l’estimation de l’effet causal entre la variable d’exposition et la variable de résultat. Les variables de confusion peuvent être continues, catégorielles ou binaires. Les champs de texte doivent être catégoriels, les champs de type entier peuvent être catégoriels ou continus et les autres champs numériques doivent être continus. Pour éviter tout biais de la fonction exposition-réponse, toutes les variables qui sont associées aux variables d’exposition et de résultat doivent être incluses en tant que variables de confusion. | Value Table |
Entités ou table en sortie | Table ou entités en sortie contenant les scores de propension, les pondérations d’équilibrage et un champ indiquant si l’entité a été réduite (exclue de l’analyse). Les variables d’exposition, de résultat et de confusion sont également incluses. | Feature Class; Table |
Méthode de calcul des scores de propension (Facultatif) | Indique la méthode qui sera utilisée pour calculer les scores de propension de chaque observation. Le score de propension d’une observation est la vraisemblance (ou probabilité) de recevoir la valeur d’exposition observée, compte tenu des valeurs des variables de confusion. Un score de propension élevé indique que l’exposition est fréquente pour les individus qui présentent les variables de confusion associées. Un score de propension faible indique que la valeur d’exposition est rare pour les individus qui présentent ces variables de confusion. Considérons par exemple le cas d’une personne dont la pression artérielle est élevée (variable d’exposition) mais qui ne présente pas de facteurs de risque (variables de confusion) : cette personne aura probablement un score de propension faible car il est rare d’avoir une pression artérielle élevée sans présenter de facteur de risque. À l’inverse, une personne dont la pression artérielle est élevée et qui présente de nombreux facteurs de risque aura un score de propension plus élevé puisque c’est le cas le plus courant. Les scores de propension sont estimés par un modèle statistique qui prévoit la variable d’exposition en utilisant les variables de confusion comme variables explicatives. Vous pouvez utiliser un modèle de régression des moindres carrés ordinaires ou un modèle d’apprentissage automatique qui utilise des arbres de régression du boosting de gradient. Il est recommandé d’utiliser d’abord la régression et de n’utiliser le boosting de gradient que si la régression ne parvient pas à équilibrer les variables de confusion.
| String |
Méthode d’équilibrage (Facultatif) | Indique la méthode qui sera utilisée pour équilibrer les variables de confusion. Chaque méthode estime un ensemble de pondérations d’équilibrage qui supprime la corrélation entre les variables de confusion et la variable d’exposition. Il est recommandé d’utiliser l’appariement en premier lieu et de n’utiliser la pondération par l’inverse du score de propension que si l’appariement ne parvient pas à équilibrer les variables de confusion. La pondération par l’inverse du score de propension sera calculée plus vite que l’appariement des scores de propension. Par conséquent, elle est également recommandée lorsque le temps de calcul de l’appariement n’est pas acceptable pour les données.
| String |
Activer les fenêtres contextuelles de la fonction exposition-réponse (Facultatif) | Indique si des diagrammes contextuels affichant l’ERF locale pour l’observation seront créés pour chaque observation.
| Boolean |
Table en sortie de la fonction exposition-réponse (Facultatif) | Table contenant les valeurs de la fonction exposition-réponse. La table comportera 200 valeurs d’exposition équidistantes comprises entre l’exposition minimale et l’exposition maximale (après réduction) ainsi que la réponse estimée de la fonction exposition-réponse. Le champ de réponse représente la valeur moyenne de la variable de résultat si tous les membres de la population ont été soumis à la valeur d’exposition associée. Si des intervalles de confiance bootstrap sont créés, des champs supplémentaires contenant les limites supérieure et inférieure de l’intervalle de confiance pour la valeur d’exposition, ainsi que l’écart standard et le nombre d’échantillons utilisés pour construire l’intervalle de confiance, seront créés. Si des valeurs d’exposition et des valeurs de résultat cibles sont fournies, elles seront ajoutées à la fin de la table. | Table |
Valeurs de résultat cibles pour le calcul de nouvelles expositions (Facultatif) | Liste de valeurs de résultat cibles à partir desquelles seront calculées les modifications à apporter à l’exposition pour obtenir les résultats pour chaque observation. Par exemple, si la variable d’exposition est un indice de qualité de l’air et que la variable de résultat est le taux annuel d’hospitalisations liées à l’asthme dans les comtés, vous pouvez déterminer de combien l’indice de qualité de l’air doit diminuer pour obtenir des taux d’hospitalisations liées à l’asthme inférieurs à 0,01, 0,005 et 0,001. Pour chaque valeur de résultat cible fournie, deux nouveaux champs seront créés dans la sortie. Le premier champ contient la valeur d’exposition qui génèrerait le résultat cible et le deuxième champ contient la modification à apporter à la valeur d’exposition pour produire le résultat cible (les valeurs positives indiquent que l’exposition doit être augmentée alors que les valeurs négatives indiquent qu’elle doit être diminuée). Dans certains cas, il n’existe pas de solution pour certaines observations. Ainsi, ne fournissez que des résultats cibles réalisables en modifiant la variable d’exposition. Par exemple, aucun niveau PM2.5 ne peut générer un taux d’hospitalisations liées à l’asthme de zéro. Par conséquent, l’utilisation d’un résultat cible égal à zéro ne produira aucune solution. Si plusieurs valeurs d’exposition peuvent générer le résultat cible, celle qui nécessite la modification la moins importante de l’exposition sera utilisée. Si une table en sortie de la fonction exposition-réponse est créée, elle inclura toutes les valeurs de résultat cibles ainsi que les valeurs d’exposition associées, qui seront ajoutées à la fin de la table. S’il existe plusieurs solutions, plusieurs enregistrements seront ajoutés à la table, dans laquelle les valeurs de résultat seront répétées. Si des diagrammes contextuels affichant l’ERF locale sont créés, les résultats cibles et les valeurs d’exposition associées seront affichés dans les fenêtres contextuelles de chaque observation. | Double |
Valeurs d’exposition cibles pour le calcul de nouveaux résultats (Facultatif) | Liste des valeurs d’exposition cibles qui seront utilisées pour calculer de nouveaux résultats pour chaque observation. Pour chaque valeur d’exposition cible, l’outil estime la nouvelle valeur de résultat que l’observation obtiendrait si sa variable d’exposition était remplacée par l’exposition cible. Par exemple, si la variable d’exposition est un indice de qualité de l’air et que la variable de résultat est le taux annuel d’hospitalisations liées à l’asthme dans les comtés, vous pouvez estimer dans quelle mesure le taux d’hospitalisations liées à l’asthme pour chaque observation changerait pour différents niveaux de qualité de l’air. Pour chaque valeur d’exposition cible fournie, deux nouveaux champs seront créés dans la sortie. Le premier champ contient la valeur de résultat estimée si l’observation a reçu l’exposition cible et le deuxième champ contient la modification estimée de la variable de résultat (les valeurs positives indiquent que la variable de résultat augmentera et les valeurs négatives qu’elle diminuera). Les expositions cibles doivent être comprises dans la plage de la variable d’exposition après réduction. Si une table en sortie de la fonction exposition-réponse est créée, elle inclura toutes les valeurs d’exposition cibles ainsi que les valeurs de réponse associées, qui seront ajoutées à la fin de la table. Si des diagrammes contextuels affichant l’ERF locale sont créés, les valeurs d’exposition cibles et les résultats associés seront affichés dans les fenêtres contextuelles de chaque entité. | Double |
Quantile d’exposition inférieur (Facultatif) | Quantile inférieur qui sera utilisé pour réduire la variable d’exposition. Les observations dont les valeurs d’exposition sont inférieures à ce quantile seront exclues de l’analyse avant l’estimation des scores de propension. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0,01 et signifie que le 1 pour cent inférieur des valeurs d’exposition sera réduit. Il est recommandé de réduire certaines des valeurs d’exposition les plus basses pour améliorer l’estimation des scores de propension. | Double |
Quantile d’exposition supérieur (Facultatif) | Quantile supérieur qui sera utilisé pour réduire la variable d’exposition. Les observations dont les valeurs d’exposition sont supérieures à ce quantile seront exclues de l’analyse avant l’estimation des scores de propension. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0,99 et signifie que le 1 pour cent supérieur des valeurs d’exposition sera réduit. Il est recommandé de réduire certaines des valeurs d’exposition les plus élevées pour améliorer l’estimation des scores de propension. | Double |
Quantile de score de propension inférieur (Facultatif) | Quantile inférieur qui sera utilisé pour réduire les scores de propension. Les observations dont les scores de propension sont inférieurs à ce quantile seront exclues de l’analyse avant l’appariement des scores de propension ou la pondération par l’inverse du score de pondération. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0 et signifie qu’aucune réduction ne sera effectuée. La réduction des scores de propension inférieurs est souvent nécessaire si vous utilisez la pondération à l’inverse du score de pondération. Les scores de propension proches de zéro peuvent générer des pondérations d’équilibrage élevées et instables. | Double |
Quantile de score de propension supérieur (Facultatif) | Quantile supérieur qui sera utilisé pour réduire les scores de propension. Les observations dont les scores de propension sont supérieurs à ce quantile seront exclues de l’analyse avant l’appariement des scores de propension ou la pondération par l’inverse du score de pondération. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 1 et signifie qu’aucune réduction ne sera effectuée. | Double |
Nombre de groupes d’exposition (Facultatif) | Nombre de groupes d’exposition qui seront utilisés pour l’appariement des scores de propension. Lors de l’appariement, la variable d’exposition est divisée en groupes équidistants (intervalles égaux) et l’appariement a lieu dans chaque groupe. Au moins deux groupes d’exposition sont requis et il est recommandé qu’au moins cinq valeurs d’exposition soient incluses dans chaque groupe. Si aucune valeur n’est fournie, la valeur est estimée pendant l’exécution de l’outil et affichée dans les messages. | Long |
Pondération relative du score de propension par rapport à l’exposition (Facultatif) | Pondération relative (parfois appelée échelle) du score de propension par rapport à la variable d’exposition qui sera utilisée lors de l’appariement du score de propension. Dans chaque groupe d’exposition, les appariements sont déterminés en fonction des différences de score de propension et de valeur de la variable d’exposition. Ce paramètre permet de hiérarchiser les critères. Par exemple, une valeur égale à 0,5 indique que la même pondération est attribuée au score de propension et aux variables d’exposition lors de l’identification d’observations d’appariement. Si aucune valeur n’est fournie, la valeur est estimée pendant l’exécution de l’outil et affichée dans les messages. Il est difficile de prévoir la valeur qui assurera le meilleur équilibre ; il est donc recommandé d’autoriser l’outil à l’estimer. Vous pouvez fournir une valeur manuellement pour réduire le temps de calcul ou pour reproduire des résultats antérieurs. Si la fonction exposition-réponse obtenue montre des bandes verticales d’observations avec des pondérations élevées, l’augmentation de la pondération relative peut fournir une fonction exposition-réponse plus réaliste et plus précise. | Double |
Type d’équilibrage (Facultatif) | Indique la méthode qui sera utilisée pour déterminer si les variables de confusion sont équilibrées. Une fois les pondérations estimées à l’aide de l’appariement des scores de propension ou de la pondération par l’inverse du score de pondération, des corrélations pondérées sont calculées pour chaque variable de confusion. Si la corrélation absolue moyenne, médiane ou maximale est inférieure au seuil d’équilibrage, les variables de confusion sont jugées équilibrées, c’est-à-dire suffisamment décorrélées de la variable d’exposition.
| String |
Seuil d’équilibrage (Facultatif) | Valeur de seuil qui sera comparée aux corrélations pondérées des variables de confusion pour déterminer si elles sont équilibrées. La valeur doit être comprise entre 0 et 1. Un seuil d’équilibrage plus élevé indique une plus grande tolérance au déséquilibre des variables de confusion et au biais dans la fonction exposition-réponse. La valeur par défaut est 0,1. | Double |
Méthode d’estimation de la largeur de bande (Facultatif) | Indique la méthode qui sera utilisée pour estimer la bande passante de la fonction exposition-réponse.
| String |
Bande passante (Facultatif) | Valeur de la bande passante de la fonction exposition-réponse lors de l’utilisation d’une bande passante manuelle. | Double |
Créer des intervalles de confiance bootstrap (Facultatif) | Indique si des intervalles de confiance de 95 pour cent pour la fonction exposition-réponse seront créés à l’aide du bootstrap m-out-of-n. Les intervalles de confiance apparaîtront dans la couche de graphiques en sortie sous forme de lignes pointillées au-dessus et en dessous de la fonction exposition-réponse.
| Boolean |
Synthèse
Estime l’effet causal d’une variable d’exposition continue sur une variable de résultat continue en faisant une approximation d’une expérience aléatoire et en incluant les variables de confusion.
Dans les expériences statistiques, la relation de cause à effet entre une variable d’exposition (telle qu’une dose de médicament) et une variable de résultat (telle que le résultat clinique) est déterminée par l’attribution aléatoire à chaque participant d’un niveau d’exposition particulier, de sorte que toute différence dans les résultats ne puisse être due qu’à la différence d’exposition, et non à d’autres caractéristiques des participants, comme l’âge, des pathologies préexistantes et l’accès aux soins. Toutefois, il est souvent impossible ou contraire à l’étique d’effectuer des expériences contrôlées ; par conséquent, les relations sont souvent établies par observation. Par exemple, pour étudier l’effet de la pollution sur les taux de dépression, vous ne pouvez pas exposer intentionnellement des individus à une pollution élevée pour en observer l’effet sur la dépression. Vous pouvez seulement observer l’exposition à la pollution et les taux de dépression des individus composant votre échantillon. Cependant, de nombreuses variables (appelées variables de confusion) ayant un impact à la fois sur la pollution et sur la dépression, l’effet causal ne peut pas être estimé directement sans inclure ces variables.
Pour émuler le processus d’une expérience aléatoire et contrôlée, l’outil calcule des scores de propension pour chaque observation. Ceux-ci sont utilisés pour pondérer les observations de sorte que la relation causale entre les variables d’exposition et de résultat soit conservée et que les corrélations entre les variables de confusion et la variable d’exposition soient supprimées. Ce jeu de données pondéré est souvent appelé pseudo-population et possède des propriétés analogues à une expérience contrôlée dans laquelle une exposition est attribuée aléatoirement à chaque participant. Grâce aux observations pondérées, l’outil crée une fonction exposition-réponse (ERF) qui estime ce que serait le résultat moyen si tous les membres de la population étaient soumis à une valeur d’exposition donnée, mais ne modifiaient pas leurs variables de confusion.
En savoir plus sur le fonctionnement de l’analyse d’inférence causale
Illustration
Utilisation
Dans une analyse d’inférence causale, il est supposé que toutes les variables de confusion importantes sont incluses dans le modèle. En d’autres termes, si des variables ayant un impact sur les variables d’exposition et de résultat ne sont pas incluses en tant que variables de confusion, l’estimation de l’effet causal est biaisée. L’outil n’est pas en mesure de déterminer si toutes les variables de confusion importantes ont été incluses, il est donc essentiel de prendre en compte celles qui sont susceptibles d’être associées aux variables d’exposition et de résultat et de les inclure dans le modèle. Si des variables de confusion importantes ne sont pas disponibles en vue de cette inclusion, il est recommandé d’interpréter les résultats de l’outil avec précaution et scepticisme ou d’envisager de ne pas utiliser l’outil tant que vous ne pouvez pas acquérir de données pour toutes les variables de confusion.
La variable d’exposition doit être continue (elle ne doit pas être binaire ni catégorielle), mais les variables de confusion peuvent être continues, catégorielles ou binaires. Il est recommandé que la variable de résultat soit continue, mais les variables de résultat binaires sont admises et peuvent souvent être interprétées comme des probabilités ou des proportions.
L’outil accepte les jeux de données en entrée spatiaux et non spatiaux. Vous pouvez utiliser des tables, des points, des polygones et des polylignes en entrée ; le type de la sortie sera le même que celui de l’entrée.
La sortie principale de l’outil est une fonction ERF renvoyée sous forme de diagramme de nuages de points sur les entités en sortie et en tant qu’image dans les messages de géotraitement. Vous pouvez également créer une table contenant diverses valeurs exposition-réponse en utilisant le paramètre Table en sortie de la fonction exposition-réponse.
Le paramètre Méthode de calcul des scores de propension permet d’indiquer la façon dont les scores de propension sont estimés. Les scores de propension sont des vraisemblances (ou probabilités) de recevoir une valeur d’exposition particulière, compte tenu d’un ensemble de variables de confusion. Les scores de propension sont estimés en créant un modèle qui prévoit la variable d’exposition à partir des variables de confusion. Les méthodes de calcul des scores de propension suivantes sont disponibles :
- Régression : la régression des moindres carrés ordinaires sera utilisée pour estimer les scores de propension.
En savoir plus sur la régression des moindres carrés ordinaires
- Boosting de gradient : les arbres de régression du boosting de gradient seront utilisés pour estimer les scores de propension.
- Régression : la régression des moindres carrés ordinaires sera utilisée pour estimer les scores de propension.
Le paramètre Méthode d’équilibrage permet d’indiquer la façon dont les scores de propension seront utilisés pour équilibrer les variables de confusion. Deux méthodes d’équilibrage sont disponibles :
- Appariement des scores de propension : chaque observation est appariée à diverses autres observations possédant des scores de propension similaires, mais des valeurs d’exposition différentes. En comparant la valeur de résultat de l’observation aux valeurs de résultat des appariements, vous pouvez voir quelle aurait été la valeur de résultat de l’observation si l’exposition avait été différente. Une fois toutes les observations appariées à diverses autres observations, une pondération d’équilibrage égale au nombre d’appariements de l’observation à une autre observation est attribuée à chaque observation. Le raisonnement qui sous-tend ce schéma de pondération est le suivant : les observations dont le nombre d’appariements est élevé possèdent des variables de confusion communes à plusieurs valeurs de la variable d’exposition et ne sont donc pas représentatives de l’effet causal.
- Pondération par l’inverse du score de propension : des pondérations d’équilibrage sont attribuées à chaque observation en inversant les scores de propension, puis en multipliant par la probabilité globale d’atteindre l’exposition donnée. Ainsi, des pondérations d’équilibrage plus élevées sont attribuées aux observations dont les scores de propension sont faibles et des pondérations d’équilibrage plus faibles sont attribuées aux observations dont les scores de propension sont élevés. Le raisonnement qui sous-tend ce schéma de pondération est le suivant : les scores de propension mesurent le degré de fréquence ou de rareté de la valeur d’exposition pour le jeu spécifique de variables de confusion. En augmentant l’influence (c’est-à-dire en augmentant la pondération d’équilibrage) des observations rares (observations avec un faible score de propension) et en diminuant l’influence des observations fréquentes, la proportion des distributions globales des variables de confusion est conservée dans toutes les valeurs de la variable d’exposition.
Par défaut, l’outil réduit (retire de l’analyse) les observations qui présentent les 1 pour cent supérieur et inférieur des valeurs d’exposition. Les valeurs extrêmes ou les points aberrants dans la variable d’exposition peuvent introduire un biais dans les analyses d’inférence causale. En réduisant ces valeurs extrêmes, vous pouvez diminuer l’impact des observations influentes susceptibles de fausser l’estimation de l’effet causal. Vous pouvez changer l’ampleur de la réduction de l’exposition avec les paramètres Quantile d’exposition inférieur et Quantile d’exposition supérieur. Vous pouvez également réduire les observations en fonction de leurs scores de propension à l’aide des paramètres Quantile de score de propension inférieur et Quantile de score de propension supérieur, mais aucune réduction des scores de propension n’est effectuée par défaut. Si vous utilisez la pondération par l’inverse du score de propension, il est souvent nécessaire de réduire certains des scores de propension les plus faibles car les scores de propension proches de zéro peuvent générer des pondérations d’équilibrage élevées et instables.
La table ou les entités en sortie contiendront des champs des scores de propension, des pondérations d’équilibrage et un champ indiquant si l’entité a été réduite (0 signifie que l’entité a été réduite et 1 qu’elle a été incluse dans l’analyse). Des copies des variables d’exposition, de résultat et de confusion sont également incluses.
L’équilibrage entre les variables de confusion et la variable d’exposition est essentielle pour dériver la relation causale entre les variables d’exposition et de résultat. Pour déterminer si les pondérations d’équilibrage équilibrent effectivement les variables de confusion, l’outil calcule les corrélations pondérées entre chaque variable de confusion et la variable d’exposition (pondérée par les pondérations d’équilibrage). Les corrélations pondérées sont alors agrégées et comparées à une valeur de seuil. Si la corrélation agrégée est inférieure au seuil, les variables de confusion sont jugées équilibrées. Vous pouvez spécifier le type d’agrégation (corrélation absolue moyenne, médiane ou maximale) à l’aide du paramètre Type d’équilibrage et indiquer la valeur de seuil dans le paramètre Seuil d’équilibrage. Par défaut, l’outil utilise la corrélation moyenne absolue et une valeur de seuil égale à 0,1. Il est courant d’utiliser la valeur de seuil 0,1, mais il est conseillé d’adapter le seuil en fonction de votre expertise, des objectifs de recherche et des caractéristiques intrinsèques de la population étudiée. Une valeur de seuil basse indique une moindre tolérance par rapport au biais lors de l’estimation de l’effet causal ; cependant, il est plus difficile d’atteindre l’équilibre avec des seuils bas.
Si les pondérations d’équilibrage ne sont pas suffisantes pour équilibrer les variables de confusion, l’outil renvoie une erreur et ne produit pas d’ERF. Néanmoins, divers messages indiquent dans quelle mesure les variables de confusion ont été équilibrées. Il est recommandé d’essayer en premier lieu de résoudre l’erreur en sélectionnant des variables de confusion et différentes options pour les paramètres Méthode de calcul des scores de propension et Méthode d’équilibrage. Si vous ne parvenez pas à résoudre l’erreur ainsi, essayez d’utiliser une autre option pour le paramètre Type d’équilibrage ou d’augmenter la valeur du paramètre Seuil d’équilibrage afin de générer une ERF. Cette solution peut toutefois introduire un biais dans l’estimation de l’effet causal.
En savoir plus sur l’obtention de variables de confusion équilibrées
Les variables de confusion doivent contenir un éventail de valeurs provenant de la plage entière de la variable d’exposition. Les variables de confusion catégorielles doivent présenter un large éventail de valeurs d’exposition dans chaque niveau de la catégorie et une variable catégorielle ne peut pas comporter plus de 60 catégories. Pour l’appariement des scores de propension, si la variation de la variable d’exposition n’est pas suffisamment représentée dans toutes les valeurs de chaque variable de confusion, il sera difficile d’atteindre l’équilibre.
Vous pouvez utiliser le paramètre Valeurs de résultat cibles pour le calcul de nouvelles expositions afin d’explorer les scénarios hypothétiques (parfois appelés scénarios contrefactuels) pour chaque observation. En utilisant une ERF locale pour chaque observation, l’outil calcule le niveau d’exposition nécessaire pour chaque observation permettant d’obtenir le résultat souhaité. Par exemple, chaque comté peut estimer le niveau de pollution qui serait nécessaire pour générer un taux d’hospitalisations liées à l’asthme inférieur à un objectif donné. Si des valeurs de résultat cibles sont fournies, la table ou les entités en sortie incluent deux champs supplémentaires pour chaque résultat cible : l’un pour la nouvelle valeur d’exposition et l’autre pour la différence entre la nouvelle valeur d’exposition et la valeur d’exposition actuelle. Si plusieurs valeurs d’exposition peuvent générer le résultat cible, l’outil utilise celle qui est la plus proche de la valeur d’exposition actuelle de l’observation. De même, vous pouvez aussi fournir des valeurs d’exposition cibles dans le paramètre Valeurs d’exposition cibles pour le calcul de nouveaux résultats afin de déterminer dans quelle mesure la variable de résultat peut changer localement pour diverses expositions cibles.
Si une table ERF en sortie est créée, les valeurs de résultat cibles ou les valeurs d’exposition cibles sont ajoutées à la fin de la table. S’il existe plusieurs solutions pour un résultat cible, toutes les solutions sont incluses dans la table.
Si le paramètre Activer les fenêtres contextuelles de la fonction exposition-réponse est sélectionné, des fonctions exposition-réponse locales seront créées pour chaque observation. Les ERF locales sont affichées sous forme de graphiques dans les fenêtres contextuelles de la table ou des entités en sortie. La création d’ERF locales requiert l’hypothèse supplémentaire d’un effet de traitement constant, qui n’est souvent pas respectée pour les variables telles que la race, le revenu et le genre.
En savoir plus sur l’estimation et les hypothèses d’une ERF locale
Attention :
Si les observations sont nombreuses, la création de fenêtres contextuelles peut solliciter beaucoup de mémoire et de ressources. Il est recommandé d’exécuter l’outil sans activer les fenêtres contextuelles lors des phases exploratoires de modélisation et de ne les créer qu’une fois que tous les autres paramètres de l’outil ont été déterminés.
On pense souvent à tort que l’effet causal peut être estimé uniquement en incluant les variables de confusion en tant que variables explicatives dans un modèle prédictif tel que l’outil Régression linéaire généralisée ou Classification et régression basées sur une forêt et boostées. Toutefois, cela est vrai uniquement si toutes les variables explicatives sont indépendantes de la variable d’exposition et si toutes les variables concernées sont incluses dans le modèle. Étant donné que la majorité des jeux de données contiennent des variables mutuellement associées les unes aux autres, il est impossible d’estimer directement l’effet causal.
La méthodologie générale de l’outil repose sur les références suivantes :
- Khoshnevis, Naeem, Xiao Wu, and Danielle Braun. 2023. "CausalGPS: Matching on Generalized Propensity Scores with Continuous Exposures." R package version 0.4.0. https://CRAN.R-project.org/package=CausalGPS.
Wu, Xiao, Fabrizia Mealli, Marianthi-Anna Kioumourtzoglou, Francesca Dominici, and Danielle Braun. 2022. "Matching on Generalized Propensity Scores with Continuous Exposures." Journal of the American Statistical Association. https://doi.org/10.1080/01621459.2022.2144737.
Paramètres
arcpy.stats.CausalInferenceAnalysis(in_features, outcome_field, exposure_field, confounding_variables, out_features, {ps_method}, {balancing_method}, {enable_erf_popups}, {out_erf_table}, {target_outcomes}, {target_exposures}, {lower_exp_trim}, {upper_exp_trim}, {lower_ps_trim}, {upper_ps_trim}, {num_bins}, {scale}, {balance_type}, {balance_threshold}, {bw_method}, {bandwidth}, {create_bootstrap_ci})
Nom | Explication | Type de données |
in_features | Table ou entités en entrée contenant des champs des variables d’exposition, de résultat et de confusion. | Feature Layer; Table View |
outcome_field | Champ numérique de la variable de résultat. Il s’agit de la variable qui réagit aux modifications de la variable d’exposition. La variable de résultat doit être continue ou binaire (et non catégorielle). | Field |
exposure_field | Champ numérique de la variable d’exposition (parfois appelée variable de traitement). Il s’agit de la variable à l’origine des modifications dans la variable de résultat. La variable d’exposition doit être continue (et non binaire ou catégorielle). | Field |
confounding_variables [[var1, cat1], [var2, cat2],...] | Champs des variables de confusion. Il s’agit des variables qui sont liées à la fois à la variable d’exposition et à la variable de résultat. Elles doivent être équilibrées pour l’estimation de l’effet causal entre la variable d’exposition et la variable de résultat. Les variables de confusion peuvent être continues, catégorielles ou binaires. Les champs de texte doivent être catégoriels, les champs de type entier peuvent être catégoriels ou continus et les autres champs numériques doivent être continus. Pour éviter tout biais de la fonction exposition-réponse, toutes les variables qui sont associées aux variables d’exposition et de résultat doivent être incluses en tant que variables de confusion. | Value Table |
out_features | Table ou entités en sortie contenant les scores de propension, les pondérations d’équilibrage et un champ indiquant si l’entité a été réduite (exclue de l’analyse). Les variables d’exposition, de résultat et de confusion sont également incluses. | Feature Class; Table |
ps_method (Facultatif) | Indique la méthode qui sera utilisée pour calculer les scores de propension de chaque observation. Le score de propension d’une observation est la vraisemblance (ou probabilité) de recevoir la valeur d’exposition observée, compte tenu des valeurs des variables de confusion. Un score de propension élevé indique que l’exposition est fréquente pour les individus qui présentent les variables de confusion associées. Un score de propension faible indique que la valeur d’exposition est rare pour les individus qui présentent ces variables de confusion. Considérons par exemple le cas d’une personne dont la pression artérielle est élevée (variable d’exposition) mais qui ne présente pas de facteurs de risque (variables de confusion) : cette personne aura probablement un score de propension faible car il est rare d’avoir une pression artérielle élevée sans présenter de facteur de risque. À l’inverse, une personne dont la pression artérielle est élevée et qui présente de nombreux facteurs de risque aura un score de propension plus élevé puisque c’est le cas le plus courant. Les scores de propension sont estimés par un modèle statistique qui prévoit la variable d’exposition en utilisant les variables de confusion comme variables explicatives. Vous pouvez utiliser un modèle de régression des moindres carrés ordinaires ou un modèle d’apprentissage automatique qui utilise des arbres de régression du boosting de gradient. Il est recommandé d’utiliser d’abord la régression et de n’utiliser le boosting de gradient que si la régression ne parvient pas à équilibrer les variables de confusion.
| String |
balancing_method (Facultatif) | Indique la méthode qui sera utilisée pour équilibrer les variables de confusion. Chaque méthode estime un ensemble de pondérations d’équilibrage qui supprime la corrélation entre les variables de confusion et la variable d’exposition. Il est recommandé d’utiliser l’appariement en premier lieu et de n’utiliser la pondération par l’inverse du score de propension que si l’appariement ne parvient pas à équilibrer les variables de confusion. La pondération par l’inverse du score de propension sera calculée plus vite que l’appariement des scores de propension. Par conséquent, elle est également recommandée lorsque le temps de calcul de l’appariement n’est pas acceptable pour les données.
| String |
enable_erf_popups (Facultatif) | Indique si des diagrammes contextuels affichant l’ERF locale pour l’observation seront créés pour chaque observation.
| Boolean |
out_erf_table (Facultatif) | Table contenant les valeurs de la fonction exposition-réponse. La table comportera 200 valeurs d’exposition équidistantes comprises entre l’exposition minimale et l’exposition maximale (après réduction) ainsi que la réponse estimée de la fonction exposition-réponse. Le champ de réponse représente la valeur moyenne de la variable de résultat si tous les membres de la population ont été soumis à la valeur d’exposition associée. Si des intervalles de confiance bootstrap sont créés, des champs supplémentaires contenant les limites supérieure et inférieure de l’intervalle de confiance pour la valeur d’exposition, ainsi que l’écart standard et le nombre d’échantillons utilisés pour construire l’intervalle de confiance, seront créés. Si des valeurs d’exposition et des valeurs de résultat cibles sont fournies, elles seront ajoutées à la fin de la table. | Table |
target_outcomes [target_outcomes,...] (Facultatif) | Liste de valeurs de résultat cibles à partir desquelles seront calculées les modifications à apporter à l’exposition pour obtenir les résultats pour chaque observation. Par exemple, si la variable d’exposition est un indice de qualité de l’air et que la variable de résultat est le taux annuel d’hospitalisations liées à l’asthme dans les comtés, vous pouvez déterminer de combien l’indice de qualité de l’air doit diminuer pour obtenir des taux d’hospitalisations liées à l’asthme inférieurs à 0,01, 0,005 et 0,001. Pour chaque valeur de résultat cible fournie, deux nouveaux champs seront créés dans la sortie. Le premier champ contient la valeur d’exposition qui génèrerait le résultat cible et le deuxième champ contient la modification à apporter à la valeur d’exposition pour produire le résultat cible (les valeurs positives indiquent que l’exposition doit être augmentée alors que les valeurs négatives indiquent qu’elle doit être diminuée). Dans certains cas, il n’existe pas de solution pour certaines observations. Ainsi, ne fournissez que des résultats cibles réalisables en modifiant la variable d’exposition. Par exemple, aucun niveau PM2.5 ne peut générer un taux d’hospitalisations liées à l’asthme de zéro. Par conséquent, l’utilisation d’un résultat cible égal à zéro ne produira aucune solution. Si plusieurs valeurs d’exposition peuvent générer le résultat cible, celle qui nécessite la modification la moins importante de l’exposition sera utilisée. Si une table en sortie de la fonction exposition-réponse est créée, elle inclura toutes les valeurs de résultat cibles ainsi que les valeurs d’exposition associées, qui seront ajoutées à la fin de la table. S’il existe plusieurs solutions, plusieurs enregistrements seront ajoutés à la table, dans laquelle les valeurs de résultat seront répétées. Si des diagrammes contextuels affichant l’ERF locale sont créés, les résultats cibles et les valeurs d’exposition associées seront affichés dans les fenêtres contextuelles de chaque observation. | Double |
target_exposures [target_exposures,...] (Facultatif) | Liste des valeurs d’exposition cibles qui seront utilisées pour calculer de nouveaux résultats pour chaque observation. Pour chaque valeur d’exposition cible, l’outil estime la nouvelle valeur de résultat que l’observation obtiendrait si sa variable d’exposition était remplacée par l’exposition cible. Par exemple, si la variable d’exposition est un indice de qualité de l’air et que la variable de résultat est le taux annuel d’hospitalisations liées à l’asthme dans les comtés, vous pouvez estimer dans quelle mesure le taux d’hospitalisations liées à l’asthme pour chaque observation changerait pour différents niveaux de qualité de l’air. Pour chaque valeur d’exposition cible fournie, deux nouveaux champs seront créés dans la sortie. Le premier champ contient la valeur de résultat estimée si l’observation a reçu l’exposition cible et le deuxième champ contient la modification estimée de la variable de résultat (les valeurs positives indiquent que la variable de résultat augmentera et les valeurs négatives qu’elle diminuera). Les expositions cibles doivent être comprises dans la plage de la variable d’exposition après réduction. Si une table en sortie de la fonction exposition-réponse est créée, elle inclura toutes les valeurs d’exposition cibles ainsi que les valeurs de réponse associées, qui seront ajoutées à la fin de la table. Si des diagrammes contextuels affichant l’ERF locale sont créés, les valeurs d’exposition cibles et les résultats associés seront affichés dans les fenêtres contextuelles de chaque entité. | Double |
lower_exp_trim (Facultatif) | Quantile inférieur qui sera utilisé pour réduire la variable d’exposition. Les observations dont les valeurs d’exposition sont inférieures à ce quantile seront exclues de l’analyse avant l’estimation des scores de propension. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0,01 et signifie que le 1 pour cent inférieur des valeurs d’exposition sera réduit. Il est recommandé de réduire certaines des valeurs d’exposition les plus basses pour améliorer l’estimation des scores de propension. | Double |
upper_exp_trim (Facultatif) | Quantile supérieur qui sera utilisé pour réduire la variable d’exposition. Les observations dont les valeurs d’exposition sont supérieures à ce quantile seront exclues de l’analyse avant l’estimation des scores de propension. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0,99 et signifie que le 1 pour cent supérieur des valeurs d’exposition sera réduit. Il est recommandé de réduire certaines des valeurs d’exposition les plus élevées pour améliorer l’estimation des scores de propension. | Double |
lower_ps_trim (Facultatif) | Quantile inférieur qui sera utilisé pour réduire les scores de propension. Les observations dont les scores de propension sont inférieurs à ce quantile seront exclues de l’analyse avant l’appariement des scores de propension ou la pondération par l’inverse du score de pondération. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 0 et signifie qu’aucune réduction ne sera effectuée. La réduction des scores de propension inférieurs est souvent nécessaire si vous utilisez la pondération à l’inverse du score de pondération. Les scores de propension proches de zéro peuvent générer des pondérations d’équilibrage élevées et instables. | Double |
upper_ps_trim (Facultatif) | Quantile supérieur qui sera utilisé pour réduire les scores de propension. Les observations dont les scores de propension sont supérieurs à ce quantile seront exclues de l’analyse avant l’appariement des scores de propension ou la pondération par l’inverse du score de pondération. La valeur doit être comprise entre 0 et 1. La valeur par défaut est 1 et signifie qu’aucune réduction ne sera effectuée. | Double |
num_bins (Facultatif) | Nombre de groupes d’exposition qui seront utilisés pour l’appariement des scores de propension. Lors de l’appariement, la variable d’exposition est divisée en groupes équidistants (intervalles égaux) et l’appariement a lieu dans chaque groupe. Au moins deux groupes d’exposition sont requis et il est recommandé qu’au moins cinq valeurs d’exposition soient incluses dans chaque groupe. Si aucune valeur n’est fournie, la valeur est estimée pendant l’exécution de l’outil et affichée dans les messages. | Long |
scale (Facultatif) | Pondération relative (parfois appelée échelle) du score de propension par rapport à la variable d’exposition qui sera utilisée lors de l’appariement du score de propension. Dans chaque groupe d’exposition, les appariements sont déterminés en fonction des différences de score de propension et de valeur de la variable d’exposition. Ce paramètre permet de hiérarchiser les critères. Par exemple, une valeur égale à 0,5 indique que la même pondération est attribuée au score de propension et aux variables d’exposition lors de l’identification d’observations d’appariement. Si aucune valeur n’est fournie, la valeur est estimée pendant l’exécution de l’outil et affichée dans les messages. Il est difficile de prévoir la valeur qui assurera le meilleur équilibre ; il est donc recommandé d’autoriser l’outil à l’estimer. Vous pouvez fournir une valeur manuellement pour réduire le temps de calcul ou pour reproduire des résultats antérieurs. Si la fonction exposition-réponse obtenue montre des bandes verticales d’observations avec des pondérations élevées, l’augmentation de la pondération relative peut fournir une fonction exposition-réponse plus réaliste et plus précise. | Double |
balance_type (Facultatif) | Indique la méthode qui sera utilisée pour déterminer si les variables de confusion sont équilibrées. Une fois les pondérations estimées à l’aide de l’appariement des scores de propension ou de la pondération par l’inverse du score de pondération, des corrélations pondérées sont calculées pour chaque variable de confusion. Si la corrélation absolue moyenne, médiane ou maximale est inférieure au seuil d’équilibrage, les variables de confusion sont jugées équilibrées, c’est-à-dire suffisamment décorrélées de la variable d’exposition.
| String |
balance_threshold (Facultatif) | Valeur de seuil qui sera comparée aux corrélations pondérées des variables de confusion pour déterminer si elles sont équilibrées. La valeur doit être comprise entre 0 et 1. Un seuil d’équilibrage plus élevé indique une plus grande tolérance au déséquilibre des variables de confusion et au biais dans la fonction exposition-réponse. La valeur par défaut est 0,1. | Double |
bw_method (Facultatif) | Indique la méthode qui sera utilisée pour estimer la bande passante de la fonction exposition-réponse.
| String |
bandwidth (Facultatif) | Valeur de la bande passante de la fonction exposition-réponse lors de l’utilisation d’une bande passante manuelle. | Double |
create_bootstrap_ci (Facultatif) | Indique si des intervalles de confiance de 95 pour cent pour la fonction exposition-réponse seront créés à l’aide du bootstrap m-out-of-n.
| Boolean |
Exemple de code
Le script Python ci-dessous illustre l’utilisation de la fonction CausalInferenceAnalysis.
import arcpy
arcpy.stats.CausalInferenceAnalysis(
in_features="crop_locations",
outcome_field="corn_yield",
exposure_field="fertilizer",
confounding_variables="soil_type true;temperature false",
out_features=r"CausalInference_corn_yield",
ps_method="REGRESSION",
balancing_method="MATCHING",
enable_erf_popups="CREATE_POPUP",
out_erf_table=r"erftable",
target_outcomes=[],
target_exposures=[],
lower_exp_trim=0.01,
upper_exp_trim=0.99,
lower_ps_trim=0,
upper_ps_trim=1,
num_bins=None,
scale=None,
balance_type="MEAN",
balance_threshold=0.1,
bw_method="PLUG_IN",
create_bootstrap_ci="CREATE_CI"
)
Le script Python ci-dessous illustre l’utilisation de la fonction CausalInferenceAnalysis.
# Estimate the causal effect between fertilizer amount
# and corn yield using soil type and temperature as
# confounding variables.
# Import required modules.
import arcpy
# Set the workspace.
arcpy.env.workspace = "c:/data/crops.gdb"
# Run Causal Inference Analysis tool with gradient boosting
# and inverse propensity score weighting.
try:
arcpy.stats.CausalInferenceAnalysis(
in_features="crop_locations",
outcome_field="corn_yield",
exposure_field="fertilizer",
confounding_variables="soil_type true;temperature false",
out_features=r"CausalInference_corn_yield",
ps_method="GRADIENT_BOOSTING",
balancing_method="WEIGHTING",
enable_erf_popups="CREATE_POPUP",
out_erf_table=r"erftable",
target_outcomes=[],
target_exposures=[],
lower_exp_trim=0.01,
upper_exp_trim=0.99,
lower_ps_trim=0,
upper_ps_trim=1,
num_bins=None,
scale=None,
balance_type="MEAN",
balance_threshold=0.1,
bw_method="PLUG_IN",
create_bootstrap_ci="CREATE_CI"
)
except arcpy.ExecuteError:
# If an error occurred when running the tool, print the error message.
print(arcpy.GetMessages())
Environnements
Informations de licence
- Basic: Oui
- Standard: Oui
- Advanced: Oui
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?