Análisis de inferencia causal (Estadística espacial)—ArcGIS Pro

Resumen

Estima el efecto causal de una variable de exposición continua sobre una variable de resultado continua aproximándose a un experimento aleatorio y controlando las variables de confusión.

En los experimentos estadísticos, la relación causa-efecto entre una variable de exposición (como la dosis de un fármaco) y una variable de resultado (como un resultado clínico) se determina asignando aleatoriamente a cada participante un nivel de exposición concreto, de modo que cualquier diferencia en los resultados debe deberse solo a las diferencias en las exposiciones y no a otros atributos de los participantes, como la edad, las enfermedades preexistentes y el acceso a la atención sanitaria. Sin embargo, con frecuencia es imposible o poco ético realizar experimentos controlados, por lo que las relaciones se establecen a menudo mediante estudios observacionales. Por ejemplo, para estudiar el efecto de la contaminación sobre los índices de depresión, sería inviable exponer intencionadamente a los individuos a una contaminación elevada para ver qué efecto tiene en su depresión. En cambio, solo puede observar la exposición a la contaminación y los índices de depresión de los individuos de su muestra. Sin embargo, dado que existen muchas variables (llamadas variables de confusión) que influyen tanto en la contaminación como en la depresión, el efecto causal no puede estimarse directamente sin controlar estas variables.

Para emular el proceso de un experimento aleatorio y controlado, la herramienta calcula puntuaciones de propensión para cada observación, y las puntuaciones de propensión se utilizan para ponderar las observaciones de forma que se mantenga la relación causal entre las variables de exposición y de resultado, pero se eliminen las correlaciones entre las variables de confusión y la variable de exposición. Este dataset ponderado se denomina a menudo como seudopoblación y tiene propiedades análogas a las de un experimento controlado en el cual se asigna aleatoriamente una exposición a cada participante. Utilizando las observaciones ponderadas, la herramienta crea una función de exposición-respuesta (ERF) que estima cuál sería el resultado medio si todos los miembros de la población recibieran un valor de exposición determinado pero no cambiasen las variables de confusión.

Más información sobre el funcionamiento del Análisis de inferencia causal

Ilustración

El efecto causal entre una exposición y un resultado se estima equilibrando las variables de confusión.

Uso

En el Análisis de inferencia causal, se supone que todas las variables de confusión importantes están incluidas en el modelo. Significa que, si no se incluyen como variables de confusión aquellas variables que influyen en las variables de exposición y de resultado, la estimación del efecto causal estará sesgada. La herramienta no puede determinar si se han incluido todas las variables de confusión importantes, por lo que es fundamental que tenga en cuenta qué variables podrían estar relacionadas con sus variables de exposición y de resultado y que las incluya en el modelo. Si hay variables de confusión importantes que no están disponibles para su inclusión, debe interpretar los resultados de la herramienta con extrema precaución y escepticismo o plantearse no utilizar la herramienta hasta que pueda adquirir datos para todas las variables de confusión.
La variable de exposición debe ser continua (no binaria ni de categorías), pero las variables de confusión pueden ser continuas, de categorías o binarias. Se recomienda que la variable de resultado sea continua, pero se permiten las variables de resultado binarias y con frecuencia pueden interpretarse como probabilidades o proporciones.
La herramienta acepta tanto datasets de entrada espaciales como no espaciales. Puede utilizar tablas, puntos, polígonos y polilíneas como entrada, y la salida será del mismo tipo que la entrada.
El resultado principal de la herramienta es una ERF, que se devuelve como gráfico de diagramas de dispersión en las entidades de salida y como imagen en los mensajes de geoprocesamiento. También puede crear una tabla que contenga varios valores de exposición-respuesta utilizando el parámetro Tabla de salida de la función de exposición-respuesta.
Más información sobre la ERF
El parámetro Método de cálculo de la puntuación de propensión le permite especificar cómo se estimarán las puntuaciones de propensión. Las puntuaciones de propensión son las probabilidades de recibir un valor de exposición determinado, dado un conjunto de variables de confusión. Las puntuaciones de propensión se estiman creando un modelo que predice la variable de exposición a partir de las variables de confusión. Se ofrecen los siguientes métodos de cálculo de la puntuación de propensión:
- Regresión: se utilizará la regresión por mínimos cuadrados ordinarios (MCO) para estimar las puntuaciones de propensión.
  Más información sobre la regresión de OLS
- Incremento de gradiente: se utilizarán árboles de regresión con incremento de gradiente para estimar las puntuaciones de propensión.
  Más información sobre el incremento de gradiente
El parámetro Método de equilibrio le permite especificar cómo se utilizarán las puntuaciones de propensión para equilibrar las variables de confusión. Existen dos métodos de equilibrado:
- Correlación de puntuación de propensión: cada observación se correlaciona con otras observaciones que tienen puntuaciones de propensión similares, pero valores de exposición diferentes. Al comparar el valor del resultado de la observación con los valores del resultado de las correlaciones, puede ver cuál podría haber sido el valor del resultado de la observación si hubiera tenido otro nivel de exposición. Tras correlacionar todas las observaciones con otras observaciones, se asigna a cada observación un peso de equilibrio igual al número de veces que la observación fue correlacionada con cualquier otra observación. El razonamiento que subyace a este esquema de ponderación es que las observaciones con recuentos de coincidencias elevados tienen variables de confusión comunes a muchos valores de la variable de exposición, por lo que son las más representativas del efecto causal.
- Ponderación inversa de puntuación de propensión: se asignan ponderaciones de equilibrio a cada observación invirtiendo la puntuación de propensión y multiplicándola por la probabilidad global de tener la exposición dada. Proporciona ponderaciones de equilibrio más altas a las observaciones con puntuaciones de propensión bajas y ponderaciones de equilibrio más bajas a las observaciones con puntuaciones de propensión altas. El razonamiento que subyace a este esquema de ponderación es que las puntuaciones de propensión son una medida de lo común o poco común que es el valor de exposición para el conjunto concreto de variables de confusión. Al aumentar la influencia (aumentar la ponderación de equilibrio) de las observaciones poco comunes (observaciones con puntuaciones de propensión bajas) y disminuir la influencia de las observaciones comunes, las distribuciones generales de las variables de confusión se mantienen en proporción en todos los valores de la variable de exposición.
Más información sobre las puntuaciones de propensión, la correlación de puntuaciones de propensión y la ponderación inversa de puntuaciones de propensión.
De forma predeterminada, la herramienta recorta (elimina del análisis) las observaciones que tienen el 1 % superior e inferior de los valores de exposición. Los valores extremos o atípicos de la variable de exposición pueden introducir sesgos en los análisis de inferencia causal. Al recortar estos valores extremos, puede reducir el impacto de las observaciones influyentes que pueden distorsionar la estimación del efecto causal. Puede cambiar la cantidad de recorte de la exposición utilizando los parámetros Cuantil de exposición inferior y Cuantil de exposición superior. También puede recortar las observaciones en función de sus puntuaciones de propensión utilizando los parámetros Cuantil inferior de puntuación de propensión y Cuantil superior de puntuación de propensión, pero de forma predeterminada no se realiza ningún recorte de puntuación de propensión. Cuando se utiliza la ponderación inversa de puntuación de propensión, con frecuencia es necesario recortar algunas de las puntuaciones de propensión más bajas porque las puntuaciones de propensión cercanas a cero pueden dar lugar a ponderaciones de equilibrio grandes e inestables.
Las entidades o tabla de salida contendrán campos de las puntuaciones de propensión, ponderaciones de equilibrio y un campo que indique si la característica se recortó (0 significa que la característica se recortó y 1 que la característica se incluyó en el análisis). También se incluyen copias de las variables de exposición, resultado y de confusión.
Lograr el equilibrio entre las variables de confusión y la variable de exposición es clave para deducir la relación causal entre las variables de exposición y de resultado. Para determinar si las ponderaciones de equilibrio equilibran eficazmente las variables de confusión, la herramienta calcula correlaciones ponderadas entre cada variable de confusión y la variable de exposición (ponderadas por las ponderaciones de equilibrio). A continuación, se agregan las correlaciones ponderadas y se comparan con un valor umbral. Si la correlación agregada es inferior al umbral, se determinará que las variables de confusión están equilibradas. Puede especificar el tipo de agregación (media, mediana o correlación absoluta máxima) mediante el parámetro Tipo de equilibrio y proporcionar el valor de umbral en el parámetro Umbral de equilibrio. De forma predeterminada, la herramienta utilizará la correlación media absoluta y un valor umbral de 0,1. El uso de 0,1 como umbral es una convención común, pero el valor del umbral debe adaptarse para alinearse con la experiencia en el campo, los objetivos de la investigación y las características intrínsecas de la población estudiada. Un valor de umbral más bajo indica una menor tolerancia al sesgo en la estimación del efecto causal; sin embargo, es más difícil lograr el equilibrio con umbrales más bajos.
Si las ponderaciones de equilibrio no equilibran suficientemente las variables de confusión, la herramienta devuelve un error y no genera ninguna ERF; sin embargo, se muestran varios mensajes con información sobre la eficacia con la que se equilibraron las variables de confusión. Se recomienda que primero intente resolver el error mediante la selección de variables de confusión y diferentes opciones para los parámetros Método de cálculo de la puntuación de propensión y Método de equilibrio. Si el error sigue sin resolverse, se puede utilizar una opción diferente para el parámetro Tipo de balance o aumentar el valor del parámetro Umbral de balance para producir una ERF, pero esto puede introducir sesgos en la estimación del efecto causal.
Más información sobre cómo obtener variables de confusión en equilibrio
Las variables de confusión deben contener una variedad de valores en todo el rango de la variable de exposición. Para las variables de confusión categóricas, debe existir un amplio rango de valores de exposición dentro de cada nivel de la categoría, y no puede haber más de 60 categorías en cada variable de categorías. Para la correlación de la puntuación de propensión, si no hay suficiente variación de la variable de exposición en todos los valores de cada variable de confusión, será difícil lograr el equilibrio.
El parámetro Valores de resultado objetivo para calcular nuevas exposiciones puede utilizarse para explorar escenarios hipotéticos (a veces denominados escenarios contrafactuales) para cada observación. Utilizando un ERF local para cada observación, la herramienta calcula el nivel de exposición necesario para que cada observación alcance el resultado deseado. Por ejemplo, cada condado puede estimar el nivel de contaminación que sería necesario para producir una tasa de hospitalización por asma inferior a un objetivo determinado. Si se proporcionan valores de resultado objetivo, las entidades o la tabla de salida contendrán dos campos adicionales para cada resultado objetivo: uno para el nuevo valor de exposición y otro para la diferencia entre el valor de exposición nuevo y el actual. Si hay varios valores de exposición que producirían el resultado objetivo, la herramienta utilizará el que más se aproxime al valor de exposición actual de la observación. Del mismo modo, también puede proporcionar valores de exposición objetivo en el parámetro Valores de exposición objetivo para calcular nuevos resultados para investigar cómo podría cambiar localmente la variable de resultado para varias exposiciones objetivo.
Si se crea una tabla de ERF de salida, cualquier valor de resultado objetivo o de exposición objetivo se incorporará al final de la tabla. Si hay varias soluciones para un resultado objetivo, se incluyen todas las soluciones en la tabla.
Si se marca el parámetro Habilitar ventanas emergentes de funciones de exposición-respuesta, se crean funciones locales de exposición-respuesta para cada observación. Las ERF locales se muestran como gráficos en las ventanas emergentes de las características o la tabla de salida. La creación de ERF locales requiere el supuesto adicional de un efecto de tratamiento fijo que se incumple con frecuencia para variables como la raza, los ingresos y el sexo.
Más información sobre la estimación y los supuestos de ERF de región
Precaución:
Si hay muchas observaciones, la creación de ventanas emergentes puede requerir mucha memoria y un cómputo considerable. Se recomienda ejecutar la herramienta sin habilitar las ventanas emergentes en las fases exploratorias del modelado y solo crearlas cuando se hayan determinado todos los demás parámetros de la herramienta.
Es un error frecuente considerar que el efecto causal puede estimarse únicamente incluyendo las variables de confusión como variables explicativas en un modelo de predicción, por ejemplo, las herramientas Regresión lineal generalizada o Clasificación y regresión basadas en bosques y aumentadas. Sin embargo, solo es cierto cuando todas las variables explicativas son independientes de la variable de exposición y se incluyen en el modelo todas las variables relevantes. Dado que la mayoría de los datasets tienen variables relacionadas entre sí, el efecto causal no puede estimarse directamente.
La metodología general de la herramienta se basa en las siguientes referencias:
- Khoshnevis, Naeem, Xiao Wu y Danielle Braun. 2023. "CausalGPS: Matching on Generalized Propensity Scores with Continuous Exposures." R package version 0.4.0. https://CRAN.R-project.org/package=CausalGPS.
- Wu, Xiao, Fabrizia Mealli, Marianthi-Anna Kioumourtzoglou, Francesca Dominici y Danielle Braun. 2022. "Matching on Generalized Propensity Scores with Continuous Exposures." Journal of the American Statistical Association. https://doi.org/10.1080/01621459.2022.2144737.

Parámetros

Etiqueta	Explicación	Tipo de datos
Entidades o tabla de entrada	Entidades de entrada o tabla que contienen los campos de las variables de exposición, resultado y confusión.	Feature Layer; Table View
Campo de resultado	El campo numérico de la variable de resultado. Es la variable que responde a los cambios de la variable de exposición. La variable de resultado debe ser continua o binaria (no de categorías).	Field
Campo de exposición	Campo numérico de la variable de exposición (a veces denominada variable de tratamiento). Esta es la variable que provoca cambios en la variable de resultado. La variable de exposición debe ser continua (no binaria ni de categorías).	Field
Variables de confusión	Los campos de las variables de confusión. Son las variables que están relacionadas tanto con las variables de exposición como con las de resultado, y deben estar equilibradas para estimar el efecto causal entre las variables de exposición y las de resultado. Las variables de confusión pueden ser continuas, de categorías o binarias. Los campos de texto deben ser de categorías, los de números enteros pueden ser de categorías o continuos y los demás campos numéricos deben ser continuos. Para que la función exposición-respuesta no esté sesgada, todas las variables que estén relacionadas con las variables de exposición y de resultado deben incluirse como variables de confusión.	Value Table
Entidades o tabla de salida	Las entidades de salida o tabla que contienen las puntuaciones de propensión, las ponderaciones de equilibrio y un campo que indica si las entidades se han recortado (excluida del análisis). También se incluyen las variables de exposición, resultado y confusión.	Feature Class; Table
Método de cálculo de la puntuación de propensión (Opcional)	Especifica el método que se utilizará para calcular las puntuaciones de propensión de cada observación. La puntuación de propensión de una observación es la probabilidad (o probabilidad) de recibir el valor de exposición observado, dados los valores de las variables de confusión. Las puntuaciones de propensión grandes significan que la exposición es común para los individuos con las variables de confusión asociadas, y las puntuaciones de propensión bajas significan que el valor de exposición es poco común para los individuos que presentan las variables de confusión. Por ejemplo, si un individuo padece hipertensión arterial (exposición), pero no tiene factores de riesgo de hipertensión arterial (factores de confusión), tal individuo tendría una puntuación de propensión baja porque no es común tener hipertensión arterial sin ningún factor de riesgo. Por el contrario, la hipertensión arterial de un individuo que presenta muchos factores de riesgo tendría una puntuación de propensión mayor porque es más común. Las puntuaciones de propensión se estiman mediante un modelo estadístico que predice la variable de exposición utilizando las variables de confusión como variables explicativas. Puede utilizar un modelo de regresión OLS o un modelo de aprendizaje automático que utilice árboles de regresión con incremento de gradiente. Se recomienda utilizar primero la regresión y solo el incremento de gradiente si la regresión no consigue equilibrar las variables de confusión. Regresión—La regresión OLS se utiliza para estimar las puntuaciones de propensión. Esta es la opción predeterminada. Incremento de gradiente—Se utilizarán árboles de regresión con incremento de gradiente para estimar las puntuaciones de propensión.	String
Método de equilibrio (Opcional)	Especifica el método que se utilizará para equilibrar las variables de confusión. Cada método estima un conjunto de ponderaciones de equilibrio que elimina la correlación entre las variables de confusión y la variable de exposición. Se recomienda utilizar primero la correlación y solo utilizar la ponderación inversa de puntuación de propensión si la correlación no consigue equilibrar las variables de confusión. La ponderación de puntuación de propensión inversa se calculará más rápido que la correlación de puntuación de propensión, por lo que también se recomienda cuando el tiempo de cálculo de la correlación no sea factible para los datos. Correlación de puntuación de propensión—Se utilizará la correlación de puntuación de propensión para equilibrar las variables de confusión. Esta es la opción predeterminada. Ponderación inversa de la puntuación de propensión—Se utilizará una ponderación de puntuación de propensión inversa para equilibrar las variables de confusión.	String
Habilitar ventanas emergentes con una función de exposición-respuesta (Opcional)	Especifica si se crean para cada observación gráficos emergentes que muestren la ERF local de la observación. Activado: se crean gráficos emergentes de ERF locales en las entidades o la tabla de salida. Desactivado: no se crean gráficos emergentes de ERF locales para las entidades o la tabla de salida. Esta es la opción predeterminada.	Boolean
Tabla de salida de la función exposición-respuesta (Opcional)	Una tabla que contiene valores de la función exposición-respuesta. La tabla contiene 200 valores de exposición espaciados uniformemente entre la exposición mínima y la máxima (tras el recorte) junto con la respuesta estimada a partir de la función exposición-respuesta. El campo de respuesta representa el valor medio de la variable de resultado si todos los miembros de la población recibieron el valor de exposición asociado. Si se crean intervalos de confianza bootstrapped, se crearán campos adicionales que contendrán los límites superior e inferior del intervalo de confianza para el valor de exposición, así como la desviación estándar y el número de muestras utilizadas para construir el intervalo de confianza. Si se proporciona algún resultado objetivo o valores de exposición, se incorporarán al final de la tabla.	Table
Valores objetivo de resultado para calcular las nuevas exposiciones (Opcional)	Una lista de valores objetivo de los resultados a partir de la cual se calcularán los cambios necesarios en la exposición para alcanzar los resultados de cada observación. Por ejemplo, si la variable de exposición es un índice de calidad del aire y la variable de resultado es la tasa anual de hospitalización por asma de los condados, puede determinar cuánto debe disminuir el índice de calidad del aire para lograr tasas de hospitalización por asma inferiores a 0,01, 0,005 y 0,001. Para cada valor de resultado objetivo proporcionado, se crean dos nuevos campos en la salida. El primer campo contiene el valor de exposición que daría lugar al resultado objetivo y el segundo campo contiene el cambio necesario en la variable de exposición para producir el resultado objetivo (los valores positivos indican que la exposición debe aumentar y los negativos que debe disminuir). En algunos casos, no habrá solución para algunas observaciones, por lo que solo deberá proporcionar resultados objetivo que sean factibles cambiando la variable de exposición. Por ejemplo, no existe ningún nivel de PM2,5 que pueda dar lugar a una tasa de hospitalización por asma igual a cero, por lo que utilizar un resultado objetivo igual a cero no dará lugar a ninguna solución. Si hay varios valores de exposición que darían lugar al resultado objetivo, se utiliza el que requiera el menor cambio en la exposición. Si se crea una tabla de función exposición-respuesta de salida, esta contendrá cualquier valor de resultado objetivo y los valores de exposición asociados incorporados al final de la tabla. Si hay varias soluciones, se incorporarán varios registros a la tabla con valores de resultado repetidos. Si se crean gráficos emergentes de ERF locales, los resultados objetivo y los valores de exposición asociados se mostrarán en los gráficos emergentes de cada observación.	Double
Valores objetivo de exposición para calcular nuevos resultados (Opcional)	Una lista de los valores de exposición objetivo que se utilizarán para calcular los nuevos resultados de cada observación. Para cada valor de exposición objetivo, la herramienta calcula el nuevo valor de resultado que recibiría la observación si su variable de exposición se cambiara por la exposición objetivo. Por ejemplo, si la variable de exposición es un índice de calidad del aire y la variable de resultado es la tasa anual de hospitalización por asma de los condados, puede estimar cómo cambiaría la tasa de hospitalización de cada observación para distintos niveles de calidad del aire. Para cada valor de exposición objetivo proporcionado, se crean dos nuevos campos en la salida. El primer campo contiene el valor estimado del resultado si la observación recibió la exposición objetivo, y el segundo campo contiene el cambio estimado en la variable de resultado (los valores positivos indican que la variable de resultado aumentará, y los valores negativos indican que la variable de resultado disminuirá). Las exposiciones objetivo deben estar dentro del rango de la variable de exposición tras el recorte. Si se crea una tabla de función exposición-respuesta de salida, esta contendrá cualquier valor de exposición objetivo y los valores de respuesta asociados incorporados al final de la tabla. Si se crean gráficos emergentes de ERF locales, los valores de exposición objetivo y los resultados asociados se muestran en las ventanas emergentes de cada entidad.	Double
Cuantil inferior de exposición (Opcional)	El cuantil inferior que se utilizará para recortar la variable de exposición. Cualquier observación con valores de exposición por debajo de este cuantil se excluirá del análisis antes de estimar las puntuaciones de propensión. El valor debe estar comprendido entre 0 y 1. El valor predeterminado es 0,01, lo que significa que se recortará el 1 % inferior de los valores de exposición. Se recomienda recortar algunos de los valores de exposición más bajos para mejorar la estimación de las puntuaciones de propensión.	Double
Cuantil superior de exposición (Opcional)	El cuantil superior que se utilizará para recortar la variable de exposición. Todas las observaciones con valores de exposición superiores a este cuantil se excluirán del análisis antes de estimar las puntuaciones de propensión. El valor debe estar comprendido entre 0 y 1. El valor predeterminado es 0,99, lo que significa que se recortará el 1 % superior de los valores de exposición. Se recomienda recortar algunos de los valores de exposición más altos para mejorar la estimación de las puntuaciones de propensión.	Double
Cuantil inferior de puntuación de propensión (Opcional)	El cuantil inferior que se utilizará para recortar las puntuaciones de propensión. Todas las observaciones que presentan puntuaciones de propensión por debajo de este cuantil se excluirán del análisis antes de realizar la correlación de la puntuación de propensión o la ponderación inversa de la puntuación de propensión. El valor debe estar comprendido entre 0 y 1. El valor predeterminado es 0, lo que significa que no se realiza ningún recorte. Con frecuencia, es necesario recortar la puntuación de propensión cuando se utiliza la ponderación inversa de la puntuación de propensión. Las puntuaciones de propensión cercanas a cero pueden producir ponderaciones de equilibrio grandes e inestables.	Double
Cuantil superior de puntuación de propensión (Opcional)	El cuantil superior que se utiliza para recortar las puntuaciones de propensión. Todas las observaciones que presentan puntuaciones de propensión por encima de este cuantil se excluirán del análisis antes de realizar la correlación de la puntuación de propensión o la ponderación inversa de la puntuación de propensión. El valor debe estar comprendido entre 0 y 1. El valor predeterminado es 1, lo que significa que no se realiza ningún recorte.	Double
Número de bins de exposición (Opcional)	El número de bins de exposición que se utilizan para la correlación de puntuación de propensión. En la correlación, la variable de exposición se divide en bins espaciados a intervalos regulares (intervalos iguales) y la correlación se realiza dentro de cada bin. Se requieren al menos dos bins de exposición y se recomienda incluir al menos cinco valores de exposición dentro de cada bin. Si no se proporciona ningún valor, este se estima mientras se ejecuta la herramienta y se muestra en los mensajes.	Long
Ponderación relativa de la propensión a la exposición (Opcional)	La ponderación relativa (a veces denominada como escala) de la puntuación de propensión respecto a la variable de exposición que se utiliza al realizar la correlación de la puntuación de propensión. Dentro de cada bin de exposición, las correlaciones se determinan utilizando las diferencias en las puntuaciones de propensión y en los valores de la variable de exposición. Este parámetro especifica cómo priorizar cada criterio. Por ejemplo, un valor igual a 0,5 significa que la puntuación de propensión y las variables de exposición tienen la misma ponderación a la hora de encontrar observaciones de correlación. Si no se proporciona ningún valor, este se estima mientras se ejecuta la herramienta y se muestra en los mensajes. El valor que proporcionará el mejor equilibrio es difícil de predecir, por lo que se recomienda dejar que la herramienta haga la estimación. Proporcionar un valor manual puede servir para reducir el tiempo de cálculo o para reproducir resultados anteriores. Si la función exposición-respuesta resultante muestra bandas verticales de observaciones con grandes pesos, el aumento de la ponderación relativa puede proporcionar una función exposición-respuesta más realista y precisa.	Double
Tipo de equilibrio (Opcional)	Especifica el método que se utilizará para determinar si las variables de confusión están equilibradas. Tras estimar las ponderaciones con la puntuación de propensión o la ponderación inversa de la puntuación de propensión, se calculan las correlaciones ponderadas para cada variable de confusión. Si la correlación absoluta media, mediana o máxima es inferior al umbral de equilibrio, las variables de confusión se consideran equilibradas, lo que significa que están suficientemente descorrelacionadas con la variable de exposición. Valor medio—Las variables de confusión se considerarán equilibradas si la correlación absoluta media es inferior al umbral de equilibrio. Esta es la opción predeterminada. Mediana—Las variables de confusión se considerarán equilibradas si la mediana de la correlación absoluta es inferior al umbral de equilibrio. Máximo—Las variables de confusión se considerarán equilibradas si el valor máximo de la correlación absoluta es inferior al umbral de equilibrio.	String
Umbral de equilibrio (Opcional)	El valor umbral que se comparará con las correlaciones ponderadas de las variables de confusión para determinar si están equilibradas. El valor debe estar comprendido entre 0 y 1. Un umbral de equilibrio mayor indica una mayor tolerancia al desequilibrio en las variables de confusión y al sesgo en la función exposición-respuesta. El valor predeterminado es 0,1.	Double
Método de estimación del ancho de banda (Opcional)	Especifica el método que se utilizará para estimar el ancho de banda de la función exposición-respuesta. Plug-in—Se utiliza un método plug-in para estimar el ancho de banda. Esta es la opción predeterminada. Validación cruzada—Se utiliza el ancho de banda que minimice el error cuadrático medio de validación cruzada. Manual—Se utiliza un ancho de banda personalizado.	String
Ancho de banda (Opcional)	El valor del ancho de banda de la función exposición-respuesta cuando se utiliza un ancho de banda manual.	Double
Creación de intervalos de confianza con bootstrap (Opcional)	Especifica si los intervalos de confianza del 95 por ciento para la función exposición-respuesta se crean utilizando bootstrapping M de N. Los intervalos de confianza aparecerán en la capa de gráficos de salida como líneas discontinuas por encima y por debajo de la función exposición-respuesta. Activado: se crean intervalos de confianza comprobados para la función exposición-respuesta. Desactivado: no se crean intervalos de confianza comprobados para la función exposición-respuesta. Esta es la opción predeterminada.	Boolean

arcpy.stats.CausalInferenceAnalysis(in_features, outcome_field, exposure_field, confounding_variables, out_features, {ps_method}, {balancing_method}, {enable_erf_popups}, {out_erf_table}, {target_outcomes}, {target_exposures}, {lower_exp_trim}, {upper_exp_trim}, {lower_ps_trim}, {upper_ps_trim}, {num_bins}, {scale}, {balance_type}, {balance_threshold}, {bw_method}, {bandwidth}, {create_bootstrap_ci})

Nombre	Explicación	Tipo de datos
in_features	Entidades de entrada o tabla que contienen los campos de las variables de exposición, resultado y confusión.	Feature Layer; Table View
outcome_field	El campo numérico de la variable de resultado. Es la variable que responde a los cambios de la variable de exposición. La variable de resultado debe ser continua o binaria (no de categorías).	Field
exposure_field	Campo numérico de la variable de exposición (a veces denominada variable de tratamiento). Esta es la variable que provoca cambios en la variable de resultado. La variable de exposición debe ser continua (no binaria ni de categorías).	Field
confounding_variables [[var1, cat1], [var2, cat2],...]	Los campos de las variables de confusión. Son las variables que están relacionadas tanto con las variables de exposición como con las de resultado, y deben estar equilibradas para estimar el efecto causal entre las variables de exposición y las de resultado. Las variables de confusión pueden ser continuas, de categorías o binarias. Los campos de texto deben ser de categorías, los de números enteros pueden ser de categorías o continuos y los demás campos numéricos deben ser continuos. Para que la función exposición-respuesta no esté sesgada, todas las variables que estén relacionadas con las variables de exposición y de resultado deben incluirse como variables de confusión.	Value Table
out_features	Las entidades de salida o tabla que contienen las puntuaciones de propensión, las ponderaciones de equilibrio y un campo que indica si las entidades se han recortado (excluida del análisis). También se incluyen las variables de exposición, resultado y confusión.	Feature Class; Table
ps_method (Opcional)	Especifica el método que se utilizará para calcular las puntuaciones de propensión de cada observación. La puntuación de propensión de una observación es la probabilidad (o probabilidad) de recibir el valor de exposición observado, dados los valores de las variables de confusión. Las puntuaciones de propensión grandes significan que la exposición es común para los individuos con las variables de confusión asociadas, y las puntuaciones de propensión bajas significan que el valor de exposición es poco común para los individuos que presentan las variables de confusión. Por ejemplo, si un individuo padece hipertensión arterial (exposición), pero no tiene factores de riesgo de hipertensión arterial (factores de confusión), tal individuo tendría una puntuación de propensión baja porque no es común tener hipertensión arterial sin ningún factor de riesgo. Por el contrario, la hipertensión arterial de un individuo que presenta muchos factores de riesgo tendría una puntuación de propensión mayor porque es más común. Las puntuaciones de propensión se estiman mediante un modelo estadístico que predice la variable de exposición utilizando las variables de confusión como variables explicativas. Puede utilizar un modelo de regresión OLS o un modelo de aprendizaje automático que utilice árboles de regresión con incremento de gradiente. Se recomienda utilizar primero la regresión y solo el incremento de gradiente si la regresión no consigue equilibrar las variables de confusión. REGRESSION—La regresión OLS se utiliza para estimar las puntuaciones de propensión. Esta es la opción predeterminada. GRADIENT_BOOSTING—Se utilizarán árboles de regresión con incremento de gradiente para estimar las puntuaciones de propensión.	String
balancing_method (Opcional)	Especifica el método que se utilizará para equilibrar las variables de confusión. Cada método estima un conjunto de ponderaciones de equilibrio que elimina la correlación entre las variables de confusión y la variable de exposición. Se recomienda utilizar primero la correlación y solo utilizar la ponderación inversa de puntuación de propensión si la correlación no consigue equilibrar las variables de confusión. La ponderación de puntuación de propensión inversa se calculará más rápido que la correlación de puntuación de propensión, por lo que también se recomienda cuando el tiempo de cálculo de la correlación no sea factible para los datos. MATCHING—Se utilizará la correlación de puntuación de propensión para equilibrar las variables de confusión. Esta es la opción predeterminada. WEIGHTING—Se utilizará una ponderación de puntuación de propensión inversa para equilibrar las variables de confusión.	String
enable_erf_popups (Opcional)	Especifica si se crean para cada observación gráficos emergentes que muestren la ERF local de la observación. CREATE_POPUP—Se crean gráficos emergentes de ERF locales en las entidades o la tabla de salida. NO_POPUP—No se crean gráficos emergentes de ERF locales en las entidades o la tabla de salida. Esta es la opción predeterminada.	Boolean
out_erf_table (Opcional)	Una tabla que contiene valores de la función exposición-respuesta. La tabla contiene 200 valores de exposición espaciados uniformemente entre la exposición mínima y la máxima (tras el recorte) junto con la respuesta estimada a partir de la función exposición-respuesta. El campo de respuesta representa el valor medio de la variable de resultado si todos los miembros de la población recibieron el valor de exposición asociado. Si se crean intervalos de confianza bootstrapped, se crearán campos adicionales que contendrán los límites superior e inferior del intervalo de confianza para el valor de exposición, así como la desviación estándar y el número de muestras utilizadas para construir el intervalo de confianza. Si se proporciona algún resultado objetivo o valores de exposición, se incorporarán al final de la tabla.	Table
target_outcomes [target_outcomes,...] (Opcional)	Una lista de valores objetivo de los resultados a partir de la cual se calcularán los cambios necesarios en la exposición para alcanzar los resultados de cada observación. Por ejemplo, si la variable de exposición es un índice de calidad del aire y la variable de resultado es la tasa anual de hospitalización por asma de los condados, puede determinar cuánto debe disminuir el índice de calidad del aire para lograr tasas de hospitalización por asma inferiores a 0,01, 0,005 y 0,001. Para cada valor de resultado objetivo proporcionado, se crean dos nuevos campos en la salida. El primer campo contiene el valor de exposición que daría lugar al resultado objetivo y el segundo campo contiene el cambio necesario en la variable de exposición para producir el resultado objetivo (los valores positivos indican que la exposición debe aumentar y los negativos que debe disminuir). En algunos casos, no habrá solución para algunas observaciones, por lo que solo deberá proporcionar resultados objetivo que sean factibles cambiando la variable de exposición. Por ejemplo, no existe ningún nivel de PM2,5 que pueda dar lugar a una tasa de hospitalización por asma igual a cero, por lo que utilizar un resultado objetivo igual a cero no dará lugar a ninguna solución. Si hay varios valores de exposición que darían lugar al resultado objetivo, se utiliza el que requiera el menor cambio en la exposición. Si se crea una tabla de función exposición-respuesta de salida, esta contendrá cualquier valor de resultado objetivo y los valores de exposición asociados incorporados al final de la tabla. Si hay varias soluciones, se incorporarán varios registros a la tabla con valores de resultado repetidos. Si se crean gráficos emergentes de ERF locales, los resultados objetivo y los valores de exposición asociados se mostrarán en los gráficos emergentes de cada observación.	Double
target_exposures [target_exposures,...] (Opcional)	Una lista de los valores de exposición objetivo que se utilizarán para calcular los nuevos resultados de cada observación. Para cada valor de exposición objetivo, la herramienta calcula el nuevo valor de resultado que recibiría la observación si su variable de exposición se cambiara por la exposición objetivo. Por ejemplo, si la variable de exposición es un índice de calidad del aire y la variable de resultado es la tasa anual de hospitalización por asma de los condados, puede estimar cómo cambiaría la tasa de hospitalización de cada observación para distintos niveles de calidad del aire. Para cada valor de exposición objetivo proporcionado, se crean dos nuevos campos en la salida. El primer campo contiene el valor estimado del resultado si la observación recibió la exposición objetivo, y el segundo campo contiene el cambio estimado en la variable de resultado (los valores positivos indican que la variable de resultado aumentará, y los valores negativos indican que la variable de resultado disminuirá). Las exposiciones objetivo deben estar dentro del rango de la variable de exposición tras el recorte. Si se crea una tabla de función exposición-respuesta de salida, esta contendrá cualquier valor de exposición objetivo y los valores de respuesta asociados incorporados al final de la tabla. Si se crean gráficos emergentes de ERF locales, los valores de exposición objetivo y los resultados asociados se muestran en las ventanas emergentes de cada entidad.	Double
lower_exp_trim (Opcional)	El cuantil inferior que se utilizará para recortar la variable de exposición. Cualquier observación con valores de exposición por debajo de este cuantil se excluirá del análisis antes de estimar las puntuaciones de propensión. El valor debe estar comprendido entre 0 y 1. El valor predeterminado es 0,01, lo que significa que se recortará el 1 % inferior de los valores de exposición. Se recomienda recortar algunos de los valores de exposición más bajos para mejorar la estimación de las puntuaciones de propensión.	Double
upper_exp_trim (Opcional)	El cuantil superior que se utilizará para recortar la variable de exposición. Todas las observaciones con valores de exposición superiores a este cuantil se excluirán del análisis antes de estimar las puntuaciones de propensión. El valor debe estar comprendido entre 0 y 1. El valor predeterminado es 0,99, lo que significa que se recortará el 1 % superior de los valores de exposición. Se recomienda recortar algunos de los valores de exposición más altos para mejorar la estimación de las puntuaciones de propensión.	Double
lower_ps_trim (Opcional)	El cuantil inferior que se utilizará para recortar las puntuaciones de propensión. Todas las observaciones que presentan puntuaciones de propensión por debajo de este cuantil se excluirán del análisis antes de realizar la correlación de la puntuación de propensión o la ponderación inversa de la puntuación de propensión. El valor debe estar comprendido entre 0 y 1. El valor predeterminado es 0, lo que significa que no se realiza ningún recorte. Con frecuencia, es necesario recortar la puntuación de propensión cuando se utiliza la ponderación inversa de la puntuación de propensión. Las puntuaciones de propensión cercanas a cero pueden producir ponderaciones de equilibrio grandes e inestables.	Double
upper_ps_trim (Opcional)	El cuantil superior que se utiliza para recortar las puntuaciones de propensión. Todas las observaciones que presentan puntuaciones de propensión por encima de este cuantil se excluirán del análisis antes de realizar la correlación de la puntuación de propensión o la ponderación inversa de la puntuación de propensión. El valor debe estar comprendido entre 0 y 1. El valor predeterminado es 1, lo que significa que no se realiza ningún recorte.	Double
num_bins (Opcional)	El número de bins de exposición que se utilizan para la correlación de puntuación de propensión. En la correlación, la variable de exposición se divide en bins espaciados a intervalos regulares (intervalos iguales) y la correlación se realiza dentro de cada bin. Se requieren al menos dos bins de exposición y se recomienda incluir al menos cinco valores de exposición dentro de cada bin. Si no se proporciona ningún valor, este se estima mientras se ejecuta la herramienta y se muestra en los mensajes.	Long
scale (Opcional)	La ponderación relativa (a veces denominada como escala) de la puntuación de propensión respecto a la variable de exposición que se utiliza al realizar la correlación de la puntuación de propensión. Dentro de cada bin de exposición, las correlaciones se determinan utilizando las diferencias en las puntuaciones de propensión y en los valores de la variable de exposición. Este parámetro especifica cómo priorizar cada criterio. Por ejemplo, un valor igual a 0,5 significa que la puntuación de propensión y las variables de exposición tienen la misma ponderación a la hora de encontrar observaciones de correlación. Si no se proporciona ningún valor, este se estima mientras se ejecuta la herramienta y se muestra en los mensajes. El valor que proporcionará el mejor equilibrio es difícil de predecir, por lo que se recomienda dejar que la herramienta haga la estimación. Proporcionar un valor manual puede servir para reducir el tiempo de cálculo o para reproducir resultados anteriores. Si la función exposición-respuesta resultante muestra bandas verticales de observaciones con grandes pesos, el aumento de la ponderación relativa puede proporcionar una función exposición-respuesta más realista y precisa.	Double
balance_type (Opcional)	Especifica el método que se utilizará para determinar si las variables de confusión están equilibradas. Tras estimar las ponderaciones con la puntuación de propensión o la ponderación inversa de la puntuación de propensión, se calculan las correlaciones ponderadas para cada variable de confusión. Si la correlación absoluta media, mediana o máxima es inferior al umbral de equilibrio, las variables de confusión se consideran equilibradas, lo que significa que están suficientemente descorrelacionadas con la variable de exposición. MEAN—Las variables de confusión se considerarán equilibradas si la correlación absoluta media es inferior al umbral de equilibrio. Esta es la opción predeterminada. MEDIAN—Las variables de confusión se considerarán equilibradas si la mediana de la correlación absoluta es inferior al umbral de equilibrio. MAXIMUM—Las variables de confusión se considerarán equilibradas si el valor máximo de la correlación absoluta es inferior al umbral de equilibrio.	String
balance_threshold (Opcional)	El valor umbral que se comparará con las correlaciones ponderadas de las variables de confusión para determinar si están equilibradas. El valor debe estar comprendido entre 0 y 1. Un umbral de equilibrio mayor indica una mayor tolerancia al desequilibrio en las variables de confusión y al sesgo en la función exposición-respuesta. El valor predeterminado es 0,1.	Double
bw_method (Opcional)	Especifica el método que se utilizará para estimar el ancho de banda de la función exposición-respuesta. PLUG_IN—Se utiliza un método plug-in para estimar el ancho de banda. Esta es la opción predeterminada. CV—Se utiliza el ancho de banda que minimice el error cuadrático medio de validación cruzada. MANUAL—Se utiliza un ancho de banda personalizado.	String
bandwidth (Opcional)	El valor del ancho de banda de la función exposición-respuesta cuando se utiliza un ancho de banda manual.	Double
create_bootstrap_ci (Opcional)	Especifica si los intervalos de confianza del 95 por ciento para la función exposición-respuesta se crean utilizando bootstrapping M de N. CREATE_CI—Se crean intervalos de confianza comprobados para la función exposición-respuesta. NO_CI—No se crean intervalos de confianza comprobados para la función exposición-respuesta. Esta es la opción predeterminada.	Boolean

Muestra de código

Ejemplo 1 de CausalInferenceAnalysis (ventana de Python)

En el siguiente script de Python se muestra cómo utilizar la función CausalInferenceAnalysis.

import arcpy
arcpy.stats.CausalInferenceAnalysis(
    in_features="crop_locations",
    outcome_field="corn_yield",
    exposure_field="fertilizer",
    confounding_variables="soil_type true;temperature false",
    out_features=r"CausalInference_corn_yield",
    ps_method="REGRESSION",
    balancing_method="MATCHING",
    enable_erf_popups="CREATE_POPUP",
    out_erf_table=r"erftable",
    target_outcomes=[],
    target_exposures=[],
    lower_exp_trim=0.01,
    upper_exp_trim=0.99,
    lower_ps_trim=0,
    upper_ps_trim=1,
    num_bins=None,
    scale=None,
    balance_type="MEAN",
    balance_threshold=0.1,
    bw_method="PLUG_IN",
    create_bootstrap_ci="CREATE_CI"
)

Ejemplo 2 de CausalInferenceAnalysis (script independiente)

En el siguiente script de Python se muestra cómo utilizar la función CausalInferenceAnalysis.

# Estimate the causal effect between fertilizer amount 
# and corn yield using soil type and temperature as
# confounding variables.

# Import required modules.
import arcpy

# Set the workspace.
arcpy.env.workspace = "c:/data/crops.gdb"

# Run Causal Inference Analysis tool with gradient boosting
# and inverse propensity score weighting.
try:
    arcpy.stats.CausalInferenceAnalysis(
        in_features="crop_locations",
        outcome_field="corn_yield",
        exposure_field="fertilizer",
        confounding_variables="soil_type true;temperature false",
        out_features=r"CausalInference_corn_yield",
        ps_method="GRADIENT_BOOSTING",
        balancing_method="WEIGHTING",
        enable_erf_popups="CREATE_POPUP",
        out_erf_table=r"erftable",
        target_outcomes=[],
        target_exposures=[],
        lower_exp_trim=0.01,
        upper_exp_trim=0.99,
        lower_ps_trim=0,
        upper_ps_trim=1,
        num_bins=None,
        scale=None,
        balance_type="MEAN",
        balance_threshold=0.1,
        bw_method="PLUG_IN",
        create_bootstrap_ci="CREATE_CI"
    )

except arcpy.ExecuteError:
    # If an error occurred when running the tool, print the error message.
    print(arcpy.GetMessages())

Entornos

Sistema de coordenadas de salida, Generador de números aleatorios

Información de licenciamiento

Basic: Sí
Standard: Sí
Advanced: Sí

Temas relacionados

¿Algún comentario sobre este tema?