Причинно-следственный анализ (Пространственная статистика)

Краткая информация

Оценивает причинно-следственное влияние переменной непрерывного воздействия на переменную непрерывного результата путем аппроксимации рандомизированного эксперимента и анализа искажающих переменных.

В статистических экспериментах причинно-следственная связь между переменной воздействия (например, доза лекарства) и переменной результата (например, состояние здоровья) определяется путем случайного присвоения каждому участнику определенного уровня воздействия, соответственно любые различия в результатах должны быть обусловлены только различиями в воздействии, а не в каких-либо других особенностях участников, в частности возраст, анамнез и доступ к медицинскому обслуживанию. Проводить эксперименты с корректной контрольной группой, как правило, невозможно или неэтично, поэтому анализ взаимосвязей осуществляется на основе серии наблюдений. Например, чтобы изучить влияние загрязнения воздуха на уровень депрессии, вы не можете намеренно подвергать людей воздействию сильного загрязнения, чтобы оценить влияние на уровень депрессии в популяции. Вы можете только оценивать и анализировать степень воздействия загрязнений и уровень депрессии у людей в вашей выборке. Но так как есть множество переменных (называемых искажающие переменные), которые влияют как на загрязнение, так и на депрессию, причинно-следственную связь невозможно выявить напрямую, без анализа этих переменных.

Для имитации процесса случайного рандомизированного исследования инструмент вычисляет оценку предрасположенности для каждого наблюдения. Эти оценки предрасположенности используются для присвоения весов наблюдениям, что поддерживает причинно-следственные отношения между переменной воздействия и переменной результата, таким образом убирается корреляция с искажающими переменными. Взвешенный набор данных часто называется псевдосовокупностью, и ему присущи все свойства контролируемого исследования, где каждому участнику воздействие присваивается случайным образом. Используя взвешенные наблюдения инструмент создает функцию воздействие-ответ (EFR), которая оценивает, каким был бы усредненный результат, если вся совокупность получила данное значение воздействия, не изменив искажающие переменные.

Более подробно о работе инструмента Причинно-следственный анализ

Иллюстрация

Иллюстрация инструмента Причинно-следственный анализ
Причинно-следственный эффект между воздействием и результатом, с учетом искажающих переменных.

Использование

  • Причинно-следственный анализ предполагает, что все значимые искажающие переменные присутствуют в модели. То есть, если какая-либо переменная влияет на переменные воздействия и результата, и она не включена в искажающие переменные, оценка причинно-следственного эффекта будет смещена. Инструмент не может определить, все ли значимые переменные включены, поэтому очень важно, чтобы вы решили, какие переменные могут быть связаны с вашими переменными воздействия и результата, и включили их в модель. Если существуют значимые искажающие переменные, которые недоступны для включения, вы должны интерпретировать результаты инструмента с особой осторожностью и скепсисом. Или не стоит использовать инструмент, пока вы не получите данные для всех искажающих переменных.

  • Искажающие переменные должны быть непрерывными (не могут быть бинарными или категорийными), но искажающие переменные могут быть непрерывными, бинарными или категорийными. Желательно, чтобы переменные результата были непрерывными, однако бинарные переменные результата также допустимы, и часто интерпретируются как вероятности или доли.

  • Инструмент может работать как с пространственными, так и с не пространственными входными наборами данных. Вы можете использовать таблицы, точки, полигоны или полилинии в качестве входных данных; тип выходных данных будет соответствовать типу входных данных.

  • Основной результат инструмента - функция ERF, которая возвращается в виде слоя графики в активной карте, и изображения в сообщении геообработки. Вы также можете создать таблицу различных значений воздействия-ответа с использованием параметра Выходная таблица функции воздействие-ответ.

    Более подробно о ERF

  • Параметр Метод вычисления оценки предрасположенности дает определяет, как будут вычисляться оценки предрасположенности. Оценки предрасположенности схожи с правдоподобиями (вероятностями) получения определенного значения ответа при заданном наборе искажающих переменных. Оценки предрасположенности вычисляются путем создания модели, которая прогнозирует значения переменной воздействия на основе значений искажающих переменных. Доступны следующие методы вычисления оценки предрасположенности:

  • Параметр Метод балансировки дает возможность определить, как оценки предрасположенности будут использованы для балансировки искажающих переменных. Доступны два метода балансировки:

    • Сопоставление оценок предрасположенности — каждое наблюдение сопоставляется с различными другими наблюдениями со схожими оценками предрасположенности, но различными значениями воздействия. Сравнивая результирующие значения наблюдений с результирующими значениями сопоставленных наблюдений, вы можете увидеть, какое значение результата наблюдения будет при различном воздействии. После сопоставления всех наблюдений со всеми другими наблюдениями, каждому наблюдению назначается вес балансировки, равный числу раз, когда наблюдение совпадало с каким-либо другим наблюдением. Эта схема взвешивания основывается на допущении, что наблюдения с большим количеством совпадений содержат искажающие переменные, общие для многих значений переменной воздействия, соответственно они наиболее репрезентативны для причинно-следственной связи.
    • Обратное взвешивание оценок предрасположенности — веса балансировки присваиваются каждому наблюдению путем инвертирования оценки предрасположенности и умножения этого значения на общую вероятность наличия данного воздействия. При этом наблюдения с низкой оценкой предрасположенности получают высокие значения весов балансировки, а наблюдения с высокой оценкой предрасположенности - соответственно низкие веса балансировки. Эта схема весов основывается на постулате, что оценки предрасположенности измеряют, насколько распространено или не распространено значение воздействия для конкретного набора искажающих переменных. При повышении влияния (увеличении веса балансировки) нераспространенных наблюдений (наблюдений с низкими оценками предрасположенности) и снижении влияния распространенных наблюдений, пропорция общего распределения искажающих переменных сохраняется для всех значений переменной воздействия.

    Более подробно об оценках предрасположенности, сопоставлении оценок предрасположенности и обратном взвешивании оценок предрасположенности

  • По умолчанию инструмент сокращает (удаляет из анализа) наблюдения с 1 процентом максимальных и минимальных значений переменной воздействия. Экстремумы или выбросы в переменной воздействия могут вызывать смещение в причинно-следственном анализе. Сокращая эти экстремальные значения, вы снижаете воздействие влияющих наблюдений, которые могут исказить результат причинно-следственной связи. Вы можете менять объем сокращения, используя параметры Верхний квантиль воздействия и Нижний квантиль воздействия. Также можно сокращать наблюдения на основании оценки предрасположенности с использованием параметров Нижний квантиль оценки предрасположенности и Верхний квантиль оценки предрасположенности, но по умолчанию значений оценок предрасположенности не сокращаются. При использовании обратного взвешивания оценок предрасположенности, часто необходимо сократить самые низкие оценки, так как оценки предрасположенности со значениями, близкими к нулю, могут приводить к появлению больших и нестабильных весов балансировки.

  • Выходной класс объектов или таблица будет содержать поля с оценками предрасположенности, весами балансировки и поле, указывающее, был ли объект сокращен (0 означает, что объект был сокращен, а 1 - объект включен в анализ). Копии переменных воздействия, результата и искажающих также включаются.

  • Достижение баланса между искажающими переменными и переменной воздействия - ключ к получению причинно-следственных отношений между переменными воздействия и результата. Чтобы выявить, насколько веса балансировки хорошо уравновешивают искажающие переменные, инструмент вычисляет взвешенные корреляции между искажающей переменной и переменной воздействия (с присвоенными весами балансировки). Взвешенные корреляции затем агрегируются и сравниваются с пороговым значением. Если значение агрегированной корреляции меньше порогового, искажающие переменные будут считаться сбалансированными. Вы можете выбрать тип агрегации (среднее, медиана или максимум абсолютной корреляции), используя параметр Тип баланса и указав пороговое значение в параметре Порог баланса. По умолчанию инструмент использует среднюю абсолютную корреляцию и пороговое значение в 0.1. Использование 0.1 в качестве порогового значения является общепринятым, но это значение необходимо адаптировать в соответствии со знаниями в предметной области, целями исследования и внутренними характеристиками изучаемой совокупности. Более низкое пороговое значение указывает на меньшую допустимость смещения при оценке причинно-следственной связи; но при более низких пороговых значениях достичь баланса сложнее.

  • Если веса балансировки недостаточно уравновешивают баланс в искажающих переменных, инструмент вернет ошибку и не создаст ERF, но вы увидите ряд сообщений с информацией о том, насколько эффективно сбалансированы искажающие переменные. Рекомендуется сначала попробовать исправить ошибку, изменив выбор искажающих переменных и применив другие опции для параметров Метод вычисления оценки предрасположенности и Метод балансировки. Если, тем не менее, ошибка остается, использование другой опции для параметра Тип баланса, или увеличение значения параметра Порог баланса способствует созданию ERF, но может вызвать смещение в оценке причинно-следственной связи.

    Более подробно о достижении сбалансированных искажающих переменных

  • Искажающие переменные должны содержать разнообразные значения в пределах полного диапазона переменной воздействия. В категорийных искажающих переменных должен присутствовать широкий диапазон значений воздействия для каждого уровня категорий, и в каждой категорийной переменной может быть до 60 категорий. Для сопоставления оценок предрасположенности, если вариабельность переменной воздействия недостаточна среди всех значений каждой искажающей переменной, достижение баланса может быть затруднено.

  • Параметр Целевые результирующие значения для вычисления нового воздействия можно использовать при изучении сценария что-если (иногда их называют анализ гипотетического сценария) для каждого исключения. Используя локальные ERF для каждого наблюдения, инструмент вычисляет необходимый уровень воздействия для каждого наблюдения, чтобы получить желаемый результат. Например, каждый округ оценивает уровень загрязнения, который потребовался бы, чтобы достичь показателя госпитализации по поводу астмы, соответствующего заданному целевому показателю. Если указаны целевые результирующие значения, выходной класс объектов или таблица будет включать два дополнительных поля для каждого целевого результата: одно для новых значений воздействия, и другое - для разницы между новым и текущим значением воздействия. Если есть несколько значений воздействия, которые могли бы вызывать целевой результат, инструмент использует одно из ближайших к текущему значению воздействия для наблюдения. Также вы можете указать целевые значения воздействия в параметре Целевые значения воздействия для вычисления нового результата, чтобы оценить, как переменная результата может меняться локально при различных целевых воздействиях.

    Если создана выходная таблица ERF, любые значения целевого воздействия или целевого результата будут добавлены в конце этой таблицы. Если есть несколько решений для целевого результата, все решения будут включены в таблицу.

  • Если отмечен параметр Включить всплывающие окна для функции воздействие -ответ, локальные функции воздействия-ответа создаются для каждого наблюдения. Локальные ERF отображаются как диаграммы во всплывающих окнах of выходных объектов или строк выходной таблицы. Для создания локальных ERF необходимо допустить эффект фиксированного экспериментального воздействия, которое часто нарушается для таких переменных, как раса, доход и пол.

    Более подробно о локальных оценках ERF и допущениях

    Внимание:

    Если наблюдений много, создание всплывающих окон требует значительного количества памяти и ресурсов. Рекомендуется запустить инструмент без активации всплывающих окон на стадии отработки модели, и создавать их только после того, как все остальные параметры инсрумента подобраны.

  • Распространенным заблуждением является то, что причинно-следственная связь может быть оценена только путем включения искажающих переменных в качестве независимых переменных в модель прогнозирования, например в инструментах Обобщенная линейная регрессия или Классификация на основе леса и регрессия, регрессия с бустингом. Однако это верно только в том случае, когда все независимые переменные независимы от переменной воздействия и все соответствующие переменные включены в модель. Поскольку большинство наборов данных содержат переменные, которые все взаимосвязаны друг с другом, причинно-следственный эффект невозможно непосредственно оценить.

  • Основная методология инструмента разработана по следующим источникам:

    • Khoshnevis, Naeem, Xiao Wu, and Danielle Braun. 2023. "CausalGPS: Matching on Generalized Propensity Scores with Continuous Exposures." R package version 0.4.0. https://CRAN.R-project.org/package=CausalGPS.
    • Wu, Xiao, Fabrizia Mealli, Marianthi-Anna Kioumourtzoglou, Francesca Dominici, and Danielle Braun. 2022. "Matching on Generalized Propensity Scores with Continuous Exposures." Journal of the American Statistical Association. https://doi.org/10.1080/01621459.2022.2144737.

Параметры

ПодписьОписаниеТип данных
Входные объекты или таблица

Входные объекты или таблица, содержащие поля воздействия, результата и искажающих переменных.

Feature Layer; Table View
Поле результата

Числовое поле переменной результата. Это переменная, которая реагирует на изменения в переменной воздействия. Переменная результата должна быть непрерывной или бинарной (не категорийной).

Field
Поле воздействия

Числовое поле переменной воздействия (иногда называемой экспериментальной переменной). Эта переменная вызывает изменения в переменной результата. Переменная воздействия должна быть непрерывной (не бинарной или категорийной).

Field
Искажающие переменные

Поля искажающих переменных Эти переменные связаны как с переменной воздействия, так и с переменной результата, и они должны быть сбалансированы для оценки причинно-следственной связи между воздействием и результатом. Искажающие переменные могут быть непрерывными, бинарными или категорийными. Текстовые поля должны быть категорийными, целочисленные поля могут быть как категорийными, так и непрерывными, и остальные числовые поля должны быть непрерывными.

Для того чтобы в функции воздействие-ответ не было смещения, все переменные, которые связаны с переменными воздействия и результата, должны быть включены в качестве искажающих переменных.

Value Table
Выходные объекты или таблица

Выходные объекты или таблица, содержащая поля с оценками предрасположенности, весами балансировки и поле, указывающее, был ли объект сокращен исключен из анализа). Переменные воздействия, результата и искажающие также включены.

Feature Class; Table
Метод вычисления оценки предрасположенности
(Дополнительный)

Определяет метод, который будет использован для вычисления ошибок предрасположенности

Оценка предрасположенности наблюдения - это правдоподобие (или вероятность) получения наблюдаемого значения результата при заданных значениях искажающих переменных. Высокие оценки предрасположенности означают, что воздействие является типичным для индивидуумов с ассоциированными искажающими переменными, а низкие оценки предрасположенности означают, что значение воздействия не типично для индивидуумов с этими значениями искажающих переменных. Например, если у человека высокое артериальное давление (воздействие), но у него нет факторов риска гипертензии (искажающие факторы), у него будет низкая оценка предрасположенности, так как высокое артериальное давление без каких-либо факторов риска встречается редко. Соответственно высокое давление для человека в зоне риска приведет к высоким значениям оценки предрасположенными, так как это ожидаемо.

Оценки предрасположенности вычисляются по статистической модели, которая прогнозирует значения переменной воздействия на основе значений искажающих переменных как независимых переменных. Вы можете использовать модель регрессии по методу наименьших квадратов (МНК) или модель машинного обучения, использующую дерево регрессии градиентного бустинга. Рекомендуется сначала использовать регрессию, и только в случае сбоя балансировки искажающих переменных применить градиентный бустинг.

  • РегрессияДля вычисления оценок предрасположенности будет использована регрессия МНК. Это значение по умолчанию
  • Градиентный бустингдля вычисления оценок предрасположенности будет использовано дерево регрессии с градиентным бустингом.
String
Метод балансировки
(Дополнительный)

Определяет метод, который будет использован для балансировки искажающих переменных.

Каждый метод оценивает набор весов балансировки, который удаляет корреляции между искажающими переменными и переменной воздействия. Рекомендуется сначала использовать сопоставление, и только в случае невозможности применить сопоставление для балансировки искажающих переменных использовать обратное взвешивание. Вычисление обратного взвешивания происходит быстрее, чем сопоставление оценок предрасположенности, поэтому также, рекомендуется использовать этот метод, если время вычисления для сопоставления слишком велико.

  • Сопоставление оценок предрасположенностиСопоставление оценок предрасположенности будет использовано для балансировки искажающих переменных. Это значение по умолчанию
  • Обратное взвешивание оценок предрасположенностиОбратное взвешивание оценок предрасположенности будет использовано для балансировки искажающих переменных.
String
Всплывающие окна функции воздействие-ответ.
(Дополнительный)

Указывает, будут ли созданы всплывающие окна для каждого наблюдения, отображающие диаграммы локальных ERF наблюдений.

  • Отмечено — диаграммы локальных ERF во всплывающих окнах будут созданы для каждого входного объекта или для таблицы.
  • Не отмечено — диаграммы локальных ERF во всплывающих окнах не будут созданы для каждого входного объекта или для таблицы. Это значение по умолчанию
Boolean
Выходная таблица функции воздействие-ответ
(Дополнительный)

Таблица, содержащая значения функции воздействие-ответ. Таблица будет содержать 200 равномерно распределенных значений воздействия между минимальным и максимальным воздействием (после сокращения) вместе с оценкой результата по функции воздействие-ответ. Поле ответа представляет среднее значение переменной результата, если все участники в совокупности получили связанное значение воздействия. Если сформированы начальные доверительные интервалы, будут созданы дополнительные поля, содержащие верхнюю и нижнюю границы доверительного интервала для значения воздействия, а также для значений среднеквадратического отклонения и числа выборок, использованных для построения доверительного интервала. Если указаны какие-либо значения целевого воздействия или целевого результата, они будут добавлены в конце этой таблицы.

Table
Целевые значения результата для вычисления новых значений воздействия
(Дополнительный)

Для каждого наблюдения будет рассчитан список целевых значений результата, исходя из которых будут рассчитаны необходимые для достижения результатов изменения в воздействии. Например, если переменная воздействия - это индекс качества воздуха, а переменная результата - ежегодный показатель госпитализации с астмой по округам, можно определить, насколько должен быть изменен индекс качества воздуха, чтобы показатели госпитализации при астме были ниже 0.01, 0.005 и 0.001. Для каждого указанного целевого значения результата будут созданы два новых поля. Первое поле содержит значение воздействия, которое должно привести к целевому результату, а второе поле содержит требуемое изменение в переменной воздействия, необходимое для получения целевого результата (положительное значение указывает, что воздействие необходимо увеличить, а отрицательное значение указывает на необходимость уменьшения воздействия). В ряде случаев для некоторых наблюдений решение не будет найдено, поэтому необходимо указывать только те целевые результаты, которые можно достичь меняя переменную воздействия. Например, нет такого уровня PM2.5, который мог бы привести к нулевому показателю госпитализации с астмой, поэтому использование целевого результата, равного нулю, не приведет ни к каким решениям. Если есть несколько значений воздействия, которые могли бы привезти к целевому результату, будет использовано то, для которого потребуются минимальные изменения.

Если создана выходная таблица воздействие-ответ, она будет включать любые значения целевого результата и связанные с ними значения воздействия, добавленные в конце этой таблицы. Если есть несколько решений, несколько записей будут добавлены к таблице, с повтором значений результата.

Если созданы локальные диаграммы ERF во всплывающих окнах, целевые значения результата и связанные с ними значения воздействия отображаются во всплывающих окнах для каждого наблюдения.

Double
Целевые значения воздействия для вычисления новых значений результатов
(Дополнительный)

Для каждого наблюдения будет рассчитан список целевых значений воздействия, необходимых для достижения новых результатов. Для каждого целевого значения воздействия инструмент оценивает новое значение результата, которое получило бы наблюдение, если бы переменная воздействия была изменена на целевое значение. Например, если переменная воздействия - это индекс качества воздуха, а переменная результата - ежегодный показатель госпитализации с астмой по округам, можно оценить, какой уровень госритализации для каждого наблюдения был бы при изменении разных уровней качества воздуха. Для каждого указанного целевого значения воздействия в результатах будут созданы два новых поля. Первое поле содержит значение результата, определенное, исходя из того, что наблюдение получило целевое воздействие, а второе поле содержит прогнозируемое изменение в переменной результата (положительное значение указывает, что переменная результата увеличивается, а отрицательное значение указывает на уменьшение переменной результата). Целевые значения воздействия должны быть в пределах диапазона переменной воздйствия после сокращения.

Если создана выходная таблица воздействие-ответ, она будет включать любые значения целевого воздействия и связанные с ними значения результата, добавленные в конце этой таблицы.

Если созданы локальные диаграммы ERF во всплывающих окнах, целевые значения воздействия и связанные с ними значения результаты отображаются во вспывающих окнах для каждого объекта.

Double
Нижний квантиль воздействия
(Дополнительный)

Нижний квантиль, значение которого будет использования для сокращения переменной воздействия. Любые наблюдения с переменными воздействия ниже значения квантиля будут исключены из анализа перед расчетом оценок предрасположенности. Значение должно быть между 0 и 1. Значение по умолчанию равно 0.01, то есть все значения ниже 1 процента снизу будут сокращены. Рекомендуется удалить самые минимальные значения воздействия для более четкого вычисления оценки предрасположенности.

Double
Верхний квантиль воздействия
(Дополнительный)

Верхний квантиль, значение которого будет использования для сокращения переменной воздействия. Любые наблюдения с переменными воздействия выше значения квантиля будут исключены из анализа перед расчетом оценок предрасположенности. Значение должно быть между 0 и 1. Значение по умолчанию равно 0.00, то есть все значения выше 1 процента сверху будут сокращены. Рекомендуется удалить самые максимальные значения воздействия для более четкого вычисления оценки предрасположенности.

Double
Нижний квантиль оценок предрасположенности
(Дополнительный)

Нижний квантиль, значение которого будет использования для сокращения оценок предрасположенности. Любые наблюдения с оценками предрасположенности ниже значения квантиля будут исключены из анализа перед выполнением сопоставления оценок предрасположенности или обратного взвешивания оценок предрасположенности. Значение должно быть между 0 и 1. По умолчанию используется значение 0, то есть сокращение не выполняется.

Сокращение минмальных оценок предрасположенности часто используется при выполнении обратного взвешивания оценок предрасположенности. Оценки предрасположенности, страмящиеся к нулю могут приводить к появлению больших и нестабильных весов балансировки.

Double
Верхний квантиль оценок предрасположенности
(Дополнительный)

Верхний квантиль, значение которого будет использования для сокращения оценок предрасположенности. Любые наблюдения с оценками предрасположенности ниже значения квантиля будут исключены из анализа перед выполнением сопоставления оценок предрасположенности или обратного взвешивания оценок предрасположенности. Значение должно быть между 0 и 1. По умолчанию используется значение 1, то есть сокращение не выполняется.

Double
Количество бинов воздействия
(Дополнительный)

Число бинов воздействия, используемое при сопоставлении оценок предрасположенности. При сопоставлении переменная воздействия делится на равнмерно распределенные бины (равные интервалы), и сопоставление выполняется внутри каждого бина. Необходимо, как минимум два бина воздействия, но рекоменуется включать не менее пяти значений воздействия в каждый бин. Если значение не будет задано, оно будет определено в процессе выполнения инструмента и показано в сообщении.

Long
Относительный вес предрасположенности к воздействию
(Дополнительный)

Относительный вес (иногда называемый отношением) оценки предрасположенности к переменной воздействия, который будет использованием при сопоставлении оценок предрасположенности. В пределах каждого бина воздействия сопоставления выявляются на основании разности оценок предрасположенности и значений переменной воздействия. Этот параметр определяет приоритет каждого критерия. Например, значение равное 0.5 означает, что оценки предрасположенности и переменные воздедействия получают одинаковы вес при нахождении совподающих наблюдений.

Если значение не будет задано, оно будет определено в процессе выполнения инструмента и показано в сообщении. Значение, при котором будет оптимальный баланс, сложно прогнозировать, поэтому рекомендуется, чтобы инструмент вычислил это значение. Можно ввести значение вручную, чтобы уменьшить время вычисления или воспроизвести предыдущие результаты. Если результирующая функция воздействие-ответ показывает вертикальные полосы наблюдений с большими весами, увеличение относительного веса может обеспечить более реалистичную и точную функцию воздействие-ответ.

Double
Тип балансировки
(Дополнительный)

Определяет метод, который будет использован для балансировки искажающих переменных. После вычисления весов путем сопоставления оценок предрасположенности или обратного взвешивания оценоу предрасположености будут вычислены корреляции для каждой искажающей переменной. Если средняя, медианная или максимальная абсолютная корреляция меньше порога балансировки, искажающие переменные считаются сбалансированными, то есть они практически не коррелируют с переменной воздействия.

  • СреднееИскажающие переменные будут считаться сбалансированными, если средняя абсолютная корреляция меньше порога балансировки. Это значение по умолчанию
  • МедианаИскажающие переменные будут считаться сбалансированными, если медианная абсолютная корреляция меньше порога балансировки.
  • МаксимумИскажающие переменные будут считаться сбалансированными, если максимальная абсолютная корреляция меньше порога балансировки.
String
Пороговое значение баланса
(Дополнительный)

Пороковое значение будет сравниваться с взвешенными корредяциями искажающих переменных, чтобы определить, сбалансированны ли они. Значение должно быть между 0 и 1. Большое пороговое значение указывает на высокий допус для дисбаланса искажающих переменных и смещение функции воздействие-ответ. Значение по умолчанию равно 0.1.

Double
Метод оценки ширины полосы
(Дополнительный)

Определяет метод, который будет использован для оценки ширины полосы функции возействие-ответ.

  • НадстройкаЗаданный в надстройке метод будет использован для оценки ширины полосы. Это значение по умолчанию
  • Перекрестная проверкаИспользуется ширина полосы, при который минимизируется среднеквадратичная ошибка перекрестной проверки.
  • ВручнуюБудет использована пользовательская ширина полосы.
String
Ширина полосы
(Дополнительный)

Значение ширины полосы функции воздействие-ответ при использовании ручного ввода.

Double
Создание начальных доверительных интервалов
(Дополнительный)

Указывает, будут ли созданы 95-процентные доверительные интервалы для функции воздействие-ответ с использованием начальных значений M-out-of-N. Доверительные интервалы будут показаны в выходном слое графики как пунктирные линии выше и ниже функции воздействие-ответ.

  • Отмечено — будут созданы доверительные интервалы для функции воздействие-ответ.
  • Не отмечено — доверительные интервалы для функции воздействие-ответ не будут созданы. Это значение по умолчанию
Boolean

arcpy.stats.CausalInferenceAnalysis(in_features, outcome_field, exposure_field, confounding_variables, out_features, {ps_method}, {balancing_method}, {enable_erf_popups}, {out_erf_table}, {target_outcomes}, {target_exposures}, {lower_exp_trim}, {upper_exp_trim}, {lower_ps_trim}, {upper_ps_trim}, {num_bins}, {scale}, {balance_type}, {balance_threshold}, {bw_method}, {bandwidth}, {create_bootstrap_ci})
ИмяОписаниеТип данных
in_features

Входные объекты или таблица, содержащие поля воздействия, результата и искажающих переменных.

Feature Layer; Table View
outcome_field

Числовое поле переменной результата. Это переменная, которая реагирует на изменения в переменной воздействия. Переменная результата должна быть непрерывной или бинарной (не категорийной).

Field
exposure_field

Числовое поле переменной воздействия (иногда называемой экспериментальной переменной). Эта переменная вызывает изменения в переменной результата. Переменная воздействия должна быть непрерывной (не бинарной или категорийной).

Field
confounding_variables
[[var1, cat1], [var2, cat2],...]

Поля искажающих переменных Эти переменные связаны как с переменной воздействия, так и с переменной результата, и они должны быть сбалансированы для оценки причинно-следственной связи между воздействием и результатом. Искажающие переменные могут быть непрерывными, бинарными или категорийными. Текстовые поля должны быть категорийными, целочисленные поля могут быть как категорийными, так и непрерывными, и остальные числовые поля должны быть непрерывными.

Для того чтобы в функции воздействие-ответ не было смещения, все переменные, которые связаны с переменными воздействия и результата, должны быть включены в качестве искажающих переменных.

Value Table
out_features

Выходные объекты или таблица, содержащая поля с оценками предрасположенности, весами балансировки и поле, указывающее, был ли объект сокращен исключен из анализа). Переменные воздействия, результата и искажающие также включены.

Feature Class; Table
ps_method
(Дополнительный)

Определяет метод, который будет использован для вычисления ошибок предрасположенности

Оценка предрасположенности наблюдения - это правдоподобие (или вероятность) получения наблюдаемого значения результата при заданных значениях искажающих переменных. Высокие оценки предрасположенности означают, что воздействие является типичным для индивидуумов с ассоциированными искажающими переменными, а низкие оценки предрасположенности означают, что значение воздействия не типично для индивидуумов с этими значениями искажающих переменных. Например, если у человека высокое артериальное давление (воздействие), но у него нет факторов риска гипертензии (искажающие факторы), у него будет низкая оценка предрасположенности, так как высокое артериальное давление без каких-либо факторов риска встречается редко. Соответственно высокое давление для человека в зоне риска приведет к высоким значениям оценки предрасположенными, так как это ожидаемо.

Оценки предрасположенности вычисляются по статистической модели, которая прогнозирует значения переменной воздействия на основе значений искажающих переменных как независимых переменных. Вы можете использовать модель регрессии по методу наименьших квадратов (МНК) или модель машинного обучения, использующую дерево регрессии градиентного бустинга. Рекомендуется сначала использовать регрессию, и только в случае сбоя балансировки искажающих переменных применить градиентный бустинг.

  • REGRESSIONДля вычисления оценок предрасположенности будет использована регрессия МНК. Это значение по умолчанию
  • GRADIENT_BOOSTINGдля вычисления оценок предрасположенности будет использовано дерево регрессии с градиентным бустингом.
String
balancing_method
(Дополнительный)

Определяет метод, который будет использован для балансировки искажающих переменных.

Каждый метод оценивает набор весов балансировки, который удаляет корреляции между искажающими переменными и переменной воздействия. Рекомендуется сначала использовать сопоставление, и только в случае невозможности применить сопоставление для балансировки искажающих переменных использовать обратное взвешивание. Вычисление обратного взвешивания происходит быстрее, чем сопоставление оценок предрасположенности, поэтому также, рекомендуется использовать этот метод, если время вычисления для сопоставления слишком велико.

  • MATCHINGСопоставление оценок предрасположенности будет использовано для балансировки искажающих переменных. Это значение по умолчанию
  • WEIGHTINGОбратное взвешивание оценок предрасположенности будет использовано для балансировки искажающих переменных.
String
enable_erf_popups
(Дополнительный)

Указывает, будут ли созданы всплывающие окна для каждого наблюдения, отображающие диаграммы локальных ERF наблюдений.

  • CREATE_POPUPДиаграммы локальных ERF во всплывающих окнах будут созданы для каждого входного объекта или для таблицы.
  • NO_POPUPДиаграммы локальных ERF во всплывающих окнах не будут созданы для каждого входного объекта или для таблицы. Это значение по умолчанию
Boolean
out_erf_table
(Дополнительный)

Таблица, содержащая значения функции воздействие-ответ. Таблица будет содержать 200 равномерно распределенных значений воздействия между минимальным и максимальным воздействием (после сокращения) вместе с оценкой результата по функции воздействие-ответ. Поле ответа представляет среднее значение переменной результата, если все участники в совокупности получили связанное значение воздействия. Если сформированы начальные доверительные интервалы, будут созданы дополнительные поля, содержащие верхнюю и нижнюю границы доверительного интервала для значения воздействия, а также для значений среднеквадратического отклонения и числа выборок, использованных для построения доверительного интервала. Если указаны какие-либо значения целевого воздействия или целевого результата, они будут добавлены в конце этой таблицы.

Table
target_outcomes
[target_outcomes,...]
(Дополнительный)

Для каждого наблюдения будет рассчитан список целевых значений результата, исходя из которых будут рассчитаны необходимые для достижения результатов изменения в воздействии. Например, если переменная воздействия - это индекс качества воздуха, а переменная результата - ежегодный показатель госпитализации с астмой по округам, можно определить, насколько должен быть изменен индекс качества воздуха, чтобы показатели госпитализации при астме были ниже 0.01, 0.005 и 0.001. Для каждого указанного целевого значения результата будут созданы два новых поля. Первое поле содержит значение воздействия, которое должно привести к целевому результату, а второе поле содержит требуемое изменение в переменной воздействия, необходимое для получения целевого результата (положительное значение указывает, что воздействие необходимо увеличить, а отрицательное значение указывает на необходимость уменьшения воздействия). В ряде случаев для некоторых наблюдений решение не будет найдено, поэтому необходимо указывать только те целевые результаты, которые можно достичь меняя переменную воздействия. Например, нет такого уровня PM2.5, который мог бы привести к нулевому показателю госпитализации с астмой, поэтому использование целевого результата, равного нулю, не приведет ни к каким решениям. Если есть несколько значений воздействия, которые могли бы привезти к целевому результату, будет использовано то, для которого потребуются минимальные изменения.

Если создана выходная таблица воздействие-ответ, она будет включать любые значения целевого результата и связанные с ними значения воздействия, добавленные в конце этой таблицы. Если есть несколько решений, несколько записей будут добавлены к таблице, с повтором значений результата.

Если созданы локальные диаграммы ERF во всплывающих окнах, целевые значения результата и связанные с ними значения воздействия отображаются во всплывающих окнах для каждого наблюдения.

Double
target_exposures
[target_exposures,...]
(Дополнительный)

Для каждого наблюдения будет рассчитан список целевых значений воздействия, необходимых для достижения новых результатов. Для каждого целевого значения воздействия инструмент оценивает новое значение результата, которое получило бы наблюдение, если бы переменная воздействия была изменена на целевое значение. Например, если переменная воздействия - это индекс качества воздуха, а переменная результата - ежегодный показатель госпитализации с астмой по округам, можно оценить, какой уровень госритализации для каждого наблюдения был бы при изменении разных уровней качества воздуха. Для каждого указанного целевого значения воздействия в результатах будут созданы два новых поля. Первое поле содержит значение результата, определенное, исходя из того, что наблюдение получило целевое воздействие, а второе поле содержит прогнозируемое изменение в переменной результата (положительное значение указывает, что переменная результата увеличивается, а отрицательное значение указывает на уменьшение переменной результата). Целевые значения воздействия должны быть в пределах диапазона переменной воздйствия после сокращения.

Если создана выходная таблица воздействие-ответ, она будет включать любые значения целевого воздействия и связанные с ними значения результата, добавленные в конце этой таблицы.

Если созданы локальные диаграммы ERF во всплывающих окнах, целевые значения воздействия и связанные с ними значения результаты отображаются во вспывающих окнах для каждого объекта.

Double
lower_exp_trim
(Дополнительный)

Нижний квантиль, значение которого будет использования для сокращения переменной воздействия. Любые наблюдения с переменными воздействия ниже значения квантиля будут исключены из анализа перед расчетом оценок предрасположенности. Значение должно быть между 0 и 1. Значение по умолчанию равно 0.01, то есть все значения ниже 1 процента снизу будут сокращены. Рекомендуется удалить самые минимальные значения воздействия для более четкого вычисления оценки предрасположенности.

Double
upper_exp_trim
(Дополнительный)

Верхний квантиль, значение которого будет использования для сокращения переменной воздействия. Любые наблюдения с переменными воздействия выше значения квантиля будут исключены из анализа перед расчетом оценок предрасположенности. Значение должно быть между 0 и 1. Значение по умолчанию равно 0.00, то есть все значения выше 1 процента сверху будут сокращены. Рекомендуется удалить самые максимальные значения воздействия для более четкого вычисления оценки предрасположенности.

Double
lower_ps_trim
(Дополнительный)

Нижний квантиль, значение которого будет использования для сокращения оценок предрасположенности. Любые наблюдения с оценками предрасположенности ниже значения квантиля будут исключены из анализа перед выполнением сопоставления оценок предрасположенности или обратного взвешивания оценок предрасположенности. Значение должно быть между 0 и 1. По умолчанию используется значение 0, то есть сокращение не выполняется.

Сокращение минмальных оценок предрасположенности часто используется при выполнении обратного взвешивания оценок предрасположенности. Оценки предрасположенности, страмящиеся к нулю могут приводить к появлению больших и нестабильных весов балансировки.

Double
upper_ps_trim
(Дополнительный)

Верхний квантиль, значение которого будет использования для сокращения оценок предрасположенности. Любые наблюдения с оценками предрасположенности ниже значения квантиля будут исключены из анализа перед выполнением сопоставления оценок предрасположенности или обратного взвешивания оценок предрасположенности. Значение должно быть между 0 и 1. По умолчанию используется значение 1, то есть сокращение не выполняется.

Double
num_bins
(Дополнительный)

Число бинов воздействия, используемое при сопоставлении оценок предрасположенности. При сопоставлении переменная воздействия делится на равнмерно распределенные бины (равные интервалы), и сопоставление выполняется внутри каждого бина. Необходимо, как минимум два бина воздействия, но рекоменуется включать не менее пяти значений воздействия в каждый бин. Если значение не будет задано, оно будет определено в процессе выполнения инструмента и показано в сообщении.

Long
scale
(Дополнительный)

Относительный вес (иногда называемый отношением) оценки предрасположенности к переменной воздействия, который будет использованием при сопоставлении оценок предрасположенности. В пределах каждого бина воздействия сопоставления выявляются на основании разности оценок предрасположенности и значений переменной воздействия. Этот параметр определяет приоритет каждого критерия. Например, значение равное 0.5 означает, что оценки предрасположенности и переменные воздедействия получают одинаковы вес при нахождении совподающих наблюдений.

Если значение не будет задано, оно будет определено в процессе выполнения инструмента и показано в сообщении. Значение, при котором будет оптимальный баланс, сложно прогнозировать, поэтому рекомендуется, чтобы инструмент вычислил это значение. Можно ввести значение вручную, чтобы уменьшить время вычисления или воспроизвести предыдущие результаты. Если результирующая функция воздействие-ответ показывает вертикальные полосы наблюдений с большими весами, увеличение относительного веса может обеспечить более реалистичную и точную функцию воздействие-ответ.

Double
balance_type
(Дополнительный)

Определяет метод, который будет использован для балансировки искажающих переменных. После вычисления весов путем сопоставления оценок предрасположенности или обратного взвешивания оценоу предрасположености будут вычислены корреляции для каждой искажающей переменной. Если средняя, медианная или максимальная абсолютная корреляция меньше порога балансировки, искажающие переменные считаются сбалансированными, то есть они практически не коррелируют с переменной воздействия.

  • MEANИскажающие переменные будут считаться сбалансированными, если средняя абсолютная корреляция меньше порога балансировки. Это значение по умолчанию
  • MEDIANИскажающие переменные будут считаться сбалансированными, если медианная абсолютная корреляция меньше порога балансировки.
  • MAXIMUMИскажающие переменные будут считаться сбалансированными, если максимальная абсолютная корреляция меньше порога балансировки.
String
balance_threshold
(Дополнительный)

Пороковое значение будет сравниваться с взвешенными корредяциями искажающих переменных, чтобы определить, сбалансированны ли они. Значение должно быть между 0 и 1. Большое пороговое значение указывает на высокий допус для дисбаланса искажающих переменных и смещение функции воздействие-ответ. Значение по умолчанию равно 0.1.

Double
bw_method
(Дополнительный)

Определяет метод, который будет использован для оценки ширины полосы функции возействие-ответ.

  • PLUG_INЗаданный в надстройке метод будет использован для оценки ширины полосы. Это значение по умолчанию
  • CVИспользуется ширина полосы, при который минимизируется среднеквадратичная ошибка перекрестной проверки.
  • MANUALБудет использована пользовательская ширина полосы.
String
bandwidth
(Дополнительный)

Значение ширины полосы функции воздействие-ответ при использовании ручного ввода.

Double
create_bootstrap_ci
(Дополнительный)

Указывает, будут ли созданы 95-процентные доверительные интервалы для функции воздействие-ответ с использованием начальных значений M-out-of-N.

  • CREATE_CIБудут созданы доверительные интервалы для функции воздействие-ответ.
  • NO_CIДоверительные интервалы для функции воздействие-ответ не будут созданы. Это значение по умолчанию
Boolean

Пример кода

CausalInferenceAnalysis, пример 1 (окно Python)

Следующий скрипт Python демонстрирует, как использовать функцию CausalInferenceAnalysis.

import arcpy
arcpy.stats.CausalInferenceAnalysis(
    in_features="crop_locations",
    outcome_field="corn_yield",
    exposure_field="fertilizer",
    confounding_variables="soil_type true;temperature false",
    out_features=r"CausalInference_corn_yield",
    ps_method="REGRESSION",
    balancing_method="MATCHING",
    enable_erf_popups="CREATE_POPUP",
    out_erf_table=r"erftable",
    target_outcomes=[],
    target_exposures=[],
    lower_exp_trim=0.01,
    upper_exp_trim=0.99,
    lower_ps_trim=0,
    upper_ps_trim=1,
    num_bins=None,
    scale=None,
    balance_type="MEAN",
    balance_threshold=0.1,
    bw_method="PLUG_IN",
    create_bootstrap_ci="CREATE_CI"
)
CausalInferenceAnalysis, пример 2 (автономный скрипт)

Следующий скрипт Python демонстрирует, как использовать функцию CausalInferenceAnalysis.

# Estimate the causal effect between fertilizer amount 
# and corn yield using soil type and temperature as
# confounding variables.

# Import required modules.
import arcpy

# Set the workspace.
arcpy.env.workspace = "c:/data/crops.gdb"

# Run Causal Inference Analysis tool with gradient boosting
# and inverse propensity score weighting.
try:
    arcpy.stats.CausalInferenceAnalysis(
        in_features="crop_locations",
        outcome_field="corn_yield",
        exposure_field="fertilizer",
        confounding_variables="soil_type true;temperature false",
        out_features=r"CausalInference_corn_yield",
        ps_method="GRADIENT_BOOSTING",
        balancing_method="WEIGHTING",
        enable_erf_popups="CREATE_POPUP",
        out_erf_table=r"erftable",
        target_outcomes=[],
        target_exposures=[],
        lower_exp_trim=0.01,
        upper_exp_trim=0.99,
        lower_ps_trim=0,
        upper_ps_trim=1,
        num_bins=None,
        scale=None,
        balance_type="MEAN",
        balance_threshold=0.1,
        bw_method="PLUG_IN",
        create_bootstrap_ci="CREATE_CI"
    )

except arcpy.ExecuteError:
    # If an error occurred when running the tool, print the error message.
    print(arcpy.GetMessages())

Информация о лицензиях

  • Basic: Да
  • Standard: Да
  • Advanced: Да

Связанные разделы