Как работает инструмент Вычислить доли

Инструмент Вычислить доли вычисляет различные доли. Можно использовать этот инструмент для расчета процентов, пропорций, долей инцидентов и сглаженных долей. Сглаженные доли могут быть рассчитаны с использованием методов глобального эмпирического байеса, локального эмпирического байеса, локально взвешенного среднего или локально взвешенной медианы.

Метод общей доли может быть использован для расчета процентов, пропорций, коэффициентов и количества инцидентов. Однако, если количество объектов невелико, более подходящим является метод сглаживания. Методы сглаживания используют информацию из пространственных соседей объекта или из базовой доли для корректировки общей доли каждого объекта. Инструмент включает в себя следующие методы сглаживания:

  • Глобальный эмпирический байес — Корректирует оценку общей доли каждого объекта в соответствии с глобальной базовой долей. На степень корректировки влияет размер совокупности объектов. Используйте этот параметр, если вы считаете, что во всех объектах существует постоянный базовый риск.
  • Глобальный эмпирический байес — Корректирует оценку общей доли каждого объекта в соответствии с локальной базовой долей. Используйте этот параметр, если вы считаете, что существует пространственная изменчивость риска.
  • Локально взвешенное среднее — Определяет долю каждого объекта, используя средневзвешенную долю его окрестности.
  • Локально взвешенная медиана — Определяет долю каждого объекта, используя взвешенную медианную долю его окрестности.

Возможное применение

Доли вычисляются в следующих ситуациях:

  • Вычисление простых процентов. Например, процент безработных в составе трудоспособного населения.
  • Вычисление пропорций. Например, соотношение женщин и мужчин в каждом округе.
  • Вычисление доли инцидентов. Например, доли заболеваемости раком пищевода у женщин. Эта доля представляет собой оценку вероятности наблюдения какого-либо события в расчете на одного человека в популяции в течение определенного периода. Что представляет собой вероятность того, что событие произойдет в течение этого периода для случайно выбранного человека из этой популяции. В этом сценарии доля представляет собой число от 0 до 1, а количество представляет собой подмножество особей в популяции.
  • Чтобы измерить интенсивность возникновения события относительно базовой единицы. Например, количество твитов, размещенных одним человеком в течение 2020 года. В этом случае доля может превышать единицу, поскольку количество не обязательно является подмножеством генеральной совокупности.

Базовые понятия

Инструмент Вычислить доли вычисляет доли, используя один из следующих методов: Общая доля, Глобальный эмпирический байес, Локальный эмпирический байес, Локально взвешенное среднее или Локально взвешенная медиана. Общая доля - это самый простой метод, вычисляет отношение между количеством событий и численностью популяции за определенный период.

Например, чтобы понять уровень младенческой смертности, можно начать анализ используя метод общая доля для расчета простого отношения. На приведенной ниже диаграмме показан уровень младенческой смертности по 728 пространственным объектам путем деления числа младенческих смертей в 2020 году на общее число детей, родившихся в 2020 году. Данные включают несколько крупных городов, перемежающихся множеством малых городов. Существуют значительные различия в численности населения и в количестве рожденных детей, в зависимости от пространственных особенностей.

Диаграмма, демонстрирующая ограничения метода Общая доля

Диаграмма характеризуется значительной вариабельностью показателей при небольшом количестве родившихся детей и относительно меньшей вариабельностью при большом количестве родившихся детей. Для районов с менее чем 100 рождениями в год показатели варьируются от 0 (минимально возможное значение) до 0,2. Оценка доли младенческой смертности, составляющий 0,2, или 2 из каждых 10 рожденных детей, не встречается даже в бедных регионах мира. Напротив, в районах, где не менее 1000 рождений, значения доли не выходят за пределы между 0,02 и 0,08. Это может свидетельствовать о том, что высокие показатели младенческой смертности более вероятны в районах с меньшей численностью населения. Однако основной причиной является большая разница в показателях в небольших районах, что приводит к менее надежным подсчетам, чем те, которые проведены для более густонаселенных регионов.

Более высокая вариабельность обусловлена крайней чувствительностью показателей доли численности населения, а не фактическими различиями в вероятности смерти в разных районах. Эта проблема связана с тем, что было названо проблемой малых чисел. Проблема малых чисел возникает всякий раз, когда вычисляются проценты, соотношения, пропорции или доли для географических районов с небольшой численностью населения или редкими событиями. В этих сценариях небольшие случайные колебания в количестве событий могут вызвать большие колебания в результирующих значениях показателей. В предыдущем примере в 15 районах было зарегистрировано менее 30 рождений и ни одного случая смерти. Если бы в этих районах произошел единичный случай смерти, показатели выросли бы с 0 до значения от 0,05 до 0,42 (или вероятность смертности составила бы 42 процента).

При расчете доли вам интересно понять, как вероятность события, или, в данном примере, младенческая смертность, варьируется в пространстве. Однако часть вариаций Общей доли вызвана колебаниями, которые не связаны с базовой вероятностью события. Этот разброс больше для объектов с меньшей популяцией, что делает их показатели менее надежными, чем показатели, рассчитанные для объектов с большой популяцией. Чтобы преодолеть это ограничение метода общей доли, можно использовать один из других методов вычисления доли, доступных в инструменте Вычислить доли.

Методы Локальный эмпирический байес и Глобальный эмпирический байес учитывают изменчивость общих долей объектов в небольшой популяции путем выравнивания общих долей каждого объекта к базовой доле. Степень выравнивания зависит от размера популяции: более крупные популяции испытывают минимальное изменение между их оценкой методом общей доли и методом эмпирической оценки байеса, а меньшие популяции подвергаются более заметным корректировкам.

Узнайте больше о глобальном эмпирическом байесе

Узнайте больше о локальном эмпирическом байесе

Методы Локально взвешенное среднее, Локально взвешенная медиана и Локальный эмпирический байес применяют пространственное сглаживание для вычисления долей. Доля для каждого объекта рассчитывается с использованием долей его окрестности. Как только определены соседи и весовые коэффициенты соседей каждого объекта, рассчитываются доли объектов с использованием параметра Метод вычисления долей. Долей каждого объекта является одно из следующих:

Входные данные инструмента

Инструмент включает в себя несколько параметров для определения и настройки долей.

Поля долей

Параметр Поля долей определяет поля, которые используются для расчета долей. Параметр включает в себя значение Поле количества, которое определяет поле во входном слое с количеством событий, и значение Поле генеральной совокупности, которое определяет поле во входных данных с данными о популяции, соответствующее выбранному полю количества.

Можно вычислить одну долю или несколько долей. Для вычисления нескольких долей укажите несколько значений в Поле количества и Поле генеральной совокупности. Например, если класс объектов содержит поле для подсчета смертности от рака в 2014, 2020 и 2024 годах и поле населения за те же годы, то можно рассчитать три показателя (доли) смертности от рака. Если вы рассчитываете несколько долей, для каждой будут применены указанный Метод вычисления долей и Множитель долей.

Метод вычисления долей

Параметр Метод вычисления долей определяет метод, используемый для вычисления долей.

Общая доля

Общая доля вычисляется следующим образом:

Уравнение общей доли

где ri — общая доля, ni — численность популяции, а Yi — количество в i-м пространственном объекте. Общая доля вычисляется для каждого объекта; однако объекты с количеством меньше нуля или совокупностью, меньшей или равной нулю, получат значение доли null. Вы можете оценить надежность каждого значения общей доли, используя поля Confidence interval- upper 95%, Confidence interval- lower 95% и Reliable, которые включены в выходной класс объектов или таблицу. Если многие объекты имеют большие доверительные интервалы или значения надежности, рассмотрите возможность использования другого метода вычисления долей.

Узнайте больше о значениях доверительного интервала

Узнайте больше о Надежных значениях

Глобальный эмпирический байес

Метод Глобальный эмпирический байес оценивает доли, беря средневзвешенное значение общей доли и базовой доли. Вычисления по этому методу ведутся следующим образом:

Уравнение расчета долей методом глобального эмпирического байеса

где i — пространственный объект, Глобальная эмпирическая байесовская переменная оценки доли — это глобальная эмпирическая байесовская оценка, Ci — вес со значением от 0 до 1, переменная оценки общей доли — это общая доля объекта i, а Переменная базовой доли -- это базовая доля.

Базовая доля это средняя доля всех объектов. Базовая доля рассчитывается путем деления суммы всех количеств объектов на сумму всех совокупностей объектов следующим образом:

Уравнение базовой доли

где Переменная базовой доли — это базовая доля, Yi — совокупность i-го объекта, а ni — количество. Вес, Ci, варьируется в зависимости от объекта и зависит от размера совокупности объектов. Если объект имеет большую популяцию, вес становится очень близким к 1, и оценка доли методом глобального эмпирического байеса для объекта почти идентична его общей доле. Если популяция невелика, общая доля уменьшается в направлении базовой доли, поскольку вес Ci будет меньше 1, а оценка доли методом глобального эмпирического байеса будет представлять собой средневзвешенное значение общей доли и базовой доли.

Если для параметра Метод вычисления долей задано значение Глобальный эмпирический байес или Локальный эмпирический байес, необходимо также указать значение параметра Распределение вероятностей. Распределение вероятностей — это распределение, которое, как предполагается, моделирует наблюдаемые значения вычислений. Параметр Распределение вероятностей включает в себя два варианта: Пуассона и Биномиальное. Опцией по умолчанию является распределение Пуассона, широко используемое для моделирования долей. Эту опцию можно использовать при оценке интенсивности или вероятности наступления того или иного события. Биномиальная модель распределения вероятностей предполагает следующее:

  • Количество событий (числитель) является подмножеством совокупности (знаменатель).
  • Каждое событие не зависит от других событий.
  • Вероятность того, что событие произойдет, одинакова для каждого из событий.

Если какое-либо из этих предположений не выполняется, биномиальное распределение не является подходящей моделью. Рекомендуется выбирать биномиальное распределение только в том случае, если эти предположения выполняются и вероятность события не является редкой.

Локальный эмпирический байес

Оценка долей методом Локальный эмпирический байес для объекта представляет собой средневзвешенное значение общей доли фокальных объектов и средневзвешенной доли их окрестностей. Метод локальный эмпирический байес вычисляет долю следующим образом:

Уравнение расчета долей методом локального эмпирического байеса

где i — интересующий объект, Переменная доли, вычисленной методом Локального эмпирического байеса — это локальная эмпирическая байесовская оценка доли, Ci — вес, Переменная локальной средневзвешенной доли объекта i и его соседей — это средневзвешенная доля объекта i и его соседей, а Переменная общей доли — это общая доля фокального объекта.

Средняя доля окрестности объектов, Переменная локально взвешенной средней доли объекта i и его соседей определяется значениями параметров Тип окрестности и Схема присвоения локальных весов. Параметр Тип окрестности определяет метод, который будет использоваться для идентификации соседей каждого объекта. Каждому соседу присваивается вес, основанный на значении параметра Тип окрестности или Схема присвоения локальных весов. Затем инструмент вычисляет локально взвешенный средний показатель доли для каждой окрестности следующим образом:

Уравнение глобального средневзвешенного значения

где i — интересующий объект, Переменная локально взвешенной средней доли — это локально взвешенная средняя доля в i, j — сосед, wij — вес соседа j, а Переменная общей доли соседа j — это общая доля для соседа j.

Локально взвешенное среднее

Метод локально взвешенной средней доли оценивает долю объекта путем вычисления средневзвешенной доли его окрестности. Для оценки локально взвешенных средних долей инструмент сначала применяет значение параметра Тип окрестности для идентификации соседей каждого объекта. Затем каждому соседу присваивается вес, основанный на Типе окрестности или значении параметра Схема присвоения локальных весов. Затем локально взвешенный средний показатель доли каждого объекта вычисляется следующим образом:

Уравнение локальной средневзвешенной доли

где i — интересующий объект, Переменная локально взвешенного среднего — это локально взвешенная средняя доля в i, j — сосед, wij — вес соседа j, а Переменная общей доли для соседа j — это общая доля для соседа j.

Локально взвешенная медиана

Метод вычисления доли Локально взвешенная медиана оценивает долю объекта путем вычисления медианной доли его окрестности.

Локальные методы

Локальные методы используют соседей объекта, чтобы оценить их доли. Соседи определяются при помощи значения параметра Тип окрестности, затем каждому соседу назначается вес.

Более подробно о типах окрестностей

Веса соседей могут быть не определены или вычислены при помощи функции географического взвешивания (ядер). Параметр Локальная схема весов поддерживает следующие опции присвоения весов соседям: Невзвешенный, Гауссово и Биквадрат. Используйте схему присвоения весов, которая наилучшим образом отражает влияние количества соседних событий на количество событий фокального объекта. Если все соседи влияют на фокальный объект, независимо от расстояния, используйте опцию Невзвешенный.

Если влияние соседа зависит от расстояния, соседям, расположенным дальше от фокального объекта, следует задавать меньший вес и оказывать меньшее влияние на расчетную долю фокального объекта. Соседям, находящимся ближе к фокальному объекту, нужно задавать наивысший вес и большее влияние на расчетную долю. В этом случае используйте опцию Гауссово или Биквадрат. Эти опции вычисляют веса с использованием функции ядра, где можно задать, насколько быстро веса уменьшаются при увеличении расстояния. Обе функции, и Гауссово, и Биквадрат, назначают вес одному из фокальных объектов и постепенно снижают веса по мере увеличения расстояния от фокального объекта. Если сравнить схему присвоения весов Биквадрат и Гаусса при одинаковой окрестности, значения весов уменьшаются быстрее в схеме Биквадрат.

Если указаны опции Гауссово или Биквадрат, также необходимо задать параметр Ширина ядра. Задайте его на основании ваших данных. Если значение не указано, то оценивается значение по умолчанию.

Более подробно о том, как работает инструмент Плотность ядер

Множитель долей

Каждая доля представляет собой значение от 0 до 1. Если численность популяции велика или представляющее интерес событие редкое, результирующие доли будут небольшими. Доли будут содержать много нулей в начале, что может затруднить интерпретацию долей. Параметр Множитель долей — это целочисленное значение, которое масштабирует доли, чтобы они были более значимыми и их было легче интерпретировать. При установке множителя долей равным 100 вычисляются проценты. Хорошее эмпирическое правило состоит в том, чтобы использовать наименьшее значение доли для определения множителя долей. Например, если наименьшая доля имеет три нуля в начале, значение Множитель долей должно составлять 10 000 или больше. Наименьшая доля, которая не равна 0, тогда будет больше, чем 1.

Когда устанавливается значение Множитель долей, доли будут выражены как ожидаемое количество на единицу измерения множитель долей. Например, при расчете показателя смертности от рака поджелудочной железы установите значение Множитель долей равным 100 000, итоговые доли будут ожидаемым количеством на 100 000 человек. Объект с долей 144 будет означать, что ожидается 144 случая смерти от рака поджелудочной железы в год на каждую группу из 100 000 человек.

Выходные данные инструмента

Инструмент создает выходную таблицу или класс пространственных объектов, выходной составной слой и сообщения геообработки.

Выходные объекты или таблица

Выходной класс объектов или таблица содержат несколько полей.

Избыточная доля

Поле Excess Rate сравнивает долю объекта со средней долей всех объектов. Избыточная доля вычисляется путем деления наблюдаемой доля объекта на среднюю долю по всем объектам. Избыточная доля может быть любым положительным значением, большим или равным нулю. Значения избыточной доли, близкие к единице, указывают на то, что расчетная доля аналогична средней доле. Если избыточная доля меньше единицы, то расчетная доля объекта меньше средней доли. Если избыточная доля больше единицы, то расчетная доля объекта больше средней доли. Например, если избыточная доля объекта равна 1,25, его доля на 25 процентов превышает среднюю долю. И наоборот, если у объекта избыточная доля равна 0,75, то его доля на 25 процентов меньше средней доли.

Стандартизированная доля

Поле Standardized Rate показывает, насколько доля объекта отклонилась от среднего значения. Стандартизированная доля рассчитывается следующим образом:

Уравнение стандартизированной доли

где z — стандартизированная доля, Переменная оценки доли — это оценка доли, Переменная средней доли — это средняя доля, а Переменная среднеквадратического отклонения — это стандартное отклонение. Объекты с отрицательными стандартизированными долями имеют доли меньше среднего значения. Объекты с положительными стандартизированными долями имеют доли больше среднего значения. Чем более отрицательным является стандартизированный показатель доли, тем дальше она отклоняется вниз от среднего значения. Чем больше положительный стандартизированный показатель, тем дальше она отклоняется вверх от среднего значения. Объекты со стандартизированными показателями доли больше 3 или меньше -3 считаются выбросами.

Доверительные интервалы

Если для параметра Метод вычисления долей задано значение Общая доля, то выходная таблица или класс объектов будут содержать Confidence Interval – Upper 95% и поле Confidence Interval- Lower 95%. 95-процентный доверительный интервал вычисляется с использованием методологии, предложенной Центром по контролю заболеваний (CDC) Национального центра статистики здравоохранения. Если количество объектов больше или равно 100, то подходит гауссовская аппроксимация, и в результате 95-процентный доверительный интервал для грубой оценки вычисляется следующим образом:

Уравнение 95-процентного доверительного интервала, когда количество больше или равно 100

где ri — общая доля, а Yi — количество.

Если количество меньше 100, то 95-процетный доверительный интервал вычисляется с использованием метода, предложенного К. Ульм в статье по методу расчета доверительного интервала стандартизированного показателя смертности — A simple method to calculate the confidence interval of a standardized mortality ratio (SMR). В этом случае гауссовская аппроксимация Пуассона не подходит и используется тождество между кумулятивными вероятностями Пуассона и распределением хи-квадрат. Пусть qgamma(p,x) представляет собой квантиль, связанный с вероятностью p гамма-распределения с параметром формы x и параметром доли 1. Тогда 95-процентный доверительный интервал рассчитывается следующим образом:

Уравнение 95-процентного доверительного интервала, когда количество объекта меньше 100

Надежный

Значения в поле Reliable отражают надежность оценки доли. Это поле включается в выходные объекты или таблицу, когда для параметра Метод вычисления доли задано значение Общая доля. Расчет производится в соответствии с методом, описанным CDC в их справочном руководстве. Когда надежное значение велико, грубая оценка доли является неточной, и она считается ненадежной. Начиная с 1989 года, CDC в своем Национальном центре статистики здравоохранения рассматривал любой приблизительный показатель, основанный менее чем на 20 объектах, как статистически недостоверный. Это эквивалентно надежному значению, большему или равному 22,94.

Надежность измеряется с помощью относительной стандартной ошибки (RSE), также известной как коэффициент вариации. RSE — это отношение между стандартной ошибкой доли и оценкой доли, умноженное на 100. Дисперсия доли вычисляется следующим образом:

Уравнение дисперсии доли

и, предполагая ненулевое количество, RSE вычисляется следующим образом:

Уравнение RSE

RSE зависит только от количества объектов (Yi). Хотя формула RSE не зависит напрямую от численности популяции, большие популяции, как правило, имеют большее количество объектов, так что существует косвенный эффект.

Количество соседей не-null

В поле Number of Non-Null Neighbors указано количество соседей, включая фокусный объект, для которых доля не равна null. Объекты с отрицательным или пустым (null) значением в Поле генеральной совокупности или значения параметра Поле количества имеют долю null.Методы пространственного сглаживания используют окрестности объекта для определения доли значений этого объекта. Поле Number of Non-Null Neighbors показывает количество соседей, которые были использованы для сглаживания доли фокального объекта. Это поле включается в выходную таблицу или класс объектов, если значение параметра Метод вычисления доли равно локально взвешенному среднему, локально взвешенной медиане или локальному эмпирическому байесу.

Заполнить пропущенное значение

Это логическое поле Fill Missing Value указывает, была ли вычислена доля для данного объекта. Объекты с отрицательным или пустым (null) значением параметра Поле количества или отрицательным или пустым (null) значением параметра Поле генеральной совокупности будут иметь долю null. Однако, если значением Метода вычисления доли является Локально взвешенное среднее или Локально взвешенная медиана, для объекта с долей null может быть добавлена доля. Если у объекта есть не-null соседи, доля null будет заменена локально взвешенной средней или локально взвешенной медианной оценкой его окрестности.

Составной слой и символы

Инструмент добавляет составной слой на панель Содержание и подслой для каждой доли. Если подсчитано более 10 долей, то только первые 10 будут добавлены в качестве подслоев.

Каждый подслой представляет собой карту среднеквадратического отклонения. доли распределяются по бинам в зависимости от их среднеквадратического отклонения. Каждый бин помечен интервалом среднеквадратического отклонения и, в скобках, интервалов соответствующей доли. Цветовая шкала включает три цвета: зеленый, белый посередине и коричневый. Цветовая шкала центрирована вокруг значения средней доли. Объекты, помеченные зеленым, имеют доли ниже среднего показателя. Объекты, помеченные коричневым, имеют доли выше среднего показателя. Объекты с наиболее сильными оттенками коричневого (+3 среднеквадратических отклонений) и зеленого (-3 среднеквадратических отклонений) являются выбросами.

Сообщения геообработки

Сообщения геообработки содержат краткую информацию об объектах и долях. Сообщения содержат ниспадающий раздел для каждой рассчитанной доли. Каждый раздел содержит Суммарную таблицу долей. Если для значения параметра Метод вычисления долей задано Локально взвешенное среднее, Локально взвешенная медиана или Локальный эмпирический байес, каждый раздел также будет включать таблицу Итоговая информация о количестве соседей.

Итоговая информация о долях

Если для значения параметра Метод вычисления долей не задана Общая доля, Суммарная таблица долей будет содержать столбец, суммирующий выбранные методы расчета долей, и дополнительный столбец, суммирующий общие доли. Используйте эти столбцы для сравнения результатов, полученных с помощью выбранного метода расчета, с результатами, полученными с помощью метода вычисления общей доли. Суммарная таблица долей включает Минимальные, Максимальные, Медианные, Средние значения долей и Среднеквадратическое отклонение долей. Если для значения параметра Метод вычисления долей задано Локально взвешенное среднее или Локально взвешенная медиана, таблица будет включать строки Объекты со значением доли Null и Объекты с заполненными значениями. В строке Объекты со значением доли Null указано количество объектов с null-значением для доли. В строке Объекты с заполненными значениями указано количество объектов с вычисленной долей. Эти объекты изначально имели долю null; однако их окрестности включали значения доли не-null, поэтому их доля была вычислена.

Суммарная таблица долей

Итоговая информация о количестве соседей

Если для значения параметра Метод вычисления долей задано Локально взвешенное среднее, Локально взвешенная медиана или Локальный эмпирический байес, каждый раздел также будет включать таблицу Итоговая информация о количестве соседей, суммирующую всех соседей. Таблица включает минимальные, максимальные, медианные и средние количества соседей и значение Объекты без соседей.

Таблица Итоговая информация о количестве соседей

Дополнительные ресурсы

См. следующие дополнительные ресурсы: