Инструмент Прогнозирование только присутствия (MaxEnt) использует подход максимальной энтропии (MaxEnt) для анализа вероятности присутствия явления. Инструмент использует известные точки присутствия и независимые переменные в виде полей, растров или объектов расстояния для обеспечения оценки присутствия в области изучения. Вы можете использовать обученную модель для прогнозирования присутствия в различных данных, если известны соответствующие независимые переменные. В отличие от других методов, которые либо предполагают, либо явно требуют заданных местоположений отсутствия, Прогнозирование только присутствия можно применить к задачам прогнозирования, где известно только присутствие события.
Возможное применение
Хотя основные примеры касаются моделирования присутствия тех или иных видов в экологических и природоохранных целях, проблемы прогнозирования присутствия охватывают множество областей и приложений:
- Исследователь дикой природы собрал полевые данные о присутствии некоторых видов растений в наблюдаемых местоположениях. Ему необходимо оценить вероятность распространения этого вида на более широкой территории. Используя известные местоположения присутствия и добавляя базовые факторы в виде растров, эколог может смоделировать присутствие вида и создать карту прогнозируемых мест, где вид с наибольшей вероятностью будет найден.
- Исследователь хочет оценить влияние изменение климата на среду обитания определенного биологического вида. Он моделирует присутствие, используя известные местоположения и ряд независимых переменных, включая различные климатические факторы, такие как температура и осадки. Используя растровые поверхности прогноза изменения климата, исследователь затем моделирует предполагаемое распределение видов по мере того, как последствия изменения климата наблюдаются в независимых переменных, получая оценку новой среды обитания вида после прогнозируемых последствий изменения климата.
- Аналитик по предотвращению последствий наводнений хочет оценить вероятность наводнения после урагана в исследуемом районе. В дополнение к аэрофотоснимкам высокого разрешения, в момент наступления урагана аналитик использует пространственно распределенные физические и социально-экономические характеристики в сочетании с данными из краудсорсинга для моделирования возможного присутствия этого явления (наводнений). Аналитик использует этот метод для идентификации мест, где жителям более всего необходима немедленная помощь в случае урагана (Mobley, et. al, 2019).
- Эпидемиолог моделирует вспышки новых инфекционных заболеваний. Они используют существующие известные местоположения, где зафиксированы вспышки патогенов, и различные экологические факторы, такие как температура, осадки, почвенный покров, стандартизованный индекс различия растительного покрова (NDVI) и продолжительность светового дня в качестве предикторов в модели. Модель используется для создания предварительной поверхности риска, которая отражает благоприятные факторы, способствующие возникновению новых инфекционных заболеваний (Du, et.al., 2014).
Обзор MaxEnt
Основные проблемы пространственного анализа сосредоточены на моделировании и оценке присутствия события в географической области. Хотя основные примеры касаются моделирования присутствия тех или иных видов в экологических и природоохранных целях, проблемы прогнозирования присутствия охватывают множество областей и приложений:
В ряде случаях данные о присутствии записываются как количество событий присутствия в прямоугольных ячейках: каждое наблюдение увеличивает количество в своем местоположении, и для моделирования этого количества можно использовать различные подходы, например, метод Пуассона в рамках Обобщенной Линейной Регрессии. В других случаях точные данные о присутствии и отсутствии регистрируются через определенные промежутки времени в известных местоположениях, например, станциях мониторинга качества воздуха, регистрирующие опасные превышения уровня озона. В этом случае если моделирование присутствия и отсутствия отображено в бинарной классификации, тут можно применить другие методы, например, логистическую регрессию.
В случае моделирования распространения биологических видов, и в ряде других областей, где регулярно регистрируется присутствие события, но редко регистрируется его отсутствие, и если нет точных данных об отсутствии, моделирование присутствия и отсутствия выполняется с использованием методов мультиклассового прогнозирования.
MaxEnt не предполагает и не требует отсутствия. MaxEnt - это универсальный метод для составления прогнозов или выводов на основе неполной информации (Phillips et al. 2006). Используя набор известных местоположений присутствия и набор независимых переменных, которые характеризуют область изучения, MaxEnt выстраивает взаимоотношения между местоположениями присутствия и изучаемой области для построения поверхности вероятности присутствия.
Исходно метод MaxEnt работает с тремя основными входными данными:
- Известные местоположения точек присутствия.
- Область изучения.
- Независимые переменные, или коварианты, которые описывают факторы окружающей среды, влияющие на присутствие по всей области изучения.
Область изучения определяет ландшафт, где присутствие возможно, и часто представлена набором неизвестных местоположений присутствия. Эти местоположения, также известны как точки фона, и метод MaxEnt использует их для выявления взаимоотношений между местоположениями присутствия и изучаемой области, на основе которых строится поверхность вероятности присутствия.
Поверхность вероятности присутствия может принимать различные формы, и MaxEnt подбирает форму, наиболее похожую на среду, из которой она была взята, уменьшая при этом все остальные допущения (или максимизируя ее энтропию). “Это согласуется со всем, что известно, но тщательно избегает предполагать что-либо, что неизвестно." (Jaynes 1990).
В дополнение к своему подходу к моделированию MaxEnt включает этапы подготовки входных данных, преобразования независимых переменных, подготовки выходных данных и проверку модели, что делает его надежным методом моделирования явлений только присутствия.
Использование инструмента Прогнозирование только присутствия (MaxEnt)
Инструмент Прогнозирование только присутствия встраивает аспекты MaxEnt в подготовку данных, моделирование, выбор переменных и рабочих процессов прогнозирования. В этом разделе приводится важная информация о каждом параметре, которая поможет вам создавать наиболее подходящие модели.
Определение известных местоположений присутствия и точек фона.
Для Прогнозирования только присутствия необходимо, чтобы входные данные представляли известные местоположения присутствия. Параметр Входные точечные объекты используется для определения существующего набора данных, содержащего эти местоположения.
Входные точечные объекты не содержат точки фона
Если входные точечные объекты не содержат точки фона, вы можете оставить параметр Содержит точки фона не отмеченным.
Если параметр Содержит точки фона отключен, инструмент использует загрубленные центроиды ячеек, пересекающиеся с Независимыми обучающим растрами в изучаемой области для создания точек фона.
ВЫ можете указать значение параметра Выходные обученные объекты для сохранения результирующего слоя точек фона, созданных инструментом.
Входные точечные объекты содержат точки фона
Если входные точечные объекты содержат точки фона, вы можете использовать параметры Содержит точки фона и Поле индикатора присутствия, где в значениях поля для каждого местоположения указано присутствие (1) или фон (2).
Соотношение точек фона к точкам присутствия имеет существенное влияние на результаты прогнозирования. Независимо от того, содержат ли ваши входные объекты точки фона, или инструмент создает их в процессе выполнения, рекомендуется протестировать и сравнить диагностики классификации модели, используя разные количества точек фона. Вы можете использовать Пространственное прореживание для уменьшения количества точек фона в анализе. См. разделы Определение области изучения и Уменьшение смещения выборки с помощью пространственного прореживания для дополнительной информации.
Примечание:
Для выполнения инструмента и построения модели в обучающих данных необходимо, как минимум, две точки присутствия и две точки фона.
Определение независимых переменных
В дополнение к известным точками присутствия и точкам фона инструмент использует независимые переменные для создания модели прогнозирования. Есть три способа указания независимых переменных: использование растров, использование полей входных точечных объектов и использование объектов расстояния. Для растров и полей независимые переменные могут быть непрерывными или категориальными. Для категорийных независимых переменных инструмент требует наличие, как минимум трех точек данных на категорию.
Использование независимые переменные из растров
Вы можете использовать растры для представления условий ландшафта, которые помогут вам в прогнозировании присутствия события. Например, присутствие вида растения может сильно зависеть от определенного диапазона высот; вы можете использовать растр высот, чтобы сопоставить значения высот с местоположениями присутствия растения в модели.
Отметьте опцию Категорийная, если растр представляет категорийные данные, например классы землепользования.
Использование независимых переменных из растра необходимо, если входные точечные объекты не содержат точек фона, так как каждая ячейка в изучаемой области будет использоваться для создания точки фона.
Размер ячеек Независимых обучающих растров имеет существенное значение на время обработки: чем выше разрешение, тем больше время обработки. Поэтому у инструмента есть ограничение - общее число ячеек не должно превышать 100 миллионов на область интереса. Вы можете использовать инструмент Изменить разрешение для снижения пространственного разрешения растров путем уменьшение числа ячеек, для более быстрой обработки.
Использование независимые переменные из полей
Используйте параметр Независимые обучающие переменные для указания полей, атрибуты которых используются как независимые переменные в моделировании присутствия явления. Эта опция доступна, только если входные точечные объекты содержат точки фона, и параметр Содержит точки фона отмечен.
Используйте отметку Категорийная, если поле, указанное в параметре Независимые обучающие переменные, должно быть категорийным.
Использование независимых переменных из объектов расстояния
Используйте Независимые обучающие объекты расстояния для указания объектов, близость которых к входным точечным объектам будет использована в качестве независимых переменных. Эта опция доступна, только если входные точечные объекты содержат точки фона, и параметр Содержит точки фона отмечен.
Объекты расстояния используются для автоматического создания независимых переменных путем вычисления расстояния от входных точечных объектов до ближайшего указанного объекта. Если Независимые обучающие объекты расстояния являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. Если входные объекты расстояния являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. Расстояния вычисляются по-разному для линий и полигонов; Более подробно см. Как инструменты близости вычисляют расстояние.
Параметр Независимые обучающие объекты расстояния не активен, если входные точечные объекты не содержат точек фона, по условиям выполнения. Но вы можете использовать объекты расстояния, выполняя анализ точек только присутствия, применив инструмент Накопление расстояния для создания растров расстояния. Растры расстояния содержат ячейки со значениями, описывающими расстояние между ячейкой и ближайшим объектом в указанном источнике данных. После создания растров расстояния вы можете использовать из как входные данные в параметре Независимые обучающие растры для входных точечных объектов только присутствия.
Подготовка данных для входных данных модели
Инструмент содержит шаги подготовки данных для использования входных точечных объектов как независимых переменных. Подготовка данных подразумевает различные преобразования на основе базисных функций, указание изучаемой области и уменьшение смещения выборки с помощью пространственного прореживания.
Расширения независимых переменных с использованием базисных функций
Характеристики ландшафта используются как потенциальные независимые переменные в MaxEnt. В некоторых случаях условия, обуславливающие присутствие, могут иметь сложные взаимосвязи с наличием события. Чтобы включить в модель более сложные формы отношений, инструмент преобразует (или расширяет) эти потенциальные независимые переменные с помощью базисных функций.
Вы можете выбрать несколько базисных функций в одном запуске инструмента с использованием параметра Расширения объясняющей переменной (Базисные функции), и использовать все преобразованные версии независимых переменных в модели. Наиболее эффективные переменные выбираются путем регуляризации - метода выбора переменных, который находит компромиссы между соответствием и сложностью модели.
Существует пять типов базисных функций, которые обеспечивают согласование различных условий при моделировании сложных явлений.
- Исходный (Линейный) — применяет линейную базисную функцию к входным переменным и может использоваться, если преобразование не требуется. Это является опцией по умолчанию.
Например, можно использовать инструмент для моделирования присутствия тех или иных биологических видов на основе возможного доступа к источникам питьевой воды. Использование линейной базисной функции для переменной, представляющей расстояние до реки позволяет модели оценивать линейные отношения между присутствием биологического вида и расстоянием до источника воды. Результирующий коэффициент можно использовать для интерпретации пограничных линейных отношений перед попыткой использования более сложных форм отношений.
Используйте базисную функцию Исходный (Линейный), если в приоритете интерпретируемость модели. Поскольку преобразования не происходит, интерпретация коэффициентов в контексте их влияния на вероятность присутствия проще всего выполнить с помощью линейного метода.
Примечание:
Только категорийные независимые переменные допускают использование базисной функции Исходный (линейный). Если применяются как категорийные, так и непрерывные независимые переменные, вы можете выбрать несколько базисных функций, но для категорийных допускается только использование базисной функции Исходный (линейный).
- В квадрате (Квадратический) — преобразует каждое значение независимой переменной, возводя ее в квадрат, получая квадратическое отношение между независимой переменной и ответом присутствия. В некоторых областях, таких как распределение биологических видов, взаимовлияние присутствия видов и условий окружающей среды часто нелинейны и унимодальны (Austin 2002, 2007), и квадратичная форма может наилучшим образом отражать взаимосвязи.
В ряде случаев, хотя квадратичное отношение может быть объяснить связь независимой переменной и ответа события, выборка входных точечных объектах может представлять только один аспект параболического отношения. Например, тропические виды могут быть в параболическом отношении с уровнем температуры воздуха - очень холодные температура означает невысокую вероятность присутствия, тропические температуры предполагают высокую вероятность, а очень высокая температура опять укажет на низкую вероятность. Если данные выборки для этого вида не включают низкие температуры, отношение может быть выражено как линейная зависимость (Merow et al. 2013).
- Попарное взаимодействие (Продукт) — выполняет попарное умножение независимых переменных. Например, если выбраны три переменные A, B и C, эта базисная функция преобразует значения переменных, соответственно как результат A x B, A x C и B x C. Эти преобразованные переменные обычно называются переменными взаимодействия, и они могут быть полезны при представлении сложных отношений, которые зависят от согласованности между несколькими переменными. Например, результат взаимодействия двух переменных, уровня дохода и расстояния до магазина, может быть лучшим предиктором для анализа действий клиента, чем каждая переменная по отдельности.
Хотя преобразование независимых переменных методом Попарное взаимодействие (Продукт) может быть полезно при моделировании взаимодействий между компонентами среды, моделирование интерпретируемости может быть усложнено, так как взаимодействие переменных усложняет отделение эффекта одной независимой переменной от другой. Это важно, если необходимо оценить коэффициент каждой независимой переменной, и построить диаграммы частичного ответа.
Примечание:
Опция Попарное взаимодействие (Продукт) доступна, только если выбрано несколько непрерывных независимых переменных.
- Дискретный шаг (Порог) — конвертирует непрерывную независимую переменную в бинарную независимую переменную, с применением ступенчатой функции значения ниже порогового преобразуются в 0, а выше порога - 1.
Параметр Число узлов определяет количество создаваемых пороговых значений, которые используются для создания нескольких преобразованных бинарных независимых переменных с использованием каждого порога. Пороги применяются между минимальным и максимальным значениями независимой переменно и создают сегменты одинаковой длины.
Например, запуск Прогнозирования только присутствия с целью изучения влияния высоких температур на наличие (например: выше или ниже 32 градусов Цельсия). Используя пороговую базисную функцию, непрерывная переменная температуры разбивается на значения 1 (выше 32) и 0 (ниже 32) и позволяет интерпретировать каждое условие по отношению к присутствию.
- Сглаженный шаг (Петля) — преобразует непрерывную независимую переменную в два сегмента - статический (все значения нули или единицы) и линейный (линейная функция, возрастающая или снижающаяся), разделенные порогом, который называется узел. Это может быть выполнено с помощью прямой петли (начало с нулей между минимумом и узлом, затем применение возрастающей линейной функции между узлом и максимумом) или обратной петли (начало с уменьшающейся линейной функции между минимумом и узлом, а затем применение всех единиц между узлом и максимумом).
Параметр Число узлов определяет, сколько выполнено преобразований независимых переменных, в результате чего получается (Число узлов – 1) * 2 преобразованных независимых переменных. Смысл этой формулы заключается в том, что число узлов определяет число равных интервалов, которые используются между минимальным и максимальным значениями в независимой переменной (вычитая единицу из числа узлов), и создаются как переменные, преобразованные прямой петлей, так и переменные, преобразованные обратной петлей (умноженные на 2).
Например, запуск инструмента с целью изучения влияния вариабельности высоких температур (например: сохранение всех значений выше 32 градусов Цельсия, и игнорирование тех, которые ниже). Базисная функция петли позволит сохранить вариабельность переменной выше узла (применив линейную функцию для всех значений выше 32 градусов), одновременно снижая шум от всех данных ниже узла (конвертируя все значения ниже 32 градусов в нули).
Опции Сглаженный шаг (Петля) и Дискретный шаг (Порог) взаимоисключающие - если выбрана одна, вторая не может быть указана. Когда выбрана одна из них, рекомендуется протестировать несколько запусков модели и настроить значение параметра Число узлов, чтобы интерпретировать, как эти пороговые значения помогают или мешают модели.
Инструмент использует несколько преобразованных версий каждой независимой переменной при попытке моделировать сложные условия, способствующие присутствию явления. Например, модель, в которой используются значения годовой средней температуры для прогнозирования возможности присутствия определенного вида черепах (Пустынный западный гофер) может использовать различные расширения переменной для описания сложных отношений между уровнем температуры и местообитаниями черепах.
График частичного ответа выше показывает граничные ответы вероятности присутствия в зависимости от изменения средней температуры. Если остальные факторы не изменяются, вероятность присутствия будет следующей:
- Увеличивается линейным образом по мере увеличения среднегодовой температуры между 0 и 15 градусами Цельсия
- Постепенно уменьшается между 15 и 21 градусами Цельсия
- Резко снижается, как только среднегодовые значения температуры поднимаются выше 21 градуса Цельсия
Инструмент использует несколько базисных функций для создания расширений независимой переменной, которые наилучшим образом представляют этот тип отношений, выбирая наиболее подходящее преобразование через процесс, называемой регуляризация.
Регуляризация
Подход MaxEnt может характеризоваться излишней подгонкой обучающих данных. Чтобы уменьшить эту проблему, метод применяет форму регуляризации, которая игнорирует высокие коэффициенты независимых переменных, принуждая модель фокусироваться на наиболее важных независимых переменных (Phillips et al. 2006).
Концепция регуляризации заключается в том, что ограничения коэффициентов распределяются между всеми независимыми переменными в модели. Если необходимо понизить общий бюджет коэффициентов, несколько независимых переменных с низкими коэффициентами уменьшаются до 0 и удаляются из модели. В результате в модели остается меньше независимых переменных, сохраняются только те, которые имеют очень высокие коэффициенты, и сохраняются даже при ограниченном бюджете коэффициентов. При меньшем количестве независимых переменных меньше вероятность перегрузки модели, и более простая интерпретация. Следуя принципу бережливости, самое простое объяснение явления обычно является лучшим (Phillips et al.,2006).
Регуляризация дает дополнительный эффект, помогающий устранить мультиколлинеарность: по мере добавления связанных независимых переменных общее значение коэффициента, которое включала бы одна переменная, теперь распределяется между несколькими коррелированными переменными, что приводит к более низким коэффициентам для мультиколлинеарных переменных. Поскольку регуляризация оценивает оставшиеся значения коэффициентов, коэффициенты мультиколлинеарной переменной с большей вероятностью будут сведены к нулю и удалены из модели.
Определение изучаемой области
Необходимо задать область изучения, если точки фона не включены во входные точечные объекты и определяют присутствие, где возможно. Вы можете использовать три опции в параметре Область изучения для определения области изучения:
- Выпуклая оболочка — используется выпуклая оболочка входных точечных объектов.
- Экстент растра — экстент пересечения растров, указанных в параметре Независимые обучающие растры.
- Полигон области изучения — используется настроенный класс полигональных объектов границ, указанный в параметре Полигон области изучения.
Область изучения имеет существенное значение на результат модели: экстент изучаемой области определяет, какие ячейки независимых обучающих растров будут использованы в качестве точек фона. Точки фона определяют условия среды, при которых присутствие возможно, в сравнении с условиями среды, при которых присутствие наблюдается. Результаты прогнозирования будут меняться, если соотношение точек присутствия и точек фона меняется.
Область изучения определяет экстент обучающих данных в модели. Входные точечные объекты в этом сценарии представляют, где присутствие зафиксировано, а область изучения - где присутствие возможно (но не обязательно зафиксировано). Соответственно, рекомендуется, чтобы область изучения для анализа базировалась на планируемом рабочем процессе сбора точек присутствия. Например, если сбор данных присутствия предполагается в районе площадью 100 квадратных километров, полигон границ этого района можно использовать как область изучения.
В ряде случаев допускается использование разных областей изучения для одного набора входных точечных объектов, что позволяет изучить разнообразную динамику присутствия явления (Elith et al. 2011, 51–52).
Уменьшение смещения выборки с использованием пространственного прореживания
Смещение выборки происходит по мере того, как области выборки, представленные входными точечными объектами, по-разному образуют пространственные кластеры. Например, сбор данных чаще всего выполняется вдоль дорог, тропинок и других мест, удобных для сбора данных на местности. Эффект смещения выборки заключается в том, что данные, указывающие на присутствие явления, смешиваются с данными, указывающими на присутствие подходящих условий для сбора данных. Смещение выборки присуще большинству наборов данных только присутствия и минимизируется только если соблюдены самые строгие условия сбора данных.
Пространственное прореживание - методика уменьшения эффекта смещения выборки в модели; в рамках метода удаляются точки присутствия и фона из обучающих данных, исходя из заданного минимального расстояния между точками. Так как количество точек в пределах указанного расстояния между ними уменьшается, области, в которых имеется пространственная перегруженность точками выборки уменьшается в обучающих данных в модели.
Для использования пространственного прореживания отметьте Применить пространственное прореживание и укажите значения для следующих двух параметров:
- Минимальное расстояние ближайшего соседства — определяет, насколько близко по отношению друг к другу могут быть расположены две точки.
- Число итераций прореживания — определяет, сколько раз предпринимается попытка удаления точек для поиска подходящего решения. После выполнения указанного числа попыток запуска, инструмент будет выполняться с оставшимися точками для обучения модели.
Пространственное прореживание выполняется как для точек присутствия, так и для точек фона, даже если точки фона создаются инструментом, в случае использования точек только присутствия. Пространственное прореживание применяется к точкам фона и точкам присутствия по отдельности, в результате чего точка присутствия может оказаться близко к точке фона, в пределах минимального расстояния ближайшего соседства.
Если точки фона создаются инструментом на основе ячеек растра, применяется пространственное прореживание для пересчета растра по значению параметра Минимальное ближайшее расстояние и в качестве пространственно прореженных точек фона используются центроиды ячеек результирующего растра.
Пространственное прореживание может быть применено для минимизации проблем, возникающих при использовании растров с большим количеством ячеек, так как оно позволяет уменьшить число точек фона. Независимо от разрешения растра, приблизительно одинаковое число точек фона останется после прореживания, исходя из указанного минимального расстояния ближайшего соседства.
Пространственное прореживание не применяется в случаях если значение минимального ближайшего расстояния меньше чем ближайшее расстояние между двумя точками (независимо, используются ли точки из входных объектов или получены из центроидов ячеек растра), так как данные соответствуют критериям пространственного прореживания
Настройка модели
В инструменте есть разнообразные параметры для настройки модели. Хотя для запуска инструмента не требуется использовать все параметры, понимание того, как работает модель и как используется каждый параметр, может оказать существенное влияние на применение инструмента для рабочих процессов моделирования присутствия.
Установка относительного веса присутствия к фону
Инструмент использует параметр Относительный вес присутствия к фону для определения значимости точек фона в модели.
Значение по умолчанию 100 указывает на то, что точки присутствия входных точечных объектов являются главным источником информации о присутствии; наличие точек фона неизвестно, и они могут только указывать на характеристики ландшафта, где присутствие возможно, но не подтверждено. Значение 1 указывает на то, что точки фона равнозначны точкам присутствия; так как они не представляют местоположения присутствия, но также значимы, следовательно, они представляют местоположения отсутствия. Точки фона, как представляющие местоположения отсутствия, могут использоваться таким же образом, или в сочетании с местоположениями присутствия для создания бинарной модели классификации, оценивающей как присутствие так и отсутствие.
Это значение существенно влияет на обработку модели, и на результирующие прогнозирования. Если значение параметра Относительный вес присутствия к фону близко к 100, в модели применяется традиционная форма метода MaxEnt. Если значение равно 1, модель оценивает каждую точку присутствия и фона одинаково, и процесс подобен логистической регрессии.
Рекомендуется провести оценку домена при выборе значения между 1 и 1000 для параметра Относительный вес присутствия к фону, так как эти значения можно рассматривать как представление распространения события в изучаемой области.
Использование функций связи и пороги вероятности присутствия для интерпретации результатов
Промежуточный результат модели (не возвращаемые инструментом) - относительная частота встречаемости (RDR) для каждого местоположения. Промежуточный результат не содержит вероятность встречаемости; он соотносится с относительной пригодностью в каждом местоположении, которая способствует присутствию в области изучения. Для переноса этих необработанных значений в значения, которые можно интерпретировать как вероятности присутствия и прогнозы присутствия, значения переносятся с использованием функции связи и предельного значения, указанного в Преобразование вероятности присутствия (функция связи) и Предельное значение вероятности присутствия соответственно.
Хотя функции связи, в первую очередь, используются для конвертации необработанных результатов MaxEnt в интерпретируемость вероятности присутствия, они также могут интерпретировать точки фона (истинный фон или отсутствие). Функции связи не влияют напрямую на внутренние вычисления в модели, но результаты функций связи имеют прямое влияние на результаты модели.
В параметре Преобразование вероятности присутствия (функция связи) доступны две функции:
- C-log-log — оценивает точки фона как местоположения, где присутствие явления неизвестно. Использует формулу 1-exp(-exp(энтропия + необработанный результат)) для вычисления вероятности присутствия в каждом местоположении. Это значение по умолчанию
- Logistic — оценивает точки фона как местоположения, представляющие отсутствие явления. Исходя из этого, параметр Относительный вес присутствия к фону должен иметь значения близко к 1 при выборе этой функции. Эта функция связи использует формулу 1/(1+exp(-энтропия + необработанный результат)) для вычисления вероятности присутствия в каждом местоположении.
Вероятность присутствия, вычисленная функциями связи, определяется как значение от 0 до 1. Вы можете использовать параметр Предельное значение вероятности присутствия для указания порога вероятности, выше которого местоположение классифицируется как местоположение присутствия. По умолчанию используется 0.5, значение больше или равно 0.5 классифицируется как присутствие. Вы можете ввести значение между 0.01 и 0.99 в качестве пользовательского предельного значения.
Диагностики классификации, использующие указанное предельное значение, сравниваются с известными точками присутствия, и результирующие диагностики доступны из сообщений геообработки и в выходных обученных объектах.
Определение результатов обучения модели
Этот инструмент результаты в подгруппы обучающих и прогнозируемых. Основное различие заключается в том, что результаты обучения соответствуют данным, которые использовались при обучении и выборе модели, а результаты прогнозирования соответствуют данным, которые еще не показаны в модели.
Выходные обученные объекты
Используйте параметр Выходные обученные объекты для создания класса объектов, содержащего точки, используемые в обучении модели. В этом выходном слое каждой обученной точке присваивается символ на основании результата сравнения между классификацией из модели и наблюдаемой классификацией.
Точки, включенные в выходные обученные объекты не обязательно должны совпадать с точками Входных точечных объектов, так как точки фона будут создаваться, если используются данные только присутствия, и так как пространственное прореживание может уменьшить число точек, используемое в обучении модели.
В выходные обученные объекты включены три диаграммы:
- Процент результатов классификации — используется для оценки доли корректных прогнозов с использованием наблюдаемой классификации обучающих объектов.
- Количество присутствий и фона по диапазонам вероятности — используется для сравнения распределения значений вероятности присутствия в модели с классификациями наблюдаемого присутствия и фона.
- Распределение вероятности присутствия по классификации — используется для визуализации распределения диапазонов вероятностей присутствия по назначениям классификации.
Выходной обученный растр
Вы можете выбрать использование Выходного обученного растра для создания растра, который классифицирует вероятность присутствия в каждой ячейке в экстенте входных обучающих данных по четырем категориям. Это доступно только при использовании опции Входные точечные объекты не содержат точки фона.
Экстент выходных обученных растров соответствует экстенту пересечения независимых обучающих растров в области изучения. Размером ячейки по умолчанию будет максимальный размер ячеек входных растров, и вы можете изменить его, используя параметр среды Размер ячейки.
Таблица кривой ответа и таблица чувствительности
Вы можете использовать параметр Выходная таблица кривой ответа для создания таблицы с диаграммой, визуализирующей граничный эффект каждой независимой переменной на прогнозирование присутствия. Это так же называется частичной зависимостью, или частичным ответом присутствия явления от каждой независимой переменной.
Диаграмма Частичного ответа непрерывных переменных состоит из нескольких диаграмм; каждая диаграмма отражает эффект от изменения значений в каждой независимой переменной на вероятность присутствия, сохраняя остальные факторы без изменений.
Диаграмма частичного ответа категориальных переменных - простая линейчатая диаграмма, показывающая граничный ответ присутствия каждой категории независимой переменной.
Параметр Выходная таблица чувствительности создает таблицу, содержащую две диаграммы:
- Диаграмма Частоты пропусков — используется для оценки доли известных точек присутствия, которые ошибочно классифицированы как не присутствие в модели, на основании предельного значения диапазона вероятности присутствия от 0 до 1.
- Диаграмма График ROC — используется для сравнения доли корректно классифицированных точек присутствия, (чувствительность модели) и доли точек фона, которые были классифицированы как присутствие. Подобно диаграмме Частоты пропусков — это сравнение выполняется на основании предельного значения диапазона вероятности присутствия от 0 до 1.
Применение модели для прогнозирования
Кроме обучения модели, инструмент Прогнозирование только присутствия применяет обученные модели для оценки вероятности прогнозирования в новых местоположениях, с помощью параметров, указанных в категории параметров Опции прогнозирования.
Настройка инструмента для прогнозирования с помощью новых входных объектов прогнозирования
Параметр Входные объекты прогнозирования указывает местоположения, в которых инструмент будет применять обученную модель для оценки вероятности присутствия. Параметр Выходные объекты прогнозирования указывает, что выходные данные содержат результаты прогнозирования для Входных объектов прогнозирования.
Для каждой независимой переменной, используемой в обучении модели вы должны указать сопоставленную независимую переменную в форме поля, объекта расстояния или растра, используя параметры Сопоставление независимых переменных, Сопоставление объектов расстояния и Сопоставить независимые растры.
Диапазоны значений, выявленные в данных прогнозирования могут отличаться от диапазонов значений в обучающих данных. Например, растр высот для обучения модели может включать значения в диапазоне от 400 до 1000 метров, но соответствующий растр высот для прогнозируемых местоположений включает области с высотами в диапазоне от 200 до 1200 метров. Хотя рекомендуется поддерживать диапазоны независимых переменных в местоположениях прогнозирования в пределах диапазонов обучающих данных, параметр Разрешить прогнозирование вне диапазонов данных разрешает экстраполяцию в модели и обеспечивает прогнозирование даже в этих местоположениях. Используйте сообщения геообработки инструмента для диагностики наличия независимых переменных, превышающих диапазоны обучающих данных.
Вы также можете использовать Выходной растр прогнозирования для создания растра, содержащего результаты прогнозирования модели, примененные к каждой ячейке в экстенте пересечения растров, указанных в параметре Сопоставить независимые растры. Этот параметр указывает поверхность прогнозирования в соответствии с экстентом, указанным в параметрах среды, доступную для прогнозированных местоположений.
Выходной растр прогнозирования отличается от выходного обучающего растра, так как обучающий растр создается только на основе экстента обучающих данных, которые использовались в модели, а растр прогнозирования создается на основе экстента входных объектов прогнозирования и пересечения соответствующих независимых растров.
Проверка модели
Инструмент содержит опции, которые помогают проверить и оценить модель. Рекомендуется использовать эти опции в сочетании с Выходной таблицей кривой ответа и Выходной таблицей чувствительности для оценки качества и применимости модели.
Использование пересчета и перекрестной проверки
Параметры Схема пересчета и Число групп в категории параметров Опции проверки указывают, будет ли перекрестная проверка использоваться в модели.
Если выбрана Произвольная схема пересчета, инструмент разобьет обучающие данные на указанное число групп.
Инструмент начнет выполнять итерации в каждой группе: подбирать данные для текущей группы, которые будут поднабором проверки, и выбирать данные для всех остальных групп, которые станут обучающим поднабором.
Инструмент строит модель, используя обучающий поднабор для группы и прогнозирует присутствие для каждого объекта проверки. Результаты прогнозирования сравниваются с известными величинами присутствия и фона в поднаборе проверки.
Инструмент продолжит процесс итерации, в результате чего каждая группа сыграет роль поднабора проверки. Этот процесс обычно называют Перекрестная проверка K-fold, где K означает число групп.
Для каждой группы фиксируется процент корректно классифицированных объектов присутствия и процент объектов фона, классифицированных как потенциальные объекты присутствия. Диагностики каждой группы помогают оценить, как модель будет прогнозировать присутствие в неизвестных местоположениях. Эти диагностики включаются в сообщения геообработки инструмента.
Для выполнения инструмента и построения модели для перекрестной проверки в обучающих данных необходимо, как минимум, две точки присутствия и две точки фона в обучающем поднаборе для каждой группы. Если инструмент произвольно выберет группы, в которых не обнаружено, как минимум, две точки присутствия и две точки фона в обучающих поднаборах, он попробует перестроить группы, пока не будут соблюдены требования, или число попыток не достигнет 10. Если требования для перекрестной проверки в указанных данных после10 попыток все еще не выполнены, будет показано сообщение с предупреждением, что перекрестная проверка невозможна.
Сообщения геообработки
Важный результат инструмента - отчет, включенный в сообщения геообработки. Отчет содержит важную информацию об обученной модели, включая таблицу параметров модели, диагностики сравнения модели, коэффициенты регрессии, сводку категорийных переменных (если какая-либо из независимых переменных категорийная), сводку перекрестной проверки (для произвольной схемы пересчета) и диагностики диапазонов независимых переменных для обучающих данных и данных прогнозирования (если использовались входные объекты прогнозирования).
Таблица Коэффициентов регрессии содержит список использованных в обучении модели независимых переменных , включая базисные расширения и результирующие коэффициенты. Имена независимых переменных указывают на природу базисного расширения; например, переменные продукта, представляющие композицию переменной Elevation и Climactic Water Deficit называются product(ELEVATION, CLIMACTICWATERDEFICIT) в таблице коэффициентов регрессии.
Таблица Краткой информации перекрестной проверки включает ID каждой группы перекрестной проверки, число наблюдений в поднаборах проверки, процент наблюдаемых объектов присутствия, прогнозированных как присутствие и процент наблюдаемых объектов фона, прогнозируемых как фон.
Таблица Диагностики диапазона независимых переменных включает каждую указанную независимую переменную (в форме поля, объекта расстояния или растра), минимальные и максимальные значения в обучающих данных, и, если использованы входные объекты прогнозирования, минимальные и максимальные значения в данных прогнозирования.
Рекомендации и примеры
Есть ряд полезных примеров и рекомендаций, которые помогут при использовании этого инструмента.
Работа с мультиколлинеарностью
Хотя регуляризация инструмента снижает влияние мультиколлинеарности независимых переменных, рекомендуется выявить и уменьшить количество коррелированных независимых переменных. Для анализа мультиколлинеарности используются матрицы диаграмм, Исследовательская регрессия и Уменьшение измерений
Работа с категорийными данными
Инструмент разбивает входные обучающие данные на группы для выполнения перекрестной проверки, с опцией Произвольный для параметра Схема пересчета. В этом случае любая категория с меньше чем тремя точками данных в результирующей группе будет препятствовать перекрестной проверке и вы получите предупреждающее сообщение, что метод пересчета не может быть применен. Запуск инструмента и более низким значением параметра Число групп уменьшит вероятность возникновения этой проблемы, делая каждую группу больше и давая больше возможности категориям быть частью каждой группы.
Использование и оценка пространственного прореживания
Используйте параметр Выходные обучающие объекты ждя изучения результатов пространственного прореживания Входных точечных объектов.
Для построения модели с использованием пространственного прореживания и применения модели ко всем точечным объектам, укажите одинаковый класс объектов для Входных точечных объектов и Входных объектов прогнозирования.
Установка предельного значения вероятности присутствия
Для определения подходящего значения для Предельного значения вероятности присутствия используйте диаграммы Частоты пропусков и График ROC.
Диаграмма Частоты пропусков визуализирует, как параметр Предельное значение вероятности присутствия влияет на разные соотношения неверно классифицированных точек присутствия, иначе называемых Частоты пропусков. Если вы хотите использовать значение частот пропусков близко к 0, также важно не снижать значение предельного значения только ради минимизации частот пропусков, так как это также сведет к минимуму количество точек фона, классифицируемых как потенциальное присутствие (полезный результат во многих сценариях).
Для оценки того, как разные предельные значения влияют на отношение точек фона, классифицированных как присутствие, используйте диаграмму График ROC. Она включает возможность сравнения корректно классифицированных точек присутствия и точек фона, классифицированных как возможное присутствие с разными предельными значениями вероятности присутствия.
Назначение диаграммы График ROC меняется в зависимости от природы точек фона. Если точки фона представляют отсутствие, а параметр Относительный вес присутствия к фону установлен на 1, диаграмма используется как обычный график ROC в котором чувствительность (корректно классифицированные точки присутствия) максимизирована, а 1-специфичность (фон или отсутствие, классифицированное как присутствие) - минимизировано. В этом случае предельные значение, близкие к верхнему левому углу диаграммы более подходят. Если точки фона представляют неизвестные, но возможные присутствия, диаграмма ROC показывает, насколько разные отношения предельных значений влияют на местоположения фона, оцениваемые как присутствия.
Рекомендуется использовать обе диаграммы в комплексе. Так как вы оцениваете диаграмму частот пропусков для предельного значения по умолчанию 0.5, выберите в качестве кандидата предельного значения точку на диаграмме Частот пропусков, и сравните ее с диаграммой График ROC.
Использование выходных обученных объектов для проверки
Диаграмма Процент результатов классификации показывает результат сравнения наблюдаемой и прогнозируемой классификаций. Вы можете использовать эту диаграмму для оценки способности модели прогнозировать известные точки присутствия. Например, вы можете оценить производительность модели для прогнозирования присутствия в известных точках присутствия, сосредоточившись на доле неверно классифицированных точек присутствия. В случае, если важно прогнозирование присутствия точек фона, диаграмму также можно использовать для просмотра и выбора точек фона, которые прогнозируются как точки присутствия.
Общие критерии выбора модели
Рабочий процесс выбора модели, который можно применить в различных вариантах использования, выглядит следующим образом:
Оценка предельного значения вероятности присутствия по умолчанию - 0.5 и его эффект на способность модели идентифицировать известные местоположения присутствия как присутствие (чувствительность), используя ось Y графика ROC.
Откройте диаграммы Частоты пропусков и График ROC, так, чтобы они располагались рядом. Выберите предельное значение вероятности присутствия - 0.5 и в диаграмме частоты пропусков и оцените результирующую чувствительность по оси Y графика ROC.
Оценка предельного значения вероятности присутствия по умолчанию - 0.5 и его эффект на способность модели идентифицировать известные местоположения фона как фон (1-специфичность), используя ось X графика ROC.
Откройте диаграммы Частоты пропусков и График ROC, так, чтобы они располагались рядом. Выберите предельное значение вероятности присутствия - 0.5 и в диаграмме частоты пропусков и оцените результирующую 1-специфичность по оси X графика ROC.
Если точки фона отражают местоположения с неизвестным присутствием (используя значение параметра Относительный вес присутствия к фону равным 100), это отражает число местоположений фона в отправленных обучающих данных, которые оцениваются как соответствующие потенциальному присутствию.
Если точки фона соответствуют известному отсутствию (на основе значения параметра Относительный вес присутствия к фону - 1), это отражает число ложно положительных ответов (известные местоположения отсутствия, которые ошибочно отмечены как присутствия).
Интерпретация площади под кривой (AUC) в графике ROC - оценочная диагностика способности модели оценивать известные местоположения присутствия как присутствие, и известные местоположения фона как фон. Чем больше площадь под кривой, тем больше подходит эта модель для задачи прогнозирования присутствия.
Хотя площадь под кривой полезна в общей оценочной диагностике, она также важна для принятия решения о назначении модели - для снижения ложно положительных ответов (то есть, прогнозированные местоположения присутствия подразумевают именно присутствие), или ля снижения ложно отрицательных (то есть, прогнозирование не присутствия имеет в виду отсутствие). Баланс двух целей - это значение графика ROC, наиболее близкое к верхнему левому краю диаграммы.
Если несколько моделей показывают схожие диагностики проверки - выбирайте более простую модель. Модель с меньшим количеством и более простыми независимыми переменными проще интерпретировать и объяснить. Следуя принципу бережливости, самое простое объяснение явления обычно является лучшим (Phillips et al.,2006).
Прежде всего, используйте знания предмета и глубокое понимание проблемы при разработке, проверке и использовании модели.
Дополнительные ресурсы
Для получения более подробной информации обратитесь к следующим ресурсам:
Aiello-Lammens, Matthew E., Robert A. Boria, Aleksandar Radosavljevic, Bruno Vilela, Robert P. Anderson. 2015. "spThin: an R package for spatial thinning of species occurrence records for use in ecological niche models." Ecography 38: 541-545.
- Du, Zhaohui , Zhiqiang Wang, Yunxia Liu, Hao Wang, Fuzhong Xue, Yanxun Liu. 2014. "Ecological niche modeling for predicting the potential risk areas of severe fever with thrombocytopenia syndrome." International Journal of Infectious Diseases, 26: 1-8. ISSN 1201-9712. https://doi.org/10.1016/j.ijid.2014.04.006
Elith, Jane, Steven J. Phillips, Trevor Hastie, Miroslav Dudík, Yung En Chee, and Colin J. Yates. 2011. "A statistical explanation of MaxEnt for ecologists." Diversity and Distributions, 17: 43-57. pdf
Fithian, William, Jane Elith, Trevor Hastie, David A. Keith. 2014. "Bias Correction in Species Distribution Models: Pooling Survey and Collection Data for Multiple Species." arXiv:1403.7274v2 [stat.AP].
Fithian, William, Trevor Hastie. 2013. "Finite-sample equivalence in statistical models for presence-only data." The Annals of Applied Statistics, 7, no. 4 (December), 1917-1939.
Merow, Cory, Matthew J. Smith, and John A. Silander, Jr. 2013. "A practical guide to MaxEnt for modeling species’ distributions: what it does, and why inputs and settings matter." Ecography, 36: 1058–1069. pdf
Mobley W, Sebastian A,Highfield W, Brody SD. 2019. "Estimating flood extentduring Hurricane Harvey using maximum entropy tobuild a hazard distribution model." J Flood RiskManagement. 2019;12 (Suppl. 1):e12549. https://doi.org/10.1111/jfr3.12549
Phillips, Steven J., Miroslav Dudik. 2008. "Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation." Ecography 31: 161-175.
Phillips, Steven J. , Robert P. Anderson, Robert E. Schapire. 2006. "Maximum entropy modeling of species geographic distributions." Ecological Modelling, 190: 231-259. pdf
Radosavljevic, Aleksandar, Robert P. Anderson. 2014. "Making better Maxent models of species distributions: complexity, overfitting and evaluation." Journal of Biogeography 41, 629-643.