Многие инструменты в наборе инструментов Пространственная статистика требуют определения окрестности (или концептуализации пространственных отношений), которое определяет, какие объекты являются соседями друг друга, и назначает вес между каждой парой соседей. Вместе соседи и веса определяют матрицу пространственных весов (SWM), которая представляет пространственные отношения между всеми парами объектов. Для N объектов SWM будет иметь N строк и N столбцов (квадратная матрица), где строки представляют первый объект пары, столбцы – второй объект пары, а соответствующее значение в матрице представляет вес (или отношение) между парой. Например, при использовании окрестности смежности полигонов любые два соединенных полигона будут иметь значение 1 в соответствующей ячейке и значение 0, если они не соединены.
Любая квадратная симметричная матрица может быть разложена на N независимых (некоррелированных) компонентов на основе собственных векторов и собственных значений, и каждый компонент представляет собой независимый фактор исходной матрицы (аналогично тому, как анализ главных компонентов выполняет рефакторинг переменных в некоррелированные компоненты). Эти компоненты содержат всю информацию исходной матрицы, но рефакторизуются и разделяются, чтобы их можно было исследовать по отдельности, часто раскрывая основные структуры, скрытые в исходной матрице. Если матрица представляет собой SWM, эти собственные векторы называются собственными векторами Морана (также называемыми пространственными компонентами) и представляют основные пространственные закономерности объектов и SWM.
Каждый собственный вектор Морана присваивает числовое значение каждому объекту, и поскольку они часто отображаются на карте и используются в качестве символов для визуализации пространственных закономерностей, их называют картами собственных векторов Морана (MEM). Первые несколько MEM (с наибольшими собственными значениями и самыми сильными закономерностями) обычно соответствуют большим, глобальным пространственным закономерностям, таким как тренд север-юг или восток-запад, а следующие MEM (с меньшими собственными значениями и более слабыми закономерностями) обычно представляют более локализованные пространственные закономерности. Например, на следующем изображении показаны различные MEM для гексагонального замощения с использованием примыкания полигонов при определении SWM. В верхней строке показаны первые четыре MEM, которые представляют более общие пространственные закономерности, а в нижней строке показаны четыре следующих MEM, закономерности которых более локализованы.
Важно отметить, что создание MEM использует только SWM и местоположения объектов, и не использует какие-либо поля или переменные объектов, поэтому пространственные закономерности могут не соответствовать какой-либо переменной, присутствующей в местоположениях. Вместо этого они представляют потенциальные пространственные закономерности, которые можно комбинировать для представления различных пространственных закономерностей пространственных переменных. Например, если поле объектов имеет широкий тренд с запада на восток, но также содержит небольшие кластеры низких и высоких значений, пространственная закономерность переменной может быть представлена путем объединения двух MEM: одна представляет тренд с запада на восток, а другая представляет кластеры. Более сложные пространственные переменные могут потребовать много разных MEM для адекватного представления их пространственных закономерностей.
MEM также тесно связаны со статистикой Морана I, которая измеряет степень пространственной кластеризации (автокорреляции) пространственной переменной. Первый MEM — это набор значений объектов, который приводит к максимально возможному значению индекса Морана I (максимально возможная пространственная автокорреляция). Второй MEM — это набор значений, который приводит к максимально возможному значению Морана I, учитывая, что значения должны быть некоррелированными со значениями первого MEM. Третий MEM — это набор значений, который приводит к максимально возможному значению I Морана, учитывая, что он должен быть некоррелирован с каждым из первых двух MEM и т. д. Для N объектов можно создать до N MEM, хотя обычно менее 25 процентов MEM представляют полезные пространственные закономерности.
Значение индекса Морана I первого MEM представляет собой максимально возможное значение индекса Морана I для любого поля объектов. Другими словами, если хотя бы одно значение изменилось бы в одном объекте, значение Морана I уменьшилось бы, и переменная была бы менее кластеризованной. Это позволяет вам контекстуализировать значения индекса Морана I ваших фактических данных. Распространенное заблуждение заключается в том, что максимально возможное значение индекса Морана I равно 1 для любого набора данных и любого SWM, но часто максимально возможное значение индекса Морана I значительно меньше 1 (часто всего 0,6) в зависимости от объектов и SWM. Возможно, что максимальное значение индекса Морана I будет больше 1, но это не распространено. Например, если поле ваших данных имеет значение индекса Морана I, равное 0,65, может показаться, что это не очень высокое значение, если вы предположите, что наибольшее возможное значение равно 1, но если первый MEM имеет значение индекса Морана I, равное 0,7, это означает, что поле имеет почти самую высокую возможную пространственную автокорреляцию для вашего SWM. Это также поможет вам выбрать подходящий SWM для вашего анализа, поскольку некоторые SWM будут иметь существенно большие возможные значения индекса Морана I, чем другие.
Использование MEM в пространственном анализе
MEM имеют широкий спектр применения в пространственном анализе, а инструменты в группе инструментов Утилиты пространственного компонента (Собственные векторы Морана) создают и используют MEM различными способами:
Разложение пространственной структуры (Собственные векторы Морана) — создает набор MEM, которые имеют наивысшее значение индекса Морана I для входного класса объектов и SWM. Входные данные — это класс пространственных объектов, а SWM определяется через параметры окрестности. Вы также можете контролировать, сколько MEM будет создано, указав относительное пороговое значение индекса Морана I и максимальное количество MEM. Выходные данные — это класс пространственных объектов с теми же объектами, что и входные данные, с MEM, включенными в качестве полей. МЭМ, созданные инструментом, можно отобразить на карте для визуализации различных пространственных закономерностей SWM и оценки максимального значения индекса Морана I любого поля объектов для SWM.
Сравнение пространственной концептуализации — предлагает схему окрестностей и весов, которая наиболее точно представляет пространственные закономерности одного или нескольких полей класса объектов. Входные данные — это класс объектов и одно или несколько полей, а выходные данные — файл SWM, который можно использовать в других инструментах из набора инструментов Пространственная статистика, которые позволяют использовать пользовательские файлы SWM для определения соседей и весов, например в инструментах Бивариантная пространственная связь (L-статистика Ли), Анализ горячих точек (Getis-Ord Gi*) и Анализ кластеров и выбросов (Anselin локальный индекс Морана I). Инструмент определяет предлагаемый SWM, определяя, какой SWM создает MEM, наиболее точно соответствущий пространственным закономерностям входных полей.
Создание независимых переменных пространственного компонента — создает и выбирает набор MEM, которые наилучшим образом представляют или объясняют пространственные закономерности нескольких полей входного класса объектов. Это полезно, когда вы хотите создать модель (например, обычную модель регрессии наименьших квадратов) и хотите учесть пространственные закономерности переменных. Вы можете предоставить класс объектов и все переменные (независимые и зависимые) в инструменте, и инструмент создаст MEM, которые будут полезны для представления пространственных закономерностей входных полей. Включение этих MEM в качестве независимых переменных в модель прогнозирования (в дополнение к исходным независимым переменным) в целом улучшит модель, обеспечивая более точные оценки коэффициентов исходных независимых переменных и повышая точность прогнозов за счет учета пространственных закономерностей переменных.
Фильтр Пространственной автокорреляции из поля — создает и выбирает набор MEM, которые наилучшим образом удаляют автокорреляцию из входного поля и создают пространственно отфильтрованную версию входного поля. Входное поле будет разделено на пространственные компоненты (MEM) и непространственный компонент (пространственно отфильтрованную версию входного поля). Отфильтрованное поле сохраняет основные статистические свойства поля, одновременно исключая пространственные эффекты, такие как тренды и кластеры. Отфильтрованное поле затем можно использовать в корреляционных рабочих процессах или других анализах, в которых эффект пространства нежелателен и добавляет шум к базовому сигналу поля. Например, вы можете оценить корреляцию между загрязнением и показателями заболеваемости астмой, исключая при этом пространственные эффекты, связанные с обеими переменными, чтобы выделить прямую корреляцию или связь между двумя переменными. Когда входное поле является полем невязок из модели прогнозирования, выбранные MEM могут использоваться в качестве независимых переменных модели прогнозирования (в дополнение к исходным независимым переменным) для удаления пространственной автокорреляции из остаточного члена модели (невязки). Это полезно, поскольку предположение многих моделей прогнозирования заключается в том, что невязки не являются пространственно автокоррелированными.
Дополнительная информация
MEM будут созданы или выбраны только в том случае, если они имеют положительную пространственную автокорреляцию, что означает, что закономерности представляют собой пространственные кластеры, а не равномерное распределение.
Количество созданных MEM будет равно 25 процентам от количества входных объектов, максимум 100. Инструменты Создание независимых переменных пространственного компонента и Фильтр Пространственной автокорреляции из поля будут выбирать из этих MEM, чтобы наиболее эффективно создать независимые переменные или отфильтровать пространственную автокорреляцию.
За исключением инструмента Разложение пространственной структуры (собственные векторы Морана) (который использует одну указанную схему окрестности и взвешивания), инструменты будут тестировать 28 различных SWM и использовать ту, которая создает MEM, наиболее эффективный для задач инструмента. Тестируются следующие SWM:
- Пять диапазонов расстояний, каждый с невзвешенными, гауссовыми и биквадратными ядрами (всего 15). Наиболее короткий диапазон расстояний — это расстояние, которое приводит к появлению по крайней мере одного соседа для каждого объекта. Наиболее длинный диапазон расстояний составляет 20 процентов от диагональной протяженности входных объектов. Остальные три диапазона расстояний создаются путем равномерного увеличения между самыми короткими и самыми длинными диапазонами расстояний. Для полигональных объектов при определении расстояний и соседей используются расстояния между центроидами.
- Четыре различных числа соседей (8, 16, 32 и 64), каждый с невзвешенными, гауссовыми и биквадратными ядрами (всего 12). Ширина полосы будет адаптивной и равной расстоянию до (K+1) соседа для K соседей. Если входных объектов меньше K, то будет пропущено большее количество соседей. Например, если входных объектов 50, то будут пропущены три SWM, использующие 64 ближайших соседа. Для полигональных объектов при определении расстояний и соседей используются расстояния между центроидами.
- Для точечных объектов окончательный SWM — это Окрестность триангуляции Делоне. Для полигональных объектов окончательный SWM — это окрестность смежности (ребра и углы).
Дополнительную информацию о каждом определении окрестности и весовых коэффициентов см. в разделах Как работает инструмент Суммарная статистика окрестности и Моделирование пространственных отношений. В качестве альтернативы вы можете указать пользовательский файл .swm в параметре Входной файл матрицы пространственных весов. Если он задан, файл .swm будет использоваться для создания и выбора MEM, а 28 SWM, указанные выше, не будут проверяться.
Перед расчетом MEM каждый SWM корректируется таким образом, чтобы сумма каждой строки и столбца была равна 0 (это называется двойным центрированием). Когда SWM не является симметричным, например, при использовании количества соседних окрестностей, SWM добавляется к его транспонированию, чтобы сделать его симметричным перед двойным центрированием.
Справочная информация
Для внедрения этих инструментов были использованы следующие ресурсы:
Bauman, David, Thomas Drouet, Stéphane Dray, Jason Vleminckx. 2018. "Отличаем хорошие практики от плохих при выборе пространственных или филогенетических собственных векторов". Ecography 41.10: 1638-1649. https://doi.org/10.1111/ecog.03380.
Bauman, David, Thomas Drouet, Marie-Josée Fortin, Stéphane Dray. 2018. "Оптимизация выбора пространственной весовой матрицы в методах, основанных на собственных векторах". Ecology 99, no. 10: 2159-2166. https://doi.org/10.1002/ecy.2469.
Blanchet, F. Guillaume, Pierre Legendre, Daniel Borcard. 2008. "Предварительный выбор объясняющих переменных". Ecology 89, no. 9: 2623-2632. https://doi.org/10.1890/07-0986.1.
Dray, Stéphane, David Bauman, Guillaume Blanchet, Daniel Borcard, Sylvie Clappe, Guillaume Guenard, Thibaut Jombart, Guillaume Larocque, Pierre Legendre, Naima Madi, Helene H. Wagner. 2022. "adespatial: многомерный многомасштабный пространственный анализ". Версия пакета R 0.3-16. https://CRAN.R-project.org/package=adespatial.
Griffith, Daniel A. 2003. "Пространственная автокорреляция и пространственная фильтрация". Достижения в области пространственной науки. Springer. ISBN 978-3-540-24806-4. https://doi.org/10.1007/978-3-540-24806-4.
Griffith, Daniel A., and Pedro R. Peres-Neto. 2006. "Пространственное моделирование в экологии: гибкость пространственного анализа собственных функций". Ecology 87, no. 10: 2603-2613. https://doi.org/10.1890/0012-9658(2006)87[2603:SMIETF]2.0.CO;2.