Как работает Оценка размеров бинов для агрегирования точек

Инструмент Оценка размеров бинов для агрегирования точек поможет вам выбрать подходящий размер бина при агрегировании количества точек в квадратные или шестиугольные бины, расположенные в виде замощения. Инструмент также позволяет оценивать различные другие размеры бинов, чтобы определить, как изменятся полученные подсчеты и закономерности, если вместо этого будут использоваться бины других размеров.

Агрегирование числа точек в шестиугольные бины

Агрегирование и подсчет точек в бинах - это обычный рабочий процесс в ГИС, включая агрегирование экстренных вызовов, перебоев в обслуживании и наблюдений за животными. Он также используется для лучшей визуализации больших массивов точек и защиты конфиденциальности путем скрытия расположений отдельных точек. Однако, несмотря на множество применений, существует относительно мало указаний относительно того, какого размера должны быть эти бины. На практике размеры бинов часто выбираются исходя из удобства (например, используется круглое число) или в зависимости от того, какой размер бина обеспечивает наиболее приятные визуальные результаты. Однако выбор масштаба изменяет как то, что вы можете обнаружить, так и то, как вы это интерпретируете (пример проблемы с изменяемой единицей измерения площади), поэтому важно принимать обоснованные и воспроизводимые решения. Также важно определить, насколько итоговое количество точек зависит от размера бина: приведет ли использование большего или меньшего размера бина к различным закономерностям и выводам?

По сути, определение подходящего размера бина для объединения точечных данных в бины является проблемой масштаба. Слишком маленькие бины будут в основном пустыми, и их количество будет неустойчивым, а слишком большие бины будут размыты и скроют важные локальные закономерности. Подходящий размер бина - это такой, который достаточно велик для получения большого количества точек (вместо многих пустых бинов с небольшим количеством больших численностей), но при этом достаточно мал, чтобы локальные паттерны точек сохранялись в результирующих бинах (вместо того, чтобы быть агрегированными).

Чтобы определить подходящий размер бина, ряд подходящих размеров бинов оценивается с использованием двух критериев: внутренняя однородность и разнообразие количества точек. Показатель внутренней однородности измеряет, являются ли точки внутри каждого бина случайными в пространственном отношении, и почти всегда отдает предпочтение бинам меньшего размера. И наоборот, показатель разнообразия количества точек измеряет, насколько равномерно распределены результирующие бины, и почти всегда предпочтение отдается бинам большего размера.

Кривые разнообразия количества точек и внутренней однородности

Эти два показателя (каждый из которых имеет значение от 0 до 1) затем умножаются друг на друга, чтобы получить единый оценочный балл для каждого размера бина, и инструмент рекомендует размер бина с наибольшим оценочным баллом. Кривая оценки также позволяет вам увидеть, как другие размеры бина отличаются от размера бина, рекомендованного инструментом.

Кривая оценки

См. раздел Дополнительные сведения об оценке размера бина ниже для получения дополнительной информации об оценочных баллах и способах их расчета.

Определите соответствующую границу агрегирования

В дополнение к указанию точек, которые будут агрегированы, вы также должны использовать параметр Границы агрегирования, чтобы определить область, в которой будут агрегированы точки и созданы бины. Граница агрегирования (иногда называемая изучаемой областью или областью интереса) должна определять область, в которой точки могут встречаться и регистрироваться. Например, при агрегировании экстренных вызовов в пределах города в качестве границы агрегирования следует использовать границу города, поскольку экстренный вызов может поступить из любой точки города, а любой вызов из-за пределов города не будет включен в набор данных. Хотя заманчиво думать, что бины создаются, а затем привязываются к границе агрегирования, на самом деле эта граница оказывает глубокое влияние на результаты оценки и рекомендуемый размер бина. Выбор неподходящей границы агрегирования часто приводит к нереалистично большим или малым рекомендуемым размерам бинов, поэтому настоятельно рекомендуется выбрать наиболее подходящую границу для ваших данных.

Предоставление границы для определения того, где могут встречаться точки, а где нет, важно, поскольку инструмент должен уметь определять, отсутствуют ли в районе точки из-за того, что в нем не было инцидентов (например, в какой-то части города не было ограблений в течение определенной недели), или из-за невозможности наблюдения точек в этом районе (например наблюдение китов на суше). Поскольку инструмент оценивает разнообразие результирующих значений количества точек в бинах, значения, равные нулю, так же важны, как и любые другие значения, и инструмент позволит избежать размеров бинов, которые приводят к появлению большого количества бинов без точек. На практике это означает, что если граница агрегирования слишком велика (это означает, что она содержит много областей, в которых точки не могут быть записаны), рекомендуемый размер бина будет нереально большим, чтобы заполнить пробелы и уменьшить количество пустых бинов. И наоборот, если изучаемая область слишком мала, инструмент порекомендует меньшие размеры бинов, чтобы увеличить количество бинов без точек.

Если известна подходящая граница агрегирования для точек (например, граница города), выберите опцию Пользовательские полигоны и укажите границу в параметре Пользовательские полигоны. Вы также можете интерактивно нарисовать границу агрегирования, используя интерактивный ввод объектов.

Если подходящая граница агрегирования неизвестна, граница может быть создана автоматически с использованием опций Вогнутая оболочка, Выпуклая оболочка или Конверт (см. Минимальная ограничивающая геометрия для получения дополнительной информации). При использовании автоматически созданной границы вы всегда должны визуально оценивать, адекватно ли она отображает точки. Если граница не подходит, используйте другой вариант или нарисуйте в интерактивном режиме границу, которая лучше отображает точки.

На следующем изображении показаны результирующие размеры бинов для одних и тех же данных с использованием всех опций параметра Границы агрегирования. Пользовательская опция использует фактическую границу, на которой были собраны точки. Для других наборов данных (и особенно тех, которые имеют пространственные выбросы) разница в результирующих размерах бинов и их паттернах может быть еще более значительной.

Границы агрегирования

Выходные данные инструмента

Инструмент создает три выходных результата, которые содержатся в составном слое. Основным выходным результатом является класс полигональных объектов агрегированных бинов с использованием рекомендуемого размера бина. Слой обозначается количеством точек в каждом бине.

Второй выходной результат - это класс полигональных объектов границы агрегирования, который использовался инструментом. Этот вывод наиболее полезен для параметров вогнутой и выпуклой оболочки, чтобы увидеть форму границ. Третьим результатом является таблица, содержащая оценочные баллы для всех размеров бинов, протестированных с помощью инструмента. К таблице прилагаются две диаграммы, которые можно использовать для определения размеров бинов.

Диаграмма Оценка баллов в зависимости от размера бинов

На диаграмме Оценка баллов в зависимости от размера бинов отображаются оценки по всем протестированным размерам бинов. Синие точки на диаграмме - это исходные оценки размеров бинов, которые сглаживаются с помощью сплайна (синяя кривая). Наибольшее значение синей кривой соответствует рекомендуемому размеру бина и обозначено вертикальной оранжевой линией. Светло-оранжевая доверительная область также отображается вокруг рекомендуемого размера бина, и любой размер бина в этом диапазоне имеет оценочный балл, который ненамного ниже рекомендуемого размера бина, поэтому вы можете выбрать любое значение в этом диапазоне (например, выбрать округленное число) без существенного снижения оценочного балла.

Диаграмма Оценка баллов в зависимости от размера бинов

Рекомендуемый размер бина и соответствующая площадь каждого бина указаны в нижней части диаграммы. Для квадратных бинов размер бина равен ширине или высоте каждого квадрата, а для шестиугольников размер бина равен высоте каждого шестиугольника (расстояние от одного плоского края до противоположного плоского края).

Примечание:

Наименьший протестированный размер бина (минимальное значение по оси x) - это размер бина, при котором на каждую входную точку приходится 20 бинов (другими словами, бины настолько малы, что более чем в 95 процентах из них точек не будет), а наибольший размер бина (максимальное значение оси x) составляет 25 процентов от протяженности по оси x или y, в зависимости от того, что больше. Инструмент проверяет 100 размеров бинов с равномерным увеличением от минимального до максимального.

Диаграмма Внутренняя однородность и разнообразие числа точек в зависимости от размера бина

На диаграмме Внутренняя однородность и разнообразие числа точек в зависимости от размера бина показаны два критерия, которые были объединены вместе для получения оценочных баллов. Для каждого тестируемого размера бина зеленая кривая отображает показатель внутренней однородности, а фиолетовая кривая показывает показатель разнообразия по количеству баллов. Обычно зеленая кривая уменьшается, а фиолетовая увеличивается. Рекомендуемый размер бина и доверительный интервал также отображаются в зависимости от контекста. Рекомендуемый размер бина, как правило, соответствует приемлемым показателям по обоим критериям, что указывает на эффективный баланс между противоположными критериями. См. раздел Дополнительные сведения об оценке размера бина ниже для получения дополнительной информации о каждом критерии.

Диаграмма Внутренняя однородность и разнообразие числа точек в зависимости от размера бина

Сообщения геообработки

Сообщения этого инструмента включают раздел Сводка результатов и раздел Сводная информация по агрегированию. В сводке результатов отображается рекомендуемый размер бина и соответствующая область бина. Для шестиугольников он также отображает длину стороны каждого шестиугольника. Сводная информация по агрегированию содержит различные сводные статистические данные о результирующих бинах и количестве баллов, такие как количество точек, количество бинов, среднее количество баллов и площадь границы агрегирования.

Лучшие практики и ограничения

Ниже приведены рекомендации и ограничения по использованию инструмента:

  • Инструмент предполагает, что существует единый размер бина, подходящий для агрегирования точек. Однако во многих случаях не существует единого размера бина, который бы адекватно отображал точки по всей границе агрегирования. Например, в крупном округе, где есть сельские районы с низкой плотностью населения и городские районы с высокой плотностью населения, может быть трудно объединить экстренные вызовы по всему округу. Бины, достаточно маленькие, чтобы адекватно отражать городские районы, в сельской местности будут в основном пустыми, в то время как бины, достаточно большие для сельской местности, превратят городские центры всего в несколько бинов. Общим признаком этой проблемы являются очень широкие доверительные интервалы вокруг рекомендуемого размера бина, что указывает на высокую неопределенность в отношении того, какой размер бина следует использовать. Потенциальное решение состоит в том, чтобы разделить точки на разные наборы данных и агрегировать их по отдельности, используя бины разного размера.

  • Этот инструмент лучше всего подходит, когда вы собираетесь выполнить какой-либо анализ, используя результирующее количество точек (например, анализ горячих точек или анализ локальных выбросов), а не простое картографическое сглаживание. Несмотря на то, что сглаживание больших массивов точек может быть эффективным для улучшения визуального представления, основная цель этого инструмента - создание агрегированных бинов, которые наилучшим образом сохраняют пространственную структуру точек и позволяют подсчитывать количество точек, необходимое для анализа.
  • Большое количество совпадающих точек (несколько точек с одной и той же координатой) может привести к нереалистичным размерам бина. Инструмент выдаст предупреждение, если какие-либо из входных точек совпадут.

Дополнительные сведения об оценке размера бина

Общая методология этого инструмента заключается в оценке диапазона размеров бинов с использованием двух показателей: внутренней однородности и разнообразия количества точек. Каждому размеру бина присваивается оценка от 0 до 1 по каждому показателю, и значения умножаются друг на друга для получения итоговой оценки, которая уравновешивает оба критерия. Показатель внутренней однородности обычно предпочитает меньшие размеры бинов, в то время как показатель разнообразия по количеству баллов обычно предпочитает большие размеры бинов, поэтому размеры бинов с наивысшими оценочными баллами находятся посередине, что обеспечивает наилучший компромисс между противоположными критериями. В следующих разделах более подробно описаны эти два критерия.

Внутренняя однородность

Показатель внутренней однородности измеряет, равномерно ли распределены точки в результирующих бинах. Например, на изображении ниже точки в бине слева сильно сгруппированы в углу, но по всему бину справа точки разбросаны беспорядочно и равномерно, поэтому бин справа имеет более высокую внутреннюю однородность.

Пример внутренней однородности

Внутренняя однородность важна для того, чтобы избежать выбора размера бина, который скрывает важные местные особенности. Если точки внутри бина образуют сильный кластер или паттерн, их суммирование с помощью единого подсчета может ввести в заблуждение. Этот показатель проверяет, расположены ли точки в каждом бине случайным образом, что позволяет предположить, что бин представляет собой справедливую и репрезентативную сводку точек, находящихся в нем. Когда во многих бинах отображаются структурированные паттерны, это признак того, что размер бина может быть слишком большим, что скрывает важные паттерны внутри бинов.

Показатель рассчитывается путем проверки каждого бина на полную пространственную случайность, и значение представляет собой долю бинов с p-значением, превышающим 0,05 (это означает, что они не были определены как кластеризованные). Бины без точек не включаются в пропорцию, поскольку пустые бины нельзя классифицировать как пространственно случайные или сгруппированные.

Тест на полную пространственную случайность делит каждый бин на несколько бинов меньшего размера. Для квадратов бин делится на 25 меньших квадратов, а для шестиугольников бин делится на 24 треугольника. Затем количество точек внутри квадратов или треугольников проверяется на однородность с помощью критерия соответствия хи-квадрат.

Разнообразие числа точек

Показатель разнообразия числа точек количественно определяет разнообразие количества точек в бинах и поддерживает размеры бинов, которые приводят к большому разнообразию значений количества, избегая размеров бинов с большим количеством пустых бинов наряду с небольшим количеством бинов с большим количеством точек. С концептуальной точки зрения, это способствует обогащению информации, отражая идею о том, что агрегирование должно приводить к значительному изменению и разнообразию количества точек, что особенно желательно, когда вы собираетесь провести анализ (например, анализ горячих точек) на основании количества точек. На практике этот показатель имеет тенденцию к увеличению с увеличением размера бина, поскольку в больших бинах, как правило, накапливается больше разнообразных и равномерно распределенных количеств.

Например, на изображении ниже бины внизу дают более широкое разнообразие и более равномерное распределение количества очков, чем бины вверху, поэтому нижние бины получат более высокий балл за разнообразие количества очков. В целом, чем ближе распределение количества баллов к равномерному (плоскому), тем выше оценка.

Пример разнообразия числа точек

Показатель рассчитывается с использованием нормализованной меры энтропии Шеннона. Для каждого размера бина распределение количества бинов делится на пять равных интервалов и вычисляется энтропия этого распределения. Затем эта энтропия делится на энтропию равномерного распределения, в результате чего получается оценка от 0 до 1.

Примечание:

Баллы внутренней однородности и разнообразие числа точек генерируются путем моделирования случайных квадратов или шестиугольников в пределах границы агрегирования, а не путем построения полного замощения для каждого размера бина. Это повышает скорость обработки, но при повторном запуске инструмента результаты будут немного отличаться. Однако вы можете использовать среду Генератора случайных чисел, чтобы обеспечить воспроизводимость результатов. Количество моделируемых полигонов для каждого размера бина рассчитывается таким образом, чтобы в среднем 75 процентов границы агрегирования было покрыто моделированием.

Начальные доверительные интервалы

Оранжевые доверительные интервалы вокруг рекомендуемого размера бина на графиках построены с использованием начальных значений. Этот процесс случайным образом пересчитывает оценочные баллы с заменой и вычисляет сплайн для каждого пересчитанного набора оценочных баллов. Для каждой повторной выборки записывается оценка исходного рекомендованного размера бина и определяется пятый процентиль. Любой размер бина, оценочный балл которого превышает это значение, будет включен в доверительный интервал. Эти размеры бинов могут быть интерпретированы как имеющие оценочные баллы, которые ненамного ниже, чем оценочный балл размера бина, рекомендованного инструментом.

Шестиугольники H3

Инструмент не допускает объединения в шестиугольники H3. Однако при объединении в шестиугольники вы можете отобразить соответствующие разрешения H3 в качестве ориентиров в диаграмме Оценка баллов в зависимости от размера бинов. По умолчанию направляющие отключены, но вы можете включить их на вкладке Направляющие панели Свойства диаграммы.

Свойства диаграммы Шестиугольники H3

Если эта функция включена, направляющие (пунктирные вертикальные серые линии) позволяют вам увидеть результаты оценки разрешений H3, которые находятся в пределах диапазона протестированных размеров бинов, и выбрать наилучший вариант для ваших данных. Например, на изображении ниже, разрешение H3 равное 4 имеет наивысшую оценку, наиболее близко к рекомендуемому размеру бина и находится в пределах доверительного интервала.

Направляющие шестиугольников H3

Список литературы

Для внедрения этого инструмента были использованы следующие ресурсы:

  • Ramos, Rafael G. 2025. "Finding an Adequate Areal Unit to Map Crime: A Spatial Data Perspective." New Research in Crime Modeling and Mapping Using Geospatial Technologies (pp. 27-44). Cham: Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-81580-5_2.

Связанные разделы