Поиск кластеров точек (GeoAnalytics)

Краткая информация

Находит кластеры точечных объектов в окружающем шуме, на основе пространственного или пространственно-временного распределения.

Более подробно о работе инструмента Кластеризация на основе плотности

Иллюстрация

Диаграмма Кластеризация на основе плотности

Использование

  • Этот инструмент геообработки доступен с версией ArcGIS Enterprise 10.6 или более новой.

  • В инструменте Поиск кластеров точек используется один входной точечный слой. Этот инструмент извлекает кластеры из Входного точечного слоя и определяет окружающий шум.

  • Для инструмента Поиск кластеров точек необходимо, чтобы Входной точечный слой был в системе координат проекции, или чтобы параметр среды Выходная система координат был установлен на система координат проекции.

  • Есть два Метода кластеризации. Заданное расстояние (DBSCAN) использует алгоритм DBSCAN и находит кластеры точек в непосредственной близости, на основе заданного расстояния поиска. Автонастройка (HDBSCAN) применяет алгоритм HDBSCAN (доступный в ArcGIS Enterprise 10.7 и более поздней версии) и находит кластеры точек так же, как и DBSCAN, но работает с меняющимися расстояниями, позволяя определить кластеры с меняющимися плотностями, на основе вероятности кластеров (или стабильности). Если выбран DBSCAN, кластеры могут быть найдены либо только в двумерном пространстве, либо и в пространстве, и во времени. Если вы установите отметку Использовать время для поиска кластеров, а входной слой имеет включенное время и тип Мгновенный, DBSCAN обнаружит пространственно-временные кластеры точек, находящихся в непосредственной близости, на основе заданного расстояния поиска и продолжительности поиска (поддерживается в ArcGIS Enterprise 10.8 и более поздних версиях).

  • Параметр Минимальное число объектов на кластер, используется по-разному, в зависимости от выбранного метода кластеризации:

    • Заданное расстояние (DBSCAN) – определяет число объектов, которое должно быть найдено в радиусе поиска от точки, с которой начинается формирование кластера. В результатах могут встречаться кластеры с меньшим числом объектов, чем задано этим значением. Расстояние поиска настраивается в параметре Расстояние поиска. При использовании времени для поиска кластеров требуется Длительности поиска. При поиске содержимого кластеров Минимальное число объектов на кластер должно находиться в пределах Расстояния поиска и Длительности поиска, чтобы сформировать кластер. Обратите внимание, что это расстояние и длительность не связаны с диаметром или временным экстентом обнаруженных кластеров точек.
    • Самонастраивающаяся кластеризация (HDBSCAN)–- задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.

  • Этот инструмент создает выходной класс объектов с новым целочисленным полем CLUSTER_ID, где обозначается принадлежность объектов кластерам. Отображение по умолчанию основано на поле COLOR_ID. Разным кластерам присваиваются различные цвета. Цвета распределяются и повторяются таким образом, что каждый кластер визуально отличается от соседних.

  • Если для обнаружения пространственно-временных кластеров используется метод кластеризации Заданное расстояние (HDBSCAN), в результаты также будут включены следующие поля:

    • FEAT_TIME – Исходное мгновенное время каждого объекта.
    • START_DATETIME – время начала временного экстента кластера, к которому принадлежит объект.
    • END_DATETIME – время окончания временного экстента кластера, к которому принадлежит объект.

    Свойства времени результирующего слоя будут установлены как интервал в полях START_DATETIME и END_DATETIME, гарантируя, что все элементы кластера будут нарисованы вместе при визуализации пространственно-временных кластеров с помощью бегунка времени. Эти поля используются только для визуализации. Для объектов шума поля START_DATETIME и END_DATETIME будут равны FEAT_TIME.

  • Если выбран Метод кластеризации Автонастройка (HDBSCAN), в выходном классе объектов также будут содержаться следующие поля:

    • PROB – вероятность принадлежности объекта к назначенному ему кластеру.
    • OUTLIER – вероятность того, что объект является выбросом со своим собственным кластером. Более значение означает большую вероятность выброса.
    • EXEMPLAR – обозначает наиболее репрезентативные объекты каждого кластера. Такие объекты обозначаются значением 1.
    • STABILITY - присутствие каждого кластера в диапазоне масштабов. Большее значение показывает, что кластер входит в более широкий диапазон масштабов.

  • При использовании алгоритма HDBSCAN со слоем, содержащим более 3 миллионов объектов, может произойти сбой, если администратор не увеличил значение параметра javaHeapSize в GeoAnalyticsTools GP Service. Для 3 миллионов объектов требуется около 2 ГБ свободного пространства. Количество RAM, указанное в javaHeapSize, должно быть доступно на каждом компьютере GeoAnalytics Server, в дополнение к 16 ГБ, обычно требующимися для GeoAnalytics Server. Например, если необходимо кластеризовать 9 миллионов объектов методом HDBSCAN, необходимо задать для javaHeapSize не менее 6144 МБ, или 6 ГБ. В этом случае, каждый компьютер GeoAnalytics Server должен иметь не менее 22 ГБ доступной RAM.

  • Можно повысить производительность инструмента Найти кластеры точек, выполнив одно или несколько из следующих действий:

    • Установите параметр среды Экстент так, чтобы вы анализировали только интересующие вас данные.
    • Выбирайте расстояние и длительность поиска. Меньшее расстояние поиска или радиус могут работать лучше на тех же данных.
    • Используйте локальные данные там, где запускается анализ.

  • Этот инструмент геообработки работает на ArcGIS GeoAnalytics Server. Анализ выполняется на вашем GeoAnalytics Server, а результаты сохраняются в ресурсы на вашем ArcGIS Enterprise.

  • При работе инструментов GeoAnalytics Server, анализ выполняется на GeoAnalytics Server. Для оптимальной производительности сделайте данные доступными для GeoAnalytics Server через векторные слои, размещенные на вашем портале ArcGIS Enterprise или через файловое хранилище больших данных. Данные, которые не являются локальными для GeoAnalytics Server, будут перемещены на GeoAnalytics Server до начала анализа. Это означает, что для запуска инструмента потребуется больше времени, а в некоторых случаях перемещение данных с ArcGIS Pro на GeoAnalytics Server может завершиться ошибкой. Порог сбоя зависит от скорости сети, а также от размера и сложности данных. Соответственно рекомендуется всегда предоставлять доступ к данным или создавать файловое хранилище больших данных.

    Более подробно о публикации локаторов на портале

    Более подробно о создании файловых хранилищ больших данных в Server Manager

Параметры

ПодписьОписаниеТип данных
Входной точечный слой

Класс точечных объектов, содержащий кластеры точек.

Feature Set
Выходное имя

Имя выходного сервиса пространственных объектов.

String
Минимальное число объектов на кластер

Этот параметр используется по-разному, в зависимости от выбранного метода кластеризации:

  • Заданное расстояние (DBSCAN) – определяет число объектов, которое должно быть найдено в пределах указанного расстояния от точки, с которой начинается формирование кластера. Расстояние настраивается в параметре Расстояние поиска.
  • Самонастраивающаяся кластеризация (HDBSCAN)–- задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.

Long
Расстояние поиска

Максимальное расстояние поиска.

Заданное Минимальное число объектов на кластер должно быть найдено в пределах этого расстояния, чтобы отнести объекты к данному кластеру. Отдельные кластеры будут разделяться, как минимум, этим расстоянием. Если объект расположен дальше, чем это расстояние, от следующего ближайшего объекта в кластере, он не будет включен в кластер.

Linear Unit
Хранилище данных
(Дополнительный)

Задает ArcGIS Data Store, где будут сохраняться выходные данные. По умолчанию это Хранилище больших пространственно-временных данных. Все результаты, находящиеся в хранилище пространственно-временных больших данных, будут храниться в системе WGS84. Результаты в реляционном хранилище данных сохраняют свои систему координат.

  • Хранилище пространственно-временных больших данныхРезультаты будут храниться в хранилище больших пространственно-временных данных. Это значение по умолчанию.
  • Реляционное хранилище данныхРезультаты будут храниться в хранилище реляционных данных.
String
Метод кластеризации
(Дополнительный)

Задает метод, который будет использован для определения кластеров.

  • Заданное расстояние (DBSCAN) Использует указанное расстояние для отделения плотных кластеров от окружающего шума. DBSCAN является наиболее быстрым методом кластеризации, но подходит только при наличии четкого расстояния, что хорошо подходит для поиска всех представленных кластеров. Это приводит к получению кластеров с похожей плотностью. Используется по умолчанию.
  • Автонастройка (HDBSCAN) Использует различные расстояния для отделения кластеров с различными плотностями от окружающего шума. HDBSCAN является наиболее ориентированным на данные методом кластеризации, для него требуется минимум участия пользователя.
String
Использование времени для поиска кластеров
(Дополнительный)

Указывает, будет ли использоваться время для обнаружения кластеров с помощью DBSCAN.

  • Отмечено – пространственно-временные кластеры будут найдены с использованием расстояния и длительности поиска.
  • Не отмечено – пространственные кластеры будут найдены с использованием расстояния поиска, а время будет проигнорировано. Используется по умолчанию.
Boolean
Длительность поиска
(Дополнительный)

При поиске участников кластера заданное минимальное количество точек должно быть найдено в течение этой длительности времени, чтобы сформировать кластер.

Time Unit

Производные выходные данные

ПодписьОписаниеТип данных
Выходной векторный слой

Выходные кластеры точек.

Набор объектов

arcpy.geoanalytics.FindPointClusters(input_points, output_name, minimum_points, search_distance, {data_store}, {clustering_method}, {use_time}, {search_duration})
ИмяОписаниеТип данных
input_points

Класс точечных объектов, содержащий кластеры точек.

Feature Set
output_name

Имя выходного сервиса пространственных объектов.

String
minimum_points

Этот параметр используется по-разному, в зависимости от выбранного метода кластеризации:

  • Заданное расстояние (DBSCAN) – определяет число объектов, которое должно быть найдено в пределах указанного расстояния от точки, с которой начинается формирование кластера. Расстояние настраивается в параметре Расстояние поиска.
  • Самонастраивающаяся кластеризация (HDBSCAN)–- задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.

Long
search_distance

Максимальное расстояние поиска.

Заданное Минимальное число объектов на кластер должно быть найдено в пределах этого расстояния, чтобы отнести объекты к данному кластеру. Отдельные кластеры будут разделяться, как минимум, этим расстоянием. Если объект расположен дальше, чем это расстояние, от следующего ближайшего объекта в кластере, он не будет включен в кластер.

Linear Unit
data_store
(Дополнительный)

Задает ArcGIS Data Store, где будут сохраняться выходные данные. По умолчанию – SPATIOTEMPORAL_DATA_STORE. Все результаты, находящиеся в хранилище пространственно-временных больших данных, будут храниться в системе WGS84. Результаты в реляционном хранилище данных сохраняют свои систему координат.

  • SPATIOTEMPORAL_DATA_STOREРезультаты будут храниться в хранилище больших пространственно-временных данных. Это значение по умолчанию.
  • RELATIONAL_DATA_STOREРезультаты будут храниться в хранилище реляционных данных.
String
clustering_method
(Дополнительный)

Задает метод, который будет использован для определения кластеров.

  • DBSCAN Использует указанное расстояние для отделения плотных кластеров от окружающего шума. DBSCAN является наиболее быстрым методом кластеризации, но подходит только при наличии четкого расстояния, что хорошо подходит для поиска всех представленных кластеров. Это приводит к получению кластеров с похожей плотностью. Используется по умолчанию.
  • HDBSCAN Использует различные расстояния для отделения кластеров с различными плотностями от окружающего шума. HDBSCAN является наиболее ориентированным на данные методом кластеризации, для него требуется минимум участия пользователя.
String
use_time
(Дополнительный)

Указывает, будет ли использоваться время для обнаружения кластеров с помощью DBSCAN.

  • TIMEПространственно-временные кластеры будут найдены с использованием расстояния и длительности поиска.
  • NO_TIMEПространственные кластеры будут найдены с использованием расстояния поиска, а время будет проигнорировано. Используется по умолчанию.
Boolean
search_duration
(Дополнительный)

При поиске участников кластера заданное минимальное количество точек должно быть найдено в течение этой длительности времени, чтобы сформировать кластер.

Time Unit

Производные выходные данные

ИмяОписаниеТип данных
output

Выходные кластеры точек.

Набор объектов

Пример кода

FindPointClusters, пример (автономный скрипт)

В следующем скрипте окна Python показано, как используется инструмент FindPointClusters.

#-------------------------------------------------------------------------------
# Name: FindPointClusters.py
# Description: Finds Point Clusters of rodent infestations
#
# Requirements: ArcGIS GeoAnalytics Server
# Import system modules
import arcpy
# Set local variables
inputPoints = "https://myGeoAnalyticsMachine.domain.com/geoanalytics/rest/services/DataStoreCatalogs/bigDataFileShares_countyData/BigDataCatalogServer/rat_sightings"
minimumPoints = 10
outputName = "RodentClusters"
searchDistance = "1 Kilometers"
dataStore = "SPATIOTEMPORAL_DATA_STORE"
clusterMethod = "DBSCAN"
# Execute Find Point Clusters
arcpy.geoanalytics.FindPointClusters(inputPoints, outputName, mimimumPoints, 
                                     searchDistance, dataStore, clusterMethod)

Параметры среды

Особые случаи

Выходная система координат

Система координат, используемая при анализе. Если данный параметр не указан, анализ будет выполнен во входной системе координат. Для GeoAnalytics Tools готовые результаты будут храниться в пространственно-временном хранилище данных в системе координат WGS84.

Информация о лицензиях

  • Basic: Обязательно ArcGIS GeoAnalytics Server
  • Standard: Обязательно ArcGIS GeoAnalytics Server
  • Advanced: Обязательно ArcGIS GeoAnalytics Server

Связанные разделы