Rechercher des agrégats de points (GeoAnalytics)

Résumé

Recherche des agrégats d’entités ponctuelles dans le bruit environnant en fonction de leur distribution spatiale ou spatiotemporelle.

Pour en savoir plus sur le fonctionnement de l’outil Agrégation basée sur la densité

Illustration

Diagramme d’agrégation basée sur la densité

Utilisation

  • Cet outil de géotraitement est disponible avec ArcGIS Enterprise 10.6.1 ou version ultérieure.

  • L’entrée de l’outil Rechercher des agrégats de points est une couche de points. Cet outil extrait les agrégats de la Input Point Layer (Couche de points en entrée) et identifie tout bruit environnant.

  • L’outil Rechercher des agrégats de points exige la projection de la couche de points en entrée (Input Point Layer) ou la définition du système de coordonnées en sortie sur un système de coordonnées projetées.

  • Il existe deux options pour le paramètre Clustering Method (Méthode d’agrégation). Defined distance (DBSCAN) (Distance définie [DBSCAN]) utilise l’algorithme DBSCAN et recherche les agrégats de points se trouvant à proximité en fonction de la distance de recherche spécifiée. La méthode Self-adjusting (HDBSCAN) (Ajustement automatique [HDBSCAN]) utilise l’algorithme HDBSCAN (disponible avec ArcGIS Enterprise 10.7 et version ultérieure) et recherche les agrégats de points, comme la méthode DBSCAN utilisant des distances variables. Cela permet de rechercher des agrégats de densité variable selon la probabilité de l’agrégation (c’est-à-dire leur stabilité). Si la méthode DBSCAN est retenue, les agrégats se trouvent dans un espace bidimensionnel uniquement ou dans l’espace et le temps. Si vous cochez l’option Use time to find clusters (Utiliser le temps pour rechercher des agrégats) et que la couche en entrée prend en charge la dimension du temps de type instant, DBSCAN détecte les agrégats de points spatiotemporels qui sont à proximité immédiate en se basant sur la distance de recherche et la durée de recherche spécifiées (prise en charge dans ArcGIS Enterprise 10.8 et version ultérieure).

  • Le paramètre Minimum Features Per Cluster (Nombre minimum d’entités par agrégat) est utilisé différemment selon la méthode d’agrégation :

    • Defined distance (DBSCAN) (Distance définie [DBSCAN]) : spécifie le nombre d’entités devant figurer à une distance de recherche donnée d’un point pour que ce point commence la formation d’un agrégat. Les résultats peuvent inclure des grappes avec moins d’entités que cette valeur. La distance de recherche est définie à l’aide du paramètre Search Distance (Distance de recherche). Lorsque vous utilisez le temps pour recherche des agrégats, Search Distance (Distance de recherche) est obligatoire. Lorsque vous recherchez les membres d’un agrégat, le nombre minimum d’entités par agrégat (paramètre Minimum Features per Cluster) doit se trouver dans la distance de recherche et la durée de recherche indiquées pour former un agrégat. Notez que la distance et la durée en question sont sans rapport avec le diamètre ou l’étendue temporelle des agrégats de points détectés.
    • Self-adjusting (HDBSCAN) (Ajustement automatique [HDBSCAN]) : spécifie le nombre d’entités figurant dans le voisinage de chaque point (point inclus) à prendre en compte lors de l’estimation de la densité. Ce nombre correspond également à la taille minimale autorisée pour un agrégat lors de l’extraction des agrégats.

  • Cet outil produit une classe d’entités en sortie avec un nouveau champ d’entier nommé CLUSTER_ID, qui identifie l’agrégat dans lequel se trouve chaque entité. Le rendu par défaut dépend du champ COLOR_ID. Les agrégats se verront attribuer une couleur. Les couleurs seront assignées et répétées de sorte que chaque agrégat soit visuellement distinct des agrégats voisins.

  • Si la méthode d’agrégation Defined distance (DBSCAN) (Distance définie [DBSCAN]) est utilisée avec le temps pour détecter des agrégats spatiotemporels, les résultats incluront également les champs suivants :

    • FEAT_TIME : instant d’origine de chaque entité.
    • START_DATETIME : heure de début de l’étendue temporelle du cluster auquel une entité appartient.
    • END_DATETIME : heure de fin de l’étendue temporelle du cluster auquel une entité appartient.

    Les propriétés temporelles de la couche obtenue sont définies comme l’intervalle constitué par les champs START_DATETIME et END_DATETIME. Cela garantit que tous les membres de l’agrégat sont dessinés ensemble lors de la visualisation des agrégats spatiotemporels à l'aide du curseur temporel. Ces champs sont utilisés à des fins de visualisation uniquement. Pour les entités de bruit, START_DATETIME et END_DATETIME sont égaux à FEAT_TIME.

  • Si Clustering Method (Méthode d’agrégation) est défini sur Self-adjusting (HDBSCAN) (Ajustement automatique [HDBSCAN]), la classe d’entités en sortie contiendra également les champs suivants :

    • PROB : probabilité qu’une entité appartienne à l’agrégat qui lui est assigné.
    • OUTLIER : probabilité qu’une entité soit un point aberrant dans son propre agrégat. Une valeur plus grande indique que l’entité est plus susceptible d’être un point aberrant.
    • EXEMPLAR : entités les plus représentatives de chaque agrégat. Ces fonctionnalités sont indiquées par une valeur définie sur 1.
    • STABILITY : la persistance de chaque agrégat dans une plage d’échelles. Une valeur supérieure indique qu’un agrégat persiste sur une vaste plage d’échelles de distance.

  • Lors de l’utilisation de l’algorithme HDBSCAN avec une couche en entrée contenant plus de 3 millions d’entités, l’outil peut échouer, sauf si votre administrateur augmente la valeur du paramètre javaHeapSize sur le service GP GeoAnalyticsTools. Environ 2 Go d’espace de segment de mémoire sont nécessaires pour 3 millions d’entités. La quantité de RAM spécifiée par javaHeapSize doit être disponible sur chaque machine GeoAnalytics Server en sus des 16 Go normalement requis par GeoAnalytics Server. Par exemple, pour regrouper 9 millions d’entités avec HDBSCAN, définissez javaHeapSize sur au moins 6 144 Mo ou 6 Go. Dans ce cas, chaque machine GeoAnalytics Server doit avoir au minimum un total de 22 Go de RAM disponible.

  • Vous pouvez améliorer les performances de l’outil Rechercher des agrégats de points en suivant les conseils ci-après :

    • Définissez l’environnement de l’étendue de manière à analyser uniquement des données d’intérêt.
    • Choisissez avec soin la distance et la durée de recherche. Une distance ou un rayon de recherche plus court peut donner de meilleurs résultats pour des données identiques.
    • Utilisez les données locales de l’environnement de l’analyse.

  • Cet outil de géotraitement est mis en œuvre par ArcGIS GeoAnalytics Server. L’analyse est réalisée sur le GeoAnalytics Server et les résultats sont stockés dans votre contenu dans ArcGIS Enterprise.

  • Lors de l’exécution des outils GeoAnalytics Server, l’analyse est réalisée sur GeoAnalytics Server. Pour des performances optimales, GeoAnalytics Server doit pouvoir accéder aux données via les couches d’entités hébergées sur votre portail ArcGIS Enterprise ou les partages de fichiers Big Data. Les données qui ne sont pas locales pour GeoAnalytics Server sont transférées sur GeoAnalytics Server avant le début de l’analyse. Autrement dit, l’exécution d’un outil prend plus de temps et, dans certains cas, le transfert des données entre ArcGIS Pro et GeoAnalytics Server peut échouer. Le seuil d’échec dépend aussi bien des débits du réseau que de la taille et de la complexité des données. Il est par conséquent recommandé de toujours partager les données ou créer un partage de fichiers Big Data.

    Pour en savoir plus sur le partage des données dans votre portail.

    Pour en savoir pus sur la création d'un partage de fichiers Big Data via ArcGIS Server Manager

Syntaxe

arcpy.geoanalytics.FindPointClusters(input_points, output_name, minimum_points, search_distance, {data_store}, {clustering_method}, {use_time}, {search_duration})
ParamètreExplicationType de données
input_points

Classe d’entités ponctuelles contenant les agrégats de points.

Feature Set
output_name

Nom du service d'entités en sortie.

String
minimum_points

Ce paramètre est utilisé différemment selon la méthode d’agrégation choisie :

  • Defined distance (DBSCAN) (Distance définie [DBSCAN]) : spécifie le nombre d’entités qui doit figurer à une distance donnée d’un point pour que ce point commence la formation d’un agrégat. La distance est définie à l’aide du paramètre Search Distance (Distance de recherche).
  • Self-adjusting (HDBSCAN) (Ajustement automatique [HDBSCAN]) : spécifie le nombre d’entités figurant dans le voisinage de chaque point (point inclus) à prendre en compte lors de l’estimation de la densité. Ce nombre correspond également à la taille minimale autorisée pour un agrégat lors de l’extraction des agrégats.

Long
search_distance

La distance maximale à considérer.

La valeur Minimum Features per Cluster (Nombre minimum d’entités par agrégat) spécifiée doit se trouver dans la distance définissant l’appartenance à l’agrégat. Les agrégats sont, au minimum, à cette distance les uns des autres. Si une entité se trouve au-delà de cette distance par rapport à l’entité la plus proche dans l’agrégat, elle ne sera pas incluse dans l’agrégat.

Linear Unit
data_store
(Facultatif)

Indique le ArcGIS Data Store dans laquelle la sortie est enregistrée. La valeur par défaut est SPATIOTEMPORAL_DATA_STORE. Tous les résultats stockés dans un répertoire de données Big Data spatio-temporelles seront stockés en WGS84. Les résultats stockés dans un répertoire de données relationnelles conservent leur système de coordonnées.

  • SPATIOTEMPORAL_DATA_STORELa sortie sera stockée dans un stockage de Big Data spatio-temporelles. Il s’agit de l’option par défaut.
  • RELATIONAL_DATA_STORELa sortie sera stockée dans un data store relationnel.
String
clustering_method
(Facultatif)

Spécifie la méthode utilisée pour définir les agrégats.

  • DBSCAN Utilise la distance spécifiée pour séparer les agrégats denses du bruit sporadique. DBSCAN est la méthode d’agrégation la plus rapide, mais convient seulement si vous disposez d’une distance claire permettant de définir tous les agrégats pouvant être présents. Elle aboutit à des agrégats dont la densité est similaire. Il s’agit de l’option par défaut.
  • HDBSCAN Utilise des distances variables pour séparer les agrégats de densités variables du bruit sporadique. HDBSCAN est une méthode d’agrégation fondée largement sur les données et nécessite de ce fait le moins d’informations saisies par l’utilisateur.
String
use_time
(Facultatif)

Spécifie si le temps est utilisé pour détecter les agrégats au moyen de la méthode DBSCAN.

  • TIMELes agrégats spatiotemporels sont détectés grâce à une distance et une durée de recherche.
  • NO_TIMELes agrégats spatiaux sont détectés grâce à une distance de recherche ; le temps est ignoré. Il s’agit de l’option par défaut.
Boolean
search_duration
(Facultatif)

Lorsque vous recherchez les membres d’un agrégat, le nombre minimum d’entités par agrégat doit se trouver dans la durée de recherche indiquée pour former un agrégat.

Time Unit

Sortie dérivée

NomExplicationType de données
output

Agrégats de points en sortie.

Jeu d'entités

Exemple de code

Exemple d’utilisation de l’outil FindPointClusters (script autonome)

Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil FindPointClusters.

#-------------------------------------------------------------------------------
# Name: FindPointClusters.py
# Description: Finds Point Clusters of rodent infestations
#
# Requirements: ArcGIS GeoAnalytics Server
# Import system modules
import arcpy
# Set local variables
inputPoints = "https://myGeoAnalyticsMachine.domain.com/geoanalytics/rest/services/DataStoreCatalogs/bigDataFileShares_countyData/BigDataCatalogServer/rat_sightings"
minimumPoints = 10
outputName = "RodentClusters"
searchDistance = "1 Kilometers"
dataStore = "SPATIOTEMPORAL_DATA_STORE"
clusterMethod = "DBSCAN"
# Execute Find Point Clusters
arcpy.geoanalytics.FindPointClusters(inputPoints, outputName, mimimumPoints, 
                                     searchDistance, dataStore, clusterMethod)

Environnements

Système de coordonnées en sortie

Système de coordonnées qui sera utilisé pour l'analyse. L’analyse sera réalisée dans le système de coordonnées en entrée, à moins que ce paramètre en spécifie un autre. Pour les Outils GeoAnalytics, les résultats finaux seront stockés dans le stockage des données spatio-temporelles dans WGS84.

Informations de licence

  • Basic: Requiert ArcGIS GeoAnalytics Server
  • Standard: Requiert ArcGIS GeoAnalytics Server
  • Advanced: Requiert ArcGIS GeoAnalytics Server

Rubriques connexes