Resumen
Busca clústeres de entidades de puntos dentro del ruido colindante en función de su distribución espacial o espaciotemporal.
Más información sobre cómo funciona Clustering basado en densidad
Ilustración
Uso
La entrada de Buscar clústeres de puntos es una capa de puntos. Esta herramienta extrae clústeres de la Capa de puntos de entrada e identifica cualquier ruido colindante.
Buscar clústeres de puntos requiere que la Capa de puntos de entrada esté proyectada o que el sistema de coordenadas de salida se haya definido como un sistema de coordenadas proyectadas.
Existen dos opciones para el parámetro Método de clustering. Distancia definida (DBSCAN) utiliza el algoritmo DBSCAN y busca clústeres de puntos que están próximos en función de una distancia de búsqueda especificada. Autoajuste (HDBSCAN) utiliza el algoritmo HDBSCAN y busca clústeres de puntos similares a DBSCAN, utilizando distancias variables teniendo en cuenta los clústeres con densidades variables en función de la probabilidad (o estabilidad) de clúster. Si elige DBSCAN, encontrará clústeres solo en espacio bidimensional o en espacio y tiempo. Si selecciona Utilizar hora para buscar clústeres y la capa de entrada tiene el tiempo habilitado y es del tipo de instante, DBSCAN descubrirá clústeres espaciotemporales de puntos que estén muy próximos en función de una distancia de búsqueda y una duración de búsqueda especificadas.
El parámetro Entidades mínimas por clúster se utiliza de manera diferente, en función del método de clustering:
- Distancia definida (DBSCAN): especifica el número de entidades que se deben encontrar dentro de una distancia de búsqueda determinada de un punto para que este pueda empezar a formar un clúster. Los resultados podrían incluir clústeres con menos entidades que este valor. La distancia de búsqueda se define con el parámetro Distancia de búsqueda. Si utiliza la hora para buscar clústeres, la Duración de búsqueda es obligatoria. Al buscar miembros de clústeres, las Entidades mínimas por clúster deben estar en Distancia de búsqueda y Duración de búsqueda para formar un clúster. Tenga en cuenta que esta distancia y duración no están relacionadas con el diámetro o la extensión temporal de los clústeres de puntos descubiertos.
- Autoajuste (HDBSCAN): especifica el número de entidades vecinas de cada punto (incluido el punto) que se tendrán en cuenta a la hora de estimar la densidad. Este número es además el tamaño de clúster mínimo permitido al extraer los clústeres.
Esta herramienta produce una clase de entidad de salida con un nuevo campo de tipo entero, CLUSTER_ID, que identifica el clúster en el que se encuentra cada entidad. La representación en pantalla predeterminada se basa en el campo COLOR_ID. Cada color se asignará a varios clústeres. Los colores se asignarán y repetirán de forma que cada clúster sea visualmente diferente de sus clústeres vecinos.
Si usa el método de clustering Distancia definida (DBSCAN) con el tiempo para descubrir clústeres espaciotemporales, los resultados también incluirán estos campos:
- FEAT_TIME: el tiempo de instante original de cada entidad.
- START_DATETIME: la hora de inicio de la extensión temporal del clúster al que pertenece una entidad.
- END_DATETIME: la hora de finalización de la extensión temporal del clúster al que pertenece una entidad.
Las propiedades de tiempo de la capa de resultados se definirán como un intervalo en los campos START_DATETIME y END_DATETIME, lo cual garantiza que todos los miembros del clúster se dibujen juntos al visualizar clústeres espaciotemporales en un control deslizante de tiempo. Estos campos se utilizan únicamente para visualización. En el caso de las entidades de ruido, START_DATETIME y END_DATETIME equivaldrán a FEAT_TIME.
Si el Método de clustering es Autoajuste (HDBSCAN), la clase de entidad de salida también contendrá los siguientes campos:
- PROB: la probabilidad de que una entidad pertenezca a su clúster asignado.
- OUTLIER: la posibilidad de que una entidad sea un valor atípico dentro de su propio clúster. Un valor más alto indica que es más probable que la entidad sea un valor atípico.
- EXEMPLAR: las entidades que representan mejor cada clúster. Estas entidades se indican con un valor de 1.
- STABILITY: la persistencia de cada clúster en un rango de escalas. Un valor mayor indica que un clúster persiste en un rango más amplio de escalas de distancia.
Es posible mejorar el rendimiento de la herramienta Buscar clústeres de puntos gracias a una o varias de estas sugerencias:
- Defina el entorno de extensión para analizar únicamente datos de interés.
- Sea exigente en la distancia y duración de búsqueda. Las distancias o radios de búsqueda más reducidos pueden rendir mejor en los mismos datos.
- Utilice datos locales en los que se ejecute el análisis.
Esta herramienta de geoprocesamiento se basa en Spark. El análisis se completa en su equipo de escritorio utilizando varios núcleos en paralelo. Consulte Consideraciones acerca de las herramientas de GeoAnalytics Desktop para obtener más información acerca de la ejecución de análisis.
Al ejecutar herramientas de GeoAnalytics Desktop, el análisis se completa en su equipo de escritorio. Para un rendimiento óptimo, los datos deben estar disponibles en su escritorio. Si utiliza una capa de entidades alojada, se recomienda utilizar ArcGIS GeoAnalytics Server. Si sus datos no están almacenados localmente, se tardará más tiempo en ejecutar una herramienta. Para utilizar ArcGIS GeoAnalytics Server con el fin de realizar un análisis, consulte GeoAnalytics Tools.
Sintaxis
arcpy.gapro.FindPointClusters(input_points, out_feature_class, clustering_method, minimum_points, search_distance, {use_time}, {search_duration})
Parámetro | Explicación | Tipo de datos |
input_points | La clase de entidad de punto que contiene los clústeres de puntos. | Feature Layer |
out_feature_class | Una clase de entidad nueva con los clústeres de puntos resultantes. | Feature Class |
clustering_method | Especifica el método que se utilizará para definir clústeres.
| String |
minimum_points | Este parámetro se utiliza de manera diferente en función del método de clustering elegido, como se explica a continuación:
| Long |
search_distance | La distancia máxima que se va a considerar. Las Entidades mínimas por clúster especificadas se deberán encontrar dentro de esta distancia para que pertenezcan a un clúster. Los clústeres individuales estarán separados, al menos, por esta distancia. Si una entidad se encuentra a una distancia mayor que esta respecto de la siguiente entidad más cercana en el clúster, no se incluirá en el clúster. | Linear Unit |
use_time (Opcional) | Especifica si se utilizará o no la hora para descubrir clústeres con DBSCAN.
| Boolean |
search_duration (Opcional) | Al buscar miembros de clústeres, la cantidad mínima especificada de puntos debe estar dentro de esta duración de tiempo para formar un clúster. | Time Unit |
Muestra de código
El siguiente script de la ventana de Python muestra cómo utilizar la herramienta FindPointClusters.
#-------------------------------------------------------------------------------
# Name: FindPointClusters.py
# Description: Finds Point Clusters of rodent infestations
# Import system modules
import arcpy
arcpy.env.workspace = "C:/data/CountyData.gdb"
# Set local variables
inputPoints = "rat_sightings"
minimumPoints = 10
outputName = "RodentClusters"
searchDistance = "1 Kilometers"
clusterMethod = "DBSCAN"
# Execute Find Point Clusters
arcpy.gapro.FindPointClusters(inputPoints, outputName, clusterMethod,
minimumPoints, searchDistance)
Entornos
Información de licenciamiento
- Basic: No
- Standard: No
- Advanced: Sí