Clustering basado en densidad (Estadística espacial)

Resumen

Encuentra clústeres de entidades de punto dentro del ruido colindante en función de su distribución espacial.

Más información sobre cómo funciona Clustering basado en densidad

Ilustración

Diagrama de Clustering basado en densidad

Uso

  • Esta herramienta extrae clústeres de sus Entidades de puntos de entrada e identifica cualquier ruido colindante.

  • Existen tres opciones para el Método de clustering. El algoritmo Distancia definida (DBSCAN) busca clústeres de puntos que estén muy próximos en función de una distancia de búsqueda especificada. El algoritmo Autoajuste (HDBSCAN) busca clústeres de puntos de forma similar a DBSCAN, pero utiliza distancias variables teniendo en cuenta los clústeres con densidades variables en función de la probabilidad (o estabilidad) de clúster. El algoritmo Escala múltiple (OPTICS) clasifica los puntos de entrada en función de la distancia más corta a la siguiente entidad. A continuación, se construye un diagrama de alcanzabilidad y se obtienen clústeres en función del menor número de entidades que se consideran clúster, una distancia de búsqueda y características del diagrama de alcanzabilidad (tales como la pendiente y la altura de los picos).

  • Esta herramienta produce una clase de entidad de salida con un nuevo campo de tipo entero CLUSTER_ID para mostrar a qué clúster pertenece cada entidad. La representación en pantalla predeterminada se basa en el campo COLOR_ID. Si hay varios clústeres, se asigna un color a cada uno. Los colores se asignarán y repetirán de forma que cada clúster sea visualmente diferente de sus clústeres vecinos.

  • Esta herramienta también crea mensajes y gráficos para ayudarle a comprender las características de los clústeres identificados. Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o expandiendo la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de la anterior ejecución de la herramienta Clustering basado en densidad a través del historial de geoprocesamiento. Los gráficos están disponibles desde el panel Contenido.

  • Para obtener más información sobre los mensajes y gráficos de salida y más información sobre los algoritmos en que se basa esta herramienta, consulte Cómo funciona Clustering basado en densidad.

  • Si se elige Autoajuste (HDBSCAN) para el parámetro Método de clustering, la clase de entidad de salida también contendrá los campos PROB, que es la probabilidad a la que pertenece la entidad en su grupo asignado; OUTLIER, que designa que la entidad podría ser un valor atípico dentro de su propio clúster (un valor alto indica que es más probable que la entidad sea un valor atípico) y EXEMPLAR, que denota las entidades más prototípicas o más representativas de cada clúster.

  • Si se elige Escala múltiple (OPTICS) para el parámetro Método de clustering, la clase de entidad de salida también contendrá los campos REACHORDER, que es el modo en que las Entidades de puntos de entrada se ordenaron para el análisis, y REACHDIST, que es la distancia entre cada entidad y su vecino no visitado más cercano.

  • Tanto para Distancia definida (DBSCAN) como para Escala múltiple (OPTICS), la Distancia de búsqueda predeterminada es la distancia de núcleo más alta encontrada en el dataset, excluidas aquellas distancias de núcleo que se encuentren dentro del 1 por ciento superior, es decir, que se excluyen las distancias de núcleo más extremas.

  • Cuando las Entidades de entrada no están proyectadas (es decir, cuando las coordenadas se especifican en grados, minutos y segundos) o cuando el sistema de coordenadas de salida está establecido en un sistema de coordenadas geográficas, las distancias se calculan mediante mediciones de cuerda. Las mediciones de distancia de cuerda se utilizan porque se pueden calcular rápidamente y proporcionan buenas estimaciones de las verdaderas distancias geodésicas, al menos para los puntos separados un máximo de unos treinta grados entre sí. Las distancias de cuerda se basan en un esferoide oblato. Dados dos puntos en la superficie de la Tierra, la distancia de cuerda entre ellos es la longitud de una línea, que atraviesa la Tierra tridimensional, para conectar estos dos puntos. Las distancias de cuerda se informan en metros.

    Precaución:

    Es recomendable que proyecte sus datos, especialmente si su área de estudio se extiende más allá de 30 grados. Las distancias de cuerda no son una buena estimación de las distancias geodésicas más allá de 30 grados.

  • Esta herramienta incluye valores z en sus cálculos si estos están presentes y el resultado será en 3D.

  • Esta herramienta admite el procesamiento en paralelo y utiliza el 50 por ciento de los procesadores disponibles de forma predeterminada. El número de procesadores puede aumentar o disminuir usando el entorno Factor de procesamiento en paralelo.

Sintaxis

DensityBasedClustering(in_features, output_features, cluster_method, min_features_cluster, {search_distance}, cluster_sensitivity)
ParámetroExplicaciónTipo de datos
in_features

La clase de entidad de punto para la que se va a realizar el clustering basado en densidad.

Feature Layer
output_features

La clase de entidad de salida que va a recibir los resultados del clúster.

Feature Class
cluster_method

Especifica el método utilizado para definir clústeres.

  • DBSCAN Utiliza una distancia especificada para separar los clústeres densos del ruido más disperso. DBSCAN es el método de clustering más rápido, pero solo es apropiado si se puede utilizar una distancia muy clara y que funcione bien para definir todos los clústeres que puedan estar presentes. El resultado son clústeres que presentan densidades similares.
  • HDBSCAN Utiliza distancias variables para separar clústeres de densidades variables del ruido más disperso. HDBSCAN es el método de clustering que más se basa en los datos y requiere la menor participación del usuario.
  • OPTICS Utiliza la distancia entre vecinos y un diagrama de alcanzabilidad para separar los clústeres de densidades variables del ruido. OPTICS ofrece la mayor flexibilidad en el afinamiento de los clústeres detectados, a pesar de que requiere una gran potencia de cómputo, en especial si la Distancia de búsqueda es grande.
String
min_features_cluster

El número mínimo de entidades para que se considere un clúster. Todo clúster con un número de entidades menor que el indicado se considerará ruido.

Long
search_distance
(Opcional)

La distancia máxima que se va a considerar.

Para Distancia definida (DBSCAN), las Entidades mínimas por clúster especificadas se deberán encontrar dentro de esta distancia para que pertenezcan a un clúster. Los clústeres individuales estarán separados, al menos, por esta distancia. Si una entidad se encuentra a una distancia mayor que esta respecto de la siguiente entidad más cercana en el clúster, no se incluirá en el clúster.

En el caso de Escala múltiple (OPTICS), este parámetro es opcional y se utiliza como la distancia máxima de búsqueda cuando se crea el diagrama de alcanzabilidad. Para OPTICS, el diagrama de alcanzabilidad, en combinación con el parámetro Sensibilidad de clúster, determina la pertenencia al clúster. Si no se especifica ninguna distancia, la herramienta buscará todas las distancias, lo que aumentará el tiempo de procesamiento.

Si se deja en blanco, la distancia predeterminada utilizada será la distancia de núcleo más alta encontrada en el dataset y se excluyen aquellas distancias de núcleo que se encuentren dentro del 1 por ciento superior (excluidas las distancias de núcleo más extremas).

Linear Unit
cluster_sensitivity

Un número entero entre 0 y 100 que determina la compactación de los clústeres. Un número cercano a 100 tendrá como resultado un número mayor de clústeres densos. Un número cercano a 0 tendrá como resultado un número menor de clústeres menos compactos. Si se deja en blanco, la herramienta encontrará un valor de sensibilidad con la divergencia de Kullback-Leibler, que busca el valor en el que agregar más clústeres no agrega información adicional.

Long

Muestra de código

Ejemplo 1 de DensityBasedClustering (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta DensityBasedClustering.

import arcpy
arcpy.env.workspace = r"C:\Analysis"
arcpy.DensityBasedClustering_stats("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)

El siguiente script de Phython independiente muestra cómo utilizar la herramienta DensityBasedClustering.

# Clustering crime incidents in a downtown area using the Density-based Clustering tool
# Import system modules
import arcpy
import os
# Overwrite existing output, by default
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"E:\working\data.gdb"
arcpy.env.workspace = workspace
# Run Density-based Clustering with the HDBSCAN Cluster Method using a minimum 
# of 15 features per cluster
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)
# Run Density-based Clustering again using OPTICS with a Search Distance and 
# Cluster Sensitivity to create tighter clusters
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_Optics", "OPTICS", 
                                   15, "1200 Meters", 70)

Información de licenciamiento

  • Basic: Sí
  • Standard: Sí
  • Advanced: Sí

Temas relacionados