Análisis clúster espacial de distancia múltiple (Función K de Ripley) (Estadística espacial)

Resumen

Determina si las entidades, o los valores asociados a las entidades, exhiben un clustering o una dispersión estadísticamente significativos en un rango de distancias.

Más información sobre cómo funciona Análisis clúster espacial de distancia múltiple

Ilustración

Gráfico de función K
Medida de la dispersión/clustering espacial en un rango de distancias.

Uso

  • Esta herramienta requiere los datos proyectados para medir distancias con precisión.

  • La salida de la herramienta es una tabla con campos: ExpectedK y ObservedK que contienen los valores K esperado y observado, respectivamente. Como se aplica la transformación L(d), los valores ExpectedK siempre coincidirán con el valor de Distancia. Un campo denominado DiffK que contiene los valores K observados menos los valores K esperados. Si se especifica una opción de intervalo de confianza, también se incluirán dos campos adicionales denominados LwConfEnv y HiConfEnv en la Tabla de salida. Estos campos contienen información del intervalo de confianza para cada iteración de la herramienta, según se especifica en el parámetro Cantidad de bandas de distancia.

  • Cuando el valor K observado es mayor que el valor K esperado para una distancia particular, la distribución es más agrupada que una distribución aleatoria en esa distancia (escala de análisis). Cuando el valor K observado es menor que el valor K esperado, la distribución es más dispersa que una distribución aleatoria en esa distancia. Cuando el valor K observado es mayor que el valor HiConfEnv, el clustering espacial para esa distancia es estadísticamente significativo. Cuando el valor K observado es menor que el valor LwConfEnv, la dispersión espacial para esa distancia es estadísticamente significativa. Puede encontrar más información sobre la interpretación en Cómo funciona el Análisis clúster espacial de distancia múltiple (función K de Ripley) . .

  • Los centroides de entidad se utilizan en los cálculos de distancia para las entidades de línea y polígono. Para multipuntos, polilíneas o polígonos con varias partes, el centroide se calcula utilizando el centro medio ponderado de todas las partes de entidad. La ponderación para las entidades de punto es 1, para las entidades de línea es longitud y para las entidades de polígono es área.

  • El Campo de peso se utiliza de forma más apropiada cuando representa el número de incidentes o conteos.

  • Cuando no se especifica un Campo de peso, el valor DiffK más grande le indica la distancia donde los procesos espaciales que promueven el clustering son más marcados.

  • A continuación se explica cómo se calcula el contorno de confianza:

    • Ni un Campo de peso

      Cuando no se especifica un Campo de peso, se crea el contorno de confianza al distribuir puntos aleatoriamente en el área de estudio y calcular L (d) para esa distribución. Cada distribución aleatoria de los puntos se llama "permutación". Por ejemplo, si se seleccionan 99 permutaciones, la herramienta distribuirá aleatoriamente el conjunto de puntos 99 veces para cada iteración. Después de distribuir los puntos 99 veces la herramienta selecciona, para cada distancia, el valor k Observado que se desvió hacia arriba o hacia abajo del valor k esperado con la cantidad más grande; estos valores se convierten en el intervalo de confianza.

    • Incluir un Campo de peso

      Cuando se especifica un Campo de peso, solo los valores de peso se redistribuyen aleatoriamente para calcular los contornos de confianza; las ubicaciones de punto permanecen fijas. En esencia, cuando se especifica un Campo de peso, las ubicaciones permanecen fijas y la herramienta evalúa el clustering de los valores de la entidad en el espacio. Por otro lado, cuando no se especifica un Campo de peso la herramienta analiza el clustering y la dispersión de las ubicaciones de entidades.

  • Cuando el contorno de confianza se construye a partir de permutaciones aleatorias, los valores que definen el contorno de confianza cambiarán de una ejecución a otra, aunque los parámetros sean idénticos. No obstante, si selecciona un valor seed para el entorno de geoprocesamiento de Generador de números aleatorios, los análisis de repetición producirán resultados consistentes.

  • La cantidad de permutaciones seleccionada para el parámetro Calcular contorno de confianza se puede traducir flexiblemente a niveles de confianza: 9 para 90%, 99 para 99% y 999 para 99,9%.

  • Cuando no se especifica un área de estudio, la herramienta utiliza un rectángulo de encuadre mínimo como el polígono del área de estudio. A diferencia de la extensión, un rectángulo de encuadre mínimo no se alineará necesariamente con los ejes x e y.

  • La estadística de la función k es muy sensible al tamaño del área de estudio. Las distribuciones idénticas de puntos pueden mostrar clustering o dispersión según el tamaño del área de estudio que los incluye. Por lo tanto, se deben considerar cuidadosamente los límites del área de estudio. La imagen a continuación es un ejemplo clásico de cómo las distribuciones de entidades idénticas se pueden dispersar o agrupar según el área de estudio especificada.

    Las distribuciones se pueden agrupar o dispersar según el tamaño del Área de estudio.

  • Se requiere una clase de entidad de área de estudio si se elige Clase de entidad de área de estudio proporcionada por el usuario para el parámetro Método de área de estudio.

  • Si se especifica una Clase de entidad de área de estudio, debe tener exactamente una entidad de parte simple (el polígono del área de estudio).

  • Si no se especifica una Distancia de inicio o un Incremento de distancia, se calculan valores predeterminados basados en la extensión de la Clase de entidad de entrada.

  • La función K tiene una influencia de recuento bajo para las entidades ubicadas cerca del límite del área de estudio. El parámetro Método de corrección de límite proporciona métodos para abordar esta influencia.

    • Ninguno

      No se aplica una corrección de límite específica. Sin embargo, los puntos de la Clase de entidad de entrada que caen fuera del área de estudio especificada por el usuario se utilizan en conteos de vecinos. Este método es apropiado si ha capturado datos de un área de estudio muy amplia, pero solo necesita analizar áreas más pequeñas que están completamente dentro de los límites de la captura de datos.

    • Simular valores de límites externos

      Este método crea puntos fuera del límite del área de estudio que reflejan aquellos que están dentro del límite para corregir las infravaloraciones cercanas a los bordes. Se reflejan los puntos que están dentro de una distancia que equivale a la banda de distancia máxima de un borde del área de estudio. Los puntos reflejados se utilizan para que los puntos de los bordes tengan cálculos de vecinos más exactos. El siguiente diagrama muestra qué puntos se utilizarán en el cálculo y cuáles se utilizarán solo para la corrección de bordes.

      El método de corrección de bordes Simular valores de límites externos
    • Reducir área de análisis

      Esta técnica de corrección de bordes encoge el tamaño del área de análisis a una distancia equivalente a la banda de distancia más grande que se utilizará en el análisis. Después de la reducción del área de estudio, los puntos que están fuera del nuevo área de estudio solo se considerarán cuando se evalúen las cantidades de vecinos para conocer el número de puntos que aún están dentro del área de estudio. No se utilizarán de ninguna otra forma durante el cálculo de la función k. El siguiente diagrama muestra qué puntos se utilizarán en el cálculo y cuáles se utilizarán solo para la corrección de bordes.

      Método de corrección de bordes Reducción de área
    • Fórmula de corrección de bordes de Ripley

      Este método verifica la distancia de cada punto desde el borde del área de estudio y la distancia a cada uno de sus vecinos. A todos los vecinos que están más alejados del punto en cuestión que el borde del área de estudio se les otorga un peso extra. Este método de corrección de bordes solo es apropiado para áreas de estudio de forma cuadrada o rectangular, o cuando selecciona Rectángulo de encuadre mínimo para el parámetro Método de área de estudio.

  • Cuando no se aplica una corrección de límite, la influencia de recuento aumenta a medida que aumenta la distancia.

  • Matemáticamente, la herramienta Análisis clúster espacial de distancia múltiple utiliza una transformación común de la Función K de Ripley donde el resultado esperado en un conjunto de puntos aleatorio equivale a la distancia de entrada. A continuación, se muestra la transformación L(d).

    ecuación de la transformación de la Función K

    donde A es el área, N es el número de puntos, d es la distancia y k(i, j) es el peso, que es 1 (si no hay corrección de límites) cuando la distancia entre i y j es menor o igual que d y 0 cuando la distancia entre i y j es mayor que d. Cuando se aplica la corrección de bordes, el peso de k(i,j) se modifica levemente.

  • Las capas del mapa se pueden utilizar para definir la Clase de entidad de entrada. Cuando se utiliza una capa con una selección, solo las entidades seleccionadas se incluyen en el análisis.

  • Precaución:

    Al utilizar shapefiles tenga en cuenta que no pueden almacenar valores nulos. Las herramientas u otros procedimientos que crean shapefiles a partir de entradas sin shapefiles pueden almacenar o interpretar valores nulos como cero. En algunos casos, los nulos se almacenan como valores negativos muy grandes en shapefiles. Esto puede ocasionar resultados inesperados. Consulte Consideraciones de geoprocesamiento para la salida del shapefile para obtener más información.

Sintaxis

MultiDistanceSpatialClustering(Input_Feature_Class, Output_Table, Number_of_Distance_Bands, {Compute_Confidence_Envelope}, {Display_Results_Graphically}, {Weight_Field}, {Beginning_Distance}, {Distance_Increment}, {Boundary_Correction_Method}, {Study_Area_Method}, {Study_Area_Feature_Class})
ParámetroExplicaciónTipo de datos
Input_Feature_Class

La clase de entidad sobre la que se realizará el análisis.

Feature Layer
Output_Table

La tabla en la que se escribirán los resultados del análisis.

Table
Number_of_Distance_Bands

El número de veces que se incrementará el tamaño de la vecindad y se analizará el dataset para el clustering. El punto de inicio y el tamaño del incremento se especifican en los parámetros Beginning_Distance y Distance_Increment, respectivamente.

Long
Compute_Confidence_Envelope
(Opcional)

El contorno de confianza se calcula colocando puntos de entidades (o valores de entidades) de forma aleatoria en el área de estudio. El número de puntos/valores que se colocan de forma aleatoria equivale al número de puntos en la clase de entidad. Cada conjunto de ubicaciones aleatorias se denomina permutación y el contorno de confianza se crea a partir de estas permutaciones. Este parámetro le permite seleccionar la cantidad de permutaciones que desea utilizar para crear el contorno de confianza.

  • 0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPENo se crean los contornos de confianza.
  • 9_PERMUTATIONSSe colocan nueve conjuntos de puntos/valores de forma aleatoria.
  • 99_PERMUTATIONS99 conjuntos de puntos/valores están ubicados al azar.
  • 999_PERMUTATIONS999 conjuntos de puntos/valores están ubicados al azar.
String
Display_Results_Graphically
(Opcional)

Este parámetro no tiene efecto; se mantiene para permitir la compatibilidad con versiones anteriores.

  • NO_DISPLAYNo se crea un resumen gráfico (predeterminado).
  • DISPLAY_ITSe creará un resumen gráfico como una capa de gráficos.
Boolean
Weight_Field
(Opcional)

Un campo numérico con pesos que representan el número de entidades/eventos en cada ubicación.

Field
Beginning_Distance
(Opcional)

La distancia a la que se inicia el análisis de clúster y la distancia desde la que se incrementa. El valor introducido para este parámetro debe estar en las unidades del sistema de coordenadas de salida.

Double
Distance_Increment
(Opcional)

La distancia que se va a incrementar durante cada iteración. La distancia que se utiliza en el análisis comienza en la Beginning_Distance y se incrementa según la cantidad especificada en el Distance_Increment. El valor introducido para este parámetro debe estar en las unidades de la configuración del entorno del Sistema de coordenadas de salida.

Double
Boundary_Correction_Method
(Opcional)

El método que se utilizará para corregir las infravaloraciones en el número de vecinos para las entidades cercanas a los bordes del área de estudio.

  • NONENo se aplica una corrección de bordes. No obstante, si la clase de entidad de entrada ya tiene puntos que caen fuera de los límites del área de estudio, estos se utilizarán en los conteos de vecinos para conocer la cantidad de entidades cercanas a los límites.
  • SIMULATE_OUTER_BOUNDARY_VALUESEste método simula puntos fuera del área de estudio de modo que no se infravalore el número de vecinos cercanos a los bordes. Los puntos simulados son los "reflejos" de los puntos cercanos a los bordes que están dentro del límite del área de estudio.
  • REDUCE_ANALYSIS_AREAEste método encoge el área de estudio de tal modo que algunos puntos quedan fuera del límite del área de estudio. Los puntos que quedan fuera del área de estudio se utilizan para calcular las cantidades de vecinos, pero no se utilizan en el análisis de clúster en sí.
  • RIPLEY_EDGE_CORRECTION_FORMULAPara todos los puntos (j) en la vecindad del punto i, este método comprueba si el borde del área de estudio está más cerca de i o si j está más cerca de i. Si j está más cerca, se le otorga un peso adicional. Este método de corrección de bordes solo es apropiado para áreas de estudio de forma cuadrada o rectangular.
String
Study_Area_Method
(Opcional)

Especifica la región que se utilizará para el área de estudio. La Función K es sensible a los cambios en el tamaño del área de estudio, por lo que es importante seleccionar este valor cuidadosamente.

  • MINIMUM_ENCLOSING_RECTANGLEIndica que se utilizará el rectángulo más pequeño posible que encuadre todos los puntos.
  • USER_PROVIDED_STUDY_AREA_FEATURE_CLASSIndica que la clase de entidad que define el área de estudio se proporcionará en el parámetro Clase de entidad de área de estudio.
String
Study_Area_Feature_Class
(Opcional)

La clase de entidad que delinea el área sobre la cual se debe analizar la clase de entidad de entrada. Solo se especifica si Study_Area_Method = "USER_PROVIDED_STUDY_AREA_FEATURE_CLASS" .

Feature Layer

Salida derivada

NombreExplicaciónTipo de datos
Result_Image

Un gráfico de línea que resuma los resultados de la herramienta.

Gráfico

Muestra de código

Ejemplo 1 de MultiDistanceSpatialClustering (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta MultiDistanceSpatialClustering.

import arcpy
arcpy.env.workspace = r"C:\data"
arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp","kFunResult.dbf", 11,
                                           "0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE",
                                           "NO_DISPLAY", "#", 1000, 200, "REDUCE_ANALYSIS_AREA",
                                           "MINIMUM_ENCLOSING_RECTANGLE", "#")
Ejemplo 2 de MultiDistanceSpatialClustering (script independiente)

El siguiente script de Phython independiente muestra cómo utilizar la herramienta MultiDistanceSpatialClustering.

# Use Ripley's K-Function to analyze the spatial distribution of 911
# calls in Portland Oregon 
# Import system modules
import arcpy
# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"C:\Data"
try:
    # Set the current workspace (to avoid having to specify the full path to the feature classes each time)
    arcpy.env.workspace = workspace
    # Set Distance Band Parameters: Analyze clustering of 911 calls from
    # 1000 to 3000 feet by 200 foot increments
    numDistances = 11
    startDistance = 1000.0
    increment = 200.0
    # Process: Run K-Function...
    kFun = arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp",
                        "kFunResult.dbf", numDistances,
                        "0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE", 
                        "NO_DISPLAY", "#", startDistance, increment,
                        "REDUCE_ANALYSIS_AREA",
                        "MINIMUM_ENCLOSING_RECTANGLE", "#")
except:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Entornos

Sistema de coordenadas de salida

La geometría de la entidad se proyecta al Sistema de coordenadas de salida antes del análisis. Por lo tanto, los valores introducidos para los parámetros Distancia inicial e Incremento de distancia deben coincidir con los que se especificaron en el Sistema de coordenadas de salida. Todos los cálculos matemáticos se basan en la referencia espacial del Sistema de coordenadas de salida.

Información de licenciamiento

  • Basic: Sí
  • Standard: Sí
  • Advanced: Sí

Temas relacionados