Análisis clúster espacial de distancia múltiple (Función K de Ripley) (Estadística espacial)—Nuevas características y mejoras que se han agregado en esta versión.

Resumen

Determina si las entidades, o los valores asociados a las entidades, exhiben un clustering o una dispersión estadísticamente significativos en un rango de distancias.

Más información sobre cómo funciona Análisis clúster espacial de distancia múltiple

Ilustración

Gráfico de función K — Medida de la dispersión/clustering espacial en un rango de distancias.

Uso

Esta herramienta requiere los datos proyectados para medir distancias con precisión.
La salida de la herramienta es una tabla con campos: ExpectedK y ObservedK que contienen los valores K esperado y observado, respectivamente. Como se aplica la transformación L(d), los valores ExpectedK siempre coincidirán con el valor de Distancia. Un campo denominado DiffK que contiene los valores K observados menos los valores K esperados. Si se especifica una opción de intervalo de confianza, también se incluirán dos campos adicionales denominados LwConfEnv y HiConfEnv en la Tabla de salida. Estos campos contienen información del intervalo de confianza para cada iteración de la herramienta, según se especifica en el parámetro Cantidad de bandas de distancia.
Cuando el valor K observado es mayor que el valor K esperado para una distancia particular, la distribución es más agrupada que una distribución aleatoria en esa distancia (escala de análisis). Cuando el valor K observado es menor que el valor K esperado, la distribución es más dispersa que una distribución aleatoria en esa distancia. Cuando el valor K observado es mayor que el valor HiConfEnv, el clustering espacial para esa distancia es estadísticamente significativo. Cuando el valor K observado es menor que el valor LwConfEnv, la dispersión espacial para esa distancia es estadísticamente significativa. Puede encontrar más información sobre la interpretación en Cómo funciona el Análisis clúster espacial de distancia múltiple (función K de Ripley) . .
Los centroides de entidad se utilizan en los cálculos de distancia para las entidades de línea y polígono. Para multipuntos, polilíneas o polígonos con varias partes, el centroide se calcula utilizando el centro medio ponderado de todas las partes de entidad. La ponderación para las entidades de punto es 1, para las entidades de línea es longitud y para las entidades de polígono es área.
El Campo de peso se utiliza de forma más apropiada cuando representa el número de incidentes o conteos.
Cuando no se especifica un Campo de peso, el valor DiffK más grande le indica la distancia donde los procesos espaciales que promueven el clustering son más marcados.
A continuación se explica cómo se calcula el contorno de confianza:
- Ni un Campo de peso
  Cuando no se especifica un Campo de peso, se crea el contorno de confianza al distribuir puntos aleatoriamente en el área de estudio y calcular L (d) para esa distribución. Cada distribución aleatoria de los puntos se llama "permutación". Por ejemplo, si se seleccionan 99 permutaciones, la herramienta distribuirá aleatoriamente el conjunto de puntos 99 veces para cada iteración. Después de distribuir los puntos 99 veces la herramienta selecciona, para cada distancia, el valor k Observado que se desvió hacia arriba o hacia abajo del valor k esperado con la cantidad más grande; estos valores se convierten en el intervalo de confianza.
- Incluir un Campo de peso
  Cuando se especifica un Campo de peso, solo los valores de peso se redistribuyen aleatoriamente para calcular los contornos de confianza; las ubicaciones de punto permanecen fijas. En esencia, cuando se especifica un Campo de peso, las ubicaciones permanecen fijas y la herramienta evalúa el clustering de los valores de la entidad en el espacio. Por otro lado, cuando no se especifica un Campo de peso la herramienta analiza el clustering y la dispersión de las ubicaciones de entidades.
Cuando el contorno de confianza se construye a partir de permutaciones aleatorias, los valores que definen el contorno de confianza cambiarán de una ejecución a otra, aunque los parámetros sean idénticos. No obstante, si selecciona un valor seed para el entorno de geoprocesamiento de Generador de números aleatorios, los análisis de repetición producirán resultados consistentes.
La cantidad de permutaciones seleccionada para el parámetro Calcular contorno de confianza se puede traducir flexiblemente a niveles de confianza: 9 para 90%, 99 para 99% y 999 para 99,9%.
Cuando no se especifica un área de estudio, la herramienta utiliza un rectángulo de encuadre mínimo como el polígono del área de estudio. A diferencia de la extensión, un rectángulo de encuadre mínimo no se alineará necesariamente con los ejes x e y.
La estadística de la función k es muy sensible al tamaño del área de estudio. Las distribuciones idénticas de puntos pueden mostrar clustering o dispersión según el tamaño del área de estudio que los incluye. Por lo tanto, se deben considerar cuidadosamente los límites del área de estudio. La imagen a continuación es un ejemplo clásico de cómo las distribuciones de entidades idénticas se pueden dispersar o agrupar según el área de estudio especificada.
Se requiere una clase de entidad de área de estudio si se elige Clase de entidad de área de estudio proporcionada por el usuario para el parámetro Método de área de estudio.
Si se especifica una Clase de entidad de área de estudio, debe tener exactamente una entidad de parte simple (el polígono del área de estudio).
Si no se especifica una Distancia de inicio o un Incremento de distancia, se calculan valores predeterminados basados en la extensión de la Clase de entidad de entrada.
La función K tiene una influencia de recuento bajo para las entidades ubicadas cerca del límite del área de estudio. El parámetro Método de corrección de límite proporciona métodos para abordar esta influencia.
- Ninguno
  No se aplica una corrección de límite específica. Sin embargo, los puntos de la Clase de entidad de entrada que caen fuera del área de estudio especificada por el usuario se utilizan en conteos de vecinos. Este método es apropiado si ha capturado datos de un área de estudio muy amplia, pero solo necesita analizar áreas más pequeñas que están completamente dentro de los límites de la captura de datos.
- Simular valores de límites externos
  Este método crea puntos fuera del límite del área de estudio que reflejan aquellos que están dentro del límite para corregir las infravaloraciones cercanas a los bordes. Se reflejan los puntos que están dentro de una distancia que equivale a la banda de distancia máxima de un borde del área de estudio. Los puntos reflejados se utilizan para que los puntos de los bordes tengan cálculos de vecinos más exactos. El siguiente diagrama muestra qué puntos se utilizarán en el cálculo y cuáles se utilizarán solo para la corrección de bordes.
- Reducir área de análisis
  Esta técnica de corrección de bordes encoge el tamaño del área de análisis a una distancia equivalente a la banda de distancia más grande que se utilizará en el análisis. Después de la reducción del área de estudio, los puntos que están fuera del nuevo área de estudio solo se considerarán cuando se evalúen las cantidades de vecinos para conocer el número de puntos que aún están dentro del área de estudio. No se utilizarán de ninguna otra forma durante el cálculo de la función k. El siguiente diagrama muestra qué puntos se utilizarán en el cálculo y cuáles se utilizarán solo para la corrección de bordes.
- Fórmula de corrección de bordes de Ripley
  Este método verifica la distancia de cada punto desde el borde del área de estudio y la distancia a cada uno de sus vecinos. A todos los vecinos que están más alejados del punto en cuestión que el borde del área de estudio se les otorga un peso extra. Este método de corrección de bordes solo es apropiado para áreas de estudio de forma cuadrada o rectangular, o cuando selecciona Rectángulo de encuadre mínimo para el parámetro Método de área de estudio.
Cuando no se aplica una corrección de límite, la influencia de recuento aumenta a medida que aumenta la distancia.
Matemáticamente, la herramienta Análisis clúster espacial de distancia múltiple utiliza una transformación común de la Función K de Ripley donde el resultado esperado en un conjunto de puntos aleatorio equivale a la distancia de entrada. A continuación, se muestra la transformación L(d).
donde A es el área, N es el número de puntos, d es la distancia y k(i, j) es el peso, que es 1 (si no hay corrección de límites) cuando la distancia entre i y j es menor o igual que d y 0 cuando la distancia entre i y j es mayor que d. Cuando se aplica la corrección de bordes, el peso de k(i,j) se modifica levemente.
Las capas del mapa se pueden utilizar para definir la Clase de entidad de entrada. Cuando se utiliza una capa con una selección, solo las entidades seleccionadas se incluyen en el análisis.

Precaución:

Al utilizar shapefiles tenga en cuenta que no pueden almacenar valores nulos. Las herramientas u otros procedimientos que crean shapefiles a partir de entradas sin shapefiles pueden almacenar o interpretar valores nulos como cero. En algunos casos, los nulos se almacenan como valores negativos muy grandes en shapefiles. Esto puede ocasionar resultados inesperados. Consulte Consideraciones de geoprocesamiento para la salida del shapefile para obtener más información.

Sintaxis

arcpy.stats.MultiDistanceSpatialClustering(Input_Feature_Class, Output_Table, Number_of_Distance_Bands, {Compute_Confidence_Envelope}, {Display_Results_Graphically}, {Weight_Field}, {Beginning_Distance}, {Distance_Increment}, {Boundary_Correction_Method}, {Study_Area_Method}, {Study_Area_Feature_Class})

Parámetro	Explicación	Tipo de datos
Input_Feature_Class	La clase de entidad sobre la que se realizará el análisis.	Feature Layer
Output_Table	La tabla en la que se escribirán los resultados del análisis.	Table
Number_of_Distance_Bands	El número de veces que se incrementará el tamaño de la vecindad y se analizará el dataset para el clustering. El punto de inicio y el tamaño del incremento se especifican en los parámetros Beginning_Distance y Distance_Increment, respectivamente.	Long
Compute_Confidence_Envelope (Opcional)	El contorno de confianza se calcula colocando puntos de entidades (o valores de entidades) de forma aleatoria en el área de estudio. El número de puntos/valores que se colocan de forma aleatoria equivale al número de puntos en la clase de entidad. Cada conjunto de ubicaciones aleatorias se denomina permutación y el contorno de confianza se crea a partir de estas permutaciones. Este parámetro le permite seleccionar la cantidad de permutaciones que desea utilizar para crear el contorno de confianza. 0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE —No se crean los contornos de confianza. 9_PERMUTATIONS —Se colocan nueve conjuntos de puntos/valores de forma aleatoria. 99_PERMUTATIONS —99 conjuntos de puntos/valores están ubicados al azar. 999_PERMUTATIONS —999 conjuntos de puntos/valores están ubicados al azar.	String
Display_Results_Graphically (Opcional)	Este parámetro no tiene efecto; se mantiene para permitir la compatibilidad con versiones anteriores. NO_DISPLAY —No se crea un resumen gráfico (predeterminado). DISPLAY_IT —Se creará un resumen gráfico como una capa de gráficos.	Boolean
Weight_Field (Opcional)	Un campo numérico con pesos que representan el número de entidades/eventos en cada ubicación.	Field
Beginning_Distance (Opcional)	La distancia a la que se inicia el análisis de clúster y la distancia desde la que se incrementa. El valor introducido para este parámetro debe estar en las unidades del sistema de coordenadas de salida.	Double
Distance_Increment (Opcional)	La distancia que se va a incrementar durante cada iteración. La distancia que se utiliza en el análisis comienza en la Beginning_Distance y se incrementa según la cantidad especificada en el Distance_Increment. El valor introducido para este parámetro debe estar en las unidades de la configuración del entorno del Sistema de coordenadas de salida.	Double
Boundary_Correction_Method (Opcional)	El método que se utilizará para corregir las infravaloraciones en el número de vecinos para las entidades cercanas a los bordes del área de estudio. NONE —No se aplica una corrección de bordes. No obstante, si la clase de entidad de entrada ya tiene puntos que caen fuera de los límites del área de estudio, estos se utilizarán en los conteos de vecinos para conocer la cantidad de entidades cercanas a los límites. SIMULATE_OUTER_BOUNDARY_VALUES —Este método simula puntos fuera del área de estudio de modo que no se infravalore el número de vecinos cercanos a los bordes. Los puntos simulados son los "reflejos" de los puntos cercanos a los bordes que están dentro del límite del área de estudio. REDUCE_ANALYSIS_AREA —Este método encoge el área de estudio de tal modo que algunos puntos quedan fuera del límite del área de estudio. Los puntos que quedan fuera del área de estudio se utilizan para calcular las cantidades de vecinos, pero no se utilizan en el análisis de clúster en sí. RIPLEY_EDGE_CORRECTION_FORMULA —Para todos los puntos (j) en la vecindad del punto i, este método comprueba si el borde del área de estudio está más cerca de i o si j está más cerca de i. Si j está más cerca, se le otorga un peso adicional. Este método de corrección de bordes solo es apropiado para áreas de estudio de forma cuadrada o rectangular.	String
Study_Area_Method (Opcional)	Especifica la región que se utilizará para el área de estudio. La Función K es sensible a los cambios en el tamaño del área de estudio, por lo que es importante seleccionar este valor cuidadosamente. MINIMUM_ENCLOSING_RECTANGLE —Indica que se utilizará el rectángulo más pequeño posible que encuadre todos los puntos. USER_PROVIDED_STUDY_AREA_FEATURE_CLASS —Indica que la clase de entidad que define el área de estudio se proporcionará en el parámetro Clase de entidad de área de estudio.	String
Study_Area_Feature_Class (Opcional)	La clase de entidad que delinea el área sobre la cual se debe analizar la clase de entidad de entrada. Solo se especifica si Study_Area_Method = "USER_PROVIDED_STUDY_AREA_FEATURE_CLASS" .	Feature Layer

Salida derivada

Nombre	Explicación	Tipo de datos
Result_Image	Un gráfico de línea que resuma los resultados de la herramienta.	Gráfico

Muestra de código

Ejemplo 1 de MultiDistanceSpatialClustering (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta MultiDistanceSpatialClustering.

import arcpy
arcpy.env.workspace = r"C:\data"
arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp","kFunResult.dbf", 11,
                                           "0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE",
                                           "NO_DISPLAY", "#", 1000, 200, "REDUCE_ANALYSIS_AREA",
                                           "MINIMUM_ENCLOSING_RECTANGLE", "#")

Ejemplo 2 de MultiDistanceSpatialClustering (script independiente)

El siguiente script de Phython independiente muestra cómo utilizar la herramienta MultiDistanceSpatialClustering.

# Use Ripley's K-Function to analyze the spatial distribution of 911
# calls in Portland Oregon 
# Import system modules
import arcpy
# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"C:\Data"
try:
    # Set the current workspace (to avoid having to specify the full path to the feature classes each time)
    arcpy.env.workspace = workspace
    # Set Distance Band Parameters: Analyze clustering of 911 calls from
    # 1000 to 3000 feet by 200 foot increments
    numDistances = 11
    startDistance = 1000.0
    increment = 200.0
    # Process: Run K-Function...
    kFun = arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp",
                        "kFunResult.dbf", numDistances,
                        "0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE", 
                        "NO_DISPLAY", "#", startDistance, increment,
                        "REDUCE_ANALYSIS_AREA",
                        "MINIMUM_ENCLOSING_RECTANGLE", "#")
except:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Entornos

Sistema de coordenadas de salida, Transformaciones geográficas, Espacio de trabajo actual, Espacio de trabajo temporal, Generador de números aleatorios

Sistema de coordenadas de salida: La geometría de la entidad se proyecta al Sistema de coordenadas de salida antes del análisis. Por lo tanto, los valores introducidos para los parámetros Distancia inicial e Incremento de distancia deben coincidir con los que se especificaron en el Sistema de coordenadas de salida. Todos los cálculos matemáticos se basan en la referencia espacial del Sistema de coordenadas de salida.

Información de licenciamiento

Basic: Sí
Standard: Sí
Advanced: Sí

Temas relacionados

¿Algún comentario sobre este tema?