Clustering alto/bajo (G general de Getis-Ord) (Estadística espacial)

Resumen

Mide el grado de clustering para valores altos o bajos mediante la estadística G general de Getis-Ord.

Más información sobre cómo funciona el Clustering alto/bajo: G general de Getis-Ord

Ilustración

Ilustración de Clustering alto/bajo (G general de Getis-Ord)

Uso

  • La herramienta Clustering alto/bajo devuelve cuatro valores: G general observada, G general esperada, puntuación z y valor P. Los valores se escriben como mensajes en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta y se transmiten como valores de salida derivados para uso potencial en modelos o scripts. Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o expandiendo la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una herramienta ejecutada anteriormente a través del historial de geoprocesamiento. Opcionalmente, puede usar esta herramienta para crear un archivo de informe HTML con un resumen gráfico de los resultados. La ruta al informe se incluirá con los mensajes que resumen los parámetros de ejecución de la herramienta. Haga clic en esa ruta para abrir el archivo de informe.

  • El Campo de entrada debe contener una variedad de valores que no sean negativos. Aparecerá un mensaje de error si el Campo de entrada contiene valores negativos. Además, la operación matemática para esta estadística requiere cierta variación en la variable analizada; no se puede resolver si todos los valores de entrada son 1, por ejemplo. Para utilizar esta herramienta para analizar el patrón espacial de los datos de incidentes, considere agregar los datos de incidentes. La herramienta Análisis de puntos calientes optimizado también se puede utilizar para analizar el patrón espacial de datos de incidentes.

    Nota:

    Los datos de incidentes son puntos que representan eventos (delincuencia, accidentes de tráfico) u objetos (árboles, tiendas) donde el foco se centra en su presencia o ausencia en lugar de algún atributo de medición asociado con cada punto.

  • Los resultados de la puntuación z y el valor p son medidas de significancia estadística que indican si se debe rechazar o no la hipótesis nula. Para esta herramienta, la hipótesis nula establece que los valores asociados con entidades están distribuidos en forma aleatoria.
  • La puntuación z está basada en el cálculo de la hipótesis nula de aleatorización. Para obtener más información sobre las puntuaciones z, consulte ¿Qué es una puntuación z? ¿Qué es un valor p?

  • Mientras más alta (o más baja) sea la puntuación z, mayor será la intensidad del clustering. Una puntuación z cercana a cero indica que no hay un clustering evidente dentro del área de estudio. Una puntuación z positiva indica que hay un clustering de valores altos. Una puntuación z negativa indica que hay un clustering de valores bajos.

  • Cuando la Clase de entidad de entrada no está proyectada (es decir, cuando las coordenadas se especifican en grados, minutos y segundos) o cuando el sistema de coordenadas de salida está establecido en un Sistema de coordenadas geográficas, las distancias se calculan mediante mediciones de cuerda. Las mediciones de distancia de cuerda se utilizan porque se pueden calcular rápidamente y proporcionar muy buenas estimaciones de verdaderas distancias geodésicas, al menos para los puntos separados unos treinta grados entre sí. Las distancias de cuerda se basan en un esferoide oblato. Dados dos puntos en la superficie de la Tierra, la distancia de cuerda entre ellos es la longitud de una línea, que atraviesa la Tierra tridimensional, para conectar estos dos puntos. Las distancias de cuerda se informan en metros.

    Precaución:

    Asegúrese de proyectar los datos si su área de estudio se extiende más allá de los 30 grados. Las distancias de cuerda no son una buena estimación de las distancias geodésicas más allá de 30 grados.

  • Cuando se utilizan distancias de cuerda en el análisis, el parámetro Banda de distancia o distancia de umbral, si se especifica, debe proporcionarse en metros.

  • Los centroides de entidad se utilizan en los cálculos de distancia para las entidades de línea y polígono. Para multipuntos, polilíneas o polígonos con varias partes, el centroide se calcula utilizando el centro medio ponderado de todas las partes de entidad. La ponderación para las entidades de punto es 1, para las entidades de línea es longitud y para las entidades de polígono es área.

  • Su elección del parámetro Conceptualización de relaciones espaciales deberá reflejar relaciones inherentes entre las entidades que analiza. Cuanto más pueda modelar de manera realista cómo interactúan mutuamente las entidades en el espacio, más precisos serán sus resultados. Las recomendaciones se describen en Seleccionar una conceptualización de relaciones espaciales: mejores prácticas. A continuación, se ofrecen más sugerencias:

    • Banda de distancia fija

      El parámetro Banda de distancia o Distancia de umbral garantizará que cada entidad tenga al menos un vecino. Es importante, pero en muchos casos este valor predeterminado calculado no es la distancia más apropiada para el análisis. En Seleccionar un valor de banda de distancia fija se describen estrategias adicionales para seleccionar una escala apropiada (banda de distancia) para su análisis.

    • Distancia inversa o Distancia inversa cuadrada

      Cuando se introduce cero para el parámetro Banda de distancia o distancia de umbral, se considera que todas las entidades son vecinas de las demás entidades; cuando este parámetro se deja en blanco, se aplica la distancia predeterminada.

      Los pesos de las distancias menores que 1 se vuelven inestables cuando se invierten. Por consiguiente, a los pesos de entidades separadas por menos de 1 unidad de distancia se les da un peso de 1.

      Para las opciones de distancia inversa (Distancia inversa, Distancia inversa cuadrada y Zona de indiferencia), se asignará un peso de uno a todos los pares de puntos coincidentes para evitar la división por cero. Esto garantiza que las entidades no sean excluidas del análisis.

  • Las opciones adicionales para el parámetro Conceptualización de relaciones espaciales, incluidas las relaciones tridimensionales y espaciotemporales, están disponibles mediante la herramienta Generar matriz de ponderaciones espaciales. Para aprovechar estas opciones adicionales, cree un archivo de matriz de ponderaciones espaciales antes del análisis; seleccione Obtener ponderaciones espaciales a partir del archivo para el parámetro Conceptualización de relaciones espaciales y, para el parámetro Archivo de matriz de ponderaciones, especifique la ruta del archivo de ponderaciones espaciales que creó.

  • Las capas del mapa se pueden utilizar para definir la Clase de entidad de entrada. Cuando se utiliza una capa con una selección, solo las entidades seleccionadas se incluyen en el análisis.

  • Si proporciona un Archivo de matriz de ponderaciones con una extensión .swm, esta herramienta espera un archivo de matriz de ponderaciones espaciales creado utilizando la herramienta Generar matriz de ponderaciones espaciales ; de lo contrario, esta herramienta espera un archivo de matriz de ponderaciones espaciales con formato ASCII. En algunos casos, el comportamiento es diferente según el tipo de archivo de matriz de ponderaciones espaciales que se utiliza:

    • Archivos de matriz de ponderaciones espaciales con formato ASCII:
      • Las ponderaciones se utilizan como están. Las relaciones de entidad a entidad que faltan se tratan como ceros.
      • Si los pesos están estandarizados por fila, es probable que los resultados sean incorrectos para el análisis en los conjuntos de selección. Si necesita ejecutar el análisis en un conjunto de selección, convierta el archivo de ponderaciones espaciales ASCII en un archivo SWM leyendo los datos ASCII en una tabla y utilizando después la opción Convertir tabla con la herramienta Generar matriz de ponderaciones espaciales.
    • Archivo de matriz de ponderaciones espaciales con formato SWM:
      • Si los pesos están estandarizados en filas, se volverán a estandarizar para los conjuntos de selección; de lo contrario, los pesos se utilizan como están.

  • La ejecución del análisis con un archivo de matriz de ponderaciones espaciales con formato ASCII consume muchos recursos de memoria. Para los análisis de más de 5.000 entidades, considere convertir el archivo de matriz de ponderaciones espaciales con formato ASCII en un archivo con formato SWM. Primero coloque los pesos ASCII en una tabla con formato (por ejemplo, por medio de Excel). A continuación, ejecute la herramienta Generar matriz de ponderaciones espaciales utilizando Convertir tabla para el parámetro Conceptualización de relaciones espaciales. El resultado será un archivo de matriz de ponderaciones espaciales con formato .SWM.

  • El tema de ayuda Modelado de relaciones espaciales ofrece información adicional sobre los parámetros de esta herramienta.

  • Precaución:

    Al utilizar shapefiles tenga en cuenta que no pueden almacenar valores nulos. Las herramientas u otros procedimientos que crean shapefiles a partir de entradas sin shapefiles pueden almacenar o interpretar valores nulos como cero. En algunos casos, los nulos se almacenan como valores negativos muy grandes en shapefiles. Esto puede ocasionar resultados inesperados. Consulte Consideraciones de geoprocesamiento para la salida del shapefile para obtener más información.

Parámetros

EtiquetaExplicaciónTipo de datos
Clase de entidad de entrada

La clase de entidad para la cual se calculará la estadística G general.

Feature Layer
Campo de entrada

El campo numérico que se evaluará.

Field
Generar informe
(Opcional)

Especifica si la herramienta creará un resumen gráfico de los resultados.

  • Activada: se crea un resumen gráfico como un archivo HTML.
  • Desactivada: no se crea un resumen gráfico. Esta es la opción predeterminada.
Boolean
Conceptualización de relaciones espaciales

Especifica cómo se definen las relaciones espaciales entre las entidades.

  • Distancia inversaLas entidades vecinas tienen mayor influencia sobre los cálculos de una entidad de destino que las entidades que están alejadas.
  • Distancia inversa cuadradaEs igual que Distancia inversa, salvo en que la pendiente es más nítida, de modo que la influencia cae de una forma más rápida y solo los vecinos más cercanos de la entidad de destino ejercerán una influencia sustancial en los cálculos de dicha entidad.
  • Banda de distancia fijaCada entidad se analiza dentro del contexto de las entidades vecinas. Las entidades vecinas que se encuentran dentro de la distancia crítica especificada (Banda de distancia o Distancia de umbral) reciben un peso de 1 e influyen en los cálculos de la entidad de destino. Las entidades vecinas fuera de la distancia crítica reciben un peso de cero y no tienen influencia sobre los cálculos de una entidad de destino.
  • Zona de indiferenciaLas entidades que se encuentran dentro de la distancia crítica especificada (Banda de distancia o Distancia de umbral) de una entidad de destino reciben un peso de 1 e influyen en los cálculos de esa entidad. Una vez que se excede la distancia crítica, los pesos (y la influencia que una entidad vecina tiene sobre los cálculos de una entidad de destino) disminuyen con la distancia.
  • K vecinos más próximosLas entidades k más cercanas se incluyen en este análisis; k es un parámetro numérico especificado.
  • Solo bordes de contigüidadSolo las entidades de polígono vecinas que comparten un límite o que se superponen tendrán influencia sobre los cálculos de la entidad poligonal de destino.
  • Bordes o esquinas de contigüidadLas entidades poligonales que comparten un límite, comparten un nodo o se superponen tendrán influencia sobre los cálculos de la entidad poligonal de destino.
  • Obtener ponderaciones espaciales a partir del archivoLas relaciones espaciales vienen definidas por un archivo especificado de ponderaciones espaciales. La ruta del archivo de ponderaciones espaciales se especifica mediante el parámetro Archivo de matriz de ponderaciones.
String
Método de distancia

Especifica cómo se calculan las distancias desde cada entidad hasta las entidades vecinas.

  • Distancia euclidianaLa distancia en línea recta entre dos puntos
  • ManhattanLa distancia entre dos puntos medida a lo largo de los ejes en ángulos rectos (manzana); se calcula al sumar la diferencia (absoluta) entre las coordenadas x e y
String
Estandarización

Especifica que se aplicará la estandarización de ponderaciones espaciales. Se recomienda la estandarización de filas siempre que la distribución de las entidades esté potencialmente influenciada debido al diseño de muestreo o a un esquema de agregación impuesto.

  • NingunaNo se aplica la estandarización de ponderaciones espaciales.
  • FilaLas ponderaciones espaciales se estandarizan; cada peso se divide por la suma de su fila (la suma de los pesos de todas las entidades vecinas). Esta es la opción predeterminada.
String
Banda de distancia o Distancia de umbral
(Opcional)

Especifica una distancia de valor límite para las opciones de distancia inversa y distancia fija. Las entidades que están fuera del valor límite especificado para una entidad de destino se ignoran en el análisis de esa entidad. Sin embargo, para la Zona de indiferencia, la influencia de las entidades que están fuera de la distancia dada se reduce con la distancia, mientras que aquellas que están dentro del umbral de distancia se consideran por igual. El valor de distancia introducido debe coincidir con el del sistema de coordenadas de salida.

En las conceptualizaciones de relaciones espaciales de la distancia inversa, un valor de 0 indica que no se aplica una distancia de umbral; cuando este parámetro se deja en blanco, se calcula y se aplica un valor de umbral predeterminado. Este valor predeterminado es la distancia euclidiana que garantiza que cada entidad tenga como mínimo un vecino.

Este parámetro no tiene efecto cuando se seleccionan las conceptualizaciones espaciales de contigüidad de polígono (Solo bordes de contigüidad o Bordes o esquinas de contigüidad) o bien Obtener ponderaciones espaciales a partir del archivo.

Double
Archivo de matriz de ponderaciones
(Opcional)

La ruta a un archivo que contenga los pesos que definen las relaciones espaciales, y potencialmente temporales entre las entidades.

File
Cantidad de vecinos
(Opcional)

Un número entero que especifica el número de vecinos que se incluirán en el análisis.

Long

Salida derivada

EtiquetaExplicaciónTipo de datos
G general observado

La estadística G general observada.

Doble
Puntuación z

La puntuación z.

Doble
Valor P

El valor p.

Doble
Archivo de informes

Un archivo HTML con resumen gráfico de los resultados.

Archivo

arcpy.stats.HighLowClustering(Input_Feature_Class, Input_Field, {Generate_Report}, Conceptualization_of_Spatial_Relationships, Distance_Method, Standardization, {Distance_Band_or_Threshold_Distance}, {Weights_Matrix_File}, {number_of_neighbors})
NombreExplicaciónTipo de datos
Input_Feature_Class

La clase de entidad para la cual se calculará la estadística G general.

Feature Layer
Input_Field

El campo numérico que se evaluará.

Field
Generate_Report
(Opcional)
  • NO_REPORTNo se crea un resumen gráfico. Esta es la opción predeterminada.
  • GENERATE_REPORTSe crea un resumen gráfico como un archivo HTML.
Boolean
Conceptualization_of_Spatial_Relationships

Especifica cómo se definen las relaciones espaciales entre las entidades.

  • INVERSE_DISTANCELas entidades vecinas tienen mayor influencia sobre los cálculos de una entidad de destino que las entidades que están alejadas.
  • INVERSE_DISTANCE_SQUAREDEs igual que INVERSE_DISTANCE, salvo en que la pendiente es más nítida, de modo que la influencia cae de una forma más rápida y solo los vecinos más cercanos de la entidad de destino ejercerán una influencia sustancial en los cálculos de dicha entidad.
  • FIXED_DISTANCE_BANDCada entidad se analiza dentro del contexto de las entidades vecinas. Las entidades vecinas que se encuentran dentro de la distancia crítica especificada (Distance_Band_or_Threshold) reciben un peso de 1 e influyen en los cálculos de la entidad de destino. Las entidades vecinas fuera de la distancia crítica reciben un peso de cero y no tienen influencia sobre los cálculos de una entidad de destino.
  • ZONE_OF_INDIFFERENCELas entidades que se encuentran dentro de la distancia crítica especificada (Distance_Band_or_Threshold) de una entidad de destino reciben un peso de 1 e influyen en los cálculos de esa entidad. Una vez que se excede la distancia crítica, los pesos (y la influencia que una entidad vecina tiene sobre los cálculos de una entidad de destino) disminuyen con la distancia.
  • K_NEAREST_NEIGHBORSLas entidades k más cercanas se incluyen en este análisis; k es un parámetro numérico especificado.
  • CONTIGUITY_EDGES_ONLYSolo las entidades de polígono vecinas que comparten un límite o que se superponen tendrán influencia sobre los cálculos de la entidad poligonal de destino.
  • CONTIGUITY_EDGES_CORNERSLas entidades poligonales que comparten un límite, comparten un nodo o se superponen tendrán influencia sobre los cálculos de la entidad poligonal de destino.
  • GET_SPATIAL_WEIGHTS_FROM_FILELas relaciones espaciales vienen definidas por un archivo especificado de ponderaciones espaciales. La ruta del archivo de ponderaciones espaciales se especifica mediante el parámetro Weights_Matrix_File.
String
Distance_Method

Especifica cómo se calculan las distancias desde cada entidad hasta las entidades vecinas.

  • EUCLIDEAN_DISTANCELa distancia en línea recta entre dos puntos
  • MANHATTAN_DISTANCELa distancia entre dos puntos medida a lo largo de los ejes en ángulos rectos (manzana); se calcula al sumar la diferencia (absoluta) entre las coordenadas x e y
String
Standardization

Especifica que se aplicará la estandarización de ponderaciones espaciales. Se recomienda la estandarización de filas siempre que la distribución de las entidades esté potencialmente influenciada debido al diseño de muestreo o a un esquema de agregación impuesto.

  • NONENo se aplica la estandarización de ponderaciones espaciales.
  • ROWLas ponderaciones espaciales se estandarizan; cada peso se divide por la suma de su fila (la suma de los pesos de todas las entidades vecinas). Esta es la opción predeterminada.
String
Distance_Band_or_Threshold_Distance
(Opcional)

Especifica una distancia de valor límite para las opciones de distancia inversa y distancia fija. Las entidades que están fuera del valor límite especificado para una entidad de destino se ignoran en el análisis de esa entidad. Sin embargo, para la ZONE_OF_INDIFFERENCE, la influencia de las entidades que están fuera de la distancia dada se reduce con la distancia, mientras que aquellas que están dentro del umbral de distancia se consideran por igual. El valor de distancia introducido debe coincidir con el del sistema de coordenadas de salida.

En las conceptualizaciones de relaciones espaciales de la distancia inversa, un valor de 0 indica que no se aplica una distancia de umbral; cuando este parámetro se deja en blanco, se calcula y se aplica un valor de umbral predeterminado. Este valor predeterminado es la distancia euclidiana que garantiza que cada entidad tenga como mínimo un vecino.

Este parámetro no tiene efecto cuando se seleccionan las conceptualizaciones espaciales de contigüidad de polígono (CONTIGUITY_EDGES_ONLY o CONTIGUITY_EDGES_CORNERS) o bien GET_SPATIAL_WEIGHTS_FROM_FILE.

Double
Weights_Matrix_File
(Opcional)

La ruta a un archivo que contenga los pesos que definen las relaciones espaciales, y potencialmente temporales entre las entidades.

File
number_of_neighbors
(Opcional)

Un número entero que especifica el número de vecinos que se incluirán en el análisis.

Long

Salida derivada

NombreExplicaciónTipo de datos
Observed_General_G

La estadística G general observada.

Doble
ZScore

La puntuación z.

Doble
PValue

El valor p.

Doble
Report_File

Un archivo HTML con resumen gráfico de los resultados.

Archivo

Muestra de código

Ejemplo 1 de HighLowClustering (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta HighLowClustering.

import arcpy
arcpy.env.workspace = r"C:\data"
arcpy.HighLowClustering_stats("911Count.shp", "ICOUNT", "false", "GET_SPATIAL_WEIGHTS_FROM_FILE", "EUCLIDEAN_DISTANCE", "NONE", "#", "euclidean6Neighs.swm")
Ejemplo 2 de HighLowClustering (script independiente)

El siguiente script de Phython independiente muestra cómo utilizar la herramienta HighLowClustering.

# Analyze the spatial distribution of 911 calls in a metropolitan area
# using the High/Low Clustering (Getis-Ord General G) tool
 
# Import system modules
import arcpy
 
# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True
 
# Local variables...
workspace = r"C:\Data"
try:
    # Set the current workspace (to avoid having to specify the full path to the feature classes each time)
    arcpy.env.workspace = workspace
    # Copy the input feature class and integrate the points to snap
    # together at 500 feet
    # Process: Copy Features and Integrate
    cf = arcpy.CopyFeatures_management("911Calls.shp", "911Copied.shp",
                         "#", 0, 0, 0)
    integrate = arcpy.Integrate_management("911Copied.shp #", "500 Feet")
    # Use Collect Events to count the number of calls at each location
    # Process: Collect Events
    ce = arcpy.CollectEvents_stats("911Copied.shp", "911Count.shp", "Count", "#")
    # Add a unique ID field to the count feature class
    # Process: Add Field and Calculate Field
    af = arcpy.AddField_management("911Count.shp", "MyID", "LONG", "#", "#", "#", "#",
                     "NON_NULLABLE", "NON_REQUIRED", "#",
                     "911Count.shp")
    
    cf = arcpy.CalculateField_management("911Count.shp", "MyID", "!FID!", "PYTHON")
    # Create Spatial Weights Matrix for Calculations
    # Process: Generate Spatial Weights Matrix... 
    swm = arcpy.GenerateSpatialWeightsMatrix_stats("911Count.shp", "MYID",
                        "euclidean6Neighs.swm",
                        "K_NEAREST_NEIGHBORS",
                        "#", "#", "#", 6,
                        "NO_STANDARDIZATION") 
    # Cluster Analysis of 911 Calls
    # Process: High/Low Clustering (Getis-Ord General G)
    hs = arcpy.HighLowClustering_stats("911Count.shp", "ICOUNT", 
                        "false", 
                        "GET_SPATIAL_WEIGHTS_FROM_FILE",
                        "EUCLIDEAN_DISTANCE", "NONE",
                        "#", "euclidean6Neighs.swm")
except arcpy.ExecuteError:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Entornos

Casos especiales

Sistema de coordenadas de salida

La geometría de entidades se proyecta al Sistema de coordenadas de salida antes del análisis. Todos los cálculos matemáticos se basan en la referencia espacial del Sistema de coordenadas de salida. Cuando el entorno del Sistema de coordenadas de salida se basa en grados, minutos y segundos, las distancias geodésicas se calculan mediante distancias de cuerda.

Información de licenciamiento

  • Basic: Sí
  • Standard: Sí
  • Advanced: Sí

Temas relacionados