Análisis de agrupamiento (Estadística espacial)

Resumen

Entidades de grupos basadas en atributos de entidad y restricciones espaciales o temporales opcionales.

Heredado:

Esta es una herramienta obsoleta. El algoritmo tras esta herramienta se ha mejorado y se ha agregado una nueva funcionalidad a estos métodos. Para simplificar las entidades y los métodos, esta herramienta se ha sustituido por otras dos. Utilice la herramienta Clustering multivariante restringido espacialmente si desea crear grupos restringidos espacialmente. Utilice la herramienta Clustering multivariante para crear grupos que no presenten restricciones espaciales.

Ilustración

Grouping Analysis diagram

Uso

    Heredado:

    El algoritmo tras la herramienta Análisis de agrupamiento se ha mejorado y se ha agregado una nueva funcionalidad para estos métodos en ArcGIS Pro 2.1. Para simplificar las nuevas entidades y métodos, se han creado dos nuevas herramientas para sustituir a la herramienta Análisis de agrupamiento. Utilice la herramienta Clustering multivariante restringido espacialmente si desea crear grupos contiguos espacialmente. Utilice la herramienta Clustering multivariante para crear grupos que no presenten restricciones espaciales.

  • Esta herramienta produce una clase de entidad de salida con los campos utilizados en el análisis, más un nuevo campo de tipo entero denominado SS_GROUP. La representación en pantalla predeterminada se basa en el campo SS_GROUP y muestra a qué grupo pertenece a cada entidad. Si indica que desea tres grupos, por ejemplo, cada registro tendrá 1, 2 o 3 para el campo SS_GROUP. Cuando se selecciona Sin restricción espacial para el parámetro Restricciones espaciales, la clase de entidad de salida también tendrá un nuevo campo binario llamado SS_SEED. El campo SS_SEED indica qué entidades se utilizaban como puntos de inicio para incrementar los grupos. El número de los valores que no son cero en el campo SS_SEED coincidirá con el valor que introdujo para el parámetro Número de Grupos.

  • Esta herramienta creará opcionalmente un archivo de informe en PDF cuando especifique una ruta para el parámetro Archivo de informe de salida. Este informe contiene una serie de tablas y gráficos para ayudarle a entender las características de los grupos identificados. La ruta al informe PDF se incluirá con los mensajes que resumen los parámetros de ejecución de la herramienta. Al hacer clic sobre dicha herramienta se abrirá el archivo de informe. Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o ampliando la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una ejecución previa de Análisis de agrupamiento a través del Historial de geoprocesamiento.

    Nota:

    Crear el archivo de informe puede agregar tiempo de procesamiento sustancial. En consecuencia, mientras el Análisis de agrupamiento creará la Clase de entidad de salida que muestra la pertenencia al grupo, el archivo de informe en PDF no se creará si especifica más de 15 grupos o más de 15 variables.

  • Cuando la Clase de entidad de entrada no está proyectada (es decir, cuando las coordenadas se especifican en grados, minutos y segundos) o cuando el sistema de coordenadas de salida está establecido en un Sistema de coordenadas geográficas, las distancias se calculan mediante mediciones de cuerda. Las mediciones de distancia de cuerda se utilizan porque se pueden calcular rápidamente y proporcionar muy buenas estimaciones de verdaderas distancias geodésicas, al menos para los puntos separados unos treinta grados entre sí. Las distancias de cuerda se basan en un esferoide oblato. Dados dos puntos en la superficie de la Tierra, la distancia de cuerda entre ellos es la longitud de una línea, que atraviesa la Tierra tridimensional, para conectar estos dos puntos. Las distancias de cuerda se informan en metros.

    Precaución:

    Asegúrese de proyectar los datos si el área de estudio se extiende más allá de 30 grados. Las distancias de cuerda no son una buena estimación de las distancias geodésicas más allá de 30 grados.

  • El Campo de Id. único proporciona una manera para vincular los registros en la Clase de entidad de salida de vuelta a los datos en la clase de entidad de entrada original. Por consiguiente, los valores de Campo de Id. único deben ser únicos para cada entidad y, por lo general, debe ser un campo permanente que se mantiene con la clase de entidad. Si no tiene un Campo de Id. único en el dataset, puede crear uno fácilmente al agregar un nuevo campo de tipo entero a la tabla de clases de entidad y calcular los valores de campo para que sean iguales al campo FID/OID. No puede utilizar el campo FID/OID directamente para el parámetro Campo de Id. único.

  • Los Campos de análisis deben ser numéricos y deben contener una variedad de valores. Los ampos sin variación (es decir, el mismo valor para cada registro) se eliminarán de los análisis, pero se incluirán en la Clase de entidad de salida. Los campos categóricos se pueden utilizar con la herramienta Análisis de agrupamiento si se representan como variables de simulación (un valor de uno para todas las entidades en una categoría y de ceros para el resto de entidades).

  • La herramienta Análisis de agrupamiento construirá grupos con o sin limitaciones de espacio o tiempo. Para algunas aplicaciones quizá no desee imponer la contigüidad u otros requisitos de proximidad a los grupos creados. En esos casos, puede establecer el parámetro Restricciones espaciales en Sin restricción espacial.

  • Para algunos análisis, deseará que los grupos sean espacialmente contiguos. Las opciones de contigüidad están habilitadas para las clases de entidad poligonal e indican que las entidades solo pueden ser parte del mismo grupo si comparten un borde (Solo bordes de contigüidad) o si comparten un borde o un vértice (Bordes o esquinas de contigüidad) con otro miembro del grupo.

  • Las opciones Triangulación de Delaunay y Vecinos K más próximos son apropiadas para las entidades de punto o poligonales cuando desea asegurarse de que todos los miembros del grupo son proximales. Estas opciones indican que una entidad solo será incluida en un grupo si al menos otra entidad es un vecino natural (triangulación de Delaunay) o un vecino K más próximo. K es la cantidad de vecinos a considerar y se especifica mediante el parámetro Cantidad de vecinos.

  • Para crear grupos con restricciones de espacio y de tiempo, utilice la herramienta Generar matriz de ponderaciones espaciales para crear primero un archivo de matriz de ponderaciones espaciales (.swm) que defina las relaciones de espacio-tiempo entre las entidades. A continuación, ejecute el Análisis de agrupamiento estableciendo el parámetro Restricciones espaciales en Obtener ponderaciones espaciales a partir del archivo y el parámetro Archivo de matriz de ponderaciones espaciales en el archivo SWM que ha creado.

  • Para crear grupos tridimensionales que tengan en cuenta los valores Z de las entidades, use la herramienta Generar matriz de ponderaciones espaciales con el parámetro Usar valores Z activado para crear primero un archivo de matriz de ponderaciones espaciales (.swm) que defina las relaciones 3D entre las entidades. A continuación, ejecute el Análisis de agrupamiento estableciendo el parámetro Restricciones espaciales en Obtener ponderaciones espaciales a partir del archivo y el parámetro Archivo de matriz de ponderaciones espaciales en el archivo SWM que ha creado.

  • Pueden imponerse Restricciones espaciales adicionales, como distancia fija, utilizando la herramienta Generar matriz de ponderaciones espaciales para crear primero un archivo SWM y, a continuación, proporcionar la ruta hacia ese archivo para el parámetro Archivo de matriz de ponderaciones espaciales.

    Nota:

    Aunque puede crear un archivo de matriz de ponderaciones espaciales (SWM) para definir las restricciones espaciales, no hay ninguna ponderación real que se aplique. La SWM define las entidades que son contiguas o proximales. Imponer una restricción espacial determina quién puede y quién no puede ser miembro del mismo grupo. Si selecciona Solo bordes de contigüidad, por ejemplo, todas las entidades de un único grupo tendrán al menos un borde en común con otra entidad del grupo. Esto mantiene los grupos resultantes espacialmente contiguos.

  • La definición de una restricción espacial garantiza grupos compactos, contiguos o proximales. Incluyendo las variables espaciales en su lista de Campos de análisis también pueden promover estos atributos de grupo. Algunos ejemplos de variables espaciales serán la distancia a vías de acceso de la autovía, la accesibilidad a oportunidades de empleo, la proximidad a oportunidades de compra, medidas de conectividad e incluso coordenadas (X, Y). Las variables que representan tiempo, día de la semana o distancia temporal pueden fomentar la compactación temporal entre los miembros del grupo.

  • Cuando existe un patrón espacial claro para sus entidades (un ejemplo sería tres clústeres separados espacialmente distintos), puede complicar el algoritmo de agrupación restringido espacialmente. En consecuencia, el algoritmo de agrupamiento primero determina si existen grupos desconectados. Si el número de grupos desconectados es más grande que el Número de grupos especificado, la herramienta no puede resolver y fallará con un mensaje de error. Si el número de grupos desconectados es exactamente el mismo que el Número de grupos especificado, la configuración espacial de las entidades por si sola determina los resultados del grupo, como se muestra en (A) a continuación. Si el Número de grupos especificado es mayor que el número de grupos sin conexión, la agrupación comienza con los grupos desconectados ya establecidos. Por ejemplo, si hay tres grupos sin conexión y el Número de grupos especificado es 4, uno de los tres grupos se dividirá para crear un cuarto grupo, como se muestra en (B) a continuación.

    Grupos desconectados

  • En algunos casos, la herramienta Análisis de agrupación no podrá cumplir con las restricciones espaciales impuestas y algunas entidades no se incluirán en ninguno de los grupos (el valor SS_GROUP será -9999 con representación vacía en pantalla). Esto ocurre si hay entidades sin vecinos. Para evitar esto, utilice Vecinos K más próximos lo que garantiza que todas las entidades tengan vecinos. Aumentar el parámetro Cantidad de vecinos ayudará a resolver problemas con grupos sin conexión.

  • Aunque hay una tendencia a querer incluir tantos Campos de análisis como sea posible, para esta herramienta funciona mejor comenzar con una variable única y construir. Los resultados son mucho más fáciles de interpretar con menos campos de análisis. También es más fácil determinar qué variables son los mejores discriminadores cuando hay menos campos.

  • Si selecciona Sin restricción espacial para el parámetro Restricciones espaciales, tiene tres opciones para el Método de inicialización: Buscar ubicaciones de seed, Obtener seeds del campo y Utilizar seeds aleatorios. Los valores seed son las entidades utilizadas para cultivar los grupos individuales. Si, por ejemplo, introduce un 3 para el parámetro Número de grupos, el análisis comenzará con tres entidades seed. La opción predeterminada, Buscar ubicaciones de seed, selecciona aleatoriamente el primer seed y se asegura de que los siguientes valores seed que se seleccionan representan entidades que están lejos de los demás en el espacio de datos. Seleccionar los valores de inicialización iniciales que capturan diferentes áreas de espacio de datos mejora el rendimiento. A veces, sabe que las entidades específicas reflejan distintas características que desea que se representen mediante los diferentes grupos. En ese caso, cree un campo seed para identificar esas características distintivas. El campo seed que crea debe tener ceros para todos, pero las entidades seed iniciales; las entidades seed iniciales tendrán un valor de 1. Entonces seleccionará Obtener seeds del campo en el parámetro Método de inicialización. Si está interesado en hacer algún tipo de análisis de sensibilidad para ver las entidades que siempre se encuentran en el mismo grupo, puede seleccionar la opción Utilizar seeds aleatorios para el parámetro Método de inicialización. Para esta opción, todas las entidades seed se seleccionan de forma aleatoria.

    Nota:

    Cuando se utilizan valores de inicialización aleatorios, puede que desee elegir un valor de inicialización para iniciar el generador de números aleatorios mediante la configuración del entorno del generador de números aleatorios. No obstante, el generador de números aleatorios que se utiliza en esta herramienta siempre es Mersenne Twister.

  • Los valores de 1 en el Campo de inicialización se interpretarán como valor de inicialización. Si hay más entidades seed que Número de grupos, las entidades seed se selecciona de forma aleatoria de las identificadas por el Campo de inicialización. Si hay menos entidades seed de las especificadas por Número de grupos, las entidades seed adicionales se seleccionarán de manera que estén lejos (en el espacio de datos) de las identificadas por el Campo de inicialización.

  • A veces conoce el Número de grupos más adecuado para sus datos. En el caso que usted no lo conozca; sin embargo, es posible que tenga que probar diferentes números de grupos, anotando qué valores proporcionar la mejor diferenciación de grupo. Al activar el parámetro Evaluar número óptimo de grupos, una estadística pseudo F se calculará para agrupar soluciones con 2 a través de 15 grupos. Si no hay otros criterios que guíen su elección para Número de grupos, utilice un número asociado con uno de los mayores valores de estadística F pseudo. Los valores de índice estadístico F más grandes, indican soluciones que funcionan mejor para la maximización de las similitudes dentro del grupo y las diferencias entre el grupo. Cuando se especifica un Archivo de informe de salida opcional, que el informe en PDF incluirá un gráfico que muestra los valores de estadística F para soluciones con 2 a través de 15 grupos.

  • Independientemente del Número de grupos que especifique, la herramienta se detendrá si la división entre grupos adicionales pasa a ser arbitraria. Supongamos, por ejemplo, que los datos constan de tres polígonos agrupados espacialmente y de un campo de un solo análisis. Si todas las entidades del clúster tienen el mismo valor de campo de análisis, la forma en que uno de los clústeres individuales se dividirá una vez creados los tres grupos pasará a ser arbitraria. Si especifica más de tres grupos en este caso, la herramienta seguirá creando solamente tres grupos. Siempre que al menos uno de los campos de análisis de un grupo tenga valores distintos, la división entre grupos adicionales podrá continuar.

    No se crearán más grupos
    Los grupos no se dividirán más si no se produce ninguna variación en los valores de los campos de análisis.

  • Cuando se incluye una restricción de espacio-tiempo o espacial en su análisis, las estadísticas F pseudo son comparables (mientras las Entidades de entrada y Campos de análisis no cambian). Por consiguiente, puede utilizar los valores de estadística F para determinar no solo un Número de grupos óptimo, sino también para tomar decisiones sobre la opción Restricciones espaciales más efectiva, el Método de distancia y la Cantidad de vecinos.

  • El algoritmo de valor medio K utilizado para las entidades de partición en grupos cuando se selecciona Sin restricción espacial para el parámetro Restricciones espaciales y se selecciona Buscar ubicaciones de seed o Utilizar seeds aleatorios para el Método de inicialización incorpora heurísticas y puede devolver un resultado diferente cada vez que ejecuta la herramienta (incluso utilizando los mismos datos y los mismos parámetros de la herramienta). Esto se debe a que hay un componente aleatorio para encontrar las entidades seed iniciales utilizadas para aumentar los grupos.

  • Cuando se impone una restricción espacial no hay un componente aleatorio para el algoritmo, de modo que un pseudo índice estadístico F se puede calcular para los grupos 2 a 15, y los valores más altos del índice estadístico F se pueden utilizar para determinar el Número de grupos óptimo para el análisis. Esto se debe a que la opción Sin restricción espacial es una solución heurística; sin embargo, determinar el número óptimo de grupos es más complejo. La estadística F, puede ser diferente cada vez que se ejecuta la herramienta, debido a distintas entidades seed iniciales. Sin embargo, cuando sus datos presentan un patrón distinto, las soluciones de una ejecución a la siguiente serán más coherentes. Por consiguiente, para ayudar a determinar el número óptimo de grupos cuando se selecciona la opción Sin restricción espacial, la herramienta resuelve el análisis de agrupación 10 veces para 2, 3, 4 y hasta 15 grupos. A continuación, se facilita la información sobre la distribución de estas 10 soluciones (min., máx., valor medio y mediana) para ayudarle a determinar un número óptimo de grupos para su análisis.

  • La herramienta Análisis de agrupamiento devuelve tres valores de salida derivados para uso potencial en modelos y scripts personalizados. Estos son los pseudoelementos de estadística F para el Número de grupos (Output_FStat), la mayor estadística F pseudo para grupos 2 a través de 15 (Max_FStat) y el número de grupos asociados con el mayor valor de estadística F pseudo (Max_FStat_Group). Cuando no elige Evaluar número óptimo de grupos, todas las variables de salida derivadas se establecen en None.

  • El número de grupo asignado a un conjunto de entidades puede cambiar de una ejecución a la siguiente. Por ejemplo, supongamos que divide las entidades en dos grupos basados en una variable de ingresos. La primera vez que ejecuta el análisis puede ver las entidades de ingresos altos etiquetadas como grupo 2 y las entidades de ingresos bajos etiquetadas como grupo 1; la segunda vez que ejecute el mismo análisis, las entidades de ingresos altos pueden estar etiquetadas como grupo 1. También podría ver que algunas de las entidades de ingresos medios cambian la pertenencia a un grupo de una ejecución a otra cuando se especifica Sin restricción espacial.

  • Si bien puede seleccionar crear un gran número de diferentes grupos, en la mayoría de los escenarios probablemente tendrá que dividir entidades en unos pocos grupos. Porque los gráficos y mapas resultan difíciles de interpretar con muchos grupos, ningún informe se crea cuando se introduce un valor mayor que 15 para el parámetro Número de grupos o selecciona más de 15 Campos de análisis. Sin embargo, puede aumentar este límite sobre el número máximo de grupos.

    Explorar:

    Debido a que tiene el código fuente de Python para la herramienta Análisis de agrupamiento, puede invalidar la limitación del informe de 15 variables o 15 grupos, si así lo desea. Este límite máximo se establece por dos variables en el archivo de scripts Partition.py y el código de validación de la herramienta dentro de la caja de herramientas Estadísticas espaciales:

    maxNumGroups = 15
    maxNumVars = 15

  • Para obtener más información sobre el Archivo de informe de salida, consulte Más información sobre cómo funciona Análisis de agrupamiento.

Parámetros

EtiquetaExplicaciónTipo de datos
Entidades de entrada

La clase de entidad o capa de entidades para las que desea crear grupos.

Feature Layer
Campo de Id. único

Un campo de entero que contiene un valor diferente para cada entidad en la clase de entidad de entrada. Si no tiene un campo de Id. único, puede crear uno agregando un campo de tipo entero a la tabla de clases de entidad y calculando los valores de campo para que equivalgan a los campos FID o OBJECTID.

Field
Clase de entidad de salida

La nueva clase de entidad de salida creada que contiene todas las entidades, los campos de análisis especificados y un campo que indica a qué grupo pertenece cada entidad.

Feature Class
Número de grupos

El número de grupos a crear. El parámetro Informe de salida estará deshabilitado para más de 15 grupos.

Long
Campos de análisis

Una lista de los campos que desea utilizar para distinguir a un grupo de otro. El parámetro Informe de salida estará deshabilitado para más de 15 campos.

Field
Restricciones espaciales

Especifica si y cómo las relaciones espaciales entre entidades deben restringir los grupos creados.

  • Solo bordes de contigüidadGrupos que contienen entidades de polígono contiguos. Solo los polígonos que comparten un borde pueden ser parte del mismo grupo.
  • Bordes o esquinas de contigüidadGrupos que contienen entidades de polígono contiguos. Solo los polígonos que comparten un borde o un vértice pueden ser parte del mismo grupo.
  • Triangulación de DelaunayLas entidades en un mismo grupo tendrán al menos un vecino natural en común con otra entidad en el grupo. Las relaciones de vecinos naturales se basan en triangulación de Delaunay. Conceptualmente, la triangulación de Delaunay crea una malla de triángulos no superpuestos a partir de los centroides de la entidad. Cada entidad es un nodo de triángulo y nodos que comparten bordes y que se consideran vecinos.
  • K vecinos más próximosLas entidades en el mismo grupo estarán cerca unos de otros; cada entidad es vecina de por lo menos otra entidad en el grupo. Las relaciones de vecino se basan en las entidades K más cercanas, donde especifica un valor entero, K, para el parámetro Cantidad de vecinos.
  • Obtener ponderaciones espaciales a partir del archivoDe manera espacial y opcionalmente temporal, las relaciones se definen por un archivo de ponderaciones espaciales (.swm). Cree el archivo de matriz de ponderaciones espaciales con la herramienta Generar matriz de ponderaciones espaciales o Generar ponderaciones espaciales de red.
  • Sin restricción espacialLas entidades se agruparán utilizando el espacio de datos solo de proximidad. Las entidades no tienen que estar cerca unas de otras en el espacio o tiempo para formar parte del mismo grupo.
String
Método de distancia
(Opcional)

Especifica cómo se calculan las distancias desde cada entidad hasta las entidades vecinas.

  • EuclidianoLa distancia en línea recta entre dos puntos
  • ManhattanLa distancia entre dos puntos medida a lo largo de los ejes en ángulos rectos (manzana); se calcula al sumar la diferencia (absoluta) entre las coordenadas x e y
String
Cantidad de vecinos
(Opcional)

Este parámetro está habilitado cuando el parámetro Restricciones espaciales es Vecinos K más próximos o uno de los métodos de contigüidad (Solo bordes de contigüidad o Bordes o esquinas de contigüidad). El número predeterminado de vecinos es 8 y no puede ser menor que 2 para Vecinos K más próximos. Este valor refleja el número exacto de vecinos más cercanos candidatos que se debe tener en cuenta a la hora de crear grupos. Una entidad no se incluirá en un grupo a menos que una de las demás entidades en este grupo sea un vecino más próximo. El valor predeterminado de Solo bordes de contigüidad y Bordes o esquinas de contigüidad es 0. En los métodos de contigüidad, este valor refleja la cantidad mínima de posibles vecinos a considerar. Los vecinos cercanos adicionales para entidades que tengan un valor inferior al especificado en Cantidad de vecinos estarán basados en la proximidad al centroide de la entidad.

Long
Archivo de matriz de ponderaciones
(Opcional)

La ruta a un archivo que contiene las ponderaciones espaciales que definen las relaciones espaciales entre las entidades.

File
Método de inicialización
(Opcional)

Especifica cómo se obtienen seeds iniciales cuando el parámetro Restricción espacial seleccionado es Sin restricción espacial. Los seeds se utilizan para aumentar los grupos. Si indica que desea tres grupos, por ejemplo, el análisis comenzará con tres seeds.

  • Buscar ubicaciones de seedLas entidades seed se seleccionarán para optimizar el rendimiento.
  • Obtener seeds del campoLas entradas que no son cero en el Campo de inicialización se utilizarán como puntos para los grupos de aumento.
  • Utilizar seeds aleatoriosLas entidades iniciales de valores de inicialización se seleccionarán de forma aleatoria.
String
Campo de inicialización
(Opcional)

El campo numérico identifica entidades de valores de inicialización. Las entidades con un valor de 1 para este campo se utilizarán para grupos de aumento.

Field
Archivo de informe de salida
(Opcional)

La ruta de acceso completa para el archivo de informe PDF se creará resumiendo las características de grupo. Este informe ofrece una serie de gráficos para ayudarle a comparar las características de cada grupo. Crear el archivo de informe puede agregar tiempo de procesamiento sustancial.

File
Evaluar número óptimo de grupos
(Opcional)

Especifica si la herramienta evaluará el número óptimo de grupos, 2 a través de 15.

  • Activado: se evaluarán las agrupaciones de 2 a 15.
  • Desactivado: no se realizará evaluación del número de grupos. Esta es la opción predeterminada.
Boolean

Salida derivada

EtiquetaExplicaciónTipo de datos
Estadística F

Valor de estadística pseudo F de salida.

Double
Grupo de estadística F máximo

Número de grupos asociados con el mayor valor de estadística pseudo F

Long
Estadística F máxima

La pseudo estadística F más grande para los grupos 2-15.

Double

arcpy.stats.GroupingAnalysis(Input_Features, Unique_ID_Field, Output_Feature_Class, Number_of_Groups, Analysis_Fields, Spatial_Constraints, {Distance_Method}, {Number_of_Neighbors}, {Weights_Matrix_File}, {Initialization_Method}, {Initialization_Field}, {Output_Report_File}, {Evaluate_Optimal_Number_of_Groups})
NombreExplicaciónTipo de datos
Input_Features

La clase de entidad o capa de entidades para las que desea crear grupos.

Feature Layer
Unique_ID_Field

Un campo de entero que contiene un valor diferente para cada entidad en la clase de entidad de entrada. Si no tiene un campo de Id. único, puede crear uno agregando un campo de tipo entero a la tabla de clases de entidad y calculando los valores de campo para que equivalgan a los campos FID o OBJECTID.

Field
Output_Feature_Class

La nueva clase de entidad de salida creada que contiene todas las entidades, los campos de análisis especificados y un campo que indica a qué grupo pertenece cada entidad.

Feature Class
Number_of_Groups

El número de grupos a crear. El parámetro Informe de salida estará deshabilitado para más de 15 grupos.

Long
Analysis_Fields
[analysis_field,...]

Una lista de los campos que desea utilizar para distinguir a un grupo de otro. El parámetro Informe de salida estará deshabilitado para más de 15 campos.

Field
Spatial_Constraints

Especifica si y cómo las relaciones espaciales entre entidades deben restringir los grupos creados.

  • CONTIGUITY_EDGES_ONLYGrupos que contienen entidades de polígono contiguos. Solo los polígonos que comparten un borde pueden ser parte del mismo grupo.
  • CONTIGUITY_EDGES_CORNERSGrupos que contienen entidades de polígono contiguos. Solo los polígonos que comparten un borde o un vértice pueden ser parte del mismo grupo.
  • DELAUNAY_TRIANGULATIONLas entidades en un mismo grupo tendrán al menos un vecino natural en común con otra entidad en el grupo. Las relaciones de vecinos naturales se basan en triangulación de Delaunay. Conceptualmente, la triangulación de Delaunay crea una malla de triángulos no superpuestos a partir de los centroides de la entidad. Cada entidad es un nodo de triángulo y nodos que comparten bordes y que se consideran vecinos.
  • K_NEAREST_NEIGHBORSLas entidades en el mismo grupo estarán cerca unos de otros; cada entidad es vecina de por lo menos otra entidad en el grupo. Las relaciones de vecino más cercano se basan en las entidades K donde especifica un valor entero, K, para el parámetro Number_of_Neighbors.
  • GET_SPATIAL_WEIGHTS_FROM_FILEDe manera espacial y opcionalmente temporal, las relaciones se definen por un archivo de ponderaciones espaciales (.swm). Cree el archivo de matriz de ponderaciones espaciales con la herramienta Generar matriz de ponderaciones espaciales o Generar ponderaciones espaciales de red.
  • NO_SPATIAL_CONSTRAINTLas entidades se agruparán utilizando el espacio de datos solo de proximidad. Las entidades no tienen que estar cerca unas de otras en el espacio o tiempo para formar parte del mismo grupo.
String
Distance_Method
(Opcional)

Especifica cómo se calculan las distancias desde cada entidad hasta las entidades vecinas.

  • EUCLIDEANLa distancia en línea recta entre dos puntos
  • MANHATTANLa distancia entre dos puntos medida a lo largo de los ejes en ángulos rectos (manzana); se calcula al sumar la diferencia (absoluta) entre las coordenadas x e y
String
Number_of_Neighbors
(Opcional)

Este parámetro puede especificarse siempre que el parámetro Spatial_Constraints sea K_NEAREST_NEIGHBORS o uno de los métodos de contigüidad (CONTIGUITY_EDGES_ONLY o CONTIGUITY_EDGES_CORNERS). El número predeterminado de vecinos es 8 y no puede ser menor que 2 para K_NEAREST_NEIGHBORS. Este valor refleja el número exacto de vecinos más cercanos candidatos que se debe tener en cuenta a la hora de crear grupos. Una entidad no se incluirá en un grupo a menos que una de las demás entidades en este grupo sea un vecino más próximo. El valor predeterminado para CONTIGUITY_EDGES_ONLY y CONTIGUITY_EDGES_CORNERS es 0. En los métodos de contigüidad, este valor refleja la cantidad mínima de posibles vecinos a considerar. Los vecinos cercanos adicionales para entidades que tengan un valor inferior al especificado en Number_of_Neighbors se basarán en la proximidad al centroide de la entidad.

Long
Weights_Matrix_File
(Opcional)

La ruta a un archivo que contiene las ponderaciones espaciales que definen las relaciones espaciales entre las entidades.

File
Initialization_Method
(Opcional)

Especifica cómo se obtienen seeds iniciales cuando el parámetro Spatial_Constraint seleccionado es NO_SPATIAL_CONSTRAINT. Los seeds se utilizan para aumentar los grupos. Si indica que desea tres grupos, por ejemplo, el análisis comenzará con tres seeds.

  • FIND_SEED_LOCATIONSLas entidades seed se seleccionarán para optimizar el rendimiento.
  • GET_SEEDS_FROM_FIELDLas entradas que no son cero en el Campo de inicialización se utilizarán como puntos para los grupos de aumento.
  • USE_RANDOM_SEEDSLas entidades iniciales de valores de inicialización se seleccionarán de forma aleatoria.
String
Initialization_Field
(Opcional)

El campo numérico identifica entidades de valores de inicialización. Las entidades con un valor de 1 para este campo se utilizarán para grupos de aumento.

Field
Output_Report_File
(Opcional)

La ruta de acceso completa para el archivo de informe PDF se creará resumiendo las características de grupo. Este informe ofrece una serie de gráficos para ayudarle a comparar las características de cada grupo. Crear el archivo de informe puede agregar tiempo de procesamiento sustancial.

File
Evaluate_Optimal_Number_of_Groups
(Opcional)
  • EVALUATELas agrupaciones de 2 a 15 serán evaluadas.
  • DO_NOT_EVALUATENo se realizará evaluación del número de grupos. Esta es la opción predeterminada.
Boolean

Salida derivada

NombreExplicaciónTipo de datos
Output_FStat

Valor de estadística pseudo F de salida.

Double
Max_FStat_Group

Número de grupos asociados con el mayor valor de estadística pseudo F

Long
Max_FStat

La pseudo estadística F más grande para los grupos 2-15.

Double

Muestra de código

Ejemplo 1 GroupingAnalysis 1 (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la función GroupingAnalysis.

import arcpy
arcpy.env.workspace = r"C:\GA"
arcpy.stats.GroupingAnalysis("Dist_Vandalism.shp", "TARGET_FID", "outGSF.shp", 
                             "4", "Join_Count;TOTPOP_CY;VACANT_CY;UNEMP_CY",
                             "NO_SPATIAL_CONSRAINT", "EUCLIDEAN", "", "", 
                             "FIND_SEED_LOCATIONS", "", "outGSF.pdf", 
                             "DO_NOT_EVALUATE")
Ejemplo 2 de GroupingAnalysis (script independiente)

El siguiente script independiente de Python muestra cómo utilizar la función GroupingAnalysis.


# Grouping Analysis of Vandalism data in a metropolitan area
# using the Grouping Analysis Tool

# Import system modules
import arcpy
import os

# Set geoprocessor object property to overwrite existing output, by default
arcpy.env.overwriteOutput = True

try:
    # Set the current workspace (to avoid having to specify the full path to
    # the feature classes each time)
    arcpy.env.workspace = r"C:\GA"

    # Join the 911 Call Point feature class to the Block Group Polygon feature 
    # class
    # Process: Spatial Join
    fieldMappings = arcpy.FieldMappings()
    fieldMappings.addTable("ReportingDistricts.shp")
    fieldMappings.addTable("Vandalism2006.shp")

    sj = arcpy.SpatialJoin_analysis("ReportingDistricts.shp", 
                                    "Vandalism2006.shp", "Dist_Vand.shp", 
                                    "JOIN_ONE_TO_ONE", "KEEP_ALL", 
                                    fieldMappings, "COMPLETELY_CONTAINS")
    
    # Use Grouping Analysis tool to create groups based on different variables 
    # or analysis fields
    # Process: Group Similar Features  
    ga = arcpy.stats.GroupingAnalysis("Dist_Vand.shp", "TARGET_FID", 
                                      "outGSF.shp", "4", 
                                      "Join_Count;TOTPOP_CY;VACANT_CY;UNEMP_CY",
                                      "NO_SPATIAL_CONSRAINT", "EUCLIDEAN", "", 
                                      "", "FIND_SEED_LOCATIONS", "",
                                      "outGSF.pdf", "DO_NOT_EVALUATE")

    # Use Summary Statistic tool to get the Mean of variables used to group
    # Process: Summary Statistics
    SumStat = arcpy.Statistics_analysis("outGSF.shp", "outSS", 
                                        [["Join_Count", "MEAN"], 
                                         ["VACANT_CY", "MEAN"], 
                                         ["TOTPOP_CY", "MEAN"], 
                                         ["UNEMP_CY", "MEAN"]], 
                                        "GSF_GROUP")

except:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Entornos

Casos especiales

Sistema de coordenadas de salida

La geometría de entidades se proyecta al Sistema de coordenadas de salida antes del análisis. Todos los cálculos matemáticos se basan en la referencia espacial del Sistema de coordenadas de salida. Cuando el entorno del Sistema de coordenadas de salida se basa en grados, minutos y segundos, las distancias geodésicas se calculan mediante distancias de cuerda.

Generador de números aleatorios

El tipo de generador de números aleatorios que se utiliza siempre es Mersenne Twister.

Información de licenciamiento

  • Basic: Sí
  • Standard: Sí
  • Advanced: Sí