Análisis de valores atípicos locales (Minería de patrones en espacio-tiempo)

Resumen

Identifica clústeres y valores atípicos que son significativos desde el punto de vista estadístico en el contexto del espacio y el tiempo. Esta herramienta es una implementación de espacio-tiempo de la estadística de I Anselin local de Moran.

Más información sobre cómo funciona la herramienta Análisis de valores atípicos locales

Ilustración

Análisis de valores atípicos locales

Uso

  • Esta herramienta solo puede aceptar archivos netCDF creados con las herramientas Crear cubo de espacio-tiempo agregando puntos, Crear cubo de espacio-tiempo a partir de ubicaciones definidas o Crear cubo de espacio-tiempo a partir de capa ráster multidimensional.

  • Cada bin del cubo de espacio-tiempo tiene un valor LOCATION_ID, time_step_ID y COUNT, además de cualquier Campo de resumen o Variable incluidos cuando se creó el cubo. Los bins que estén asociados a la misma ubicación física compartirán el mismo Id. de ubicación y, conjuntamente, representarán una serie temporal. Los bins que estén asociados al mismo periodo de tiempo compartirán el mismo Id. de periodo de tiempo y, conjuntamente, formarán un intervalo de tiempo. El valor del recuento de cada bin refleja la cantidad de incidentes o registros ocurridos en la ubicación asociada junto con el intervalo de tiempo asociado.

    Cada bin tiene un Id. de ubicación, un Id. de período de tiempo y un recuento

  • Esta herramienta analiza una variable en el Cubo de espacio-tiempo de entrada netCDF utilizando una implementación de espacio-tiempo de la estadística de I Anselin local de Moran.

  • Las Entidades de salida se agregarán al panel de Contenido con una representación en la que se resumen los resultados del análisis de espacio-tiempo para todas las ubicaciones analizadas. Si especifica una Máscara de análisis de polígonos, las ubicaciones analizadas serán las que estén incluidas en la máscara de análisis; de lo contrario, las ubicaciones analizadas serán aquellas que tengan al menos un punto para un período de tiempo como mínimo.

    Ubicaciones de cubo con y sin datos

  • Además de las Entidades de salida, se escribe un resumen del análisis como mensajes en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente Ventana emergente o expandiendo la sección de detalles de los mensajes del panel Geoprocesamiento. También puede acceder a los mensajes de una herramienta ejecutada anteriormente a través del Historial de geoprocesamiento en el panel Catálogo.

  • La herramienta Análisis de valores atípicos locales identifica clústeres y valores atípicos que son significativos desde el punto de vista estadístico en el contexto del espacio y el tiempo. Consulte Más información sobre cómo funciona la herramienta Análisis de valores atípicos locales para ver las definiciones de categoría de salida predeterminadas, así como información adicional sobre los algoritmos que se utilizan en esta herramienta de análisis.

  • Para identificar clústeres y valores atípicos en el cubo de espacio-tiempo, esta herramienta utiliza una implementación de espacio-tiempo de la estadística de I Anselin local de Moran, que considera el valor de cada bin en el contexto de los valores para los bins vecinos.

  • Para determinar los bins que se van a incluir en la vecindad de cada análisis, primero la herramienta busca los bins vecinos que están incluidos dentro de la Conceptualización de relaciones espaciales especificada. A continuación, para cada uno de esos bins, incluye bins en las mismas ubicaciones que los intervalos de tiempo N anteriores, donde N corresponde al valor de Período de tiempo de vecindad que ha especificado.

  • Su elección del parámetro Conceptualización de relaciones espaciales deberá reflejar relaciones inherentes entre las entidades que analiza. Cuanto más pueda modelar de manera realista cómo interactúan mutuamente las entidades en el espacio, más precisos serán sus resultados. Las recomendaciones se describen en Seleccionar una conceptualización de relaciones espaciales.

  • La Conceptualización de relaciones espaciales predeterminada es Distancia fija. Se considera que un bin es vecino si su centroide cae dentro de la Distancia de vecindad y su intervalo de tiempo cae dentro del Período de tiempo de vecindad que haya especificado. Cuando no se indica un valor de Distancia de vecindad, se calcula uno basado en la distribución espacial de los datos de los puntos. Cuando no se indica un valor de Período de tiempo de vecindad, la herramienta utiliza un valor predeterminado para el intervalo de tiempo de 1.

  • El parámetro Número de vecinos puede invalidar la Distancia de vecindad para la opción Distancia fija o ampliar la búsqueda de vecinos para las opciones Solo bordes de contigüidad y Bordes o esquinas de contigüidad. En estos casos, el Número de vecinos se utiliza como un número mínimo. Por ejemplo, si especifica la Distancia fija con una Distancia de vecindad de 10 millas y 3 para el parámetro Número de vecinos, todos los bins recibirán un mínimo de 3 vecinos espaciales, aunque la Distancia de vecindad se tenga que incrementar para encontrarlos. La distancia solo se incrementa para aquellos bins en los que no se alcanza el Número de vecinos mínimo. Del mismo modo, con las opciones de contigüidad, para los bins con una cantidad inferior a este número de vecinos contiguos, se elegirán vecinos adicionales basados en la proximidad al centroide.

  • El valor de Período de tiempo de vecindad es el número de intervalos de tiempo que incluir en la vecindad del análisis. Por ejemplo, si el intervalo de tiempo para el cubo es de tres meses y especifica 2 para el Período de tiempo de vecindad, en la vecindad del análisis se incluirán todos los recuentos de bins incluidos en la Conceptualización de relaciones espaciales, así como el resto de bins asociados para los dos intervalos de tiempo anteriores (abarcando un período de nueve meses).

  • Las permutaciones se utilizan para determinar la probabilidad de encontrar la distribución espacial real de los valores que está analizando. Para cada permutación, los valores de vecindad alrededor de cada bin se reorganizan aleatoriamente y se calcula el valor I de Moran local. El resultado es una distribución de referencia de los valores que luego se comparan con el valor I de Moran real observado para determinar la probabilidad de que el valor observado pueda encontrarse en la distribución aleatoria. El valor predeterminado es de 499 permutaciones; no obstante, la distribución de la muestra aleatoria se ha mejorado con más permutaciones, lo que mejora la precisión del pseudo valor P.

  • Si el parámetro Número de permutaciones está establecido a 0, el resultado es un valor P tradicional en lugar de un pseudo valor P.

  • Las permutaciones que emplea esta herramienta se benefician del aumento de rendimiento disponible en sistemas que utilizan varias CPU (o unas CPU de varios núcleos). De forma predeterminada, la herramienta se ejecutará con el 50 % de los procesadores disponibles; no obstante, el número de CPU utilizadas se puede aumentar o disminuir con el entorno Factor de procesamiento en paralelo. La mayor velocidad de procesamiento es más notable en los cubos espacio-tiempo grandes o en que la herramienta ejecuta mayores cantidades de permutaciones.

  • La capa de entidades Máscara de análisis de polígonos puede incluir uno o más polígonos que definen el área de estudio del análisis. Estos polígonos indican el lugar en el que se podrían generar entidades de puntos y deberían excluir aquellas áreas en las que sería imposible que hubiera puntos. Si fuera a analizar tendencias de robos en viviendas, por ejemplo, podría utilizar la Máscara de análisis de polígonos para excluir zonas de lagos grandes, parques regionales u otras áreas en las que no existen viviendas.

  • La Máscara de análisis de polígonos se interseca con la extensión del Cubo de espacio-tiempo de entrada y no amplía las dimensiones del cubo.

  • Si la Máscara de análisis de polígonos que está utilizando para establecer su área de estudio abarca un área que supera la extensión de las entidades de entrada que se utilizaron al crear el cubo por primera vez, puede que desee volver a crear el cubo utilizando dicha Máscara de análisis de polígonos como el Entorno de extensión. De este modo, garantizará que toda el área cubierta por la Máscara de análisis de polígonos se incluye al ejecutar la herramienta Análisis de valores atípicos locales. Si usa la Máscara de análisis de polígonos como la configuración del Entorno de extensión durante la creación del cubo, se asegurará de que la extensión del cubo coincide con la extensión de la Máscara de análisis de polígonos.

  • Esta herramienta crea una nueva clase de entidad de salida con los siguientes atributos para cada ubicación en el cubo de espacio-tiempo. Estos campos se pueden utilizar para la visualización personalizada de la salida. Consulte Más información sobre cómo funciona la herramienta Análisis de valores atípicos locales para obtener más información sobre los resultados de análisis adicionales.
    • Number of Outliers
    • Percentage of Outliers
    • Number of Low Clusters
    • Percentage of Low Clusters
    • Number of Low Outliers
    • Percentage of Low Outliers
    • Number of High Clusters
    • Percentage of High Clusters
    • Number of High Outliers
    • Percentage of High Outliers
    • ubicaciones con No Spatial Neighbors
    • ubicaciones con un Outlier in the Most Recent Time Step
    • Cluster Outlier Type
    • y resumen de estadísticas adicionales
  • Cluster Outlier Type siempre indicará clústeres y valores atípicos significativos desde el punto de vista estadístico con un 95 % de nivel de confianza y solo aquellos bins que sean significativos desde el punto de vista estadístico tendrán valores en este campo. Esta importancia refleja una Corrección False Discovery Rate (FDR).

  • La representación en pantalla predeterminada de la Clase de entidad de salida se basa en el campo CO_TYPE y muestra las ubicaciones que fueron significativas desde el punto de vista estadístico. Se mostrarán las ubicaciones que han formado parte de un cluster alto-alto, valor atípico alto-bajo, valor atípico bajo-alto, cluster bajo-bajo significativos o que se han clasificado como de varios tipos con el tiempo.
  • Para asegurarse de que al menos hay 1 vecino temporal para cada ubicación, no se calcula el índice de Moran local para el primer segmento de tiempo. No obstante, los valores de bin en el primer segmento de tiempo se incluyen en el cálculo de la media global.

  • Cuando se ejecuta la herramienta Análisis de valores atípicos locales, los resultados del análisis se vuelven a agregar al Cubo de espacio-tiempo de entrada netCDF. Cada bin se analiza en el contexto de bins vecinos para medir el clustering para los valores altos y bajos del recuento, así como para identificar cualquier valor atípico espacial y temporal dentro de esos clústeres. El resultado de este análisis es un índice I de Moran local, un pseudo valor P (o un valor P si no se han utilizado permutaciones) y un tipo de clúster o valor atípico (CO_TYPE) para cada bin del cubo de espacio-tiempo.

    A continuación, se muestra un resumen de las variables agregadas al Cubo de espacio-tiempo de entrada:

    Nombre de la variableDescripciónDimensión

    OUTLIER_{ANALYSIS_VARIABLE}_INDEX

    El índice I de Moran local calculado.

    Tres dimensiones: un valor del índice I de Moran local para cada bin en el cubo de espacio-tiempo.

    OUTLIER_{ANALYSIS_VARIABLE}_PVALUE

    Pseudo valor P o valor P de la estadística de I Anselin local de Moran, que mide la importancia estadística del valor I de Moran local.

    Tres dimensiones: un valor P o pseudo valor P para cada bin en el cubo de espacio-tiempo.

    OUTLIER_{ANALYSIS_VARIABLE}_TYPE

    El tipo de categoría resultante que distingue entre un cluster importante desde el punto de vista estadístico de valores altos (Alto-Alto), un cluster de valores bajos (Bajo-Bajo), un valor atípico en el que un valor alto está rodeado principalmente por valores bajos (Alto-Bajo) y un valor atípico en el que un valor bajo está rodeado principalmente por valores altos (Bajo-Alto).

    Tres dimensiones: un tipo de cluster o valor atípico para cada bin en el cubo de espacio-tiempo. El bin se basa en una corrección FDR.

    OUTLIER_{ANALYSIS_VARIABLE}

    _HAS_SPATIAL_NEIGHBORS

    Indica las ubicaciones que tienen vecinos espaciales y las que solo se basan en vecinos temporales.

    Dos dimensiones: una clasificación para cada ubicación. Los cálculos del análisis de ubicaciones que no tienen vecinos espaciales se basarán exclusivamente en los vecinos temporales.

Parámetros

EtiquetaExplicaciónTipo de datos
Cubo de espacio-tiempo de entrada

Cubo de netCDF que se analizará. Este archivo debe tener una extensión (.nc) y se debe haber creado utilizando las herramientas Crear cubo de espacio-tiempo agregando puntos o Crear cubo de espacio-tiempo a partir de entidades definidas.

File
Variable de análisis

La variable numérica en el archivo netCDF que desea analizar.

String
Entidades de salida

La clase de entidad de salida que contiene ubicaciones que se consideraron clústeres o valores atípicos significativos desde el punto de vista estadístico.

Feature Class
Distancia de vecindad
(Opcional)

La extensión espacial de la vecindad de análisis. Este valor determina las entidades que se analizan conjuntamente para evaluar el clustering de espacio-tiempo local.

Linear Unit
Intervalo de tiempo de vecindad

El número de intervalos de periodos de tiempo que incluir en la vecindad de análisis. Este valor determina las entidades que se analizan conjuntamente para evaluar el clustering de espacio-tiempo local.

Long
Número de permutaciones
(Opcional)

El número de permutaciones aleatorias para el cálculo de pseudo valores P. El número predeterminado de permutaciones es 499. Si elige 0 permutaciones, se calcula el valor P estándar.

  • 0No se utilizan permutaciones y se calcula un valor P estándar.
  • 99Con 99 permutaciones, el pseudo valor p más pequeño posible es 0,01 y los demás pseudo valores p serán múltiplos pares de este valor.
  • 199Con 199 permutaciones, el pseudo valor p más pequeño posible es 0,005 y los demás pseudo valores p serán múltiplos pares de este valor.
  • 499Con 499 permutaciones, el pseudo valor p más pequeño posible es 0,002 y los demás pseudo valores p serán múltiplos pares de este valor.
  • 999Con 999 permutaciones, el pseudo valor p más pequeño posible es 0,001 y los demás pseudo valores p serán múltiplos pares de este valor.
  • 9999Con 9999 permutaciones, el pseudo valor p más pequeño posible es 0,0001 y los demás pseudo valores p serán múltiplos pares de este valor.
Long
Máscara de análisis de polígonos
(Opcional)

Una capa de entidad de polígono con uno o más polígonos que definen el área de estudio de análisis. Una máscara de análisis de polígono se utilizaría, por ejemplo, para excluir un lago grande del análisis. Los bins definidos en el Cubo de espacio-tiempo de entrada que queden fuera de la máscara no se incluirán en el análisis.

Este parámetro solo está disponible para cubos de cuadrículas.

Feature Layer
Conceptualización de relaciones espaciales
(Opcional)

Especifica cómo se definen las relaciones espaciales entre las entidades.

  • Distancia fijaCada bin se analiza dentro del contexto de los bins vecinos. Los bins vecinos que se encuentran dentro de la distancia crítica especificada (Distancia de vecindad) reciben un peso de 1 e influyen en los cálculos del bin de destino. Los bins vecinos fuera de la distancia crítica reciben un peso de cero y no influyen en los cálculos del bin de destino.
  • K vecinos más próximosLos bins k más cercanos se incluyen en este análisis para el bin de destino; k es un parámetro numérico especificado.
  • Solo bordes de contigüidadSolo los bins vecinos que comparten un límite influirán en los cálculos del bin poligonal de destino.
  • Bordes o esquinas de contigüidadLos bins que comparten o borde o nodo influirán en los cálculos del bin poligonal de destino.
String
Número de vecinos espaciales
(Opcional)

Entero que especifica el número exacto o mínimo de vecinos que se incluirá en los cálculos para el bin de destino. Para los Vecinos K más próximos, cada bin tendrá exactamente esta cantidad de vecinos especificada. Para la Distancia fija, cada bin tendrá al menos este número de vecinos (si es necesario, la Distancia de vecindad se ampliará temporalmente para garantizar que haya ese número de vecinos). Cuando se selecciona una de las conceptualizaciones de contigüidad, a cada polígono se le asigna este número mínimo de vecinos. Para los bins con una cantidad inferior a este número de vecinos contiguos, los vecinos adicionales estarán basados en la proximidad al centroide de la entidad.

Long
Definir ventana global
(Opcional)

El funcionamiento de la estadística de I Anselin local de Moran consiste en comparar una estadística local calculada a partir de los vecinos para cada bin con un valor global. Este parámetro se puede usar para controlar qué bins se utilizan para calcular el valor global.

  • Cubo completoCada vecindario se analiza comparándolo con todo el cubo. Esta es la opción predeterminada.
  • Intervalo de tiempo de vecindadCada vecindario se analiza comparándolo con los bins incluidos en el Intervalo de tiempo de vecindad especificado.
  • Intervalo de tiempo individualCada vecindario se analiza comparándolo con los bins del mismo intervalo de tiempo.
String

arcpy.stpm.LocalOutlierAnalysis(in_cube, analysis_variable, output_features, {neighborhood_distance}, neighborhood_time_step, {number_of_permutations}, {polygon_mask}, {conceptualization_of_spatial_relationships}, {number_of_neighbors}, {define_global_window})
NombreExplicaciónTipo de datos
in_cube

Cubo de netCDF que se analizará. Este archivo debe tener una extensión (.nc) y se debe haber creado utilizando las herramientas Crear cubo de espacio-tiempo agregando puntos o Crear cubo de espacio-tiempo a partir de entidades definidas.

File
analysis_variable

La variable numérica en el archivo netCDF que desea analizar.

String
output_features

La clase de entidad de salida que contiene ubicaciones que se consideraron clústeres o valores atípicos significativos desde el punto de vista estadístico.

Feature Class
neighborhood_distance
(Opcional)

La extensión espacial de la vecindad de análisis. Este valor determina las entidades que se analizan conjuntamente para evaluar el clustering de espacio-tiempo local.

Linear Unit
neighborhood_time_step

El número de intervalos de periodos de tiempo que incluir en la vecindad de análisis. Este valor determina las entidades que se analizan conjuntamente para evaluar el clustering de espacio-tiempo local.

Long
number_of_permutations
(Opcional)

El número de permutaciones aleatorias para el cálculo de pseudo valores P. El número predeterminado de permutaciones es 499. Si elige 0 permutaciones, se calcula el valor P estándar.

  • 0No se utilizan permutaciones y se calcula un valor P estándar.
  • 99Con 99 permutaciones, el pseudo valor p más pequeño posible es 0,01 y los demás pseudo valores p serán múltiplos pares de este valor.
  • 199Con 199 permutaciones, el pseudo valor p más pequeño posible es 0,005 y los demás pseudo valores p serán múltiplos pares de este valor.
  • 499Con 499 permutaciones, el pseudo valor p más pequeño posible es 0,002 y los demás pseudo valores p serán múltiplos pares de este valor.
  • 999Con 999 permutaciones, el pseudo valor p más pequeño posible es 0,001 y los demás pseudo valores p serán múltiplos pares de este valor.
  • 9999Con 9999 permutaciones, el pseudo valor p más pequeño posible es 0,0001 y los demás pseudo valores p serán múltiplos pares de este valor.
Long
polygon_mask
(Opcional)

Una capa de entidad de polígono con uno o más polígonos que definen el área de estudio de análisis. Una máscara de análisis de polígono se utilizaría, por ejemplo, para excluir un lago grande del análisis. Los bins definidos en el in_cube que queden fuera de la máscara no se incluirán en el análisis.

Este parámetro solo está disponible para cubos de cuadrículas.

Feature Layer
conceptualization_of_spatial_relationships
(Opcional)

Especifica cómo se definen las relaciones espaciales entre los bins.

  • FIXED_DISTANCECada bin se analiza dentro del contexto de los bins vecinos. Los bins vecinos que se encuentran dentro de la distancia crítica especificada (neighborhood_distance) reciben una ponderación de 1 e influyen en los cómputos del bin de destino. Los bins vecinos fuera de la distancia crítica reciben un peso de cero y no influyen en los cálculos del bin de destino.
  • K_NEAREST_NEIGHBORSLos bins k más cercanos se incluyen en este análisis para el bin de destino; k es un parámetro numérico especificado.
  • CONTIGUITY_EDGES_ONLYSolo los bins vecinos que comparten un límite influirán en los cálculos del bin poligonal de destino.
  • CONTIGUITY_EDGES_CORNERSLos bins que comparten o borde o nodo influirán en los cálculos del bin poligonal de destino.
String
number_of_neighbors
(Opcional)

Entero que especifica el número exacto o mínimo de vecinos que se incluirá en los cálculos para el bin de destino. Para K_NEAREST_NEIGHBORS, cada bin tendrá exactamente esta cantidad de vecinos especificada. Para FIXED_DISTANCE, cada bin tendrá al menos este número de vecinos (si es necesario, neighborhood_distance se ampliará temporalmente para garantizar que haya ese número de vecinos). Cuando se selecciona una de las conceptualizaciones de contigüidad, a cada polígono se le asigna este número mínimo de vecinos. Para los bins con una cantidad inferior a este número de vecinos contiguos, los vecinos adicionales estarán basados en la proximidad al centroide de la entidad.

Long
define_global_window
(Opcional)

El funcionamiento de la estadística de I Anselin local de Moran consiste en comparar una estadística local calculada a partir de los vecinos para cada bin con un valor global. Este parámetro se puede usar para controlar qué bins se utilizan para calcular el valor global.

  • ENTIRE_CUBECada vecindario se analiza comparándolo con todo el cubo. Esta es la opción predeterminada.
  • NEIGHBORHOOD_TIME_STEPCada vecindario se analiza comparándolo con los bins incluidos en el Intervalo de tiempo de vecindad especificado.
  • INDIVIDUAL_TIME_STEPCada vecindario se analiza comparándolo con los bins del mismo intervalo de tiempo.
String

Muestra de código

Ejemplo 1 de LocalOutlierAnalysis (ventana Python)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta LocalOutlierAnalysis.

# LocalOutlierAnalysis of homicides in a metropolitan area
import arcpy
arcpy.env.workspace = r"C:\STPM"
arcpy.LocalOutlierAnalysis_stpm("Homicides.nc", "COUNT", "LOA_Homicides.shp", "5 Miles", 2, 499, "#", "FIXED_DISTANCE", "3", "NEIGHBORHOOD_TIME_STEP")
Ejemplo 2 de LocalOutlierAnalysis (secuencia de comandos independiente)

El siguiente script independiente de la ventana de Python muestra cómo utilizar la herramienta LocalOutlierAnalysis.

# Create Space Time Cube by aggregating homicide incidents in a metropolitan area

# Import system modules
import arcpy

# Set property to overwrite existing output, by default
arcpy.env.overwriteOutput = True

# Local variables...
workspace = r"C:\STPM"

try:
    # Set the current workspace (to avoid having to specify the full path to the feature 
    # classes each time)
    arcpy.env.workspace = workspace

    # Create Space Time Cube by aggregating homicide incident data with 3 months and 3 miles settings
    # Process: Create Space Time Cube By Aggregating Points
    cube = arcpy.CreateSpaceTimeCube_stpm("Homicides.shp", "Homicides.nc", "MyDate", "#", 
                                          "3 Months", "End time", "#", "3 Miles", "Property MEDIAN SPACETIME; Age STD ZEROS", "HEXAGON_GRID")

    # Create a polygon that defines where incidents are possible  
    # Process: Minimum Bounding Geometry of homicide incident data
    arcpy.MinimumBoundingGeometry_management("Homicides.shp", "bounding.shp", "CONVEX_HULL",
                                             "ALL", "#", "NO_MBG_FIELDS")

    # Local Outlier Analysis of homicide incident cube using 5 Miles neighborhood 
    # distance and 2 neighborhood time step with 499 permutations to detect outliers
    # Process: Local Outlier Analysis
    loa = arcpy.LocalOutlierAnalysis_stpm("Homicides.nc", "COUNT", "LOA_Homicides.shp", "5 Miles",
                                          2, 499, "bounding.shp", "FIXED_DISTANCE")
except arcpy.ExecuteError:
    # If any error occurred when running the tool, print the messages
    print(arcpy.GetMessages())

Información de licenciamiento

  • Basic: Sí
  • Standard: Sí
  • Advanced: Sí

Temas relacionados