Análisis de valores atípicos locales (Minería de patrones en espacio-tiempo)—ArcMap

Resumen
Ilustración
Uso
Sintaxis
Muestra de código
Entornos
Información de licenciamiento

Resumen

Identifica clusters y valores atípicos que son significativos desde el punto de vista estadístico en el contexto del espacio y el tiempo. Esta herramienta es una implementación de espacio-tiempo de la estadística de I Anselin local de Moran.

Más información sobre el funcionamiento de la herramienta Análisis de valores atípicos locales

Ilustración

Uso

Esta herramienta solo acepta archivos netCDF creados mediante la herramienta Crear cubo de espacio-tiempo agregando puntos.
Cada bin del cubo de espacio-tiempo tiene un LOCATION_ID, un time_step_ID, un valor COUNT y todos los Campos de resumen que se agregaran cuando se creó el cubo. Los bins que estén asociados a la misma ubicación física compartirán el mismo Id. de ubicación y, conjuntamente, representarán una serie temporal. Los bins que estén asociados al mismo período de tiempo compartirán el mismo Id. de período de tiempo y, conjuntamente, formarán un intervalo de tiempo. El valor del recuento de cada bin refleja la cantidad de puntos que se han generado en la ubicación asociada junto con el intervalo de tiempo asociado.
Esta herramienta analiza una variable en el Cubo de espacio-tiempo de entrada netCDF utilizando una implementación de espacio-tiempo de la estadística de I Anselin local de Moran.
Las Entidades de salida se agregarán a la Tabla de contenido con una representación en la que se resumen los resultados del análisis de espacio-tiempo para todas las ubicaciones analizadas. Si especifica una Máscara de análisis de polígonos, las ubicaciones analizadas serán las que estén incluidas en la máscara de análisis; de lo contrario, las ubicaciones analizadas serán aquellas que tengan al menos un punto para un período de tiempo como mínimo.
Además de las Entidades de salida, se escribe un resumen del análisis en la ventana de Resultados. Al hacer clic con el botón derecho del ratón en la entrada Mensajes de la ventana Resultados y al seleccionar Ver, se muestra el resumen del análisis en el cuadro de diálogo de Mensaje. También se mostrará el resumen del análisis en el cuadro de diálogo de progreso.
La herramienta Análisis de valores atípicos locales identifica clusters y valores atípicos que son significativos desde el punto de vista estadístico en el contexto del espacio y el tiempo. Consulte Más información sobre cómo funciona la herramienta Análisis de valores atípicos locales para ver las definiciones de categoría de salida predeterminadas, así como información adicional sobre los algoritmos que se utilizan en esta herramienta de análisis.
Para identificar clusters y valores atípicos en el cubo de espacio-tiempo, esta herramienta utiliza una implementación de espacio-tiempo de la estadística de I Anselin local de Moran, que considera el valor de cada bin en el contexto de los valores para los bins vecinos. Se considera que un bin es vecino si su centroide cae dentro de la Distancia de vecindad y su intervalo de tiempo cae dentro del Período de tiempo de vecindad que haya especificado. Cuando no se indica un valor de Distancia de vecindad, se calcula uno basado en la distribución espacial de los datos de los puntos. Cuando no se indica un valor de Período de tiempo de vecindad, la herramienta utiliza un valor predeterminado para el intervalo de tiempo de 1.
Para determinar los bins que se van a incluir en la vecindad de cada análisis, primero la herramienta busca los bins vecinos que están incluidos dentro de la Distancia de vecindad. A continuación, para cada uno de esos bins, incluye bins en las mismas ubicaciones que los intervalos de tiempo N anteriores, donde N corresponde al valor de Período de tiempo de vecindad que ha especificado.
El valor de Período de tiempo de vecindad es el número de intervalos de tiempo que incluir en la vecindad del análisis. Por ejemplo, si el intervalo de tiempo para el cubo es de tres meses y especifica 2 para el Período de tiempo de vecindad, en la vecindad del análisis se incluirán todos los recuentos de bins incluidos en la Distancia de vecindad, así como el resto de bins asociados para los dos intervalos de tiempo anteriores (abarcando un período de nueve meses).
Las permutaciones se utilizan para determinar la probabilidad de encontrar la distribución espacial real de los valores que está analizando. Para cada permutación, los valores de vecindad alrededor de cada bin se reorganizan aleatoriamente y se calcula el valor I de Moran local. El resultado es una distribución de referencia de los valores que luego se comparan con el valor I de Moran real observado para determinar la probabilidad de que el valor observado pueda encontrarse en la distribución aleatoria. El valor predeterminado es de 499 permutaciones; no obstante, la distribución de la muestra aleatoria se ha mejorado con más permutaciones, lo que mejora la precisión del pseudo valor P.
Si el parámetro Número de permutaciones está establecido en 0, el resultado es un valor P tradicional en lugar de un pseudo valor P.
Las permutaciones que emplea esta herramienta se benefician del aumento de rendimiento disponible en sistemas que utilizan varias CPU (o unas CPU de varios núcleos). De manera predeterminada, la herramienta usará la mitad del número máximo de CPU disponibles. La mayor velocidad de procesamiento es más notable en los cubos espacio-tiempo grandes o en que la herramienta ejecuta mayores cantidades de permutaciones. El número de CPU usadas puede aumentar o disminuir usando el entorno Factor de procesamiento paralelo.
La capa de entidades Máscara de análisis de polígonos puede incluir uno o más polígonos que definen el área de estudio del análisis. Estos polígonos indican el lugar en el que se podrían generar entidades de puntos y deberían excluir aquellas áreas en las que sería imposible que hubiera puntos. Si fuera a analizar tendencias de robos en viviendas, por ejemplo, podría utilizar la Máscara de análisis de polígonos para excluir zonas de lagos grandes, parques regionales u otras áreas en las que no existen viviendas.
La Máscara de análisis de polígonos se interseca con la extensión del Cubo de espacio-tiempo de entrada y no amplía las dimensiones del cubo.
Si la Máscara de análisis de polígonos que está utilizando para establecer su área de estudio cubre un área que supera la extensión de las entidades de entrada que se utilizaron al crear el cubo por primera vez, puede que desee volver a crear el cubo utilizando dicha Máscara de análisis de polígonos como el Entorno de extensión de salida. De este modo, garantizará que toda el área cubierta por la Máscara de análisis de polígonos se incluye al ejecutar la herramienta Análisis de valores atípicos locales. Si usa la Máscara de análisis de polígonos como la configuración del Entorno de extensión de salida durante la creación del cubo, se asegurará de que la extensión del cubo coincide con la extensión de la Máscara de análisis de polígonos.
Esta herramienta crea una nueva clase de entidad de salida con los siguientes atributos para cada ubicación en el cubo de espacio-tiempo. Estos campos se pueden utilizar para la visualización personalizada de la salida. Consulte Más información sobre cómo funciona la herramienta Análisis de valores atípicos locales para obtener más información sobre los resultados de análisis adicionales.
- Número de valores atípicos
- Porcentaje de valores atípicos
- Número de clusters bajos
- Porcentaje de clusters bajos
- Número de valores atípicos bajos
- Porcentaje de valores atípicos bajos
- Número de clusters altos
- Porcentaje de clusters altos
- Número de valores atípicos altos
- Porcentaje de valores atípicos altos
- ubicaciones Sin vecinos espaciales
- ubicaciones con un Valor atípico en el período de tiempo más reciente
- Tipo de cluster-valor atípico
- y resumen de estadísticas adicionales
El Tipo de clúster-valor atípico siempre indicará clústeres y valores atípicos significativos desde el punto de vista estadístico con un 95% de nivel de confianza y solo aquellos bins que sean significativos desde el punto de vista estadístico tendrán valores en este campo. Esta importancia refleja una Corrección False Discovery Rate (FDR).
La representación en pantalla predeterminada de la Clase de entidad de salida se basa en el campo CO_TYPE y muestra las ubicaciones que fueron significativas desde el punto de vista estadístico. Se mostrarán las ubicaciones que han formado parte de un cluster alto-alto, valor atípico alto-bajo, valor atípico bajo-alto, cluster bajo-bajo significativos o que se han clasificado como de varios tipos con el tiempo.
Para asegurarse de que al menos hay 1 vecino temporal para cada ubicación, no se calcula el índice de Moran local para el primer segmento de tiempo. No obstante, los valores de bin en el primer segmento de tiempo se incluyen en el cálculo de la media global.

Cuando se ejecuta la herramienta Análisis de valores atípicos locales, los resultados del análisis se vuelven a agregar al Cubo de espacio-tiempo de entrada netCDF. Cada bin se analiza en el contexto de bins vecinos para medir el clustering para los valores altos y bajos del recuento, así como para identificar cualquier valor atípico espacial y temporal dentro de esos clusters. El resultado de este análisis es un índice I de Moran local, un pseudo valor P (o un valor P si no se han utilizado permutaciones) y un tipo de cluster o valor atípico (CO_TYPE) para cada bin del cubo de espacio-tiempo.

A continuación se muestra un resumen de las variables agregadas al Cubo de espacio-tiempo de entrada:


Nombre de la variable	Descripción	Dimensión
OUTLIER_{ANALYSIS_VARIABLE}_INDEX	El índice I de Moran local calculado.	Tres dimensiones: un valor del índice I de Moran local para cada bin en el cubo de espacio-tiempo.
OUTLIER_{ANALYSIS_VARIABLE}_PVALUE	Pseudo valor P o valor P de la estadística de I Anselin local de Moran, que mide la importancia estadística del valor I de Moran local..	Tres dimensiones: un valor P o pseudo valor P para cada bin en el cubo de espacio-tiempo.
OUTLIER_{ANALYSIS_VARIABLE}_TYPE	El tipo de categoría resultante que distingue entre un cluster importante desde el punto de vista estadístico de valores altos (Alto-Alto), un cluster de valores bajos (Bajo-Bajo), un valor atípico en el que un valor alto está rodeado principalmente por valores bajos (Alto-Bajo) y un valor atípico en el que un valor bajo está rodeado principalmente por valores altos (Bajo-Alto).	Tres dimensiones: un tipo de cluster o valor atípico para cada bin en el cubo de espacio-tiempo. El bin se basa en una corrección FDR.
OUTLIER_{ANALYSIS_VARIABLE} _HAS_SPATIAL_NEIGHBORS	Indica las ubicaciones que tienen vecinos espaciales y las que solo se basan en vecinos temporales.	Dos dimensiones: una clasificación para cada ubicación. Los cálculos del análisis de ubicaciones que no tienen vecinos espaciales se basarán exclusivamente en los vecinos temporales.

Sintaxis

arcpy.stpm.LocalOutlierAnalysis(in_cube, analysis_variable, output_features, {neighborhood_distance}, neighborhood_time_step, {number_of_permutations}, {polygon_mask})

Parámetro	Explicación	Tipo de datos
in_cube	Cubo de netCDF que se analizará. Este archivo debe tener una extensión (.nc) y se debe haber creado utilizando la herramienta Crear cubo de espacio-tiempo agregando puntos.	File
analysis_variable	La variable numérica en el archivo netCDF que desea analizar.	String
output_features	La clase de entidad de salida que contiene ubicaciones que se consideraron clusters o valores atípicos significativos desde el punto de vista estadístico.	Feature Class
neighborhood_distance (Opcional)	La extensión espacial de la vecindad de análisis. Este valor determina las entidades que se analizan conjuntamente para evaluar el clustering de espacio-tiempo local.	Linear Unit
neighborhood_time_step	El número de intervalos de periodos de tiempo que incluir en la vecindad de análisis. Este valor determina las entidades que se analizan conjuntamente para evaluar el clustering de espacio-tiempo local.	Long
number_of_permutations (Opcional)	El número de permutaciones aleatorias para el cálculo de pseudo valores P. El número predeterminado de permutaciones es 499. Si elige 0 permutaciones, se calculará el valor P estándar. 0 —No se utilizan permutaciones y se calcula un valor P estándar. 99 —Con 99 permutaciones, el pseudo valor p más pequeño posible es 0,01 y los demás pseudo valores p serán múltiplos pares de este valor. 199 —Con 199 permutaciones, el pseudo valor p más pequeño posible es 0,005 y los demás pseudo valores p serán múltiplos pares de este valor. 499 —Con 499 permutaciones, el pseudo valor p más pequeño posible es 0,002 y los demás pseudo valores p serán múltiplos pares de este valor. 999 —Con 999 permutaciones, el pseudo valor p más pequeño posible es 0,001 y los demás pseudo valores p serán múltiplos pares de este valor. 9999 —Con 9999 permutaciones, el pseudo valor p más pequeño posible es 0,0001 y los demás pseudo valores p serán múltiplos pares de este valor.	Long
polygon_mask (Opcional)	Una capa de entidad de polígono con uno o más polígonos que definen el área de estudio de análisis. Una máscara de análisis de polígono se utilizaría, por ejemplo, para excluir un lago grande del análisis. Los bins definidos en el Cubo de espacio-tiempo de entrada que queden fuera de la máscara no se incluirán en el análisis.	Feature Layer

Muestra de código

Ejemplo 1 de LocalOutlierAnalysis (ventana Python)

En la siguiente secuencia de comandos de la ventana de Python se muestra cómo se utiliza la herramienta LocalOutlierAnalysis.

# LocalOutlierAnalysis of homicides in a metropolitan area
arcpy.env.workspace = r"C:\STPM"
arcpy.LocalOutlierAnalysis_stpm("Homicides.nc", "COUNT", "LOA_Homicides.shp", "5 Miles", 2, 499, "#")

Ejemplo 2 de LocalOutlierAnalysis (secuencia independiente de comandos de Python)

En la siguiente secuencia independiente de comandos de la ventana de Python se muestra cómo utilizar la herramienta LocalOutlierAnalysis.

# Create Space Time Cube by aggregating homicide incidents in a metropolitan area
# Import system modules
import arcpy
# Set property to overwrite existing output, by default
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"C:\STPM"
try:
    # Set the current workspace (to avoid having to specify the full path to the feature 
    # classes each time)
    arcpy.env.workspace = workspace
    # Create Space Time Cube by aggregating homicide incident data with 3 months and 3 miles settings
    # Process: Create Space Time Cube By Aggregating Points
    cube = arcpy.CreateSpaceTimeCube_stpm("Homicides.shp", "Homicides.nc", "MyDate", "#", 
                                          "3 Months", "End time", "#", "3 Miles", "Property MEDIAN SPACETIME; Age STD ZEROS", "HEXAGON_GRID")
    # Create a polygon that defines where incidents are possible  
    # Process: Minimum Bounding Geometry of homicide incident data
    arcpy.MinimumBoundingGeometry_management("Homicides.shp", "bounding.shp", "CONVEX_HULL",
                                             "ALL", "#", "NO_MBG_FIELDS")
    # Local Outlier Analysis of homicide incident cube using 5 Miles neighborhood 
    # distance and 2 neighborhood time step with 499 permutations to detect outliers
    # Process: Local Outlier Analysis
    loa = arcpy.LocalOutlierAnalysis_stpm("Homicides.nc", "COUNT", "LOA_Homicides.shp", "5 Miles",
                                          2, 499, "bounding.shp")
except:
    # If any error occurred when running the tool, print the messages
    print(arcpy.GetMessages())

Entornos

Espacio de trabajo actual
Espacio de trabajo temporal
Sistema de coordenadas de salida
Transformaciones geográficas
Generador de números aleatorios
Nota:
El tipo de generador de números aleatorios que se utiliza siempre es Mersenne Twister.

Información de licenciamiento

Basic: Sí
Standard: Sí
Advanced: Sí