Análisis de clúster y de valor atípico (I Anselin local de Moran) (Estadística espacial)—ArcMap

Resumen
Ilustración
Uso
Sintaxis
Muestra de código
Entornos
Información de licenciamiento

Resumen

Dado un conjunto de entidades ponderadas, identifica puntos calientes, puntos fríos y valores atípicos espaciales estadísticamente significativos mediante la estadística de I Anselin local de Moran.

Más información acerca de cómo funciona el Análisis de clúster y de valor atípico (I Anselin local de Moran)

Ilustración

Uso

Esta herramienta crea una nueva Clase de entidad de salida con los siguientes atributos para cada entidad de la Clase de entidad de entrada: índice I de Moran local, puntuación z, pseudo valor P y tipo de clúster/valor atípico (COType).
Las puntuaciones z y los valores p son medidas de significancia estadística que indican si se rechazará la hipótesis nula, entidad por entidad. En efecto, indican si la aparente similitud (un clustering espacial de valores altos o bajos) o la falta de similitud (un valor atípico espacial) es más marcada de lo que se espera en una distribución aleatoria. Las puntuaciones z y los valores p de la Clase de entidad de salida no reflejan ninguna corrección FDR (Índice de descubrimientos falsos).
Una puntuación z positiva alta para una entidad indica que las entidades circundantes tienen valores similares (ya sea valores altos o bajos). El campo COType en la Clase de entidad de salida será Alto/alto para un clúster de valores altos estadísticamente significativo y Bajo/bajo para un clúster de valores bajos estadísticamente significativo.
Una puntuación z negativa baja (por ejemplo, inferior a -3,96) para una entidad indica un valor atípico de datos espacial estadísticamente significativo. El campo COType en la Clase de entidad de salida indicará si la entidad tiene un valor alto y está rodeada por entidades con valores bajos (Alto/bajo) o si la entidad tiene un valor bajo y está rodeada por entidades con valores altos (Bajo/alto).
El campo COType indicará siempre clústeres y valores atípicos estadísticamente significativos para un nivel de confianza del 95 por ciento. Solamente las entidades estadísticamente significativas tienen valores para el campo COType. Cuando se marca el parámetro opcional Aplicar corrección False Discovery Rate (FDR), la importancia estadística se basa en un nivel de confianza corregido del 95 por ciento.
La representación en pantalla predeterminada para la Clase de entidad de salida se basa en los valores del campo COType.
Las permutaciones se utilizan para determinar la probabilidad de encontrar la distribución espacial real de los valores que está analizando. Para cada permutación, los valores de vecindad alrededor de cada entidad se reorganizan aleatoriamente y se calcula el valor I de Moran local. El resultado es una distribución de referencia de los valores que luego se comparan con el valor I de Moran real observado para determinar la probabilidad de que el valor observado pueda encontrarse en la distribución aleatoria. El valor predeterminado es de 499 permutaciones; no obstante, la distribución de la muestra aleatoria se ha mejorado con más permutaciones, lo que mejora la precisión del pseudo valor P.
Si el parámetro Number_of_Permutations está establecido en 0, el resultado es un valor P tradicional en lugar de un pseudo valor P, y la puntuación z se basa en el cálculo de la hipótesis nula de aleatorización. Para obtener más información sobre las puntuaciones z y los valores P, consulte ¿Qué es una puntuación z? ¿Qué es un valor p?
Cuando la Clase de entidad de entrada no está proyectada (es decir, cuando las coordenadas se especifican en grados, minutos y segundos) o cuando el sistema de coordenadas de salida está establecido en un Sistema de coordenadas geográficas, las distancias se calculan mediante mediciones de cuerda. Las mediciones de distancia de cuerda se utilizan porque se pueden calcular rápidamente y proporcionar muy buenas estimaciones de verdaderas distancias geodésicas, al menos para los puntos separados unos treinta grados entre sí. Las distancias de cuerda se basan en un esferoide oblato. Dados dos puntos en la superficie de la Tierra, la distancia de cuerda entre ellos es la longitud de una línea, que atraviesa la Tierra tridimensional, para conectar estos dos puntos. Las distancias de cuerda se informan en metros.
Precaución:
Asegúrese de proyectar los datos si su área de estudio se extiende más allá de los 30 grados. Las distancias de cuerda no son una buena estimación de las distancias geodésicas más allá de 30 grados.
Cuando se utilizan distancias de cuerda en el análisis, el parámetro Banda de distancia o distancia de umbral, si se especifica, debe proporcionarse en metros.

Los centroides de entidad se utilizan en los cálculos de distancia para las entidades de línea y polígono. Para multipuntos, polilíneas o polígonos con varias partes, el centroide se calcula utilizando el centro medio ponderado de todas las partes de entidad. La ponderación para las entidades de punto es 1, para las entidades de línea es longitud y para las entidades de polígono es área.
El Campo de entrada debe contener una variedad de valores. La operación matemática para esta estadística requiere cierta variación en la variable analizada; no puede resolver si todos los valores de entrada son 1, por ejemplo. Si desea utilizar esta herramienta para analizar el patrón espacial de los datos de incidentes, considere agregar los datos de incidentes. La herramienta Análisis de puntos calientes optimizado también se puede utilizar para analizar el patrón espacial de datos de incidentes.
Nota:

Los datos de incidentes son puntos que representan eventos (delincuencia, accidentes de tráfico) u objetos (árboles, tiendas) donde el foco se centra en su presencia o ausencia en lugar de algún atributo de medición asociado con cada punto.
Su elección del parámetro Conceptualización de relaciones espaciales deberá reflejar relaciones inherentes entre las entidades que analiza. Cuanto más pueda modelar de manera realista cómo interactúan mutuamente las entidades en el espacio, más precisos serán sus resultados. Las recomendaciones se describen en Seleccionar una conceptualización de relaciones espaciales. Aquí le presentamos algunas sugerencias adicionales:
- FIXED_DISTANCE_BAND
  La Banda de distancia o distancia de umbral predeterminada garantizará que cada entidad tenga un vecino como mínimo, lo cual es importante. Sin embargo, generalmente, este valor predeterminado no es la distancia más apropiada que se debe utilizar para el análisis. En Seleccionar un valor de banda de distancia fija se describen estrategias adicionales para seleccionar una escala apropiada (banda de distancia) para su análisis.
- INVERSE_DISTANCE o INVERSE_DISTANCE_SQUARED
  Cuando se introduce cero para el parámetro Banda de distancia o distancia de umbral, se considera que todas las entidades son vecinas de las demás entidades; cuando este parámetro se deja en blanco, se aplica la distancia predeterminada.
  Los pesos de las distancias menores que 1 se vuelven inestables cuando se invierten. Por consiguiente, a los pesos de entidades separadas por menos de 1 unidad de distancia se les da un peso de 1.
  Para las opciones de distancia inversa (INVERSE_DISTANCE, INVERSE_DISTANCE_SQUARED o ZONE_OF_INDIFFERENCE), se asignará un peso de uno a todos los pares de puntos coincidentes para evitar la división por cero. Esto garantiza que las entidades no sean excluidas del análisis.
Las opciones adicionales para el parámetro Conceptualización de relaciones espaciales, incluyendo las relaciones espacio-tiempo, están disponibles mediante las herramientas Generar matriz de ponderaciones espaciales o Generar ponderaciones espaciales de red. Para aprovechar estas opciones adicionales, utilice una de estas herramientas para crear el archivo de matriz de ponderaciones espaciales antes del análisis; seleccione GET_SPATIAL_WEIGHTS_FROM_FILE para el parámetro Conceptualización de relaciones espaciales y, para el parámetro Archivo de matriz de ponderaciones, especifique la ruta del archivo de ponderaciones espaciales que creó.
Se proporciona más información acerca del análisis clúster de espacio-tiempo en la documentación Análisis de espacio-tiempo.
Las capas del mapa se pueden utilizar para definir la Clase de entidad de entrada. Cuando se utiliza una capa con una selección, solo las entidades seleccionadas se incluyen en el análisis.
Si proporciona un Archivo de matriz de ponderaciones con una extensión .swm, esta herramienta espera un archivo de matriz de ponderaciones espaciales creado utilizando las herramientas Generar matriz de ponderaciones espaciales o Generar ponderaciones espaciales de red; de lo contrario, esta herramienta espera un archivo de matriz de ponderaciones espaciales con formato ASCII. En algunos casos, el comportamiento es diferente según el tipo de archivo de matriz de ponderaciones espaciales que se utiliza:
- Archivos de matriz de ponderaciones espaciales con formato ASCII:
  - Las ponderaciones se utilizan como están. Las relaciones de entidad a entidad que faltan se tratan como ceros.
  - Si los pesos están estandarizados por fila, es probable que los resultados sean incorrectos para el análisis en los conjuntos de selección. Si necesita ejecutar el análisis en un conjunto de selección, convierta el archivo de ponderaciones espaciales ASCII en un archivo SWM leyendo los datos ASCII en una tabla y utilizando después la opción CONVERT_TABLE con la herramienta Generar matriz de ponderaciones espaciales.
- Archivo de matriz de ponderaciones espaciales con formato SWM:
  - Si los pesos están estandarizados en filas, se volverán a estandarizar para los conjuntos de selección; de lo contrario, los pesos se utilizan como están.
La ejecución del análisis con un archivo de matriz de ponderaciones espaciales con formato ASCII consume muchos recursos de memoria. Para los análisis de más de 5.000 entidades, considere convertir el archivo de matriz de ponderaciones espaciales con formato ASCII en un archivo con formato SWM. Primero coloque los pesos ASCII en una tabla con formato (por ejemplo, por medio de Excel). A continuación, ejecute la herramienta Generar matriz de ponderaciones espaciales utilizando CONVERT_TABLE para el parámetro Conceptualización de relaciones espaciales. El resultado será un archivo de matriz de ponderaciones espaciales con formato .SWM.
La Clase de entidad de salida se agrega automáticamente a la tabla de contenido con la representación en pantalla predeterminada aplicada al campo COType. La representación en pantalla aplicada se define en un archivo de capa en <ArcGIS>/Desktop10.x/ArcToolbox/Templates/Layers. Puede volver a aplicar la representación predeterminada, de ser necesario, al importar la simbología de capa de plantilla.
La Clase de entidad de salida incluye un campo SOURCE_ID que se puede unir a la Clase de entidad de entrada si es necesario.
El tema de ayuda Modelado de relaciones espaciales ofrece información adicional sobre los parámetros de esta herramienta.

Cuando esta herramienta se utiliza en los scripts Python, el objeto resultado devuelto tras ejecutar la herramienta tiene las siguientes salidas:


Posición	Descripción	Tipo de datos
0	Clase de entidad de salida	Clase de entidad
1	Nombre de campo de índice	Campo
2	Nombre de campo ZScore	Campo
3	Nombre de campo de probabilidad	Campo
4	Nombre de campo COType	Campo
5	Nombre de campo de Id. de la fuente	Campo

Sintaxis

arcpy.stats.ClustersOutliers(Input_Feature_Class, Input_Field, Output_Feature_Class, Conceptualization_of_Spatial_Relationships, Distance_Method, Standardization, {Distance_Band_or_Threshold_Distance}, {Weights_Matrix_File}, {Apply_False_Discovery_Rate__FDR__Correction}, {Number_of_Permutations})

Parámetro	Explicación	Tipo de datos
Input_Feature_Class	La clase de entidad para la que se realizará el análisis de clúster y de valor atípico.	Feature Layer
Input_Field	El campo numérico que se evaluará.	Field
Output_Feature_Class	La clase de entidad de salida que recibirá los campos de resultados.	Feature Class
Conceptualization_of_Spatial_Relationships	Especifica cómo se definen las relaciones espaciales entre las entidades. INVERSE_DISTANCE —Las entidades vecinas tienen mayor influencia sobre los cálculos de una entidad de destino que las entidades que están alejadas. INVERSE_DISTANCE_SQUARED —Es igual que INVERSE_DISTANCE, salvo en que la pendiente es más nítida, de modo que la influencia cae de una forma más rápida y solo los vecinos más cercanos de la entidad de destino ejercerán una influencia sustancial en los cálculos de dicha entidad. FIXED_DISTANCE_BAND —Cada entidad se analiza dentro del contexto de las entidades vecinas. Las entidades vecinas que se encuentran dentro de la distancia crítica especificada (Distance_Band_or_Threshold_Distance) reciben un peso de 1 e influyen en los cálculos de la entidad de destino. Las entidades vecinas fuera de la distancia crítica reciben un peso de cero y no tienen influencia sobre los cálculos de una entidad de destino. ZONE_OF_INDIFFERENCE —Las entidades que se encuentran dentro de la distancia crítica especificada (Distance_Band_or_Threshold_Distance) de una entidad de destino reciben un peso de 1 e influyen en los cálculos de esa entidad. Una vez que se excede la distancia crítica, los pesos (y la influencia que una entidad vecina tiene sobre los cálculos de una entidad de destino) disminuyen con la distancia. CONTIGUITY_EDGES_ONLY —Solo las entidades de polígono vecinas que comparten un límite o que se superponen tendrán influencia sobre los cálculos de la entidad poligonal de destino. CONTIGUITY_EDGES_CORNERS —Las entidades poligonales que comparten un límite, comparten un nodo o se superponen tendrán influencia sobre los cálculos de la entidad poligonal de destino. GET_SPATIAL_WEIGHTS_FROM_FILE —Las relaciones espaciales vienen definidas por un archivo especificado de ponderaciones espaciales. La ruta del archivo de ponderaciones espaciales se especifica mediante el parámetro Weights_Matrix_File.	String
Distance_Method	Especifica cómo se calculan las distancias desde cada entidad hasta las entidades vecinas. EUCLIDEAN_DISTANCE —La distancia en línea recta entre dos puntos MANHATTAN_DISTANCE —La distancia entre dos puntos medida a lo largo de los ejes en ángulos rectos (manzana); se calcula al sumar la diferencia (absoluta) entre las coordenadas x e y	String
Standardization	Se recomienda la estandarización de filas siempre que la distribución de las entidades esté potencialmente influenciada debido al diseño de muestreo o a un esquema de agregación impuesto. NONE —No se aplica la estandarización de ponderaciones espaciales. ROW —Las ponderaciones espaciales se estandarizan; cada peso se divide por la suma de su fila (la suma de los pesos de todas las entidades vecinas).	String
Distance_Band_or_Threshold_Distance (Opcional)	Especifica una distancia de valor límite para las opciones Distancia inversa y Distancia fija. Las entidades que están fuera del valor límite especificado para una entidad de destino se ignoran en el análisis de esa entidad. Sin embargo, para la Zona de indiferencia, la influencia de las entidades que están fuera de la distancia dada se reduce con la distancia, mientras que aquellas que están dentro del umbral de distancia se consideran por igual. El valor de distancia introducido debe coincidir con el del sistema de coordenadas de salida. Para las conceptualizaciones de relaciones espaciales de la Distancia inversa, un valor de 0 indica que no se aplica una distancia de umbral; cuando este parámetro se deja en blanco, se calcula y se aplica un valor de umbral predeterminado. Este valor predeterminado es la distancia euclidiana que garantiza que cada entidad tenga como mínimo un vecino. Este parámetro no tiene efecto cuando se seleccionan las conceptualizaciones espaciales Contigüidad de polígono u Obtener ponderaciones espaciales a partir del archivo.	Double
Weights_Matrix_File (Opcional)	La ruta a un archivo que contenga los pesos que definen las relaciones espaciales, y potencialmente temporales entre las entidades.	File
Apply_False_Discovery_Rate__FDR__Correction (Opcional)	APPLY_FDR —La importancia estadística se basará en la corrección del Índice de descubrimientos falsos (FDR) para un nivel de confianza del 95 por ciento. NO_FDR —Las entidades con valores P inferiores a 0,05 aparecerán en el campo COType para reflejar clústeres o valores atípicos estadísticamente significativos en un nivel de confianza del 95 por ciento (predeterminado).	Boolean
Number_of_Permutations (Opcional)	El número de permutaciones aleatorias para el cálculo de pseudo valores P. El número predeterminado de permutaciones es 499. Si elige 0 permutaciones, se calculará el valor P estándar. 0 —No se utilizan permutaciones y se calcula un valor P estándar. 99 —Con 99 permutaciones, el pseudo valor p más pequeño posible es 0,01 y los demás pseudo valores p serán múltiplos pares de este valor. 199 —Con 199 permutaciones, el pseudo valor p más pequeño posible es 0,005 y los demás pseudo valores p posibles serán múltiplos pares de este valor. 499 —Con 499 permutaciones, el pseudo valor p más pequeño posible es 0,002 y los demás pseudo valores p serán múltiplos pares de este valor. 999 —Con 999 permutaciones, el pseudo valor p más pequeño posible es 0,001 y los demás pseudo valores p serán múltiplos pares de este valor. 9999 —Con 9999 permutaciones, el pseudo valor p más pequeño posible es 0,0001 y los demás pseudo valores p serán múltiplos pares de este valor.	Long

Salida derivada

Nombre	Explicación	Tipo de datos
Index_Field_Name	El nombre de campo de índice.	Campo
ZScore_Field_Name	El nombre de campo de la puntuación z.	Campo
Probability_Field	El nombre de campo de probabilidad.	Campo
Cluster_Outlier_Type	El nombre de campo de clúster/valor atípico.	Campo
Source_ID	El nombre de campo de Id. de origen.	Campo

Muestra de código

Ejemplo 1 de ClusterandOutlierAnalysis (ventana Python)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta ClusterandOutlierAnalysis.

import arcpy
arcpy.env.workspace = "c:/data/911calls"
arcpy.ClustersOutliers_stats("911Count.shp", "ICOUNT","911ClusterOutlier.shp",
                             "GET_SPATIAL_WEIGHTS_FROM_FILE","EUCLIDEAN_DISTANCE", 
                             "NONE","#", "euclidean6Neighs.swm","NO_FDR", 499)

Ejemplo 2 de ClusterandOutlierAnalysis (script independiente)

El siguiente script de Phython independiente muestra cómo utilizar la herramienta ClusterandOutlierAnalysis.

# Analyze the spatial distribution of 911 calls in a metropolitan area
# using the Cluster-Outlier Analysis Tool (Anselin's Local Moran's I)
# Import system modules
import arcpy
# Set property to overwrite outputs if they already exist
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"C:\Data\911Calls"
try:
    # Set the current workspace 
    #  (to avoid having to specify the full path to the feature classes each time)
    arcpy.env.workspace = workspace
    # Copy the input feature class and integrate the points to snap
    # together at 500 feet
    # Process: Copy Features and Integrate
    cf = arcpy.CopyFeatures_management("911Calls.shp", "911Copied.shp")
    integrate = arcpy.Integrate_management("911Copied.shp #", "500 Feet")
    # Use Collect Events to count the number of calls at each location
    # Process: Collect Events
    ce = arcpy.CollectEvents_stats("911Copied.shp", "911Count.shp", "Count", "#")
    # Add a unique ID field to the count feature class
    # Process: Add Field and Calculate Field
    af = arcpy.AddField_management("911Count.shp", "MyID", "LONG", "#", "#", "#", "#",
                     														"NON_NULLABLE", "NON_REQUIRED", "#",
                     														"911Count.shp")
    
    cf = arcpy.CalculateField_management("911Count.shp", "MyID", "!FID!", "PYTHON")
    # Create Spatial Weights Matrix for Calculations
    # Process: Generate Spatial Weights Matrix... 
    swm = arcpy.GenerateSpatialWeightsMatrix_stats("911Count.shp", "MYID",
                        																											"euclidean6Neighs.swm",
                       																											 "K_NEAREST_NEIGHBORS",
                       															 												"#", "#", "#", 6) 
    # Cluster/Outlier Analysis of 911 Calls
    # Process: Local Moran's I
    clusters = arcpy.ClustersOutliers_stats("911Count.shp", "ICOUNT", 
                      																				  "911ClusterOutlier.shp", 
                        																				"GET_SPATIAL_WEIGHTS_FROM_FILE",
                        																				"EUCLIDEAN_DISTANCE", "NONE",
                       							 													"#", "euclidean6Neighs.swm", "NO_FDR", "499")
except arcpy.ExecuteError:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Entornos

Espacio de trabajo actual
Espacio de trabajo temporal
Sistema de coordenadas de salida
Nota:
La geometría de la entidad se proyecta al Sistema de coordenadas de salida antes del análisis, por lo tanto los valores introducidos para el parámetro Banda de distancia o distancia de umbral deben coincidir con los que se especificaron en el Sistema de coordenadas de salida. Todos los cálculos matemáticos se basan en la referencia espacial del Sistema de coordenadas de salida. Cuando el entorno del Sistema de coordenadas de salida se basa en grados, minutos y segundos, las distancias geodésicas se calculan en metros mediante la distancia de cuerda.
Transformaciones geográficas
Nombres de campos calificados
La salida tiene valores Z
Valor Z de salida predeterminado
Resolución Z
Tolerancia Z
La salida tiene valores M
Resolución M
Tolerancia M
Resolución XY
Tolerancia XY
Generador de números aleatorios
Nota:
El tipo de generador de números aleatorios que se utiliza siempre es Mersenne Twister.

Información de licenciamiento

Basic: Sí
Standard: Sí
Advanced: Sí