Cómo funciona el análisis de valores atípicos locales—Ayuda

Aplicaciones potenciales
Salidas de la herramienta
Interpretación
Valores predeterminados de vecindad
Permutaciones
Recursos adicionales

La herramienta Análisis de valores atípicos locales identifica clusters y valores atípicos significativos en los datos. Buscará las ubicaciones de su área de estudio que, desde el punto de vista estadístico, han sido diferentes de sus vecinos tanto en espacio como en tiempo. Toma como entrada un cubo NetCDF de espacio-tiempo creado con la herramienta Crear cubo de espacio-tiempo agregando puntos. A continuación, utiliza los valores de los parámetros Distancia de vecindad y Período de tiempo de vecindad para calcular una implementación de espacio-tiempo de la estadística de I Anselin local de Moran (Análisis de cluster y de valor atípico) para cada bin. Para realizar esto, la herramienta calcula un índice I de Moran local, un pseudo valor P y un tipo de código (CO_TYPE) que representa el tipo de categoría del cluster o del valor atípico para cada bin estadísticamente significativo del Cubo de espacio-tiempo de entrada. Los pseudo valores P representan la importancia estadística de los valores de índice calculados y su precisión depende del número de permutaciones.

Aplicaciones potenciales

Las aplicaciones para la herramienta Análisis de valores atípicos locales se pueden encontrar en muchos campos que incluyen economía, administración de recursos, geografía política, información demográfica, salud pública y prevención del fraude. Estas son algunas de las preguntas a las que puede dar respuesta mediante el uso de esta herramienta:

¿Existen ubicaciones en mi área de estudio con patrones de gastos anómalos?
¿Ha habido algún período con tasas altas no esperadas del brote de la enfermedad en el área de estudio?
¿Existen áreas suburbanas donde los residentes utilizan considerablemente más agua que sus vecinos? O buscar las áreas suburbanas en las que se utiliza menos agua regularmente para desarrollar prácticas recomendadas para el ahorro de agua.
¿Existen ubicaciones en mi región con saltos considerables en el número de reclamaciones al seguro interpuestas durante el último mes?

Salidas de la herramienta

Esta herramienta crea un número de salidas. La salida más importante es un mapa bidimensional en el que se resume cada ubicación que con el tiempo se ha agregado al mapa una vez completada la herramienta. Estas son las categorías:

Nombre de tipo	Definición
Never Significant	Una ubicación donde nunca ha habido un CO_TYPE estadísticamente significativo.
Only High-High Cluster	Una ubicación donde, con el tiempo, el único tipo estadísticamente significativo han sido los clusters altos-altos.
Only High-Low Outlier	Una ubicación donde, con el tiempo, el único tipo estadísticamente significativo han sido los valores atípicos altos-bajos.
Only Low-High Outlier	Una ubicación donde, con el tiempo, el único tipo estadísticamente significativo han sido los valores atípicos bajos-altos.
Only Low-Low Cluster	Una ubicación donde, con el tiempo, el único tipo estadísticamente significativo han sido los clusters bajos-bajos.
Multiple Types	Una ubicación donde, con el tiempo, ha habido varios tipos de cluster y valores atípicos estadísticamente significativos (por ejemplo, durante algunos períodos, la ubicación ha sido un valor atípico bajo-alto y durante otros períodos, ha sido un cluster alto-alto).

Un mapa bidimensional en el que se resumen los tipos de cluster y valores atípicos para cada ubicación proporciona la salida principal y se agrega al mapa una vez completada la herramienta. Además, se escriben mensajes en los que se resumen los resultados del análisis en la ventana de Resultados. Haga clic con el botón derecho del ratón en la entrada Mensajes de la ventana Resultados y seleccione Ver para mostrar los resultados en el cuadro de diálogo Mensaje.

Estos mensajes incluyen información sobre el Cubo de espacio-tiempo de entrada, como el intervalo de tiempo, el sesgo temporal y el número de bins y ubicaciones que se han analizado. También incluyen información importante sobre los valores atípicos que se han producido en el período de tiempo más reciente, así como un resumen de los períodos de tiempo clave que puedan resultar de interés. Por ejemplo, si su pregunta está relacionada con buscar áreas de su territorio de ventas con un bajo rendimiento y está buscando valores atípicos bajos-altos, los mensajes le indicarán el período de tiempo clave que tuvo el mayor número de valores atípicos bajos-altos.

Ejemplo de mensajes del análisis de valores atípicos locales

Esta herramienta crea una nueva clase de entidad de salida con los campos siguientes donde se resumen los bins en cada ubicación del Cubo de espacio-tiempo de entrada:

Alias	Nombre del campo
Número de valores atípicos	NUM_OUT
Porcentaje de valores atípicos	PERC_OUT
Número de clusters bajos	N_LOW_CLS
Porcentaje de clusters bajos	P_LOW_CLS
Número de valores atípicos bajos	N_LOW_OUT
Porcentaje de valores atípicos bajos	P_LOW_OUT
Número de clusters altos	N_HIGH_CLS
Porcentaje de clusters altos	P_HIGH_CLS
Número de valores atípicos altos	N_HIGH_OUT
Porcentaje de valores atípicos altos	P_HIGH_OUT
Ubicaciones Sin vecinos espaciales que solo se basan en vecinos temporales para los cálculos del análisis	NO_SP_NBR
Ubicaciones con un Valor atípico en el período de tiempo más reciente	OUT_R_TIME
Tipo de cluster-valor atípico	CO_TYPE
Estadísticas de resumen adicionales, que incluyen la suma, el valor mínimo, el valor máximo, la media, la desviación estándar y el valor de mediana de la variable analizada.	SUM_VALUE, MIN_VALUE, MAX_VALUE, MEAN_VALUE, STD_VALUE y MED_VALUE

Finalmente, la herramienta Análisis de valores atípicos locales agrega una serie de variables nuevas al Cubo de espacio-tiempo de entrada. Si estas variables ya existen (si ejecutó la herramienta Análisis de valores atípicos locales para la misma Variable de análisis varias veces), se sobrescribirán para que el cubo siempre contenga los resultados de los análisis más recientes.

Puede visualizar estas variables con ArcGIS Pro. Consulte Visualización del cubo de espacio-tiempo para obtener estrategias.

Interpretación

Para facilitar la interpretación de los resultados de la herramienta Análisis de valores atípicos locales, se puede utilizar la herramienta Visualizar el cubo de espacio-tiempo en 3D para visualizar las variables del resultado que se han agregado al cubo. Se puede visualizar el índice, el valor P y el Tipo de análisis de cluster y valor atípico para cada bin seleccionando Cluster and outlier results Tema de visualización. Un índice con un valor positivo indica que un bin tiene bins vecinos con valores de atributo altos o bajos similares; este bin forma parte de un cluster. Un índice con un valor negativo indica que un bin tiene bins vecinos con valores diferentes; este bin es un valor atípico. En ambas instancias, el pseudo valor P o valor P para la entidad debe ser lo suficientemente pequeño para que el cluster o el valor atípico se consideren estadísticamente significativos. Para obtener más información sobre cómo determinar la significancia estadística, consulte¿Qué es una puntuación z? ¿Qué es un valor P?. Tenga en cuenta que el índice I de Moran local (I) es una medida relativa y que solo se puede interpretar dentro del contexto de su distribución de referencia generada y su pseudo valor P o valor P calculado. El pseudo valor P o los valores P indicados en la clase de entidades de salida están corregidos para la dependencia espacial y la realización de varias pruebas.

El tipo de cluster o valor atípico distingue entre un cluster estadísticamente significativo de valores altos (Alto-Alto), un cluster de valores bajos (Bajo-Bajo), un valor atípico en el que un valor alto está rodeado principalmente por valores bajos (Alto-Bajo) y un valor atípico en el que un valor bajo está rodeado principalmente por valores altos (Bajo-Alto). La importancia estadística está establecida en un nivel de confianza del 95 por ciento. La importancia representa una Corrección FDR que ajusta el umbral del valor P de 0,05 a un valor que refleja mejor el nivel de confianza del 95 porciento teniendo en cuenta varias pruebas.

Valores predeterminados de vecindad

Para determinar si el valor del bin en el espacio y tiempo de una ubicación forma parte de un valor atípico o de un punto caliente o frío estadísticamente significativo, se evalúa cada bin dentro del contexto de los bins de espacio-tiempo vecinos. Los valores de los parámetros Distancia de vecindad y Período de tiempo de vecindad definen la extensión de la vecindad de cada bin (el contexto para el análisis de cada bin). Supongamos que las dimensiones de un bin son de 400 x 400 metros x 1 día. Si establece la Distancia de vecindad a 801 metros y el Periodo de tiempo de vecindad a 2, los vecinos espaciales se extenderán dos bins en sentido horizontal y vertical, y un bin en sentido diagonal, tal y como se muestra:

Además, habrá vecinos temporales. Se incluirán como vecinos todos los bins de la misma ubicación que los vecinos de destino y espaciales (mostrados anteriormente) para los períodos de tiempo coincidentes o los dos anteriores (un total de tres días, en este ejemplo). Observe que los vecinos temporales solo son retroactivos y que un Período de tiempo de vecindad de 2 engloba tres intervalos de períodos de tiempo. Para asegurarse de que al menos hay 1 vecino temporal para cada ubicación, no se calcula el índice de Moran local para los bins en el primer segmento de tiempo. No obstante, los valores de bin en el primer segmento de tiempo se incluyen en el cálculo de la media global.

Cuando no se indica un valor para el parámetro Distancia de vecindad, se calcula uno automáticamente. La fórmula se adapta del cálculo utilizado para determinar un radio de búsqueda de densidad kernel predeterminado. Cuando no se indica un valor para el parámetro Período de tiempo de vecindad, el valor predeterminado se establece en 1.

Permutaciones

Las permutaciones se utilizan para determinar la probabilidad de encontrar la distribución espacial real de los valores que está analizando mediante la comparación de los valores con un conjunto de valores generados aleatoriamente. Incluso con la aleatoriedad espacial completa (CSR), siempre se observará cierto grado de clustering debido, simplemente, a la aleatoriedad. Las permutaciones generarán muchos datasets aleatorios y estos valores se compararán con el índice I de Moran local de sus datos originales. Para hacerlo, cada permutación reorganiza aleatoriamente los valores de vecindad alrededor de cada bin y calcula el valor I de Moran local de estos datos aleatorios. Si observamos la distribución del I de Moran local generado a partir de las permutaciones, podrá ver el rango de valores I de Moran local que podrían darse razonablemente debido a la aleatoriedad. Si sus datos contienen un patrón espacial estadísticamente significativo, espera que los valores I de Moran local generados a partir de las permutaciones muestren menos clustering que el valor I de Moran local de sus datos originales. A continuación se calcula un pseudo valor P determinando la proporción de los valores I de Moran local generados a partir de las permutaciones que muestran más clustering que sus datos originales. Si esta proporción (el pseudo valor P) es pequeña (inferior a 0,05), puede concluir que sus datos muestran clustering esatidísticamente significativo.

Elegir el número de permutaciones es un equilibrio entre la precisión y un mayor tiempo de procesamiento. Al aumentar el número de permutaciones se incrementa la precisión porque aumenta el rango de posibles valores para el pseudo P. Por ejemplo, con 99 permutaciones, la precisión del pseudo valor P es de 0,01 (1/99+1) y para 999 permutaciones, la precisión es de 0,001 (1/999+1). Se puede utilizar un número inferior de permutaciones al explorar un problema por primera vez, pero resulta conveniente aumentar las permutaciones al número más alto viable de cara a los resultados finales.

Recursos adicionales

Anselin, Luc. "Local Indicators of Spatial Association—LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. La Guía de Esri para el análisis SIG, Volumen 2. Esri Press, 2005.