El Análisis de puntos calientes optimizado ejecuta la herramienta Análisis de puntos calientes (Gi* de Getis-Ord) utilizando parámetros derivados de características de los datos de entrada. Al igual que la configuración automática de una cámara digital utiliza la iluminación y el sujeto frente a las lecturas del terreno para determinar una apertura, velocidad de obturador y enfoque apropiados, la herramienta Análisis de puntos calientes optimizado interroga los datos para obtener la configuración que proporcionará unos resultados óptimos de puntos calientes. Si, por ejemplo, el dataset de Entidades de entrada contiene datos de puntos de incidentes, la herramienta agregará los incidentes a las entidades ponderadas. Mediante el uso de la distribución de las entidades ponderadas, la herramienta identificará una escala apropiada de análisis. La transcendencia estadística notificada en las Entidades de salida se ajustará automáticamente para la realización de varias pruebas y para dependencia espacial utilizando el método de corrección Índice de descubrimientos falsos (FDR).
Cada una de las decisiones que toma la herramienta para proporcionar los mejores resultados posibles se muestran en forma de mensajes durante la ejecución de la herramienta; a continuación se documenta la explicación de estas decisiones.
Al igual que una cámara tiene un modo manual que permite invalidar la configuración automática, la herramienta Análisis de puntos calientes (Gi* de Getis-Ord) proporciona el control total sobre todas las opciones de parámetros. La ejecución de la herramienta Análisis de puntos calientes optimizado y la anotación de la configuración de parámetros que utiliza puede ayudar a refinar los parámetros que se proporcionan a la herramienta Análisis de puntos calientes (Gi* de Getis-Ord) para el control total.
El flujo de trabajo para la herramienta Análisis de puntos calientes optimizado incluye los componentes siguientes. Los cálculos y algoritmos usados dentro de cada uno de estos componentes se describen a continuación.
Evaluación inicial de datos
En este componente, las Entidades de entrada y el Campo de análisis opcional, Polígonos de delimitación que definen dónde es posible que se produzcan incidentes y Polígonos para agregar incidentes a puntos se examinan para asegurarse de que haya entidades suficientes y una variación adecuada en los valores que se van a analizar. Si la herramienta encuentra registros con ausencia de geometría o geometría corrupta, o si se especifica un Campo de análisis y hay valores nulos presentes, los registros asociados se enumerarán como registros incorrectos y se excluirán del análisis.
La herramienta Análisis de puntos calientes optimizado usa la estadística Gi* de Getis-Ord (pronunciada como Gee Eye Star) y, al igual que sucede en muchos métodos estadísticos, los resultados no son fiables cuando hay menos de 30 entidades. Si proporciona Entidades de entrada de polígono o Entidades de entrada de punto y un Campo de análisis, necesitará un mínimo de 30 entidades para usar esta herramienta. El número mínimo de Polígonos para agregar incidentes a puntos también es 30. La capa de entidades que representa Polígonos de delimitación que definen dónde es posible que se produzcan incidentes puede incluir uno o varios polígonos.
La estadística Gi* también requiere los valores que se van a asociar a cada entidad que analiza. Cuando las Entidades de entrada que se proporcionan representan datos de incidentes (cuando no se proporciona un Campo de análisis), la herramienta agregará los incidentes y los recuentos de incidentes se emplearán como los valores que se van a analizar. Después de completarse el proceso de agregación, seguirá habiendo un mínimo de 30 entidades, de modo que con los datos de incidentes, comenzará con más de 30 entidades. En la tabla siguiente se documenta el número mínimo de entidades para cada Método de agregación de datos de incidentes:
Número mínimo de incidentes: | Método de agregación | Número mínimo de entidades después de la agregación |
---|---|---|
60 | COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS, sin especificar Polígonos de delimitación que definen dónde es posible que se produzcan incidentes | 30 |
30 | COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS, cuando se proporciona una clase de entidad para el parámetro Polígonos de delimitación que definen dónde es posible que se produzcan incidentes | 30 |
30 | COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS | 30 |
60 | SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS | 30 |
La estadística Gi* también se ha diseñado para un Campo de análisis con una variedad de valores diferentes. La estadística no es apropiada para los datos binarios, por ejemplo. La herramienta Análisis de puntos calientes optimizado comprobará el Campo de análisis para asegurarse de que los valores tienen al menos alguna variación.
Si especifica una ruta para la Superficie de densidad, este componente del flujo de trabajo de la herramienta también comprobará la configuración del entorno de máscara de análisis ráster. Si no se establece una máscara de análisis ráster, creará una envoltura convexa alrededor de los puntos de incidentes que se van a usar para recortar la capa ráster de Superficie de densidad de salida. El parámetro Superficie de densidad solo está habilitado cuando las Entidades de entrada son puntos y tiene la ArcGIS Spatial Analyst extension. Se deshabilita para todo excepto para el Método de agregación de datos de incidentes SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS.
Los valores atípicos de ubicación son entidades que están mucho más lejos de las entidades vecinas que la mayoría de entidades del dataset. Piense en un entorno urbano con grandes ciudades de alta densidad de población en el centro y ciudades más pequeñas y con menos densidad de población en la periferia. Si calcula la distancia promedio del vecino más cercano para estas ciudades, encontraría que el resultado sería menor si excluyese los valores atípicos de ubicación periférica y se centrase solo en las ciudades próximas al centro urbano. Este es un ejemplo de cómo los valores atípicos de ubicación pueden tener un gran impacto en estadísticas espaciales tales como Promedio de vecinos más cercanos. Como la herramienta Análisis de puntos calientes optimizado utiliza los cálculos de distancias promedio y mediana de vecinos más cercanos para la agregación y también para identificar una escala apropiada de análisis, el componente Evaluación inicial de datos de la herramienta también identificará los valores atípicos de ubicación en las Entidades de entrada o los Polígonos para agregar incidentes a puntos y notificará el número que resulte. Para ello, la herramientas calcula la distancia promedio del vecino más cercano de cada entidad y evalúa la distribución de todas estas distancias. Las entidades que están a una distancia mayor que tres veces la desviación estándar del vecino más cercano no coincidente se consideran valores atípicos de ubicación.
Agregación de incidentes
Para los datos de incidentes, el componente siguiente en el flujo de trabajo agrega los datos. Hay tres enfoques posibles basados en el Método de agregación de datos de incidentes que seleccione. Los algoritmos para cada uno de estos enfoques se describen a continuación.
- COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS:
- Contraiga los puntos coincidentes produciendo un solo punto en cada ubicación única del dataset, utilizando el mismo método empleado por la herramienta Recopilar eventos.
- Calcule las distancias promedio y mediana de vecinos más cercanos en todos los puntos de ubicación única, excluyendo los valores atípicos de ubicación. La distancia promedio de vecinos más cercanos (ANN) se calcula sumando la distancia al vecino más cercano de cada entidad y dividiendo el resultado por el número de entidades (N). La distancia mediana de vecinos más cercanos (MNN) se calcula ordenando de menor a mayor las distancias de vecinos más cercanos y seleccionando la distancia que cae en la mitad de la lista ordenada.
- Establezca el tamaño de celda (CS) inicial en el mayor de los valores ANN o MNN.
- Ajuste el tamaño de celda para considerar los puntos coincidentes. Menor = MIN(ANN,MNN); Mayor = MAX(ANN,MNN). Escalar = MAX((Mayor/Menor),2). El tamaño de celda ajustado es igual a CS * Escalar.
- Cree una malla de polígono de red utilizando el tamaño de celda ajustado y superponga la malla con los puntos de incidentes.
- Realice el recuento de los incidentes en cada celda de polígono.
- Cuando se proporciona el parámetro Polígonos de delimitación que definen dónde es posible que se produzcan incidentes, todas las celdas de polígono que caen dentro de los polígonos de delimitación se conservan. Cuando no se proporciona el parámetro Polígonos de delimitación que definen dónde es posible que se produzcan incidentes, las celdas de polígono con cero incidentes se eliminan.
- Si el resultado del proceso de agregación es menor que 30 celdas de polígono o si los recuentos en todas las celdas de polígono son idénticos, recibirá un mensaje indicando que las Entidades de entrada proporcionadas no son apropiadas para el Método de agregación de datos de incidentes seleccionado; de lo contrario, el componente de agregación para este método se completará correctamente.
- COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS:
- Para este Método de agregación de datos de incidentes se requiere una capa de entidades Polígonos para agregar incidentes a puntos. Estos polígonos de agregación se superponen a los puntos de incidentes.
- Realice el recuento de los incidentes dentro de cada polígono.
- Asegúrese de que exista una variación suficiente en los recuentos de incidentes para el análisis. Si el resultado del proceso de agregación es que todos los polígonos tienen el mismo número de incidentes, recibirá un mensaje indicando que los datos no son apropiados para el Método de agregación de datos de incidentes seleccionado.
- SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS:
- Contraiga los puntos coincidentes produciendo un solo punto en cada ubicación única del dataset, utilizando el mismo método empleado por la herramienta Recopilar eventos. Realice el recuento del número de entidades de ubicación única (UL).
- Calcule las distancias promedio y mediana de vecinos más cercanos en todos los puntos de ubicación única, excluyendo los valores atípicos de ubicación. La distancia promedio de vecinos más cercanos (ANN) se calcula sumando la distancia al vecino más cercano de cada entidad y dividiendo el resultado por el número de entidades (N). La distancia mediana de vecinos más cercanos (MNN) se calcula ordenando de menor a mayor las distancias de vecinos más cercanos y seleccionando la distancia que cae en la mitad de la lista ordenada.
- Establezca la distancia de alineación (SD) inicial en el valor de ANN o MNN más pequeño.
- Ajuste la distancia de alineación para considerar los puntos coincidentes. Escalar = (UL/N) donde N es el número de entidades de la capa Entidades de entrada. La distancia de alineación ajustada es igual a SD * Escalar.
- Integre los puntos de incidentes en tres iteraciones usando primero la distancia de alineación ajustada multiplicada por 0,10, usando a continuación la distancia de alineación ajustada multiplicada por 0,25 e integrando finalmente con una distancia de alineación igual a la distancia de alineación totalmente ajustada. La realización del paso de integración en tres fases minimiza la distorsión de las ubicaciones de puntos originales.
- Contraiga los puntos alineados produciendo un solo punto en cada ubicación con un peso para indicar el número de incidentes que se alinearon juntos. Esta parte del proceso de agregación utiliza el método Recopilar eventos.
- Si el resultado del proceso de agregación es menor que 30 puntos ponderados o si los recuentos en todos los puntos son idénticos, recibirá un mensaje indicando que las Entidades de entrada proporcionadas no son apropiadas para el Método de agregación de datos de incidentes seleccionado; de lo contrario, el componente de agregación para este método se completará correctamente.
Escala de análisis
Este siguiente componente del flujo de trabajo de Análisis de puntos calientes optimizado se aplica a las entidades ponderadas, ya sea porque se han proporcionado Entidades de entrada con un Campo de análisis o bien porque el procedimiento de agregación de incidentes ha creado pesos a partir de recuentos de incidentes. El paso siguiente es identificar una escala apropiada de análisis. La escala de análisis ideal es una distancia que coincida con la escala de la pregunta que se está planteando (si está buscando puntos calientes del brote de una enfermedad y sabe que, por ejemplo, el vector del mosquito tiene un rango de 10 millas, lo más apropiado sería el uso de una distancia de 10 millas). Cuando no se puede justificar el uso de una distancia específica para la escala de análisis, hay algunas estrategias que sirven de ayuda. La herramienta Análisis de puntos calientes optimizado emplea estas estrategias.
La primera estrategia intentada es la Autocorrelación espacial incremental. Siempre que vea clustering espacial en el apaisado, ve evidencia de procesos espaciales subyacentes en el trabajo. La herramienta Autocorrelación espacial incremental realiza la Estadística Yo de Global Moran) para una serie de distancias en aumento, midiendo la intensidad del clustering espacial para cada distancia. La intensidad del clustering está determinado por la puntuación z que se devuelve. Generalmente, a medida que aumenta la distancia, también aumenta la puntuación z, que indica la intensificación del clustering. Sin embargo, en una distancia específica, la puntuación z por lo general aumenta. Los picos reflejan las distancias donde los procesos espaciales que promueven el clustering son más pronunciados. La herramienta Análisis de puntos calientes optimizado busca las distancias pico utilizando la Autocorrelación espacial incremental. Si se encuentra una distancia pico, esta distancia pasa a ser la escala para el análisis. Si se encuentran varias distancias pico, se selecciona la primera distancia pico.
Si no se encuentra ninguna distancia pico, el Análisis de puntos calientes optimizado examina la distribución espacial de las entidades y calcula la distancia promedio que produciría K vecinos para cada entidad. K se calcula como 0,05 * N, donde N es el número de entidades de la capa Entidades de entrada. K se ajustará de manera que nunca sea menor que 3 o mayor que 30. Si la distancia promedio que produciría K vecinos supera una distancia estándar, la escala de análisis se establecerá en una distancia estándar; de lo contrario, reflejaría la distancia promedio de K vecinos.
La finalización del paso Autocorrelación espacial incremental puede llevar mucho tiempo en datasets grandes y densos. Por consiguiente, cuando se encuentra una entidad con 500 o más vecinos, se omite el análisis incremental, y la distancia promedio que produciría 30 vecinos se calcula y utiliza para la escala del análisis.
La distancia que refleja la escala del análisis se notificará a la Ventana de resultados y se utilizará para realizar el análisis de puntos calientes. Si se proporciona una ruta para el parámetro Superficie de densidad, esta distancia óptima también servirá como radio de búsqueda con la herramienta Densidad kernel. Esta distancia corresponde al parámetro Banda de distancia o distancia de umbral utilizado por la herramienta Análisis de puntos calientes (Gi* de Getis-Ord).
Análisis de puntos calientes
En este punto del flujo de trabajo de Análisis de puntos calientes optimizado se han realizado todas las verificaciones y ajustes de parámetros. El siguiente paso consiste en ejecutar la estadística Gi* de Getis-Ord. Los detalles de los cálculos matemáticos para esta estadística se describen en Cómo funciona Análisis de puntos calientes (Gi* de Getis-Ord). Los resultados de la estadística Gi* se corregirán automáticamente para la realización de varias pruebas y para dependencia espacial utilizando el método de corrección Índice de descubrimientos falsos (FDR). Los mensajes de la ventana Resultados resumen el número de entidades identificadas como puntos calientes o fríos estadísticamente significativos, después de aplicar la corrección FDR.
Salida
El último componente de la herramienta Análisis de puntos calientes optimizado consiste en crear las Entidades de salida y, si se especifica, la capa ráster de Superficie de densidad. Si las Entidades de entrada representan datos de incidentes que requieren agregación, las Entidades de salida reflejarán las entidades ponderadas agregadas (celdas de polígono de red, polígonos de agregación proporcionados para el parámetro Polígonos para agregar incidentes a puntos o puntos ponderados). Cada entidad tendrá una puntuación z, valor P y un resultado de Gi Bin.
Cuando se especifica, la Superficie de densidad se crea utilizando la herramienta Densidad kernel. El radio de búsqueda para esta herramienta es el mismo que la escala de la distancia de análisis utilizada para el análisis de puntos calientes. La representación en pantalla predeterminada son valores extendidos a lo largo de una rampa de color de escala de grises. Si se especifica una máscara de análisis ráster en la configuración del entorno, la Superficie de densidad de salida se recortará a la máscara de análisis. Si no se especifica la máscara de análisis ráster, la Superficie de densidad se recortará a una envoltura convexa alrededor de los centroides de Entidades de entrada.
Recursos adicionales
Getis, A. y J.K. Ord. 1992. "The Analysis of Spatial Association by Use of Distance Statistics" en Geographical Analysis 24(3).
Ord, J.K. y A. Getis. 1995. "Local Spatial Autocorrelation Statistics: Distributional Issues and an Application" en Geographical Analysis 27(4).
La página de recursos de estadística espacial contiene vídeos cortos, tutoriales, seminarios Web, artículos y muchos materiales más para ayudarle a empezar a trabajar con las estadísticas espaciales.