Este documento proporciona información adicional sobre los parámetros de la herramienta pero además introduce vocabulario y conceptos esenciales que son importantes cuando analiza los datos mediante las Herramientas de estadística espacial. Utilice este documento como referencia cuando necesite información adicional sobre los parámetros de la herramienta.
Conceptualización de relaciones espaciales
Una diferencia importante entre las estadísticas espaciales y tradicionales (no espaciales) es que las estadísticas espaciales integran relaciones espaciales y espacio directamente en sus operaciones matemáticas. Por consiguiente, muchas de las herramientas en la caja de herramientas de estadística espacial requieren que el usuario seleccione un valor para el parámetro Conceptualización de relaciones espaciales antes del análisis. Las conceptualizaciones comunes incluyen distancia inversa, tiempo de viaje, distancia fija, vecinos K más próximos y contigüidad. La conceptualización de las relaciones espaciales que utiliza dependerá de lo que mida. Si mide el clustering de una especie de planta en particular que se reproduce mediante la semilla, por ejemplo, la distancia inversa probablemente sea la más apropiada. Sin embargo, si evalúa la distribución geográfica de los viajeros de una región, el tiempo de viaje o el coste de viaje pueden ser mejores opciones para describir esas relaciones espaciales. Para algunos análisis, el espacio y el tiempo pueden ser menos importantes que los conceptos más abstractos como la familiaridad (cuanto más familiar sea algo, más cerca estará funcionalmente) o la interacción espacial (hay muchas más llamadas telefónicas, por ejemplo, entre Los Ángeles y Nueva York que entre Nueva York y una ciudad más pequeña cercana a Nueva York, como Poughkeepsie; algunos pueden sostener que Los Ángeles y Nueva York están más cerca funcionalmente).
La herramienta Análisis de agrupamiento contiene un parámetro denominado Restricciones espaciales, y a pesar de que las opciones del parámetro son similares a las que se describen para el parámetro Conceptualización de relaciones espaciales, se utilizan de forma diferente. Cuando se impone una restricción espacial, solo las entidades que comparten al menos un vecino (según lo definido por la contigüidad, las relaciones de vecino más cercano o los métodos de triangulación), pueden pertenecen al mismo grupo. Se incluye información adicional y ejemplos Cómo funciona el Análisis de agrupamiento.
A continuación, se describen las opciones para el parámetro Conceptualización de relaciones espaciales. La opción que selecciona determina las relaciones de vecino para las herramientas que evalúan cada entidad dentro del contexto de las entidades vecinas. Estas herramientas incluyen las herramientas Autocorrelación espacial (I de Moran global), Análisis de punto caliente (Gi* de Getis-Ord) y Análisis de cluster y de valor atípico (I Anselin local de Moran). Tenga en cuenta que algunas de estas opciones sólo están disponibles si utiliza las herramientas Generar matriz de ponderaciones espaciales o Generar pesos espaciales de red.
Distancia inversa, distancia inversa cuadrada (Impedancia)
Con las opciones de Distancia inversa, el modelo conceptual de las relaciones espaciales es uno de impedancia o disminución de la distancia. Todas las entidades afectan/influyen en todas las otras entidades, pero cuanto más lejos esté algo, menor impacto tendrá. Por lo general deseará especificar un valor Banda de distancia o distancia de umbral cuando utiliza una conceptualización de distancia inversa para reducir el número de cómputos requeridos, especialmente con grandes datasets. Cuando no se especifica banda de distancia o distancia de umbral, se calcula un valor de umbral predeterminado. Puede forzar todas las entidades para que sean vecinas de las demás entidades al configurar la Banda de distancia o distancia de umbral en cero.
La distancia euclidiana inversa es apropiada para modelar datos continuos como, por ejemplo, variaciones de temperatura. La distancia de Manhattan inversa puede funcionar mejor cuando el análisis involucra las ubicaciones de tiendas de hardware u otras instalaciones urbanas fijas, en el caso donde los datos de red de carreteras no están disponibles. El modelo conceptual cuando utiliza la opción Distancia inversa cuadrada es el mismo que con Distancia inversa excepto que la pendiente es más nítida para que el vecino influya en la caída en forma más rápida y solo los vecinos más cercanos de la entidad de destino ejercerán una influencia sustancial en los cálculos de esa entidad.
Banda de distancia (esfera de influencia)
Para algunas herramientas, como Análisis de punto caliente, una banda de distancia fija es la conceptualización predeterminada de las relaciones espaciales. Con la opción Banda de distancia fija, impone una esfera de influencia o modelo conceptual de ventana en movimiento de las interacciones espaciales en los datos. Cada entidad se analiza dentro del contexto de esas entidades vecinas ubicadas dentro de la distancia que especifica para la Banda de distancia o distancia de umbral. Los vecinos dentro de la distancia especificada se ponderan por igual. Las entidades fuera de la distancia especificada no influyen en los cálculos (su peso es cero). Utilice el método Banda de distancia fija cuando desee evaluar las propiedades estadísticas de sus datos en una escala espacial (fija) particular. Si estudia los patrones de viajes y sabe que el viaje promedio para trabajar es de 15 millas, por ejemplo, es posible que desee utilizar una distancia fija de 15 millas para su análisis. Consulte Seleccionar una distancia fija para ver las estrategias que pueden ayudarle a identificar una escala apropiada de análisis.
Zona de indiferencia
La opción Zona de indiferencia para el parámetro Conceptualización de relaciones espaciales combina los modelos Distancia inversa y Banda de distancia fija. Las entidades dentro de la banda de distancia o distancia de umbral se incluyen en los análisis para la entidad de destino. Una vez que se excede la distancia crítica, el nivel de influencia (la ponderación) cae rápidamente. Supongamos que está buscando trabajo y tiene la opción entre un trabajo a cinco millas y otro trabajo a seis millas de distancia. Probablemente no pensará mucho sobre la distancia al tomar la decisión sobre qué trabajo tomar. Ahora, supongamos que tiene la opción entre un trabajo a cinco millas y otro a 20 millas. En este caso, la distancia se convierte más en una impedancia y puede contribuir a la toma de la decisión. Utilice este método cuando desea mantener la escala de análisis fija pero no desea imponer límites nítidos en las entidades vecinas incluidas en los cálculos de la entidad de destino.
Contigüidad de polígono (primer orden)
Para las clases de entidad poligonal, puede elegir CONTIGUITY_EDGES_ONLY (a veces llamado Caso del Rook) o CONTIGUITY_EDGES_CORNERS (que a veces se denomina Caso de la Reina). Para CONTIGUITY_EDGES_ONLY, los polígonos que comparten un borde (que tienen límites coincidentes) se incluyen en los cálculos para el polígono de destino. Los polígonos que no comparten un borde se excluyen de los cálculos de la entidad de destino. Para CONTIGUITY_EDGES_CORNERS, los polígonos que comparten un borde o una esquina se incluirán en los cálculos para el polígono de destino. Si cualquier porción de dos polígonos se superponen, se consideran vecinos y se incluirán en los cálculos entre sí. Utilice una de estas conceptualizaciones de contigüidad con entidades poligonales en casos donde modela algún tipo de proceso contagioso o trata con datos continuos representados como polígonos.
K vecinos más próximos
Las relaciones de vecino también se pueden construir de manera que cada entidad se evalúe dentro del contexto espacial de un número especificado de vecinos más cercanos. Si K (el número de vecinos) es 8, los ocho vecinos más cercanos a la entidad de destino se incluirán en los cálculos para esa entidad. En las ubicaciones donde la densidad de la entidad es alta, el contexto espacial del análisis será más pequeño. Del mismo modo, en las ubicaciones donde la densidad de la entidad es escasa, el contexto espacial para el análisis será más grande. Una ventaja para este modelo de relaciones espaciales es que asegura que habrá algunos vecinos para cada entidad de destino, aún cuando las densidades de la entidad varían ampliamente en el área de estudio. Este método está disponible con la herramienta Generar matriz de ponderaciones espaciales. La opción K_NEAREST_NEIGHBORS con 8 para Cantidad de vecinos es la conceptualización predeterminada que se utiliza con Regresión exploratoria para evaluar los residuales de regresión.
Triangulación de Delaunay (vecinos naturales)
La opción Triangulación de Delaunay construye vecinos al crear triángulos de Voronoi a partir de entidades de puntos o centroides de la entidad ya que cada punto/centroide es un nodo de triángulo. Los nodos conectados mediante un borde de triángulo se consideran vecinos. Utilizar la triangulación de Delaunay garantiza que cada entidad tendrá al menos un vecino aún cuando los datos incluyan islas o densidades de entidades que varían ampliamente. No utilice la opción Triangulación de Delaunay cuando tiene entidades coincidentes. Este método está disponible con la herramienta Generar matriz de ponderaciones espaciales.
Ventana de tiempo-espacio
Con esta opción usted define las relaciones de entidades en términos de espacio (distancia fija) y una ventana de tiempo (intervalo de tiempo fijo). Esta opción está disponible cuando crea un archivo de matriz de ponderaciones espaciales utilizando la herramienta Generar matriz de ponderaciones espaciales. Cuando se selecciona SPACE_TIME_WINDOW, también será necesario especificar un Campo de fecha/hora, un Tipo de intervalo de fecha/hora (HOURS, DAYS o MONTHS, por ejemplo) y un Valor de intervalo de fecha/hora. El valor del intervalo es un entero. Si seleccionó HOURS para el Tipo de intervalo y 3 para el Valor de intervalo, por ejemplo, dos entidades se considerarían vecinas si los valores en el campo de Fecha/hora estuvieran a tres horas unos a otros. Con esta conceptualización, las entidades son vecinas si están dentro de la distancia especificada y también entran en el intervalo de tiempo especificado de la entidad de destino. Como posible ejemplo, seleccione SPACE_TIME_WINDOWConceptualización de relaciones espaciales si desea crear un archivo de matriz de ponderaciones espaciales para utilizarlo con Hot_Spot_Analysis para identificar puntos calientes de espacio-tiempo. La información adicional, incluyendo la forma de visualizar los resultados, se presenta en Análisis de espacio-tiempo. Dispone de otras opciones para visualizar, en 3D, un cubo de espacio-tiempo de netCDF.
Obtener ponderaciones espaciales a partir del archivo (relaciones espaciales definidas por el usuario)
Puede crear un archivo para almacenar las relaciones de vecino de la entidad utilizando la herramienta Generar matriz de ponderaciones espaciales o la herramienta Generar pesos espaciales de red. Si desea definir relaciones espaciales mediante el tiempo de viaje o los costes de viaje derivados de un dataset de red, cree un archivo de matriz de ponderaciones espaciales con la herramienta Generar ponderaciones espaciales de red y, a continuación, utilice el archivo SWM resultante para los análisis. Si las relaciones espaciales para las entidades se definen en una tabla, puede utilizar la herramienta Generar matriz de ponderaciones espaciales para convertir esa tabla en un archivo (.swm) de matriz de ponderaciones espaciales. Los campos particulares deberían incluirse en la tabla para utilizar la opción CONVERT_TABLE a fin de obtener un archivo SWM. También puede proporcionar una ruta al archivo de texto con formato ASCII que define su propia conceptualización personalizada de relaciones espaciales (basado en la interacción espacial, por ejemplo).
Seleccionar una conceptualización de relaciones espaciales: prácticas recomendadas
Cuanto más pueda modelar de manera realista cómo interactúan mutuamente las entidades en el espacio, más precisos serán sus resultados. Su elección del parámetro Conceptualización de relaciones espaciales deberá reflejar relaciones inherentes entre las entidades que analiza. A veces, la elección también estará influenciada por características de los datos.
Por ejemplo, los métodos distancia inversa (INVERSE_DISTANCE, INVERSE_DISTANCE_SQUARED) son más apropiados con datos continuos o para modelar procesos en los que cuanto más cerca estén dos entidades en el espacio, más probabilidad hay de que interactúen/se influencien una con otra. Con esta conceptualización espacial, cada entidad es potencialmente vecina de la otra entidad, y con grandes datasets, el número de cálculos involucrados será enorme. Siempre debería tratar de incluir un valor Banda de distancia o distancia de umbral cuando utilice las conceptualizaciones de distancia inversa. Esto es particularmente importante para datasets grandes. Si deja el parámetro Banda de distancia o distancia de umbral vacío, se calculará una distancia de umbral, pero probablemente no sea la distancia más apropiada para el análisis; el umbral de distancia predeterminado será la distancia mínima que garantiza que cada entidad tenga al menos un vecino.
El método FIXED_DISTANCE_BAND funciona bien para los datos de punto. Es la opción predeterminada utilizada por la herramienta Análisis de punto caliente (Gi* de Getis-Ord). A menudo es una buena opción para los datos de polígono cuando hay una gran variación en el tamaño del polígono (polígonos muy grandes en el borde del área de estudio y polígonos muy pequeños en el centro del área de estudio, por ejemplo), y desea garantizar una escala de análisis consistente. Consulte Seleccionar una distancia fija a continuación para ver las estrategias que lo ayudan a determinar un valor de banda de distancia apropiada para su análisis.
La conceptualización ZONE_OF_INDIFFERENCE funciona bien cuando la distancia fija es apropiada, pero imponer límites nítidos en las relaciones de vecindad no es una representación precisa de los datos. Tenga en cuenta que en el modelo conceptual de zona de indiferencia se considera que cada entidad es vecina de la otra entidad. Por consiguiente, esta opción no es apropiada para grandes datasets ya que el valor Banda de distancia o distancia de umbral suministrado no limita el número de vecinos pero solo especifica dónde comienza a disminuir la intensidad de las relaciones espaciales.
Las conceptualizaciones de contigüidad de polígono (CONTIGUITY_EDGES_ONLY, CONTIGUITY_EDGES_CORNERS) son efectivas cuando los polígonos tienen un tamaño y distribución similares y cuando las relaciones espaciales son una función de la proximidad del polígono (la idea de que si dos polígonos comparten un límite, la interacción espacial entre ellos aumenta). Cuando selecciona una conceptualización de contigüidad de polígono, casi siempre deseará seleccionar estandarización de filas para las herramientas que tienen el parámetro Estandarización de filas.
La opción K_NEAREST_NEIGHBORS es efectiva cuando desea asegurarse de que tiene un número mínimo de vecinos para el análisis. Especialmente cuando los valores asociados a sus entidades están sesgados (no están distribuidos normalmente), es importante que cada entidad se evalúe dentro del contexto de al menos ocho vecinos (esta es solamente una regla general). Cuando la distribución de los datos varía en el área de estudio de manera que algunas entidades están lejos de las demás entidades, este método funciona bien. Sin embargo, tenga en cuenta que el contexto espacial del análisis cambia según las variaciones en la escasez/densidad de las entidades. Cuando fijar la escala de análisis es menos importante que fijar la cantidad de vecinos, el método K vecinos más próximos es apropiado.
Algunos analistas consideran que la DELAUNAY_TRIANGULATION es una forma de construir vecinos naturales para un conjunto de entidades. Este método es una buena opción cuando los datos incluyen polígonos de isla (polígonos aislados que no comparten ningún límite con otros polígonos) o en casos donde hay una distribución espacial muy desigual de entidades. Sin embargo, no es adecuado cuando tiene entidades coincidentes. Similar al método K vecinos más próximos, la triangulación de Delaunay garantiza que cada entidad tenga al menos un vecino pero utiliza la distribución de los datos para determinar cuántos vecinos tiene cada una.
La opción SPACE_TIME_WINDOW le permite definir las relaciones de entidades en términos tanto de proximidad espacial como de proximidad temporal. Utilizaría esta opción si quisiera identificar puntos calientes de espacio-tiempo o construir grupos en los que la pertenencia estaba limitada por la proximidad de espacio y de tiempo. En el Análisis de espacio-tiempo se proporcionan ejemplos de análisis de espacio-tiempo así como estrategias para presentar efectivamente los resultados de este tipo de análisis.
Para algunas aplicaciones, la interacción espacial se modela mejor en términos del tiempo de viaje o de la distancia de viaje. Si modela la accesibilidad a los servicios urbanos, por ejemplo, o busca los puntos calientes de delitos urbanos, una buena opción es modelar las relaciones espaciales en términos de una red. Utilice la herramienta Generar ponderaciones espaciales de red para crear un archivo de matriz de ponderaciones espaciales (.swm) antes del análisis; seleccione GET_SPATIAL_WEIGHTS_FROM_FILE para el valor de Conceptualización de relaciones espaciales y, a continuación, para el parámetro Archivo de matriz de ponderaciones, indique la ruta completa del archivo SWM que creó.
Si ninguna de las opciones del parámetro Conceptualización de relaciones espaciales funciona bien para el análisis, puede crear un archivo de texto ASCII o una tabla con las relaciones de entidad a entidad que desee y utilizarlas para crear un archivo de matriz de ponderaciones espaciales. Si una de las opciones de arriba se acerca, pero no es perfecta para sus propósitos, puede utilizar la herramienta Generar matriz de ponderaciones espaciales para crear un archivo SWM básico y, a continuación, editar el archivo de matriz de ponderaciones espaciales.
Seleccionar un valor de banda de distancia fija
Considere la banda de distancia fija que selecciona como una ventana en movimiento que momentáneamente se establece en la parte superior de cada entidad y observa esa entidad dentro del contexto de sus vecinos. Hay varias pautas para ayudarlo a identificar una banda de distancia apropiada para el análisis:
- Seleccione una distancia basado en lo que sabe sobre la extensión geográfica de los procesos espaciales que promocionan el clustering para los fenómenos que está estudiando. Por lo general, no lo sabrá, pero si lo sabe, debe utilizar su conocimiento para seleccionar un valor de distancia. Supongamos, por ejemplo, que sabe que la distancia de viaje promedio al trabajo es de 15 millas. Utilizar 15 millas para la banda de distancia es una buena estrategia para analizar los datos de viajes.
- Utilice una banda de distancia que sea lo suficientemente grande para garantizar que todas las entidades tendrán al menos un vecino, o los resultados no serán válidos. Especialmente si los datos de entrada están sesgados (no crean una buena curva de campana cuando traza los valores como un histograma), deseará asegurarse de que la banda de distancia no sea ni demasiado pequeña (la mayoría de las entidades solo tienen uno o dos vecinos) ni demasiado grande (varias entidades incluyen todas las demás entidades como vecinos), ya que eso haría que las puntuaciones z resultantes sean menos confiables. Las puntuaciones z son confiables (aún con datos sesgados) siempre y cuando la banda de distancia sea lo suficientemente grande para garantizar varios vecinos (aproximadamente ocho) para cada entidad. Incluso si ninguna de las entidades tiene todas las demás entidades como un vecino, los problemas de rendimiento e incluso posibles limitaciones de memoria pueden ocurrir si crea una banda de distancia en donde las entidades tienen miles de vecinos.
- A veces garantizar que todas las entidades tengan como mínimo un vecino da como resultado algunas entidades que tienen muchos miles de vecinos, y esto no es ideal. Esto puede suceder cuando algunas de sus entidades son valores atípicos espaciales. Para resolver este problema, determine una banda de distancia apropiada para todos los valores, excepto para los valores atípicos espaciales, y utilice la herramienta Generar matriz de ponderaciones espaciales para crear un archivo de matriz de ponderaciones espaciales mediante esa distancia. Cuando ejecuta la herramienta Generar matriz de ponderaciones espaciales, sin embargo, especifique un número mínimo del valor de vecinos para el parámetro Cantidad de vecinos. Ejemplo: Supongamos que está evaluando el acceso a alimentos saludables en el condado de Los Ángeles utilizando datos de distrito censal. Usted sabe que más del 90 por ciento de la población vive a menos de tres kilómetros de oportunidades para ir de compras. Si analiza los distritos censales, comprobará que las distancias entre distritos (basadas en los centroides de distrito) en la región urbana son de una media aproximada de 1.000 metros, pero las distancias entre distritos de zonas periféricas superan los 18.000 metros. Para asegurarse de que cada entidad tenga al menos un vecino, la banda de distancia requeriría de más de 18.000 metros, y esta escala de análisis (distancia) no es adecuada para las preguntas que plantea. La solución es crear un archivo de matriz de ponderaciones espaciales para la clase de entidad del distrito censal utilizando la herramienta Generar matriz de ponderaciones espaciales. Especifique una Distancia de umbral de aproximadamente 4800 metros (aproximadamente tres millas) y un valor mínimo del número de vecinos (supongamos 2) para el parámetro Cantidad de vecinos. Esto aplicará la vecindad de una distancia fija de 4.800 metros a todas las entidades excepto aquellas que no tienen al menos dos vecinos que utilicen esa distancia. Para las entidades de valores atípicos (y solo para esas entidades de valor atípico), la distancia se expandirá tan solo lo suficientemente lejos para asegurarse de que cada entidad tenga al menos dos vecinos.
- Utilice una banda de distancia que refleje una autocorrelación espacial máxima. Siempre que vea clustering espacial en el apaisado, ve evidencia de procesos espaciales subyacentes en el trabajo. La banda de distancia que muestra un clustering máximo, según se mide mediante la herramienta Autocorrelación espacial incremental, es la distancia en la que esos procesos espaciales son más activos o más pronunciados. Ejecute la herramienta Autocorrelación espacial incremental y observe dónde parece que hay un pico en las puntuaciones z resultantes. Utilice la distancia asociada con el valor máximo para el análisis.
- Cada pico representa una distancia donde se marcan los procesos que promocionan el clustering espacial. Los picos múltiples son comunes. Por lo general, los picos asociados con distancias más grandes reflejan amplias tendencias (una amplia tendencia de Este a Oeste, por ejemplo, donde el Oeste es un punto caliente gigante y el Este es un punto frío gigante); en general, le interesarán más los picos asociados con distancias más pequeñas.
- Un pico que pasa desapercibido por lo general significa que hay varios procesos espaciales diferentes que operan en una variedad de escalas espaciales. Probablemente desee buscar otros criterios para determinar qué distancia fija utilizar para el análisis (quizás la distancia más efectiva para la solución).
- Si la puntuación z nunca alcanza el nivel más alto (en otras palabras, sigue aumentando) y si utiliza datos agregados (por ejemplo, condados), por lo general significa que el esquema de agregación es demasiado grueso; los procesos espaciales de interés operan en una escala que es menor que la escala de las unidades de agregación. Si puede pasar a una escala de análisis más pequeña (pasar de condados a distritos, por ejemplo), esto puede ayudar a encontrar un distancia máxima. Si está trabajando con datos de punto y la puntuación z nunca se eleva, significa que hay muchos procesos espaciales diferentes que operan en una variedad de escalas espaciales y es posible que deba idear diferentes criterios para determinar la distancia fija a utilizar en el análisis. También es posible que quiera verificar que la Distancia de inicio cuando ejecuta la herramienta Autocorrelación espacial incremental no sea demasiado grande.
- Si no especifica una distancia de inicio, la herramienta Autocorrelación espacial incremental utilizará la distancia que garantiza que todas las entidades tengan como mínimo un vecino. Sin embargo, si los datos incluyen valores atípicos espaciales, esa distancia podría ser demasiado grande para el análisis y puede ser la razón por la que no ve un pico pronunciado en el Archivo de informe de salida. La solución es ejecutar la herramienta Autocorrelación espacial incremental en un conjunto de selección que temporalmente excluye todos los valores atípicos espaciales. Si se encuentra un pico en los valores atípicos excluidos, utilice la estrategia que se describe arriba con esa distancia pico aplicada a todas las entidades (incluidos los valores atípicos espaciales) y obligue a cada entidad a que tenga al menos uno o dos vecinos. Si no está seguro si alguna de las entidades son valores atípicos espaciales:
- Para los datos de polígono, represente las áreas de polígono utilizando un esquema de representación de Desviación estándar y considere los polígonos con áreas que son mayores de tres desviaciones estándar para que sean valores atípicos espaciales. Puede utilizar Calcular campo para crear un campo con áreas poligonales si aún no tiene uno.
- Para los datos de punto, utilice la herramienta Cercano para calcular la distancia más cercana del vecino para cada entidad. Para hacer esto, establezca las Entidades de entrada y Entidades próximas a su dataset de puntos. Una vez que tenga un campo con distancias de vecino más cercano, represente los valores con un esquema de representación de Desviación estándar y considere las distancias que son más de tres desviaciones estándar para que sean valores atípicos espaciales.
Identifique una distancia donde los procesos que promocionan el clustering son más marcados. - Trate de no estancarse en la idea de que hay solamente una banda de distancia correcta. La realidad nunca es tan simple. Es más probable que haya procesos espaciales múltiples/que interactúan, que promueven el clustering observado. En lugar de pensar que necesita una banda de distancia, piense en las herramientas de análisis de patrón como métodos efectivos para explorar las relaciones espaciales en múltiples escalas espaciales. Tenga en cuenta que cuando cambia la escala (cambia el valor de banda de distancia), puede hacer una pregunta diferente. Supongamos que observa los datos de ingresos. Con pequeñas bandas de distancia, puede examinar patrones de ingresos de vecinos, las distancias de escala media pueden reflejar patrones de ingresos de la comunidad o la cuidad, y las bandas de distancia más grandes resaltarían patrones de ingresos regionales amplios.
Método de distancia
Varias de las herramientas en la caja de herramientas Estadística espacial utilizan distancia en los cálculos. Estas herramientas le brindan la opción de la distancia euclidiana o de Manhattan.
- La distancia euclidiana se calcula como
D = sq root [(x1–x2)**2.0 + (y1–y2)**2.0]
donde (x1, y1) es la coordenada para el punto A, (x2, y2) es la coordenada para el punto B, y D es la distancia en línea recta entre los puntos A y B.
- La distancia de Manhattan se calcula como
D = abs(x1–x2) + abs(y1–y2)
donde (x1, y1) es la coordenada para el punto A, (x2, y2) es la coordenada para el punto B, y D es la diferencia vertical y horizontal entre los puntos A y B. Es la distancia que debe recorrer si está limitado al recorrido de Norte a Sur y de Este a Oeste solamente. Este método por lo general es más apropiado que la distancia euclidiana cuando el recorrido se limita a una red de calles y donde los costes de viaje de la red de calles real no están disponibles.
Cuando sus entidades de entrada no están proyectadas (es decir, cuando las coordenadas se especifican en grados, minutos y segundos) o cuando el sistema de coordenadas de salida está establecido en un Sistema de coordenadas geográficas, o cuando se especifica una ruta de la clase de entidades de salida a un dataset de entidades que tiene una referencia espacial de un sistema de coordenadas de salida, las distancias se calcularán mediante mediciones de cuerda y el parámetro Método de distancia se deshabilitará. Las mediciones de distancia de cuerda se utilizan porque se pueden calcular rápidamente y proporcionar muy buenas estimaciones de verdaderas distancias geodésicas, al menos para los puntos separados unos treinta grados entre sí. Las distancias de cuerda se basan en una esfera en lugar de la verdadera forma de elipsoide oblato de la Tierra. Dados dos puntos en la superficie de la Tierra, la distancia de cuerda entre ellos es la longitud de una línea, que atraviesa la Tierra tridimensional, para conectar estos dos puntos. Las distancias de cuerda se informan en metros.
Auto potencial (campo que brinda un peso intrazonal)
Varias herramientas en la caja de herramientas Estadística espacial le permiten proporcionar un campo que representa el peso a utilizar para el auto potencial. La distancia o el peso entre una entidad y el polígono se denomina auto potencial. A menudo, este peso es cero, pero en algunos casos, es posible que desee especificar otro valor fijo o un valor diferente para cada entidad. Por ejemplo, si la conceptualización de relaciones espaciales se basa en distancias recorridas dentro y entre los distritos censales, puede decidir modelar el auto potencial para reflejar los costes de viaje intrazonales promedio basados en el tamaño del polígono:
dii = 0.5*[(Ai / π)**0.5]
donde dii es el coste de viaje asociado con el viaje intrazonal para la entidad de polígonoi, y Ai es el área asociada con la entidad de polígonoi.
Estandarización
Se recomienda la estandarización de filas siempre que la distribución de las entidades esté potencialmente influenciada debido al diseño de muestreo o a un esquema de agregación impuesto. Cuando se selecciona la estandarización de filas, cada peso se divide por la suma de las filas (la suma de los pesos de todas las entidades vecinas). Los pesos estandarizados de filas se utilizan con frecuencia con vecindades de distancia fija y casi siempre se utilizan para vecindades basadas en la contigüidad de polígono. Esto sirve para mitigar la influencia debido a las entidades que tienen distintas cantidades de vecinos. La estandarización de filas aumentará todos los pesos para que estén entre 0 y 1, lo que crea un esquema de peso relativo en lugar de absoluto. En cualquier momento que trabaje con entidades de polígono que representen límites administrativos, probablemente deseará elegir la opción Estandarización de filas.
Ejemplos:
- Supongamos que tiene un conjunto completo de todos los incidentes de actos delictivos. En algunas partes de su área de estudio hay muchos puntos porque estos son los lugares con mucha delincuencia. En otras partes, hay pocos puntos, porque esas son áreas con poca delincuencia. La densidad de los puntos es un muy buen reflejo (es representativa) de lo que está tratando de comprender: los patrones espaciales de delincuencia. Probablemente no haría una estandarización de filas para las ponderaciones espaciales.
- Supongamos que tomó muestras de suelo. Por alguna razón (el clima fue agradable o usted estaba en una ubicación donde no tenía que subirse a las cercas, nadar a través de los pantanos o escalar a la cima de una montaña), tiene muchas muestras en algunas partes del área de estudio, pero menos en otras. Dicho de otro modo, la densidad de los puntos no es estrictamente el resultado de una muestra aleatoria cuidadosamente planificada; algunas de sus propias influencias pueden haberse introducido. Además, donde se tiene más puntos no es necesariamente un reflejo de la distribución espacial subyacente de los datos que está analizando. Para ayudar a minimizar cualquier influencia que pueda haberse introducido durante el proceso de muestreo, querrá hacer una estandarización de filas de las ponderaciones espaciales. Cuando se hace una estandarización de filas, el hecho que una entidad tenga dos vecinos y otra tenga 18 no tiene un gran impacto en los resultados; todas las ponderaciones suman 1.
- Cuando se agregan los datos, se está imponiendo una estructura sobre los mismos. Esta estructura rara vez es un buen reflejo de los datos que está analizando y las preguntas que plantea. Por ejemplo, mientras que los polígonos del censo (como los distritos censales) están diseñados en torno a la población, incluso si su análisis implica preguntas relacionadas con la población, probablemente continuará haciendo una estandarización de filas de las ponderaciones porque los polígonos representan solo una de las muchas maneras en las que se podrían haber dibujado. Con datos de polígono, casi siempre deseará hacer una estandarización de filas de las ponderaciones espaciales.
Banda de distancia o distancia de umbral
La Banda de distancia o distancia de umbral establece la escala de análisis para la mayoría de las conceptualizaciones de relaciones espaciales (por ejemplo, INVERSE_DISTANCE y FIXED_DISTANCE_BAND). Es un valor numérico positivo que representa una distancia de valor límite. Las entidades que están fuera del valor límite especificado para una entidad de destino se ignoran en el análisis de esa entidad. Sin embargo, con la ZONE_OF_INDIFFERENCE, la influencia de las entidades que están fuera de la distancia dada se reduce con relación a la proximidad, mientras que aquellas que están dentro del umbral de distancia se consideran por igual.
Elegir una distancia apropiada es importante. Algunas estadísticas espaciales requieren que cada entidad tenga al menos un vecino para que el análisis sea confiable. Si el valor que establece para la Banda de distancia o distancia de umbral es demasiado pequeño (de manera que algunas entidades no tienen vecinos), aparece un mensaje de advertencia que sugiere que vuelva a intentarlo con un valor de distancia más grande. La herramienta Calcular banda de distancia a partir de recuento de vecindad evaluará las distancias mínimas, promedio y máximas para una cantidad de vecinos especificada y puede ayudarle a determinar un valor de banda de distancia apropiada para utilizar para el análisis. Para obtener pautas adicionales, consulte también Seleccionar un valor de banda de distancia fija.
Cuando no se especifica ningún valor, se calcula una distancia de umbral predeterminada. La tabla a continuación indica cómo se comportan las distintas opciones del parámetro Conceptualización de relaciones espaciales para cada uno de los tres tipos de entradas posibles (los valores negativos no son válidos):
Distancia inversa, distancia inversa cuadrada | Banda de distancia fija, zona de indiferencia | Contigüidad de polígono, triangulación de Delaunay, K vecinos más próximos | |
0 | No se aplica umbral ni valor límite; cada entidad es vecina de la otra entidad. | No válido. Se generará un error de runtime. | Se ignora. |
en blanco | Se calcula una distancia predeterminada. Este valor predeterminado será la distancia mínima para garantizar que cada entidad tenga al menos un vecino. | Se calcula una distancia predeterminada. Este valor predeterminado será la distancia mínima para garantizar que cada entidad tenga al menos un vecino. | Se ignora. |
número positivo | El valor positivo especificado que no equivale a cero se utilizará como una distancia de valor límite; las relaciones de vecino solo existirán entre las entidades dentro de esta distancia de una a otra. | Para la banda de distancia fija, solo las entidades que estén dentro de este valor límite especificado entre sí serán vecinas. Para la zona de indiferencia, las entidades dentro de este valor límite especificado entre sí serán vecinas; las entidades fuera del valor límite también serán vecinas, pero se les asignará un peso/influencia menor a medida que aumente la distancia. | Se ignora. |
Cantidad de vecinos
Especifique un entero positivo para representar la cantidad de vecinos a incluir en el análisis para cada entidad de destino. Cuando el valor elegido para el parámetro Conceptualización de relaciones espaciales es de Vecinos más próximos K, cada entidad de destino se evaluará dentro del contexto de las entidades K más cercanas (donde K es la cantidad de vecinos especificados). Para la Distancia inversa o Banda de distancia fija, cuando ejecuta la herramienta Generar matriz de ponderaciones espaciales, Si especifica un valor para el parámetro Cantidad de vecinos se asegurará de que cada entidad tenga un mínimo de K vecinos. Para los métodos de contigüidad de polígonos, cualquier entidad que no tenga el valor de Número de vecinos especificado obtendrá vecinos adicionales en función de la proximidad de su centroide. Para la herramienta Generar ponderaciones espaciales de red, si especifica un valor para el parámetro Cantidad máxima de vecinos se asegurará de que ninguna entidad tenga más del valor especificado. Para la herramienta Análisis de agrupamiento, que proporciona un valor de la Cantidad de vecinos fomenta la proximidad de entidades dentro de cada grupo. Especificar 6 vecinos, por ejemplo, limitará los grupos a las entidades que compartan al menos uno de los seis vecinos más cercanos a otras entidades del grupo.
Archivo de matriz de ponderaciones
Varias herramientas le permiten definir relaciones espaciales entre las entidades al proporcionar una ruta a un archivo de matriz de ponderaciones espaciales. Ponderaciones espaciales son números que reflejan la distancia, el tiempo u otro coste entre cada entidad y las demás entidades en el dataset. El archivo de matriz de ponderaciones espaciales se puede crear mediante la herramienta Generar matriz de ponderaciones espaciales o la herramienta Generar pesos espaciales de red, o puede ser un simple archivo ASCII.
Cuando el archivo de matriz de ponderaciones espaciales es un simple archivo de texto ASCII, la primera línea debe ser el nombre de un campo de Id. único. Esto le brinda la flexibilidad para utilizar cualquier campo numérico en su dataset como el Id. al generar este archivo; sin embargo, el campo de Id. debe ser tipo Entero (largo o corto) y debe tener valores únicos para cada entidad. Después de la primera línea, se debe dar formato al archivo de ponderaciones espaciales en tres columnas:
- Desde ID de entidad
- Hasta ID de entidad
- Peso
Por ejemplo, supongamos que tiene tres gasolineras. El campo que utiliza como campo de Id. se llama StationID y los Id. de entidad son 1, 2 y 3. Debe modelar las relaciones espaciales entre estas tres gasolineras mediante el tiempo de viaje en minutos. Puede crear un archivo ASCII que se vea de la siguiente manera:
Por lo general, cuando los pesos representan distancia o tiempo, se invierten (por ejemplo, 1/10 cuando la distancia es 10 milla ó 10 minutos) de manera que las entidades más cercanas tengan un peso mayor que las entidades que están más lejos. Observe en los pesos de arriba que la gasolinera 1 está a 10 minutos de la gasolinera 2. Tenga en cuenta también que el tiempo de viaje no es simétrico en este ejemplo (el viaje desde la gasolinera 1 a la gasolinera 3 dura 7 minutos, pero el viaje desde la gasolinera 3 a la gasolinera 1 solo dura 6 minutos). Tenga en cuenta que el peso entre la gasolinera 1 y ella misma es cero y que no hay entrada para la gasolinera 2. Se supone que las entradas que faltan tienen un peso de 0.
Introducir los valores para el archivo de matriz de ponderaciones espaciales puede ser un trabajo tedioso, aún para los datasets pequeños. Un mejor método es utilizar la herramienta Generar matriz de ponderaciones espaciales o escribir una secuencia de comandos de Python rápida para realizar esta tarea.
Archivo de matriz de ponderaciones espaciales (.swm)
La herramienta Generar matriz de ponderaciones espaciales o Generar ponderaciones espaciales de red creará un archivo de matriz de ponderaciones espaciales (.swm) que define las relaciones espaciales entre todas las entidades del dataset basándose en los parámetros que especifique. Este archivo se crea en formato de archivo binario de modo que los valores en el archivo no puedan verse directamente. Para ver o editar las relaciones de entidades en un archivo SWM, utilice la herramienta Convertir matriz de ponderaciones espaciales a tabla.
Cuando las relaciones espaciales entre las entidades se almacenan en una tabla, puede utilizar la herramienta Generar matriz de ponderaciones espaciales para convertir esa tabla en un archivo de matriz de ponderaciones espaciales (.swm). La tabla necesitará los siguientes campos:
Nombre de campo | Descripción |
---|---|
<Nombre de campo de Id. único> | Un campo de entero que existe en la clase de entidad de entrada con un Id. único para cada entidad. Esto es desde el Id. de entidad. |
NID | Un campo de entero que contiene Id. de entidades vecinas. Esto es a Id. de entidad. |
PESO | Este es el peso numérico que cuantifica la relación espacial entre desde y hasta las entidades. Los valores más grandes reflejan pesos más grandes y una influencia o interacción mas fuerte entre dos entidades. |
Compartir archivos de matriz de ponderaciones espaciales
La salida de las herramientas Generar matriz de ponderaciones espaciales y Generar pesos espaciales de red es un archivo .SWM. Este archivo se vincula a la configuración de la clase de entidad de entrada, del campo de Id. único y del sistema de coordenadas de salida cuando se crea el archivo .SWM. Otras personas pueden duplicar las relaciones espaciales que define para el análisis utilizando el archivo SWM y ya sea la misma clase de entidad de entrada o una clase de entidad que conecte todos o un subconjunto de las entidades a un campo de Id. único que coincida. Especialmente si desea compartir sus archivos SWM con otros usuarios, trate de evitar la situación donde el sistema de coordenadas de salida difiere de la referencia espacial asociada a su clase de entidad de entrada. Una mejor estrategia es proyectar la clase de entidad de entrada y, a continuación, establecer el sistema de coordenadas de salida en Igual que la clase de entidad de entrada antes de crear archivos de matriz de ponderaciones espaciales.