Cuando nos fijamos en el mundo que nos rodea, es muy natural que organicemos, agrupemos, diferenciemos y cataloguemos lo que vemos para ayudarnos a tener un mejor sentido al respecto; este tipo de proceso de clasificación mental es fundamental para el aprendizaje y la comprensión. Del mismo modo, para ayudarle a aprender y comprender mejor los datos, puede utilizar la herramienta Análisis de agrupamiento. Esta realiza un procedimiento de clasificación que intenta encontrar clusters naturales en los datos. Dado el número de grupos a crear, buscará una solución en la que todas las entidades dentro de cada grupo son lo más parecido posible, y todos los grupos en sí son tan diferentes como sea posible. La similitud de las entidades se basa en el conjunto de atributos que especifica para el parámetro Campos de análisis y también pueden incorporar de manera opcional las propiedades espaciales o las propiedades de espacio-tiempo. Cuando se especifican Restricciones espaciales de espacio o espacio-tiempo, el algoritmo emplea un gráfico de conectividad (árbol de expansión mínima) para encontrar agrupaciones naturales. Cuando se especifica NO_SPATIAL_CONSTRAINT, la herramienta Análisis de agrupamiento utiliza un algoritmo de valores medios K.
A pesar de que existen cientos de algoritmos de análisis cluster, todos ellos están clasificados como NP-duro. Esto significa que la única forma de garantizar que una solución maximizará perfectamente tanto las similitudes dentro del grupo como las diferencias entre grupos es tratar cada combinación posible de las entidades que desee agrupar. Aunque esto puede ser viable con unas cuantas entidades, el problema rápidamente se convierte en incorregible.
No solo es incorregible para garantizar que ha encontrado una solución óptima, sino también es poco realista intentar identificar un algoritmo de agrupamiento que funcionará mejor para todos los escenarios de datos posibles. Los grupos son de diferentes formas, tamaños y densidades; los datos de atributos pueden incluir una variedad de rangos, simetría, continuidad y unidades de medición. Esto explica por qué tantos algoritmos de análisis cluster diferentes han sido desarrollados durante los últimos 50 años. Es más adecuado, por lo tanto, pensar en Análisis de agrupamiento como una herramienta de exploración que puede ayudarle a obtener más información sobre estructuras subyacentes en los datos.
Potenciales aplicaciones
Estas son algunas formas en que se podría aplicar esta herramienta:
- Supongamos que tiene muestras de salmonela de granjas alrededor de su estado y atributos que incluyen el tipo/clase, ubicación y fecha/tiempo. Para comprender mejor cómo las bacterias se transmiten y propagan, puede utilizar la herramienta Análisis de agrupamiento para dividir las muestras en "brotes" individuales. Podría decidir utilizar una restricción de espacio-tiempo porque las muestras del mismo brote estarían cerca una de la otra tanto en el tiempo como en el espacio, y también estarían asociadas al mismo tipo o clase de bacteria. Una vez que se determinan los grupos, puede utilizar otras herramientas de análisis de patrón espacial como Elipse de desviación estándar, Centro medio o Cercano para analizar cada brote.
- Si ha recopilado datos sobre avistamientos de animales para entender mejor sus territorios, la herramienta Análisis de agrupamiento podría ser útil. Entender dónde y cuándo se congrega el salmón en diferentes fases de la vida, por ejemplo, podría ayudar a diseñar las áreas protegidas que pueden ayudar a garantizar una reproducción exitosa.
- Como agronomista, es posible que desee clasificar diferentes tipos de suelos en su área de estudio. Utilizar Análisis de agrupamiento en las características del suelo que se han encontrado para una serie de muestras, le puede ayudar a identificar clusters de tipos de suelo distintos, contiguos espacialmente.
- La agrupación de los clientes por sus patrones de compra, características demográficas o patrones de viaje puede ayudarle a diseñar una estrategia de marketing eficiente para los productos de la empresa.
- Los planificadores urbanos a menudo necesitan dividir las ciudades en vecindades distintas para localizar eficientemente las instalaciones públicas y promover el activismo y el compromiso comunitario local. Utilizar Análisis de agrupamiento en las características físicas y demográficas de cuadras de una ciudad puede ayudar a los planificadores a identificar áreas de su ciudad que estén contiguas espacialmente y que tengan características físicas y demográficas similares.
- Falacia ecológica es un problema bien conocido por la inferencia estadística cuando se realiza el análisis de datos agregados. A menudo, el esquema de agregación que se utiliza para el análisis no tiene nada que ver con lo que queremos analizar. Los datos del censo, por ejemplo, se agregan con base en las distribuciones de la población que pueden no ser la mejor elección para analizar incendios forestales. La partición de las unidades de agregación más pequeñas posibles en regiones homogéneas para un conjunto de atributos que se relacionan con precisión a las preguntas analíticas que nos ocupa, es un método eficaz para reducir la influencia de agregación y evitar la falacia ecológica.
Entradas
Esta herramienta toma el punto, polilínea o polígono Entidades de entrada, un campo de Id. único, una ruta para la Clase de entidad de salida, uno o más Campos de análisis, un valor entero que representa el Número de grupos a crear y el tipo de Restricción espacial, si la hay, que debería aplicarse en el algoritmo de agrupamiento. También hay una serie de parámetros opcionales incluido uno que le permite crear un Archivo de informe de salida en PDF.
Campos de análisis
Seleccione los campos que son numéricos y que reflejan relación, intervalo o sistemas de medición ordinales. A pesar de que los datos Nominales se pueden representar mediante variables simuladas (binarias), estos por lo general no funcionan tan bien como los demás tipos de variables numéricas. Por ejemplo, podría crear una variable llamada Rural y asignar a cada entidad (cada distrito censal, por ejemplo) un 1 si es principalmente rural y un 0 si es principalmente urbana. Sin embargo, una mejor representación de esta variable para el uso con Análisis de agrupamiento, sería la cantidad o la proporción de extensión rural asociada con cada entidad.
Debe seleccionar las variables que considere que distinguirán un grupo de entidades de otro. Supongamos, por ejemplo, que está interesado en agrupar distritos escolares por rendimiento de los estudiantes sobre pruebas estandarizadas de logros. Podría seleccionar Campos de análisis que incluyan los resultados generales de las pruebas, los resultados de temas específicos como matemáticas o lectura, la proporción de los estudiantes que cumplen con un umbral de puntuación mínima en las pruebas, y así sucesivamente. Cuando ejecuta la herramienta Análisis de agrupamiento, se calcula un valor R2 para cada variable. En el siguiente resumen, por ejemplo, los distritos escolares se agrupan con base en las puntuaciones de las pruebas de los estudiantes, el porcentaje de los adultos en el área que no terminaron la escuela secundaria, por gasto por estudiante y la relación promedio entre estudiantes-profesores. Observe que la variable TestScores tiene el valor R2 más alto. Esto indica que esta variable divide los distritos escolares en grupos de forma más eficaz. El valor R2 refleja cuánto de la variación en los datos originales de TestScores se mantuvo después del proceso de agrupamiento, de modo que mientras más alto sea el valor R2 para una variable específica, mejor es esa variable en la discriminación entre las entidades.
Número de grupos
A veces sabrá cuál es el número de grupos más adecuado para su pregunta o problema. Si tiene cinco gerentes de ventas y desea asignar cada uno a su propia región contigua, por ejemplo, debe utilizar 5 para el parámetro Cantidad de grupos. En muchos casos, sin embargo, usted no tendrá ningún criterio para seleccionar una cantidad específica de grupos; en lugar de ello, solo desea el número que mejor distingue las similitudes y diferencias de las entidades Para ayudarle en esta situación, puede activar el parámetro Evaluar la cantidad óptima de grupos y permitir que la herramienta Análisis de agrupamiento evalúe la eficacia de dividir las entidades en 2, 3, 4 y hasta 15 grupos. La eficacia del agrupamiento se mide mediante el pseudo índice estadístico F Calinski-Harabasz, que es una proporción que refleja la similitud dentro de un grupo y las diferencias entre grupos:
Supongamos que desea crear cuatro grupos espacialmente contiguos. En este caso, la herramienta creará un árbol de expansión mínima que reflejará la estructura espacial de las entidades y los valores de campo de análisis asociados. A continuación, la herramienta determina el mejor lugar por donde cortar el árbol a fin de crear dos agrupaciones separadas. Después decide cuál de los dos grupos resultantes debe dividirse para obtener la mejor solución de tres grupos. Uno de los dos grupos se dividirá y el otro grupo permanecerá intacto. Finalmente, determina cuáles de los tres grupos resultantes debe dividirse para obtener la mejor solución de cuatro grupos. Para cada división, la mejor solución es aquella que maximiza las similitudes dentro del grupo y las diferencias entre grupos. Un grupo ya no puede dividirse más (salvo de forma arbitraria) cuando los valores de campo del análisis para todas las entidades dentro de dicho grupo son idénticos. En el caso de que todos los grupos resultantes tuvieran entidades idénticas, la herramienta Análisis de agrupamiento dejaría de crear grupos nuevos, aunque no hubiera alcanzado todavía el Número de grupos especificado. No existe ninguna base para dividir un grupo cuando todos los Campos de análisis tienen valores idénticos.
Restricción espacial
Si desea que los grupos resultante sean proximales espacialmente, especifique una restricción espacial. Las opciones de CONTIGUITY están habilitadas para las clases de entidad poligonal e indican que las entidades solo pueden formar parte del mismo grupo si comparten un borde (CONTIGUITY_EDGES_ONLY) o si comparten un borde o un vértice (CONTIGUITY_EDGES_CORNERS) con otro miembro del grupo. Las opciones de contigüidad de polígono no son buenas opciones, sin embargo, si su dataset incluye clusters de polígonos no adyacentes o polígonos sin vecinos contiguos en absoluto:
Las opciones DELAUNAY_TRIANGULATION y K_NEAREST_NEIGHBORS son apropiadas para las entidades de punto o poligonales; estas opciones indican que una entidad solo se incluirá en un grupo si al menos otro miembro del grupo es un vecino natural (Triangulación de Delaunay) o un Vecino K más próximo. Si selecciona K_NEAREST_NEIGHBORS y escribe 12 para el parámetro Cantidad de vecinos, por ejemplo, cada entidad en un grupo estará dentro de 12 vecinos más cercanos de al menos una de las demás entidades en el grupo.
La opción DELAUNAY_TRIANGULATION no debería utilizarse para los datasets con entidades coincidentes. También, puesto que el método Triangulación de Delaunay convierte entidades en polígonos de Thiessen para determinar las relaciones de vecinos, especialmente con las entidades poligonales y algunas veces con entidades periféricas en el dataset, los resultados de usar esta opción pueden no ser siempre lo que esperaba. Observe en la siguiente ilustración que algunos de los polígonos originales agrupados no son contiguos; sin embargo, cuando se convierten en polígonos de Thiessen, todas las entidades agrupadas, de hecho, comparten un borde:
Si desea que los grupos resultantes sean proximales tanto espacial como temporalmente, cree un archivo de matriz de ponderaciones espaciales (SWM) utilizando la herramienta Generar matriz de ponderaciones espaciales y seleccione SPACE_TIME_WINDOW para el parámetro Conceptualización de relaciones espaciales. A continuación, puede especificar el archivo SWM que creó con la herramienta Generar matriz de ponderaciones espaciales para el parámetro Archivo de matriz de ponderaciones cuando ejecute el Análisis de agrupamiento.
Para muchos análisis, la imposición de una restricción espacial o de espacio-tiempo no es ni necesaria ni útil. Por ejemplo, supongamos que desea agrupar los incidentes de delincuencia por atributos del perpetrador (altura, edad, gravedad de la delincuencia y así sucesivamente). A pesar de que los delitos cometidos por la misma persona tienden a ser proximales, es poco probable que descubra que todos los delitos en un área en particular fueron cometidos por la misma persona. Para este tipo de análisis, debe seleccionar NO_SPATIAL_CONSTRAINT para el parámetro Restricciones espaciales. Sin embargo, puede ser que elija incluir algunas variables espaciales (proximidad a los bancos, por ejemplo) en la lista de Campos de análisis para captar algunos de los aspectos espaciales de los actos delictivos que está analizando.
Valores medios K
Cuando selecciona NO_SPATIAL_CONSTRAINT para el parámetro Restricciones espaciales, se utiliza un algoritmo de valores medios K para la agrupación. El objetivo del algoritmo de valores medios K es dividir las entidades de manera que se minimicen las diferencias que existan entre las entidades de un grupo, en todos los grupos. Debido a que el algoritmo es NP-duro, se utiliza una heurística codiciosa para agrupar las entidades. El algoritmo codicioso siempre convergirá en un mínimo local, pero no siempre encontrará el mínimo global (más óptimo).
El algoritmo de valores medios K funciona identificando primero las entidades semilla utilizadas para hacer crecer cada grupo. Por consiguiente, el número de semillas siempre coincidirá con el Número de grupos. La primera semilla se selecciona de manera aleatoria. Sin embargo, la selección de las semillas que quedan, mientras aún se emplea un componente aleatorio, aplica una ponderación que favorece la selección de semillas posteriores más adelante en el espacio de datos desde el conjunto existente de entidades de semillas (esta parte del algoritmo se denomina valores medios K ++). Debido al componente aleatorio para buscar entidades seed cuando selecciona FIND_SEED_LOCATIONS o USE_RANDOM_SEEDS para el Método de inicialización, puede obtener variaciones en los resultados del agrupamiento de una ejecución de la herramienta a la siguiente.
Una vez se identifican las entidades de semillas, se asignan todas las entidades a la entidad de semilla más cercana (más cercana en el espacio de datos). Para cada cluster de entidades, se calcula un centro medio de datos, y se vuelve a asignar cada entidad al centro más cercano. El proceso de calcular un centro medio de datos para cada grupo y luego reasignar las entidades al centro más cercano continúa hasta que se estabiliza la pertenencia al grupo (hasta un número máximo de 100 iteraciones).
Árbol de expansión mínima
Cuando especifica una restricción espacial para limitar la pertenencia al grupo a entidades contiguas o proximales, la herramienta primero construye un gráfico de conectividad que representa las relaciones de vecindad entre las entidades. Desde el gráfico de conectividad, se concibe un árbol de expansión mínima que resume las relaciones espaciales de la entidad y la similitud de datos de la entidad. Las entidades se convierten en nodos en el árbol de expansión mínima conectadas por medio de bordes ponderados. El peso de cada borde es proporcional a la similitud de los objetos que conecta. Después de construir el árbol de expansión mínima, se corta una rama (borde) del árbol, creando dos árboles de expansión mínima. El borde que se debe cortar se selecciona de manera que minimice la falta de similitud en los grupos resultantes, a la vez que evita (si es posible) clases invidivuales (grupos con solo una entidad). En cada iteración uno de los árboles de expansión mínima se divide por medio de este proceso de corte hasta que se obtiene el Número de Grupos especificado. El método publicado empleado se llama SKATER (Análisis de "K"luster espacial por medio de eliminación de bordes del árbol). A pesar de que se selecciona la rama que optimiza la similitud del grupo para el corte en cada iteración, no hay ninguna garantía de que el resultado final sea óptimo.
Salidas
La herramienta Análisis de agrupamiento crea un número de resultados. Todos estos (incluido el archivo de informe PDF opcional) se pueden acceder desde la ventana Resultados. Si deshabilita procesamiento en segundo plano, los resultados también se escriben en el cuadro de diálogo Progreso. Estos mensajes (que se muestra a continuación) resumen la información que se presenta en el informe PDF opcional (que se describe a continuación).
La salida predeterminada para la herramienta Análisis de agrupamiento es una nueva Clase de entidad de salida que contiene los campos que se utilizan en el análisis más un nuevo campo de enteros llamado SS_GROUP que identifica a qué grupo pertenece cada entidad. Esta clase de entidad de salida se agrega a la tabla de contenido con un esquema de representación de color único aplicado al campo SS_GROUP. La representación vacía en pantalla indica que las entidades no se pudieron agregar a ningún grupo, normalmente porque no tienen entidades vecinas. Si especifica NO_SPATIAL_CONSTRAINT para el parámetro Restricciones espaciales, se agregará el campo adicional SS_SEED a la clase de entidad de salida para indicar las entidades seed que se utilizaron para incrementar los grupos.
Archivo de informe del análisis de agrupamiento
Si especifica una ruta para el parámetro Archivo de informe de salida, se crea un PDF que resume los grupos que se han creado. Los diagramas de caja se incluyen en todo el informe, por lo tanto el primer elemento en el informe es un gráfico que muestra cómo interpretarlos (vea a continuación). Los gráficos de caja en el informe Análisis de agrupamiento representan gráficamente nueve valores de resumen para cada campo de análisis y grupo: valor mínimo de datos, cuartil inferior, mediano, cuartil superior, valor máximo de datos, los valores atípicos de datos (valores más pequeños o más grandes que 1,5 veces el rango entre cuartiles), mínimo del grupo, valor medio del grupo y máximo del grupo. Cualquier marca de + que quede fuera del límite superior o inferior representa valores atípicos de datos.
La primera página del informe compara las variables (los Campos de análisis) dentro de cada grupo entre sí. En el informe que se presenta a continuación, por ejemplo, el Análisis de agrupamiento se realizó en los distritos censales para crear cuatro grupos. El resumen de estadísticas para cada grupo se imprime con un color diferente (azul, rojo, verde y dorado). El primer conjunto de estadísticas del resumen se imprimen en negro porque estos son los Valores medio, Desviación estándar (Desv. estándar), Valor mínimo, Valor máximo y R2 globales para todos los datos en cada campo de análisis. Cuanto mayor sea el valor R2 para una variable específica, mejor será esa variable en la discriminación entre las entidades. Después de los resúmenes globales, el Valor medio, Desviación estándar, el Valor mínimo, Valor máximo y Compartir valores se muestran para cada variable en cada grupo. En el informe que se presenta a continuación, por ejemplo, puede ver que el Grupo 1 (azul) contiene 52 por ciento del rango de valores en la variable AGE_UNDER5 global; el rango global de valores es de 0 a 1.453 niños menores de 5 años de edad, y el grupo azul contiene distritos de 488 a 1.246 niños menores de 5 años de edad. El número promedio de niños menores de 5 años de edad para los distritos en el grupo azul es 805,3750. El diagrama de caja a la derecha del resumen estadístico del grupo azul muestra cómo los valores del grupo se refieren a los valores globales para ese mismo campo de análisis. Observe que el punto azul en el diagrama de caja cae fuera del cuartil superior y que la primera línea vertical azul (que representa el valor mínimo de los distritos del grupo azul) es superior al valor medio de este campo. De hecho, al analizar en donde quedan los puntos azules en los diagramas de caja para todas las variables, puede ver que, con excepción de la variable MEDIANRENT, los valores medios de todos los campos de análisis están por encima del cuartil superior. Este grupo tiene el rango más alto de valores en comparación con los demás grupos.
La segunda sección del informe compara los rangos de las variable de cada grupo, un campo de análisis (variable) a la vez. Con esta vista de los datos, es fácil ver qué grupo tiene el rango más alto y más bajo de valores en cada variable. Los valores mínimo, medio y máximo del grupo se superponen en la parte superior del diagrama de caja reflejando todos los valores. Observe que el grupo 4 (naranja) tiene los valores más bajos de la variable MEDIANRENT. Los valores mínimo, medio y máximo de este grupo son más bajos que para cualquier otro grupo.
El gráfico de diagrama de caja paralelo resume tanto los grupos y las variables dentro de ellos. Observe en el gráfico siguiente que el grupo 1 (azul) refleja distritos con rentas promedio, los valores más altos para los hogares liderados por mujeres con hijos (FHH_CHILD), los valores más altos para la cantidad de unidades de vivienda (HSE_UNITS) y los valores más altos para los niños menores de 5 años. El grupo 2 (rojo) refleja distritos con las rentas medias más altas, el número más bajo de hogares liderados por mujeres con hijos, más que el número promedio de unidades de vivienda (aunque menos de los distritos en los grupos 1 o 3) y el menor número de niños menores de 5 años de edad.
Al marcar la casilla en el parámetro Evaluar el número óptimo de grupos, el archivo del informe en PDF incluirá un gráfico de valores pseudo estadísticos F. El punto dentro de un círculo en el gráfico es la estadística F más grande, que indica cuántos grupos serán más eficaces para distinguir las entidades y las variables que especificó. En el gráfico a continuación, la estadística F asociada con cuatro grupos es la más alta. Cinco grupos, con una pseudo estadística F alta, también serían una buena elección.
Mejores prácticas
Aunque hay una tendencia de querer incluir el mayor número de Campos de análisis posible, para Análisis de agrupamiento, funciona mejor comenzar con una variable única y construir. Los resultados son mucho más fáciles de interpretar con menos campos de análisis. También es más fácil determinar qué variables son los mejores discriminadores cuando hay menos campos.
En muchos casos, es probable que ejecute la herramienta Análisis de agrupamiento varias veces buscando el Número de grupos óptimo, las Restricciones espaciales más efectivas y la combinación de Campos de análisis que mejor separe las entidades en grupos. Debido que la creación del Informe de salida puede agregar tiempo de procesamiento sustancial, es probable que no desee crear el informe mientras está experimentando con diferentes parámetros de entrada.
Recursos adicionales
Duque, J. C., R. Ramos y J. Surinach. 2007. "Métodos de regionalización supervisada: Una encuesta" en Revisión Internacional de la Ciencia Regional 30: 195–220.
Assuncao, R. M., M. C. Neves, G. Camara y C. Da Costa Freitas. 2006. "Técnicas eficientes de regionalización para unidades geográficas socio-económicas utilizando árboles de expansión mínima" en International Journal of Geographical Information Science 20 (7): 797–811.
Jain, A. K. 2009. "Clustering de datos: 50 años más allá de los valores K." Cartas de reconocimiento de patrones.
Hinde, A., T. Whiteway, R. Ruddick, y A. D. Heap. 2007. "Marinas del margen australiano y el suelo marino adyacente: Metodología de Keystroke." en Geoscience Australia, Registro 2007/10, 58 pág.