Das Werkzeug Cluster- und Ausreißeranalyse identifiziert mithilfe eines Features-Satzes (Eingabe-Feature-Class) und eines Analysefeldes (Eingabefeld) räumliche Cluster von Features mit hohen oder niedrigen Werten. Das Werkzeug identifiziert außerdem räumliche Ausreißer. Zu diesem Zweck berechnet das Werkzeug einen Local Morans I-Wert, ein Z-Ergebnis, einen Pseudo-p-Wert und einen Code, der den Clustertyp für jedes statistisch signifikante Feature darstellt. Die Z-Ergebnisse und Pseudo-p-Werte stellen die statistische Signifikanz der berechneten Indexwerte dar.
Berechnungen
Zusätzliche mathematische Gleichungen für die Local Morans I-Statistik anzeigen.
Interpretation
Ein positiver Wert für I bedeutet, dass ein Feature von benachbarten Features mit ähnlich hohen oder niedrigen Werten umgeben ist. Dieses Feature ist Teil eines Clusters. Ein negativer Wert für I bedeutet, dass ein Feature von benachbarten Features mit unterschiedlichen Werten umgeben ist. Dieses Feature ist ein Ausreißer. In beiden Fällen muss der p-Wert des Features klein genug sein, damit der Cluster oder Ausreißer als statistisch signifikant betrachtet werden. Weitere Informationen zum Bestimmen der statistischen Signifikanz finden Sie unter Was ist ein Z-Wert? Was ist ein p-Wert? Beachten Sie, dass der Local Morans I-Index (I) ein relativer Messwert ist, der nur im Kontext des entsprechenden berechneten Z-Wertes oder p-Wertes interpretiert werden kann. Die in der Ausgabe-Feature-Class angegebenen Z-Werte und p-Werte werden für Mehrfachtests und räumliche Abhängigkeit nicht korrigiert.
Das Feld, Cluster-Ausreißer-Typ (COType), unterscheidet zwischen einem statistisch signifikanten (Niveau von 0,05) Cluster mit hohen Werten (HH), einem Cluster mit niedrigen Werten (LL), Ausreißern, bei denen ein hoher Wert von hauptsächlich niedrigen Werten (HL) umgeben ist, und Ausreißern, bei denen ein niedriger Wert von hauptsächlich hohen Werten (HL) umgeben ist. Die statistische Signifikanz ist auf das Konfidenzniveau von 95 Prozent eingestellt. Wenn keine FDR-Korrektur angewendet wird, gelten Features mit p-Werten von weniger als 0,05 als statistisch signifikant. Die FDR-Korrektur reduziert den Schwellenwert für p-Werte von 0,05 auf einen Wert, der das Konfidenzniveau von 95 Prozent bei Mehrfachtests besser widerspiegelt.
Ausgabe
Mit diesem Werkzeug wird eine neue Ausgabe-Feature-Class anhand der folgenden Attribute für jedes Feature in der Eingabe-Feature-Class erstellt: Local Morans I-Index, Z-Ergebnis, p-Wert und COType.
Bei Ausführung dieses Werkzeugs in ArcMap wird dem Inhaltsverzeichnis automatisch die Ausgabe-Feature-Class mit Standard-Rendering für das COType-Feld hinzugefügt. Das Rendering wird durch eine Layer-Datei in <ArcGIS>/ArcToolbox/Templates/Layers definiert. Sie können das Standard-Rendering nach Bedarf erneut anwenden, indem Sie die Vorlagen-Layer-Symbolisierung importieren.
Permutationen
Permutationen werden verwendet, um zu bestimmen, mit welcher Wahrscheinlichkeit die tatsächliche räumliche Verteilung der analysierten Werte durch einen Vergleich der Werte mit einer Reihe von willkürlich generierten Werten ermittelt werden könnte. Selbst bei einer zufälligen räumlichen Verteilung kommt es aufgrund der Willkürlichkeit in einem bestimmten Ausmaß zu Cluster-Bildung. Permutationen generieren viele zufällige Datasets und vergleichen diese Werte mit dem Local Morans I-Wert der Originaldaten. Dazu werden die Nachbarschaftswerte um jedes Feature von jeder Permutation zufällig neu angeordnet. Für diese zufälligen Daten wird dann der Local Morans I-Wert berechnet. Durch die Untersuchung der Verteilung des aus den Permutationen generierten Local Morans I-Wertes können Sie die Spanne der Local Morans I-Werte erkennen, die begründet auf den Zufall zurückzuführen sein kann. Wenn Ihre Daten ein statistisch signifikantes räumliches Muster enthalten, sollten die aus den Permutationen generierten Local Morans I-Werte erwartungsgemäß weniger Cluster-Bildung zeigen als der Local Morans I-Wert, der aus den Originaldaten generiert wurde. Daraufhin wird ein Pseudo-p-Wert berechnet, indem der Anteil der Local Morans I-Werte bestimmt wird, die aus den Permutationen generiert wurden und eine höhere Cluster-Bildung als die Originaldaten aufweisen. Wenn dieser Anteil (der Pseudo-p-Wert) klein ist (unter 0,05), können Sie darauf schließen, dass die Daten statistisch signifikante Cluster enthalten.
Bei der Auswahl der Anzahl von Permutationen muss zwischen Genauigkeit und erhöhter Verarbeitungszeit abgewogen werden. Eine Erhöhung der Anzahl von Permutationen führt zu einer höheren Genauigkeit, da die Spanne möglicher Werte für den Pseudo-p-Wert zunimmt. Bei 99 Permutationen etwa liegt die Genauigkeit des Pseudo-p-Wertes bei 0,01 (1/99+1) und bei 999 Permutationen bei 0,001 (1/999+1). Zu Beginn einer Problemanalyse kann eine niedrigere Anzahl von Permutationen verwendet werden, es empfiehlt sich jedoch, die Anzahl der Permutationen für die Berechnung des Endergebnisses auf die höchstmögliche praktikable Zahl hochzusetzen.
Richtlinien für bewährte Methoden
- Ergebnisse sind nur zuverlässig, wenn die Eingabe-Feature-Class mindestens 30 Features enthält.
- Für dieses Werkzeug ist ein Eingabefeld wie z. B. eine Zählung, eine Rate oder eine andere numerische Messung erforderlich. Wenn Sie Punktdaten analysieren und jeder Punkt ein einzelnes Ereignis repräsentiert, gibt es möglicherweise kein bestimmtes numerisches Attribut für die Analyse (eine Rangstufe des Schweregrades, eine Zählung oder eine andere Messung). Wenn Sie Bereiche mit vielen Ereignissen (Hot-Spots) und/oder Bereiche mit sehr wenigen Ereignissen (Cold-Spots) finden möchten, müssen Sie die Ereignisdaten zusammenfassen, bevor Sie die Analyse durchführen. Das Werkzeug Hot-Spot-Analyse (Getis-Ord Gi*) eignet sich auch für die Suche nach Hot-Spots und Cold-Spots. Statistisch signifikante Ausreißer (ein hoher Wert, der von niedrigen Werten umgeben ist, oder ein niedriger Wert, der von hohen Werten umgeben ist) können jedoch nur mit dem Werkzeug Cluster- und Ausreißeranalyse (Anselin Local Morans I) identifiziert werden.
- Wählen Sie eine geeignete Konzeptualisierung von räumlichen Beziehungen.
- Bei Auswahl der Konzeptualisierung SPACE_TIME_WINDOW können Sie Raum-Zeit-Cluster und Ausreißer identifizieren. Weitere Informationen finden Sie unter Raum/Zeit-Analysen.
- Wählen Sie ein geeignetes Entfernungsband oder eine geeignete Schwellenwertentfernung.
- Jedes Feature sollte mindestens einen Nachbarn aufweisen.
- Kein Feature sollte alle anderen Features als Nachbarn haben.
- Besonders wenn die Werte für das Eingabefeld verzerrt sind, sollte jedes Feature etwa acht Nachbarn haben.
Potenzielle Anwendungsbereiche
Konzentrationen hoher Werte, Konzentrationen niedriger Werte und räumliche Ausreißer werden mit dem Werkzeug Cluster- und Ausreißeranalyse (Anselin Local Morans I) identifiziert. Das Werkzeug erleichtert Ihnen die Beantwortung verschiedener Fragen, z. B.:
- Wo liegen die schärfsten Grenzen zwischen Reichtum und Armut in einem Untersuchungsgebiet?
- Gibt es Bereiche in einem Untersuchungsgebiet mit anomalem Ausgabeverhalten?
- In welchen Bereichen eines Untersuchungsgebiets finden sich unerwartet hohe Diabetesraten?
Anwendungsmöglichkeiten gibt es in vielen Bereichen, einschließlich Wirtschaft, Ressourcenverwaltung, Biogeographie, politischer Geographie und Demografie.
Zusätzliche Quellen
Anselin, Luc. "Local Indicators of Spatial Association–LISA," Geographical Analysis 27(2): 93–115, 1995.
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. Esri Press, 2005.