Mit dem Werkzeug Lokale Ausreißeranalyse werden signifikante Cluster und Ausreißer in Ihren Daten identifiziert. Es werden Positionen im Untersuchungsgebiet ermittelt, die sich statistisch gesehen räumlich und zeitlich von ihren Nachbarn unterscheiden. Als Eingabe dient ein Raum-Zeit-NetCDF-Würfel, der mit dem Werkzeug Raum-Zeit-Würfel durch Aggregieren von Punkten erstellen generiert wird. Danach wird mit den Parameterwerten Nachbarschaftsentfernung und Nachbarschaftszeitintervall eine Raum-Zeit-Implementierung der Anselin Local Morans I-Statistik (Cluster- und Ausreißeranalyse) für jeden Abschnitt berechnet. Zu diesem Zweck berechnet das Werkzeug einen Local Morans I-Index, einen Pseudo-p-Wert und einen Typcode (CO_TYPE), der den Cluster- oder Ausreißerkategorietyp für jeden statistisch signifikanten Abschnitt im Eingabe-Raum-Zeit-Würfel darstellt. Die Pseudo-p-Werte stellen die statistische Signifikanz der berechneten Indexwerte dar, und deren Genauigkeit hängt von der Anzahl der Permutationen ab.
Potenzielle Anwendungsbereiche
Anwendungsmöglichkeiten für das Werkzeug Lokale Ausreißeranalyse gibt es in vielen Bereichen, einschließlich Wirtschaft, Ressourcenverwaltung, politischer Geographie, Demografie, öffentlicher Gesundheit und Betrugsprävention. Mit diesem Werkzeug können Sie u. a. die folgenden Fragen beantworten:
- Gibt es Bereiche mit anomalem Ausgabeverhalten in meinem Untersuchungsgebiet?
- Gab es einen Zeitraum, in dem im Untersuchungsgebiet unerwartet viele Krankheiten ausgebrochen sind?
- Gibt es Gemeinden, in denen die Einwohner wesentlich mehr Wasser verbrauchen als in den Nachbargemeinden? Oder umgekehrt: In welchen Gemeinden ist der Wasserverbrauch stetig niedriger, sodass Empfehlungen zur Wassereinsparung entwickelt werden können?
- Gibt es Orte in meiner Region mit einer signifikant zunehmenden Zahl von eingereichten Versicherungsansprüchen im letzten Monat?
Werkzeugausgaben
Dieses Werkzeug erstellt verschiedene Ausgaben. Die wichtigste Ausgabe ist eine zweidimensionale Karte, die der Karte nach der Durchführung des Werkzeugs als eine Übersicht der einzelnen Positionen im Zeitverlauf hinzugefügt wird. Die Kategorien lauten wie folgt:
Typname | Definition |
---|---|
Never Significant | Eine Position, an der nie ein statistisch signifikanter CO_TYPE aufgetreten ist. |
Only High-High Cluster | Eine Position, an der der einzige statistisch signifikante Typ im Laufe der Zeit aus Hoch-hoch-Clustern bestand. |
Only High-Low Outlier | Eine Position, an der der einzige statistisch signifikante Typ im Laufe der Zeit aus Hoch-niedrig-Ausreißern bestand. |
Only Low-High Outlier | Eine Position, an der der einzige statistisch signifikante Typ im Laufe der Zeit aus Niedrig-hoch-Ausreißern bestand. |
Only Low-Low Cluster | Eine Position, an der der einzige statistisch signifikante Typ im Laufe der Zeit aus Niedrig-niedrig-Clustern bestand. |
Multiple Types | Eine Position, an der mehrere Typen von statistisch signifikanten Cluster- und Ausreißertypen im Laufe der Zeit aufgetreten sind (z. B. Niedrig-hoch-Ausreißer in einigen Zeiträumen und Hoch-hoch-Cluster in anderen Zeiträumen). |
Die wichtigste Ausgabe stellt eine zweidimensionale Karte mit einer Übersicht der Cluster- und Ausreißertypen für alle Positionen dar. Sie wird der Karte nach der Durchführung des Werkzeugs hinzugefügt. Außerdem werden im Ergebnisfenster Meldungen mit der Zusammenfassung der Analyseergebnisse ausgegeben. Wenn Sie im Fenster Ergebnisse mit der rechten Maustaste auf den Eintrag "Meldungen" klicken und Ansicht wählen, werden die Ergebnisse im Dialogfeld Meldung angezeigt.
Diese Meldungen enthalten Informationen zum Eingabe-Raum-Zeit-Würfel wie den Zeitraum, die zeitliche Verzerrung und die Anzahl der analysierten Abschnitte und Positionen. Darüber hinaus enthalten sie wichtige Informationen zu Ausreißern, die im letzten Zeitschritt aufgetreten sind, sowie eine Übersicht der Schlüsselzeitschritte, die von Interesse sein könnten. Wenn es beispielsweise darum ging, Gebiete mit unterdurchschnittlicher Performance in Ihrem Vertriebsgebiet zu ermitteln, und Sie nach Niedrig-hoch-Ausreißern suchen, finden Sie in den Meldungen den Schlüsselzeitschritt mit der höchsten Anzahl von Niedrig-hoch-Ausreißern.
Dieses Werkzeug erstellt eine neue Ausgabe-Feature-Class mit den folgenden Feldern, die eine Zusammenfassung der Abschnitte an jeder Position des Eingabe-Raum-Zeit-Würfels bieten:
Alias | Feldname |
---|---|
Anzahl der Ausreißer | NUM_OUT |
Prozentsatz der Ausreißer | PERC_OUT |
Anzahl der niedrigen Cluster | N_LOW_CLS |
Prozentsatz der niedrigen Cluster | P_LOW_CLS |
Anzahl der niedrigen Ausreißer | N_LOW_OUT |
Prozentsatz der niedrigen Ausreißer | P_LOW_OUT |
Anzahl der hohen Cluster | N_HIGH_CLS |
Prozentsatz der hohen Cluster | P_HIGH_CLS |
Anzahl der hohen Ausreißer | N_HIGH_OUT |
Prozentsatz der hohen Ausreißer | P_HIGH_OUT |
Positionen ohne räumliche Nachbarn, die zur Berechnung der Analyse nur auf zeitliche Nachbarn zurückgreifen können | NO_SP_NBR |
Positionen mit einem Ausreißer im letzten Zeitschritt | OUT_R_TIME |
Cluster-Ausreißertyp | CO_TYPE |
Zusätzliche Summenstatistiken einschließlich der Summe, dem minimalen, maximalen und durchschnittlichen Wert, der Standardabweichung und dem Medianwert der analysierten Variable. | SUM_VALUE, MIN_VALUE, MAX_VALUE, MEAN_VALUE, STD_VALUE und MED_VALUE |
Abschließend fügt das Werkzeug Lokale Ausreißeranalyse dem Eingabe-Raum-Zeit-Würfel mehrere neue Variablen hinzu. Sollten diese Variablen bereits vorhanden sein (bei mehrmaliger Ausführung des Werkzeugs Lokale Ausreißeranalyse für dieselbe Analysevariable), werden sie überschrieben, sodass der Würfel stets die aktuellen Analyseergebnisse enthält.
Sie können diese Variablen mit ArcGIS Pro darstellen. Unter Visualisieren des Raum-Zeit-Würfels werden Strategien dafür beschrieben.
Interpretation
Als Hilfe bei der Interpretation der Ergebnisse des Werkzeugs Lokale Ausreißeranalyse können die Ergebnisvariablen, die dem Würfel hinzugefügt wurden, mit dem Werkzeug Raum-Zeit-Würfel in 3D visualisieren angezeigt werden. Der Index, p-Wert und Typ der Cluster-Ausreißer-Analyse für jeden Abschnitt können durch die Auswahl des Anzeigedesigns Cluster and outlier results visualisiert werden. Ein Index mit einem positiven Wert bedeutet, dass ein Abschnitt von benachbarten Abschnitten mit ähnlich hohen oder niedrigen Attributwerten umgeben ist. Dieser Abschnitt ist Teil eines Clusters. Ein Index mit einem negativen Wert bedeutet, dass ein Abschnitt von benachbarten Abschnitten mit anderen Werten umgeben ist. Dieser Abschnitt ist ein Ausreißer. In beiden Fällen muss der Pseudo-p-Wert oder p-Wert des Features klein genug sein, dass der Cluster oder Ausreißer als statistisch signifikant betrachtet wird. Weitere Informationen zum Bestimmen der statistischen Signifikanz finden Sie unter Was ist ein Z-Wert? Was ist ein p-Wert?. Beachten Sie, dass der Local Morans I-Index (I) ein relativer Messwert ist, der nur im Kontext der dafür generierten Referenzverteilung und dem zugehörigen berechneten Pseudo-p-Wert oder p-Wert interpretiert werden kann. Der in der Ausgabe-Feature-Class angegebene Pseudo-p-Wert oder die p-Werte werden im Hinblick auf Mehrfachtests und räumliche Abhängigkeit korrigiert.
Beim Cluster- oder Ausreißertyp wird zwischen einem statistisch signifikanten Cluster mit hohen Werten (Hoch-hoch), einem Cluster mit niedrigen Werten (Niedrig-niedrig), Ausreißern, bei denen ein hoher Wert von hauptsächlich niedrigen Werten umgeben ist (Hoch-niedrig), und Ausreißern, bei denen ein niedriger Wert von hauptsächlich hohen Werten umgeben ist (Hoch-niedrig), unterschieden. Die statistische Signifikanz ist auf das Konfidenzniveau von 95 Prozent eingestellt. Diese Signifikanz stellt eine FDR-Korrektur dar, mit der der Schwellenwert für den p-Wert von 0,05 auf einen Wert angepasst wird, der das Konfidenzniveau von 95 Prozent bei der Berücksichtigung von Mehrfachtests besser widerspiegelt.
Standardeinstellungen für "Nachbarschaft"
Um herauszufinden, ob der Abschnittswert an einer Position räumlich und zeitlich zu einem statistisch signifikanten Hot- oder Cold-Spot oder einem statistisch signifikanten Ausreißer zählt, wird jeder Abschnitt im Kontext seiner benachbarten Raum-Zeit-Abschnitte bewertet. Die Parameterwerte für Nachbarschaftsentfernung und Nachbarschaftszeitintervall definieren die Ausdehnung der Nachbarschaft jedes Abschnitts (den Kontext für die jeweilige Abschnittsanalyse). Angenommen, die Abschnittsbemaßung beträgt 400 Meter mal 400 Meter mal 1 Tag. Wenn Sie die Nachbarschaftsentfernung auf 801 Meter und das Nachbarschaftszeitintervall auf 2 festlegen, erstrecken sich die räumlichen Nachbarn horizontal und vertikal auf zwei Abschnitte sowie einen Abschnitt diagonal nach außen, wie hier gezeigt:
Daneben gibt es zeitliche Nachbarn. Alle Abschnitte an derselben Position wie das Ziel und seine räumlichen Nachbarn (vorstehend abgebildet) für die übereinstimmenden oder zwei vorangegangenen Zeiträume – in diesem Beispiel insgesamt drei Tage – werden als Nachbarn einbezogen. Beachten Sie, dass zeitliche Nachbarn nur rückwirkend dargestellt sind und dass ein Nachbarschaftszeitintervall in Höhe von 2 drei Zeitintervalle einschließt. Um sicherzustellen, dass jede Position über mindestens einen zeitlichen Nachbarn verfügt, wird für die Abschnitte im ersten Zeitintervall kein Local Morans-Index berechnet. Die Abschnittswerte im ersten Zeitintervall werden jedoch in die Berechnung des globalen Durchschnitts einbezogen.
Sollten Sie keinen Wert für den Parameter Nachbarschaftsentfernung angeben, wird er automatisch berechnet. Die Formel ergibt sich aus der Berechnung zur Bestimmung des Standardsuchradius für die Kerndichte. Wird für das Nachbarschaftszeitintervall kein Wert angegeben, wird als Standardwert 1 verwendet.
Permutationen
Permutationen werden verwendet, um zu bestimmen, mit welcher Wahrscheinlichkeit die tatsächliche räumliche Verteilung der analysierten Werte durch einen Vergleich der Werte mit einer Reihe von willkürlich generierten Werten ermittelt werden könnte. Selbst bei einer zufälligen räumlichen Verteilung kommt es aufgrund der Willkürlichkeit in einem bestimmten Ausmaß zu Cluster-Bildung. Permutationen generieren viele zufällige Datasets und vergleichen diese Werte mit dem Local Morans I-Wert der Originaldaten. Dazu werden die Nachbarschaftswerte um jeden Abschnitt von jeder Permutation zufällig neu angeordnet. Für diese zufälligen Daten wird dann der Local Morans I-Wert berechnet. Durch die Untersuchung der Verteilung des aus den Permutationen generierten Local Morans I-Wertes können Sie die Spanne der Local Morans I-Werte erkennen, die begründet auf den Zufall zurückzuführen sein kann. Wenn Ihre Daten ein statistisch signifikantes räumliches Muster enthalten, sollten die aus den Permutationen generierten Local Morans I-Werte erwartungsgemäß weniger Cluster-Bildung zeigen als der Local Morans I-Wert, der aus den Originaldaten generiert wurde. Daraufhin wird ein Pseudo-p-Wert berechnet, indem der Anteil der Local Morans I-Werte bestimmt wird, die aus den Permutationen generiert wurden und eine höhere Cluster-Bildung als die Originaldaten aufweisen. Wenn dieser Anteil (der Pseudo-p-Wert) klein ist (unter 0,05), können Sie darauf schließen, dass die Daten statistisch signifikante Cluster enthalten.
Bei der Auswahl der Anzahl von Permutationen muss zwischen Genauigkeit und erhöhter Verarbeitungszeit abgewogen werden. Eine Erhöhung der Anzahl von Permutationen führt zu einer höheren Genauigkeit, da die Spanne möglicher Werte für den Pseudo-p-Wert zunimmt. Bei 99 Permutationen etwa liegt die Genauigkeit des Pseudo-p-Wertes bei 0,01 (1/99+1) und bei 999 Permutationen bei 0,001 (1/999+1). Zu Beginn einer Problemanalyse kann eine niedrigere Anzahl von Permutationen verwendet werden, es empfiehlt sich jedoch, die Anzahl der Permutationen für die Berechnung des Endergebnisses auf die höchstmögliche praktikable Zahl hochzusetzen.
Zusätzliche Quellen
Anselin, Luc. "Local Indicators of Spatial Association–LISA," Geographical Analysis 27(2): 93–115, 1995.
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. Esri Press, 2005.