Funktionsweise der optimierten Ausreißeranalyse—Hilfe

Erste Datenbewertung
Ereignisaggregation
Analysemaßstab
Cluster- und Ausreißeranalyse
Ausgabe
Zusätzliche Quellen

Die Optimierte Ausreißeranalyse führt das Werkzeug Cluster- und Ausreißeranalyse (Anselin Local Morans I) mithilfe der Parameter aus, die aus den Eigenschaften der Eingabedaten abgeleitet werden. Auf ähnliche Weise wie die automatische Einstellung einer Digitalkamera Belichtung und Aufnahmeobjekt mit Geländemesswerten abgleicht, um eine(n) geeignete(n) Blende, Belichtungszeit und Fokus zu bestimmen, fragt das Werkzeug Optimierte Ausreißeranalyse Ihre Daten ab, um die Einstellungen zur Erzielung optimaler Analyseergebnisse zu ermitteln. Wenn das Dataset Eingabe-Features beispielsweise Ereignispunktdaten enthält, aggregiert das Werkzeug die Ereignisse in gewichtete Features. Durch die Verteilung der gewichteten Features ermittelt das Werkzeug einen geeigneten Analysemaßstab. Der in den Ausgabe-Features angegebene Klassifizierungstyp wird für Mehrfachtests und räumliche Abhängigkeit durch Anwendung der FDR-Korrekturmethode (False Discovery Rate) automatisch angepasst.

Jede vom Werkzeug getroffene Entscheidung zur Erzielung bestmöglicher Ergebnisse wird während der Ausführung des Werkzeugs als Meldung angezeigt und eine Erläuterung dieser Entscheidungen wird darunter dokumentiert.

Wie beim manuellen Modus der Kamera, der es Ihnen ermöglicht, die automatischen Einstellungen außer Kraft zu setzen, bietet das Werkzeug Cluster- und Ausreißeranalyse (Anselin Local Morans I) die vollständige Kontrolle über sämtliche Parameteroptionen. Durch Ausführung des Werkzeugs Optimierte Ausreißeranalyse und unter Berücksichtigung der Parametereinstellungen, die es verwendet, können Sie die Parameter optimieren, die Ihnen die vollständige Kontrolle über das Werkzeug Cluster- und Ausreißeranalyse (Anselin Local Morans I) ermöglichen.

Der Workflow für das Werkzeug Optimierte Ausreißeranalyse beinhaltet die folgenden Komponenten. Die in den Komponenten verwendeten Berechnungen und Algorithmen werden nachfolgend beschrieben.

Erste Datenbewertung

In dieser Komponente werden die Eingabe-Features und das optionale Analysefeld, Umgebende Polygone, die den räumlichen Geltungsbereich für Ereignisse definieren und Methode für die Aggregation der Ereignisdaten überprüft, um sicherzustellen, dass genügend Features vorhanden sind und die zu analysierenden Werte eine angemessene Variation aufweisen. Wenn das Werkzeug Datensätze mit beschädigter oder fehlender Geometrie erkennt oder ein Analysefeld angegeben wird und NULL-Werte vorhanden sind, werden die verknüpften Datensätze als falsche Datensätze aufgelistet und aus der Analyse ausgeschlossen.

Das Werkzeug Optimierte Ausreißeranalyse verwendet die Anselin Local Morans I-Statistik und die Ergebnisse sind, ähnlich wie bei vielen statistischen Methoden, nicht zuverlässig, wenn weniger als 30 Features vorhanden sind. Wenn Sie Polygon-Eingabe-Features oder Punkt-Eingabe-Features und ein Analysefeld verwenden, benötigen Sie mindestens 30 Features, um dieses Werkzeug zu verwenden. Die Mindestanzahl der Polygone zum Aggregieren von Ereignissen in Anzahlwerte beträgt ebenfalls 30. Die Feature-Layer, die umgebende Polygone, die den räumlichen Geltungsbereich für Ereignisse definieren, darstellen, können ein oder mehrere Polygone umfassen.

Für die Anselin Local Morans I-Statistik muss jedes analysierte Feature mit Werten verknüpft sein. Wenn die von Ihnen bereitgestellten Eingabe-Features Ereignisdaten darstellen (wenn Sie kein Analysefeld bereitstellen), aggregiert das Werkzeug die Ereignisse und die Ereignisanzahl dient als Wert für die Analyse. Da nach Abschluss der Aggregationsverarbeitung noch mindestens 30 Features vorhanden sein müssen, können Sie bei Ereignisdaten mit mehr als 30 Features beginnen. In der folgenden Tabelle ist die Mindestanzahl der Features für jede Methode für die Aggregation der Ereignisdaten dokumentiert:

Mindestanzahl der Ereignisse	Aggregationsmethode	Anzahl der Features nach der Aggregation
60	COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS und COUNT_INCIDENTS_WITHIN_HEXAGON_POLYGONS ohne Umgebende Polygone, die den räumlichen Geltungsbereich für Ereignisse definieren anzugeben	30
30	COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS und COUNT_INCIDENTS_WITHIN_HEXAGON_POLYGONS, wenn Sie eine Feature-Class für den Parameter Umgebende Polygone, die den räumlichen Geltungsbereich für Ereignisse definieren angeben	30
30	COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS	30
60	SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS	30

Die Anselin Local Morans I-Statistik wurde außerdem für ein Analysefeld mit einer Reihe von unterschiedlichen Werten konzipiert. Die Statistik ist beispielsweise nicht für Binärdaten geeignet. Das Werkzeug Optimierte Ausreißeranalyse überprüft das Analysefeld, um sicherzustellen, dass die Werte zumindest einige Unterschiede aufweisen.

Positions-Ausreißer sind Features, die viel weiter entfernt von benachbarten Features sind als die meisten Features im Dataset. Stellen Sie sich eine städtische Umgebung mit großen, dicht besiedelten Städten in der Mitte und kleineren, weniger dicht besiedelten Städten an der Peripherie vor. Wenn Sie die durchschnittliche Entfernung zum nächsten Nachbarn für diese Städte berechnet haben, werden Sie feststellen, dass das Ergebnis kleiner ausfällt, wenn Sie die Positions-Ausreißer der Peripherie ausschließen und nur die Städte in der Nähe der städtischen Umgebung fokussieren. Dies ist ein Beispiel dafür, welche signifikanten Auswirkungen Positions-Ausreißer auf räumliche Statistiken wie Mittlerer nächster Nachbar haben können. Da das Werkzeug Optimierte Ausreißeranalyse die Berechnungen für den durchschnittlichen und mittleren nächsten Nachbarn zur Aggregation und zum Identifizieren eines geeigneten Analysemaßstabs verwendet, identifiziert die Komponente "Erste Datenbewertung" des Werkzeugs alle Positions-Ausreißer, die Eingabe-Features oder Polygone zum Aggregieren von Ereignissen in Anzahlwerte umfassen, und meldet die erkannte Anzahl. Dazu berechnet das Werkzeug für jedes Feature die durchschnittliche Entfernung zum nächsten Nachbarn und wertet die Verteilung aller Entfernungen aus. Features mit einer mehr als dreifachen Standardabweichungsentfernung vom nächstgelegenen nicht lagegleichen Nachbarn gelten als Positions-Ausreißer.

Ereignisaggregation

Für Ereignisdaten werden Ihre Daten von der nächsten Komponente im Workflow zusammengefasst. Es gibt drei mögliche Ansätze, die von der ausgewählten Methode für die Aggregation der Ereignisdaten abhängen. Die Algorithmen für diese Ansätze werden nachfolgend beschrieben.

COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS oder COUNT_INCIDENTS_WITHIN_HEXAGON_POLYGONS:
1. Blenden Sie lagegleiche Punkte aus, woraus sich ein einzelner Punkt an jeder eindeutigen Position im Dataset ergibt, indem Sie dieselbe Methode anwenden, die vom Werkzeug Ereignisse erfassen bereitgestellt wird.
2. Vergleichen Sie die Dichte der N Eingabe-Features mit der Dichte der zufälligen N Features basierend auf dem minimalen umgebenden Polygon der Eingabe-Features (in geodätischen Metern). Die durchschnittliche Entfernung zum nächsten Nachbarn für einen zufälligen Satz an N Punkten im minimalen umgebenden Polygon wird berechnet. Wenn die doppelte durchschnittliche Entfernung zum nächsten Nachbarn für die zufällige Feature-Verteilung geringer ist als die max. Ausdehnung des Untersuchungsgebiets geteilt durch 100, wird das Dataset als dicht betrachtet, und das verwendete Gitter Zellengröße ist die max. Ausdehnung geteilt durch 100.
3. Wenn das Dataset unter Verwendung der Methode nicht als dicht betrachtet wird, ist der verwendete Abstand der Zellengröße zweimal größer als die durchschnittliche oder mittlere Entfernung zum nächsten Nachbarn. Die durchschnittliche Entfernung zum nächsten Nachbarn (ANN, Average Nearest Neighbor) für alle eindeutigen Positionspunkte, mit Ausnahme von Positions-Ausreißern, wird berechnet, indem die Entfernung zum nächsten Nachbarn der einzelnen Features addiert und durch die Anzahl der Features dividiert wird. Die mittlere Entfernung zum nächsten Nachbarn (MNN, Median Nearest Neighbor) wird berechnet, indem die Entfernungen zum nächsten Nachbarn vom kleinsten zum größten Wert sortiert und die Entfernung in der Mitte der sortierten Liste ausgewählt wird (auch mit Ausnahme von Positions-Ausreißern). Der größere Abstand (ANN oder MNN) wird mit 2 multipliziert und als Zellengröße des Gitters verwendet.
4. Erstellen Sie ein Netz- oder Hexagonpolygongitter, indem Sie die optimierte Zellengröße verwenden und das Gitter mit den Ereignispunkten überlagern.
5. Ermitteln Sie die Anzahl der Ereignisse in jeder Polygon-Zelle.
6. Wenn Sie Umgebende Polygone, die den räumlichen Geltungsbereich für Ereignisse definieren angeben, werden alle Polygonzellen innerhalb des umgebenden Polygons beibehalten. Wenn Sie nicht Umgebende Polygone, die den räumlichen Geltungsbereich für Ereignisse definieren angeben, werden Polygonzellen ohne Ereignisse entfernt.
7. Wenn die Aggregationsverarbeitung mehr als 30 Polygon-Zellen ergibt oder die Anzahl in allen Polygon-Zellen identisch ist, werden Sie in einer Meldung darauf hingewiesen, dass die von Ihnen bereitgestellten Eingabe-Features für die ausgewählte Methode der Ereignisdatenaggregation nicht geeignet sind. Andernfalls wird die Aggregationskomponente für diese Methode erfolgreich abgeschlossen.

COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS:
1. Für diese Methode für die Aggregation der Ereignisdaten ist der Feature-Layer Polygone zum Aggregieren von Ereignissen in Anzahlwerte erforderlich. Diese Aggregationspolygone überlagern die Ereignispunkte.
2. Ermitteln Sie die Anzahl der Ereignisse in jedem Polygon.
3. Stellen Sie sicher, dass die Ereignisanzahl für die Analyse eine hinreichende Variation aufweist. Wenn die der Aggregationsprozess dazu führt, dass alle Polygone die gleiche Anzahl von Ereignissen aufweisen, werden Sie in einer Meldung darauf hingewiesen, dass die Daten für die ausgewählte Methode für die Aggregation der Ereignisdaten nicht geeignet sind.

SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS:
1. Blenden Sie lagegleiche Punkte aus, woraus sich ein einzelner Punkt an jeder eindeutigen Position im Dataset ergibt, indem Sie dieselbe Methode anwenden, die vom Werkzeug Ereignisse erfassen bereitgestellt wird. Ermitteln Sie die Anzahl der eindeutigen Positions-Features (UL, Unique Location).
2. Berechnen Sie die durchschnittliche und mittlere Entfernung zum nächsten Nachbarn für alle eindeutigen Positionspunkte, mit Ausnahme von Positions-Ausreißern. Die durchschnittliche Entfernung zum nächsten Nachbarn (ANN, Average Nearest Neighbor) wird berechnet, indem die Entfernung zum nächsten Nachbarn der einzelnen Features addiert und durch die Anzahl der Features dividiert wird. Die mittlere Entfernung zum nächsten Nachbarn (MNN, Median Nearest Neighbor) wird berechnet, indem die Entfernungen zum nächsten Nachbarn vom kleinsten zum größten Wert sortiert und die Entfernung in der Mitte der sortierten Liste ausgewählt wird.
3. Legen Sie die anfängliche Fangentfernung (SD, Snap Distance) auf den jeweils kleineren Wert von ANN oder MNN fest.
4. Passen Sie die Fangentfernung unter Einbeziehung der lagegleichen Punkte an. Skalar = (UL/N), wobei N die Anzahl der Features im Layer Eingabe-Features angibt. Die angepasste Fangentfernung wird zu SD * Skalar.
5. Integrieren Sie die Ereignispunkte in drei Schritten, indem Sie zuerst die mit 0,10 multiplizierte angepasste Fangentfernung, dann die mit 0,25 multiplizierte angepasste Fangentfernung verwenden und schließlich in eine Fangentfernung integrieren, die der vollständig angepassten Fangentfernung entspricht. Wenn Sie den Integrationsschritt in drei Durchgängen ausführen, wird die Verzerrung der ursprünglichen Punktpositionen minimiert.
6. Blenden Sie die gefangenen Punkte aus, woraus sich ein einzelner Punkt an jeder Position mit einer Gewichtung ergibt, um die Anzahl der zusammen gefangenen Ereignisse anzugeben Dieser Teil der Aggregationsverarbeitung verwendet die Methode Ereignisse erfassen.
7. Wenn die Aggregationsverarbeitung mehr als 30 gewichtete Punkte ergibt oder die Anzahl für alle Punkte identisch ist, werden Sie in einer Meldung darauf hingewiesen, dass die von Ihnen bereitgestellten Eingabe-Features für die ausgewählte Methode für die Aggregation der Ereignisdaten nicht geeignet sind. Andernfalls wird die Aggregationskomponente für diese Methode erfolgreich abgeschlossen.

Analysemaßstab

Diese nächste Komponente des Workflows Optimierte Ausreißeranalyse wird auf gewichtete Features angewendet, da Sie entweder Eingabe-Features mit einem Analysefeld angegeben haben oder weil die Methode für die Aggregation der Ereignisdaten Gewichtungen aus der Ereignisanzahl erstellt hat. Der nächste Schritt besteht darin, einen geeigneten Analysemaßstab zu ermitteln. Der ideale Analysemaßstab ist eine Entfernung, die zum Maßstab der Frage in Beziehung stehen sollte, die Sie stellen (falls Sie nach Clustern und Ausreißergebieten eines Ausbruchs einer Krankheit suchen und wissen, dass der Moskito-Vektor einen Bereich von 10 Meilen aufweist, wäre beispielsweise die Verwendung einer Entfernung von 10 Meilen geeignet). Wenn Sie keine spezielle Entfernung begründen können, die Sie für den Analysemaßstab verwenden können, gibt es hierzu einige hilfreiche Strategien. Das Werkzeug Optimierte Ausreißeranalyse stellt diese Strategien bereit.

Als erstes kommt die Strategie Inkrementelle räumliche Autokorrelation zur Anwendung. Immer dann, wenn Sie eine räumliche Cluster-Bildung in der Landschaft sehen, sehen Sie einen Beweis für die zugrunde liegenden räumlichen Prozesse, die arbeiten. Das Werkzeug Inkrementelle räumliche Autokorrelation führt das Werkzeug Global Moran's I-Statistik für eine Reihe von ansteigenden Entfernungen aus, wobei die Intensität der räumlichen Cluster-Bildung für jede Entfernung gemessen wird. Positions-Ausreißer werden aus den Berechnungen der Anfangsentfernung und Entfernungsschrittgröße, die in "Inkrementelle räumliche Autokorrelation" verwendet werden, ausgeschlossen. Die Intensität der Cluster-Bildung wird durch den zurückgegebenen Z-Wert bestimmt. In der Regel erhöht sich bei der Erhöhung der Entfernung auch der Z-Wert, was auf eine Intensivierung der Cluster-Bildung hinweist. An einer bestimmten Entfernung erreicht der Z-Wert in der Regel den Spitzenwert. Spitzenwerte stellen Entfernungen dar, bei der die räumlichen Prozesse, die eine Cluster-Bildung fördern, am stärksten sind. Das Werkzeug Optimierte Ausreißeranalyse verwendet die Inkrementelle räumliche Autokorrelation, um Spitzenentfernungen zu suchen. Wenn eine Spitzenentfernung gefunden wurde, wird diese Entfernung zum Analysemaßstab. Wenn mehrere Spitzenentfernungen gefunden werden, wird die erste Spitzenentfernung ausgewählt.

Wenn keine Spitzenentfernung gefunden wird, überprüft die Optimierte Ausreißeranalyse die räumliche Verteilung der Features und berechnet die durchschnittliche Entfernung, die zu K Nachbarn für jedes Feature führt. K wird wie folgt berechnet: 0,05 * N, wobei N die Anzahl der Features im Layer Eingabe-Features angibt. K wird so angepasst, dass es niemals kleiner als drei oder größer als 30 ist. Wenn die durchschnittliche Entfernung, die K Nachbarn ergibt, eine Standardentfernung überschreitet, wird der Analysemaßstab auf eine Standardentfernung festgelegt; andernfalls spiegelt sie die durchschnittliche Entfernung zu K Nachbarn wider.

Bei dichten Datasets kann die Ausführung des Schritts Inkrementelle räumliche Autokorrelation viel Zeit in Anspruch nehmen. Wenn ein Feature mit 500 oder mehr Nachbarn auftritt, wird demzufolge die inkrementelle Analyse übersprungen und die durchschnittliche Entfernung, die 30 Nachbarn ergibt, wird berechnet und als Analysemaßstab verwendet.

Die Entfernung, die den Analysemaßstab widerspiegelt, wird im Ergebnisfenster angegeben und zur Durchführung der Cluster- und Ausreißeranalyse verwendet. Diese Entfernung entspricht dem Parameter Entfernungsband oder Entfernungsschwellenwert, das vom Werkzeug Cluster- und Ausreißeranalyse (Anselin Local Morans I) verwendet wird.

Für Features ohne Nachbarn mit dieser Entfernung wird das Entfernungsband angepasst, um deren nächste Nachbarn einzubeziehen.

Cluster- und Ausreißeranalyse

An diesem Punkt des Workflows Optimierte Ausreißeranalyse sind alle Überprüfungen und Parametereinstellungen abgeschlossen. Im nächsten Schritt wird die Anselin Local Morans I-Statistik ausgeführt. Weitere Informationen zur Mathematik hinter dieser Statistik finden Sie unter Funktionsweise des Werkzeugs "Cluster- und Ausreißeranalyse (Anselin Local Morans I)". Die Ergebnisse der Anselin Local Morans I-Statistik werden für Mehrfachtests und räumliche Abhängigkeit mithilfe der FDR-Korrekturmethode (False Discovery Rate) automatisch korrigiert. Meldungen, die in das Ergebnisfenster geschrieben werden, fassen die Anzahl der Features, die als statistisch signifikante hohe oder niedrige Ausreißer sowie hohe oder niedrige Cluster identifiziert wurden, zusammen, nachdem die FDR-Korrektur angewendet wurde.

Ausgabe

Mit der letzten Komponente des Werkzeugs Optimierte Ausreißeranalyse werden Ausgabe-Features erstellt. Wenn die Eingabe-Features Ereignisdaten darstellen, die eine Aggregation erfordern, spiegeln die Ausgabe-Features die aggregierten gewichteten Features (Netz- oder Hexagonpolygonzellen oder die Aggregationspolygone, die Sie für den Parameter Polygone zum Aggregieren von Ereignissen in Anzahlwerte angegeben haben, oder gewichtete Punkte) wider. Jedes Feature hat einen Local Morans I-Indexwert (LMiIndex), Z-Wert, p-Wert, ein Cluster-/Ausreißer-Typ(COType)-Ergebnis und die Anzahl von Nachbarn, die jedes Feature in seine Berechnungen eingeschlossen hat.

Zusätzliche Quellen

Anselin, Luc. "Local Indicators of Spatial Association–LISA," Geographical Analysis 27(2): 93–115, 1995.

Auf der Seite Spatial Statistics Resources werden kurze Videos, Lernprogramme, Online-Seminare, Artikel und eine Vielzahl anderer Materialien zur Verfügung gestellt, die Ihnen den Einstieg in räumliche Statistiken erleichtern.