In GIS-Daten sind Informationen zu den Attributen von Features sowie zu deren Positionen enthalten. Anhand dieser Informationen werden Karten erstellt, die visuell analysiert werden können. Mit statistischen Analysen können Sie weitere Informationen aus den GIS-Daten gewinnen, die bei einem einfachen Blick auf eine Karte nicht ersichtlich sind. Diese Informationen geben beispielsweise an, wie Attributwerte verteilt sind, ob räumliche Trends in den Daten vorhanden sind und ob die Features räumliche Muster bilden. Im Unterschied zu Abfragefunktionen (wie "Identifizieren" oder "Auswahl"), die Informationen zu einzelnen Features liefern, werden durch statistische Analysen die Merkmale einer ganzen Gruppe von Features dargestellt.
Einige der in diesem Dokument beschriebenen Verfahren für statistische Analysen sind hervorragend für interaktive Anwendungen wie ArcMap geeignet, die Ihnen das Auswählen und Visualisieren von Daten in einer Ad-hoc-Situationen und ständig sich ändernden Umgebungen ermöglicht. Einige der hier erläuterten Methoden befinden sich in den Menüs und Werkzeugleisten von ArcMap, und es gibt keine entsprechenden Geoverarbeitungswerkzeuge. Andere Methoden, z. B. die Werkzeuge für räumliche Statistiken, werden hingegen nur als Geoverarbeitungswerkzeuge implementiert.
Einsatzgebiete der statistischen Analyse
Mithilfe der statistischen Analyse werden meist Daten untersucht. Sie können beispielsweise die Verteilung von Werten für ein bestimmtes Attribut untersuchen oder Ausreißer (extrem hohe oder niedrige Werte). Diese Informationen sind hilfreich beim Definieren von Klassen und Bereichen auf einer Karte, beim Reklassifizieren von Daten oder beim Suchen nach Datenfehlern.
Im folgenden Beispiel wurden Statistiken für die Verteilung von älteren Bürgern nach Zählbezirken in der entsprechenden Region (Prozentsatz der 65-jährigen und älter in den einzelnen Gebieten) berechnet, einschließlich des Mittelwertes und der Standardabweichung, sowie ein Histogramm mit der Verteilung von Werten. In den meisten Bezirken liegt der Prozentsatz unter dem Mittelwert, in einigen Bezirken ist der Prozentsatz jedoch sehr hoch.
Mithilfe statistischer Analysen können auch Zusammenfassungen von Daten erstellt werden. Häufig erfolgt dies für Kategorien, beispielsweise kann die Gesamtfläche für die einzelnen Landnutzungskategorien berechnet werden. Sie können auch räumliche Zusammenfassungen erstellen. So können Sie z. B. die durchschnittliche Höhenlage der einzelnen Abflussgebiete berechnen. Anhand von Zusammenfassungsdaten können Sie ein besseres Verständnis der Bedingungen in einem Untersuchungsgebiet erlangen.
Im folgenden Beispiel wurden Summenstatistiken für die einzelnen Flächennutzungsklassen berechnet. In diesen werden die Anzahl der Flurstücke in der jeweiligen Klasse, die Größe des kleinsten und des größten Flurstücks, die durchschnittliche Flurstückgröße sowie die Gesamtfläche in der Klasse angezeigt.
Mit statistischen Analysen können Sie auch räumliche Muster bestimmen und bestätigen, beispielsweise das Zentrum einer Gruppe von Features, der Richtungstrend oder möglicherweise von den Features gebildete Cluster. Muster können auf einer Karte ersichtlich sein. Anhand der Karte Schlussfolgerungen zu ziehen, kann sich jedoch als schwierig erweisen – durch das Klassifizieren und Symbolisieren der Daten können Muster verschleiert oder zu stark betont werden. Mit statistischen Funktionen werden die zugrunde liegenden Daten analysiert. Damit erhalten Sie ein Maß, mit dem Sie das Vorhandensein und die Bedeutung der Muster nachweisen können.
Im Folgenden finden Sie ein Beispiel für Analysen, in denen der arithmetische Mittelpunkt einer Einbruchsserie und die Ellipse der Standardabweichungen für eine Reihe von Elchsichtungen (die den Richtungstrend angibt) aufgezeigt werden.
Im folgenden Beispiel wird eine Analyse dargestellt, die statistisch signifikante Cluster von Zählbezirken mit vielen (orange) oder wenigen (blau) älteren Bürgern aufzeigen.
Typen der statistischen Analyse
Statistische Analysefunktionen in ArcGIS for Desktop sind entweder nicht räumlich (tabellarisch) oder räumlich (die Lage wird berücksichtigt).
Mit nicht räumlichen Statistiken werden Attributwerte analysiert, die Features zugeordnet sind. Auf die Werte wird direkt aus der Feature-Attributtabelle eines Layers zugegriffen. Beispiele für nicht räumliche Statistiken sind der Mittelwert und die Standardabweichung.
In diesem Beispiel wurde mit dem Werkzeug Summenstatistik die Anzahl der unbebauten Flurstücke für eine Reihe von Zählungsbezirken berechnet, einschließlich der Summe, des Mittelwertes und der Standardabweichung.
Diagramme und Grafiken wie Histogramme oder Q-Q-Plots bieten weitere Möglichkeiten zum Analysieren von nicht räumlichen Daten. In allen Fällen werden nur die Werte analysiert. Die Lage der Features, denen die Werte zugeordnet sind, sowie möglicherweise vorhandene räumliche Beziehungen zwischen den Features werden nicht berücksichtigt.
In diesem Beispiel wird im Histogramm die Verteilung der unbebauten Flurstücke dargestellt (die Anzahl der unbebauten Flurstücke auf der X-Achse und die Anzahl der Zählbezirke in den einzelnen Bereichen auf der Y-Achse).
Mit einem Q-Q-Plot für normalverteilte Daten wird untersucht, inwieweit die Verteilung einer Gruppe von Werten einer Standardnormalverteilung (der typischen Glockenkurve bei Darstellung in einem Histogramm) nahe kommt. Die Linie im Q-Q-Plot für normalverteilte Daten stellt die erwarteten Werte für eine Normalverteilung dar: Je näher die Werte an der Linie liegen, desto eher liegt eine Normalverteilung vor. Im vorliegenden Beispiel liegt die Konzentration des chemischen Elements Phosphor für eine Reihe von Bodenproben nahe an einer Normalverteilung.
Das Werkzeug "Normal QQ Plot" ist eines der Werkzeuge zum Untersuchen von Daten, die mit der Erweiterung "Geostatistical Analyst" bereitgestellt werden.
In der räumlichen Statistik liegt der Schwerpunkt hingegen auf den räumlichen Beziehungen zwischen Features. Es wird untersucht, wie kompakt oder gestreut die Features sind, ob sie in einer bestimmten Richtung ausgerichtet sind und ob sie Cluster bilden. Die räumliche Beziehung wird normalerweise als Entfernung (Abstand zwischen den Features) festgelegt, es können jedoch auch andere Wechselwirkungen zwischen Features zugrunde gelegt werden.
Im folgenden Beispiel wird die Ausgabe des Werkzeugs Standardentfernung (grafisch als Kreis dargestellt) anhand der Entfernung der einzelnen Wildsichtungen von einem berechneten Zentrum der Sichtungen berechnet.
In einigen räumlichen Statistiken werden sowohl die räumlichen Beziehungen von Features als auch die Werte eines Attributs berücksichtigt, das den Features zugeordnet ist. Diese werden als gewichtete Statistiken bezeichnet. Die räumliche Beziehung wird durch die Werte beeinflusst. Mit gewichteten räumlichen Statistiken wird bestimmt, ob Features mit ähnlichen Werten gemeinsam auftreten. So kann beispielsweise ermittelt werden, ob Schulen mit ähnlich guten bzw. schlechten Testergebnissen Cluster bilden.
Im folgenden Beispiel wird das Zentrum von Parks nach der Anzahl der Besucher der einzelnen Parks gewichtet (diese wird durch die Größe der grünen Kreise dargestellt).
Statistischen Funktionen können auch danach klassifiziert sein, ob sie beschreibend oder schlussfolgernd sind. Beschreibende Statistiken fassen Merkmale von analysierten Werten bzw. Features zusammen (den Mittelwert, die Häufigkeitsverteilung der Werte oder den Richtungstrend einer Gruppe von Features). Beschreibende Statistiken empfehlen sich bei Vergleichen von zwei Gruppen von Features für denselben Bereich.
Im folgenden Beispiel wird die Verteilung älterer Bürger (oben) mit der Verteilung von Kindern unter fünf Jahren (unten) für dieselbe Auswahl von Zählbezirken verglichen.
Im folgenden Beispiel zeigen die Standardentfernungskreise für die indianische und die afroamerikanische Bevölkerung, dass die Verteilung der afroamerikanischen Bevölkerung in diesem Gebiet viel kompakter ist.
In schlussfolgernden Statistiken wird mithilfe der Wahrscheinlichkeitstheorie (basierend auf bekannten Werten) das wahrscheinliche Auftreten von Werten prognostiziert bzw. die Wahrscheinlichkeit bewertet, dass ein Muster bzw. ein Trend in den Daten nicht auf Zufälle zurückzuführen ist. Die Funktion bietet ein Maß für das Muster oder die Beziehung. Anschließend können Sie einen statistischen Test für dieses Maß ausführen, um zu bestimmen, ob dieses bei einem bestimmten Übereinstimmungsniveau signifikant ist. Wenn statistische Analysen nahe legen, dass Einbrüche in Clustern verübt werden, führen Sie einen Test aus, um die Wahrscheinlichkeit zu bestimmen, dass diese Cluster auf Zufälle zurückgehen. Sie stellen beispielsweise fest, dass eine Wahrscheinlichkeit von 90 Prozent besteht, dass die Cluster nicht aufgrund von Zufällen auftreten. Dies legt nahe, dass die Einbrüche in gewisser Weise miteinander in Verbindung stehen. Zum Bestimmen der Wahrscheinlichkeit wird beim Test das Maß für die vorhandenen Features mit dem erwarteten Maß für dieselbe Menge der über dasselbe Gebiet verteilten Features verglichen, die jedoch eine Zufallsverteilung aufweisen.
Im folgenden Beispiel werden auf der linken Karte Cluster von Zählbezirken dargestellt, in denen eine hohe Anzahl (orange) bzw. eine geringe Anzahl (blau) von älteren Bürgern lebt, bei einer Wahrscheinlichkeit von 90 Prozent. Auf der rechten Karte hingegen werden Cluster bei einer Wahrscheinlichkeit von 99 Prozent abgebildet.
Statistische Analysefunktionen
Die statistischen Funktionen in ArcGIS for Desktop befinden sich in ArcMap, ArcCatalog und in der Geoverarbeitung sowie in zwei Erweiterungen: Spatial Analyst und Geostatistical Analyst.
Tabellenstatistiken
Grundlegende beschreibende Statistiken mit einer Zusammenfassung der Werte für ein einziges Feld sind in ArcGIS for Desktop an verschiedenen Stellen verfügbar: im Tabellenfenster in ArcMap, auf der Registerkarte mit der Tabellenvorschau in ArcCatalog sowie im Toolset "Statistik" (in der Toolbox "Analysis").
Funktion | Speicherort | Statistiken | Ausgabe |
---|---|---|---|
Option im Menü "Statistiken" | Tabellenfenster in ArcMap oder Registerkarte mit Tabellenvorschau in ArcCatalog | Anzahl, Minimum, Maximum, Summe, Mittelwert, Standardabweichung, Häufigkeit, Histogramm | Ergebnisse werden in einem Fenster angezeigt. |
Werkzeug "Summenstatistik" | Minimum, Maximum, Summe, Mittelwert, Standardabweichung, Bereich, Erste(r), Letzter(r) | Ergebnisse werden in einer neuen Tabelle ausgegeben. |
Zum Zusammenfassen eines Feldes anhand eines oder mehrerer Felder (z. B. zum Zählen der Flurstücke in den einzelnen Flächennutzungsklassen, zum Summieren der Flächen in den einzelnen Flächennutzungsklassen oder zum Bestimmen der durchschnittlichen Flurstückgröße in den einzelnen Klassen) können Sie die Option "Feldstatistik" im Tabellenfenster von ArcMap oder das Werkzeug Häufigkeit (Frequency) im Toolset "Statistiken" der Toolbox "Analysis" verwenden.
Funktion | Speicherort | Statistiken | Ausgabe |
---|---|---|---|
Option im Menü "Feldstatistik" | Tabellenfenster von ArcMap (mit der rechten Maustaste auf Feldnamen klicken) | Minimum, Maximum, Durchschnitt (Mittelwert), Summe, Standardabweichung, Varianz | Ergebnisse werden in einer neuen Tabelle ausgegeben. |
Werkzeug Häufigkeit (Frequency) | Anzahl, Summe | Ergebnisse werden in einer neuen Tabelle ausgegeben. |
Spatial Statistics
Die Toolbox "Spatial Statistics" enthält eine Reihe von statistischen Routinen zum Analysieren der Verteilung von Features, zum Analysieren von Mustern und zum Bestimmen von Clustern.
Funktionsbereich | Toolset | Werkzeuge |
---|---|---|
Messen von geographischen Verteilungen | Arithmetischer Mittelpunkt, Zentrales Feature, Standardabweichung, Richtungsverteilung (Standardabweichungsellipse), Linearer Richtungsmittelwert | |
Analyse von geographischen Mustern | Durchschnittlicher nächster Nachbar, Räumliche Autokorrelation (Morans I), Clustering von hohen/tiefen Werten (Getis-Ord General G) | |
Analyse von geographischen Clustern | Cluster- und Ausreißeranalyse (Anselin Local Morans I), Hot-Spot-Analyse (Getis-Ord Gi*) | |
Regressionsanalyse | Zu diesen Werkzeugen gehören Kleinste Quadrate (Ordinary Least Squares), Regressionsanalyse, Geographisch gewichtete Regression. |
Raster-Statistiken
Die Spatial Analyst bietet eine Reihe von statistischen Funktionen, mit denen Raster analysiert werden können, insbesondere um Attributwerte zusammenzufassen und die Summenstatistiken den Zellen in einem neuen Raster-Layer zuzuweisen. Diese befinden sich in verschiedenen anderen Toolsets der Toolbox Spatial Analyst.
Geoverarbeitungswerkzeug | Speicherort | Eingabe | Ausgabe | Zweck |
---|---|---|---|---|
Mehrere Raster | Raster | Hiermit wird die angegebene Statistik für jede Zelle auf der Grundlage mehrerer Eingaben berechnet. | ||
Raster | Raster | Fasst die Werte für ein Raster in einer definierten Nachbarschaft um die einzelnen Zellen zusammen und weist der betreffenden Zelle im Ausgabe-Raster den Wert zu. | ||
Punkt-Features | Raster | Fasst die Werte für Punkt-Feature-Attribute in einer definierten Nachbarschaft zusammen und weist Zellen im Ausgabe-Raster Werte zu. | ||
Linien-Features | Raster | Fasst die Werte für Linien-Feature-Attribute in einer definierten Nachbarschaft zusammen und weist Zellen im Ausgabe-Raster Werte zu. | ||
Raster- oder Polygon-Features | Raster oder Summentabelle | Fasst Werte einer Raster-Oberfläche nach Kategorien oder Klassen (Zonen) des Eingabe-Rasters oder Polygon-Datasets zusammen. |
Werkzeuge zum Untersuchen von Daten
Bei der Geostatistical Analyst liegt der Schwerpunkt auf dem Erstellen von Oberflächen aus einer Reihe von Referenzpunkten. Darüber hinaus enthält sie auch Werkzeuge zum visuellen Untersuchen von Daten mithilfe von Diagrammen und Grafiken. Mit diesen wird häufig vor dem Erstellen der Oberfläche entschieden, welche Parameter für eine bestimmte Datenmenge verwendet werden sollen. Mit den Werkzeugen kann jedoch auch eine allgemeine Untersuchung der Daten vorgenommen werden. Mit den Werkzeugen können Sie die Verteilung der Werte untersuchen, Sie können bestimmen, ob ein Richtungstrend in den Daten vorliegt oder ob Beziehungen zwischen zwei Attributen bestehen (z. B. ob sich Werte gleichermaßen ändern oder ob ein umgekehrter Trend vorliegt). Die Werkzeuge sind über die Option Explore Data auf der Werkzeugleiste Geostatistical Analyst verfügbar.