Les informations relatives aux attributs d'entités et à leur localisation sont inhérentes aux données SIG. Ces informations servent à créer des cartes qui peuvent être analysées visuellement. L'analyse statistique vous aide à extraire de vos données SIG des informations complémentaires qui peuvent ne pas être évidentes en regardant une carte. Il s'agit par exemple de la façon dont les valeurs attributaires sont distribuées, s'il y a des tendances spatiales dans les données ou si les entités forment des modèles spatiaux. A la différence des fonctions de requête (comme identifier ou sélection, qui fournissent des informations au sujet d'entités individuelles), l'analyse statistique révèle les caractéristiques d'un ensemble d'entités dans son intégralité.
Certaines des techniques d'analyse statistique décrites dans ce document sont particulièrement adaptées aux applications interactives, telles qu'ArcMap, qui vous permettent de sélectionner et d'afficher des données dans un environnement ad hoc et fluide. Certaines des méthodes décrites ici se trouvent dans les menus et les barres d'outils d'ArcMap et n'ont pas d'équivalents parmi les outils de géotraitement. D'autres méthodes, telles que les outils de statistiques spatiales, sont implémentées seulement en tant qu'outils de géotraitement.
Utilisations de l'analyse statistique
L'analyse statistique est souvent utilisée pour explorer les données : par exemple, pour examiner la distribution des valeurs d'un attribut particulier ou pour repérer des points aberrants (valeurs très élevées ou très basses). Il est utile de disposer de ces informations lors de la définition de classes et de plages sur une carte, de la reclassification de données ou de la recherche d'erreurs dans les données.
Dans l'exemple ci-après, les statistiques ont été calculées pour la répartition des personnes âgées par secteur de recensement dans cette région (pourcentage de personne de 65 ans et plus dans chaque secteur), avec la moyenne et l'écart type, ainsi qu'un histogramme illustrant la répartition des valeurs. La plupart des secteurs ont un pourcentage d'aînés inférieur à la moyenne, mais certains ont un pourcentage très élevé.
L'analyse statistique sert aussi à la récapitulation des données. Elle se fait souvent pour les catégories, par exemple pour calculer la surface totale de chaque catégorie d'utilisation du sol. Vous pouvez aussi créer des résumés spatiaux, par exemple calculer l'altitude moyenne de chaque bassin versant. Les données récapitulatives permettent de mieux appréhender les conditions d'une zone d'étude.
Dans l'exemple ci-après, les résumés statistiques ont été calculés pour chaque classe d'utilisation du sol, pour montrer le nombre de parcelles de cette classe, la taille de la parcelle la plus petite et la plus grande, la taille moyenne des parcelles et la surface totale de la classe.
L'analyse statistique permet également d'identifier et de confirmer des modèles spatiaux, comme le centre d'un groupe d'entités, la tendance directionnelle, ou si les entités forment des agrégats. Alors que les modèles peuvent être apparents sur une carte, il peut s'avérer difficile de tenter de tirer des conclusions d'une carte. La façon dont vous classez et symbolisez les données peut brouiller ou accentuer les modèles. Les fonctions statistiques analysent les données sous-jacentes et vous donnent une mesure servant à confirmer l'existence et la force du modèle.
Ci-dessous, vous trouverez un exemple d'analyses qui montrent le centre moyen d'un ensemble de cambriolages, et l'ellipse d'écart type pour un ensemble de points d'observation d'élans (montrant la tendance directionnelle).
Ci-dessous, vous trouverez un exemple d'analyse qui montre des agrégats de secteurs de recensement comptant un grand nombre (orange) ou peu (bleu) de personnes âgées, qui sont importantes sur le plan statistique.
Types d'analyse statistique
Les fonctions d'analyse statistique d'ArcGIS for Desktop sont soit non spatiales (tabulaires) soit spatiales (contenant des localisations).
Les statistiques non spatiales servent à l'analyse des valeurs attributaires associées aux entités. L'accès aux valeurs se fait directement à partir de la table attributaire d'entités d'une couche. Parmi les exemples de statistiques non spatiales, citons la moyenne et l'écart type.
Dans cet exemple, l'outil Résumés statistiques a été utilisé pour calculer le nombre de parcelles vacantes pour un ensemble de secteurs de recensement, y compris le total, la moyenne et l'écart type.
Les diagrammes et les graphiques, tels qu'un histogramme ou un tracé QQ, constituent une autre façon d'analyser des données non spatiales. Dans tous les cas, seules les valeurs sont analysées. Les localisations des entités avec lesquelles les valeurs sont associées (et les relations spatiales entre les entités) ne sont pas prises en compte.
Dans cet exemple, l'histogramme montre la répartition de parcelles vacantes (le nombre de parcelles vacantes le long de l'axe des x et le nombre de secteurs dans chaque plage le long de l'axe des y).
Un tracé QQ permet d'évaluer la similarité de la distribution d'un ensemble de valeurs avec celle d'une répartition normale standard (la courbe en forme de cloche classique d'un histogramme). La ligne d'un tracé QQ normal montre les valeurs attendues pour une distribution normale - plus les valeurs sont proches de la ligne, plus la distribution est proche de la normale. Dans cet exemple, la concentration des éléments phosphoriques dans un ensemble d'échantillons de sol est proche de la distribution normale.
L'outil Tracé QQ Normal est l'un des outils d'exploration des données disponibles avec l'extension Geostatistical Analyst.
Les statistiques spatiales, en revanche, se concentrent sur les relations spatiales entre entités : si les entités sont compactes ou dispersées, si elles sont orientées dans une direction particulière, et si elles forment des agrégats. La relation spatiale est généralement définie en tant que distance (de quelle distance les entités sont séparées) mais peut aussi prendre d'autres formes d'interaction entre les entités.
Dans l'exemple ci-dessous, la sortie de l'outil Distance standard (sous forme de cercle) est calculée en utilisant la distance entre chaque observation d'animaux et le centre calculé des observations.
Certaines statistiques spatiales tiennent compte des relations spatiales d'entités et des valeurs d'un attribut associé aux entités. C'est ce que l'on appelle les statistiques pondérées : la relation spatiale est influencée par les valeurs. Les statistiques spatiales pondérées servent à trouver si les entités qui ont des valeurs semblables surviennent ensemble - si, par exemple, des écoles avec des résultats de même niveau élevé ou bas forment des agrégats.
Dans l'exemple ci-après, le centre des parcs est pondéré par le nombre de visiteurs dans chaque parc (représenté par la taille des cercles verts).
Les fonctions statistiques peuvent aussi être classées selon si elles sont descriptives ou inférentielles. Les statistiques descriptives résument certaines caractéristiques des valeurs ou entités que vous analysez : la valeur moyenne, la fréquence de distribution des valeurs, ou la tendance directionnelle d'un groupe d'entités. Les statistiques descriptives sont souvent utiles pour comparer deux ensembles d'entités pour la même surface.
L'exemple suivant compare la répartition des personnes âgées (haut) avec celle des enfants de moins de 5 ans (bas) pour le même ensemble de secteurs de recensement.
Dans l'exemple ci-après, les cercles de distance standard pour les populations d'origine amérindienne et africaine aux Etats-Unis montrent que la répartition de la population d'origine africaine dans ce secteur est beaucoup plus compacte.
Les statistiques inférentielles utilisent la théorie des probabilités pour prévoir l'occurrence possible de valeurs (à l'aide d'un ensemble de valeurs connues), ou pour évaluer la probabilité qu'un modèle ou une tendance visible dans les données n'est pas le fait du hasard. La fonction fournit une mesure du modèle ou de la relation. Vous effectuez ensuite un test statistique sur cette mesure, pour déterminer son niveau de confiance. Si l'analyse statistique indique que des cambriolages se produisent dans des agrégats, vous effectuez un test pour déterminer la possibilité de l'intervention du hasard dans la constitution des agrégats. Par exemple, vous pouvez trouver 90 % de chances que les agrégats ne sont pas survenues par hasard, ce qui indique que les cambriolages sont probablement liés entre eux d'une façon ou d'une autre. Essentiellement en vue de déterminer la probabilité, le test compare la mesure que vous obtenez pour les entités existantes à la mesure attendue pour le même nombre d'entités réparties sur la même zone, mais distribuée aléatoirement.
Dans l'exemple ci-après, la carte de gauche montre les agrégats de secteurs de recensement comptant un nombre élevé de personnes âgées (orange) ou un nombre faible (bleu), à un niveau de probabilité de 90 %. La carte de droite montre des agrégats à un niveau de probabilité de 99 %.
Fonctions d'analyse statistique
Les fonctions statistiques d'ArcGIS for Desktop se trouvent dans ArcMap, ArcCatalog et le géotraitement, ainsi que dans deux extensions : ArcGIS Spatial Analyst et GeoStatistical Analyst.
Statistiques de table
Un ensemble principal de statistiques descriptives qui récapitulent les valeurs pour un seul champ est disponible à plusieurs emplacements d'ArcGIS for Desktop, la fenêtre de la table d'ArcMap, l'onglet d'aperçu de la table d'ArcCatalog, et le jeu d'outils Statistiques (dans la boîte à outils d'analyse).
Fonction | Emplacement | Statistiques | Sortie |
---|---|---|---|
Option du menu Statistiques | Fenêtre de table d'ArcMap ou onglet d'aperçu de table d'ArcCatalog | Total, Minimum, Maximum, Somme, Moyenne, Ecart type, Histogramme de fréquence | Les résultats s'affichent dans une fenêtre. |
Outil Résumés statistiques | Minimum, Maximum, Somme, Moyenne, Ecart type, Plage, Premier, Dernier | Les résultats sont écrits dans une nouvelle table. |
Pour récapituler un champ par un ou plusieurs autres champs (par exemple, pour compter le nombre de parcelles dans chaque classe d'utilisation du sol, additionner la surface dans chaque classe d'utilisation du sol ou trouver la taille moyenne de parcelle dans chaque classe), utilisez l'option Récapituler de la fenêtre de table d'ArcMap, ou l'outil Fréquence du jeu d'outils Statistiques de la boîte à outils Analyse.
Fonction | Emplacement | Statistiques | Sortie |
---|---|---|---|
Option du menu Récapituler | Fenêtre de table d'ArcMap (cliquer avec le bouton droit sur un nom de champ) | Minimum, Maximum, Moyenne, Somme, Ecart type, Variance | Les résultats sont écrits dans une nouvelle table. |
Outil Fréquence | Total, Somme | Les résultats sont écrits dans une nouvelle table. |
Statistiques spatiales
La boîte à outils Statistiques spatiales contient un certain nombre de routines statistiques pour l'analyse de la distribution d'un ensemble d'entités, l'analyse de modèles et l'identification d'agrégats.
Domaine fonctionnel | Jeu d'outils | Outils |
---|---|---|
Mesures de distribution géographique | Centre moyen, Entité centrale, Standard Distance, Directional Distribution (Standard Deviational Ellipse), Direction moyenne linéaire | |
Analyse de modèle géographique | Average Nearest Neighbor, Spatial Autocorrelation (Moran's I), High/Low Clustering (Getis-Ord General G) | |
Analyse d'agrégats géographiques | Cluster and Outlier Analysis (Anselin Local Moran's I), Hot Spot Analysis (Getis-Ord Gi*) | |
Analyse de régression | Moindres carrés ordinaires, Régression exploratoire, Régression pondérée géographiquement |
Statistiques raster
L'extension ArcGIS Spatial Analyst comprend plusieurs fonctions statistiques servant à analyser des rasters, principalement pour récapituler des valeurs attributaires et attribuer les résumés statistiques aux cellules dans une nouvelle couche raster. Celles-ci se trouvent dans plusieurs jeux d'outils différents de la boîte à outils ArcGIS Spatial Analyst.
Outil | Emplacement | Entrée | Sortie | Utilité |
---|---|---|---|---|
Rasters multiples | Raster | Calcule les statistiques spécifiées pour chaque cellule en fonction de plusieurs entrées | ||
Raster | Raster | Récapitule les valeurs d'un raster dans un voisinage défini autour de chaque cellule et attribue la valeur à cette cellule dans le raster en sortie | ||
Entités ponctuelles | Raster | Récapitule les valeurs pour des attributs d'entités ponctuelles dans un voisinage défini et attribue des valeurs aux cellules dans le raster en sortie | ||
Entités linéaires | Raster | Récapitule les valeurs pour des attributs d'entités de lignes dans un voisinage défini et attribue des valeurs aux cellules dans le raster en sortie | ||
Raster ou entités surfaciques | Raster ou table récapitulative | Récapitule les valeurs d'une surface raster par catégories ou classes (zones) du raster en entrée ou de jeu de données de polygone |
Outils d'exploration de données
GeoStatistical Analyst, tout en se concentrant sur la création de surfaces à partir d'un ensemble de points d'échantillonnage, contient un ensemble d'outils pour l'exploration visuelle des valeurs de données, à l'aide de diagrammes et de graphiques. Ceux-ci sont souvent utilisés avant la création de surfaces, pour décider quels paramètres utiliser pour un ensemble spécifique de données, mais ils servent aussi généralement à explorer un jeu de données. Ces outils permettent de déterminer la distribution de valeurs, s'il y a une tendance directionnelle dans les données, et s'il existe des relations entre deux attributs (par exemple, pour voir si les valeurs varient ensemble, ou inversement). Les outils sont disponibles par le biais de l'option Explorer des données de la barre d'outils GeoStatistical Analyst.