Analyse statistique—Aide

Utilisations de l'analyse statistique
Types d'analyse statistique
Fonctions d'analyse statistique

Les informations relatives aux attributs d'entités et à leur localisation sont inhérentes aux données SIG. Ces informations servent à créer des cartes qui peuvent être analysées visuellement. L'analyse statistique vous aide à extraire de vos données SIG des informations complémentaires qui peuvent ne pas être évidentes en regardant une carte. Il s'agit par exemple de la façon dont les valeurs attributaires sont distribuées, s'il y a des tendances spatiales dans les données ou si les entités forment des modèles spatiaux. A la différence des fonctions de requête (comme identifier ou sélection, qui fournissent des informations au sujet d'entités individuelles), l'analyse statistique révèle les caractéristiques d'un ensemble d'entités dans son intégralité.

Certaines des techniques d'analyse statistique décrites dans ce document sont particulièrement adaptées aux applications interactives, telles qu'ArcMap, qui vous permettent de sélectionner et d'afficher des données dans un environnement ad hoc et fluide. Certaines des méthodes décrites ici se trouvent dans les menus et les barres d'outils d'ArcMap et n'ont pas d'équivalents parmi les outils de géotraitement. D'autres méthodes, telles que les outils de statistiques spatiales, sont implémentées seulement en tant qu'outils de géotraitement.

Utilisations de l'analyse statistique

L'analyse statistique est souvent utilisée pour explorer les données : par exemple, pour examiner la distribution des valeurs d'un attribut particulier ou pour repérer des points aberrants (valeurs très élevées ou très basses). Il est utile de disposer de ces informations lors de la définition de classes et de plages sur une carte, de la reclassification de données ou de la recherche d'erreurs dans les données.

Dans l'exemple ci-après, les statistiques ont été calculées pour la répartition des personnes âgées par secteur de recensement dans cette région (pourcentage de personne de 65 ans et plus dans chaque secteur), avec la moyenne et l'écart type, ainsi qu'un histogramme illustrant la répartition des valeurs. La plupart des secteurs ont un pourcentage d'aînés inférieur à la moyenne, mais certains ont un pourcentage très élevé.

Résumé statistique et histogramme complètent la symbologie

L'analyse statistique sert aussi à la récapitulation des données. Elle se fait souvent pour les catégories, par exemple pour calculer la surface totale de chaque catégorie d'utilisation du sol. Vous pouvez aussi créer des résumés spatiaux, par exemple calculer l'altitude moyenne de chaque bassin versant. Les données récapitulatives permettent de mieux appréhender les conditions d'une zone d'étude.

Dans l'exemple ci-après, les résumés statistiques ont été calculés pour chaque classe d'utilisation du sol, pour montrer le nombre de parcelles de cette classe, la taille de la parcelle la plus petite et la plus grande, la taille moyenne des parcelles et la surface totale de la classe.

La taille d'entité de parcelle pouvant varier avec la classe d'utilisation du sol, les statistiques peuvent montrer le modèle.

Les résumés statistiques peuvent révéler des modèles dans les données.

L'analyse statistique permet également d'identifier et de confirmer des modèles spatiaux, comme le centre d'un groupe d'entités, la tendance directionnelle, ou si les entités forment des agrégats. Alors que les modèles peuvent être apparents sur une carte, il peut s'avérer difficile de tenter de tirer des conclusions d'une carte. La façon dont vous classez et symbolisez les données peut brouiller ou accentuer les modèles. Les fonctions statistiques analysent les données sous-jacentes et vous donnent une mesure servant à confirmer l'existence et la force du modèle.

Ci-dessous, vous trouverez un exemple d'analyses qui montrent le centre moyen d'un ensemble de cambriolages, et l'ellipse d'écart type pour un ensemble de points d'observation d'élans (montrant la tendance directionnelle).

Les statistiques spatiales peuvent faire apparaître des modèles géographiques ou des tendances.

Ci-dessous, vous trouverez un exemple d'analyse qui montre des agrégats de secteurs de recensement comptant un grand nombre (orange) ou peu (bleu) de personnes âgées, qui sont importantes sur le plan statistique.

Types d'analyse statistique

Les fonctions d'analyse statistique d'ArcGIS for Desktop sont soit non spatiales (tabulaires) soit spatiales (contenant des localisations).

Les statistiques non spatiales servent à l'analyse des valeurs attributaires associées aux entités. L'accès aux valeurs se fait directement à partir de la table attributaire d'entités d'une couche. Parmi les exemples de statistiques non spatiales, citons la moyenne et l'écart type.

Dans cet exemple, l'outil Résumés statistiques a été utilisé pour calculer le nombre de parcelles vacantes pour un ensemble de secteurs de recensement, y compris le total, la moyenne et l'écart type.

Les diagrammes et les graphiques, tels qu'un histogramme ou un tracé QQ, constituent une autre façon d'analyser des données non spatiales. Dans tous les cas, seules les valeurs sont analysées. Les localisations des entités avec lesquelles les valeurs sont associées (et les relations spatiales entre les entités) ne sont pas prises en compte.

Dans cet exemple, l'histogramme montre la répartition de parcelles vacantes (le nombre de parcelles vacantes le long de l'axe des x et le nombre de secteurs dans chaque plage le long de l'axe des y).

Les histogrammes montrent la distribution des valeurs des données.

Un tracé QQ permet d'évaluer la similarité de la distribution d'un ensemble de valeurs avec celle d'une répartition normale standard (la courbe en forme de cloche classique d'un histogramme). La ligne d'un tracé QQ normal montre les valeurs attendues pour une distribution normale - plus les valeurs sont proches de la ligne, plus la distribution est proche de la normale. Dans cet exemple, la concentration des éléments phosphoriques dans un ensemble d'échantillons de sol est proche de la distribution normale.

Un tracé QQ normal compare les valeurs de distribution des données avec une distribution normale.

L'outil Tracé QQ Normal est l'un des outils d'exploration des données disponibles avec l'extension Geostatistical Analyst.

Les statistiques spatiales, en revanche, se concentrent sur les relations spatiales entre entités : si les entités sont compactes ou dispersées, si elles sont orientées dans une direction particulière, et si elles forment des agrégats. La relation spatiale est généralement définie en tant que distance (de quelle distance les entités sont séparées) mais peut aussi prendre d'autres formes d'interaction entre les entités.

Dans l'exemple ci-dessous, la sortie de l'outil Distance standard (sous forme de cercle) est calculée en utilisant la distance entre chaque observation d'animaux et le centre calculé des observations.

Distance standard et centre moyen d'un groupe de points

Certaines statistiques spatiales tiennent compte des relations spatiales d'entités et des valeurs d'un attribut associé aux entités. C'est ce que l'on appelle les statistiques pondérées : la relation spatiale est influencée par les valeurs. Les statistiques spatiales pondérées servent à trouver si les entités qui ont des valeurs semblables surviennent ensemble - si, par exemple, des écoles avec des résultats de même niveau élevé ou bas forment des agrégats.

Dans l'exemple ci-après, le centre des parcs est pondéré par le nombre de visiteurs dans chaque parc (représenté par la taille des cercles verts).

Les fonctions statistiques peuvent aussi être classées selon si elles sont descriptives ou inférentielles. Les statistiques descriptives résument certaines caractéristiques des valeurs ou entités que vous analysez : la valeur moyenne, la fréquence de distribution des valeurs, ou la tendance directionnelle d'un groupe d'entités. Les statistiques descriptives sont souvent utiles pour comparer deux ensembles d'entités pour la même surface.

L'exemple suivant compare la répartition des personnes âgées (haut) avec celle des enfants de moins de 5 ans (bas) pour le même ensemble de secteurs de recensement.

Les histogrammes et les résumés statistiques sont une méthode de comparaison des populations.

Dans l'exemple ci-après, les cercles de distance standard pour les populations d'origine amérindienne et africaine aux Etats-Unis montrent que la répartition de la population d'origine africaine dans ce secteur est beaucoup plus compacte.

La distance standard et les centres moyens sont une méthode de comparaison des populations.

Les statistiques inférentielles utilisent la théorie des probabilités pour prévoir l'occurrence possible de valeurs (à l'aide d'un ensemble de valeurs connues), ou pour évaluer la probabilité qu'un modèle ou une tendance visible dans les données n'est pas le fait du hasard. La fonction fournit une mesure du modèle ou de la relation. Vous effectuez ensuite un test statistique sur cette mesure, pour déterminer son niveau de confiance. Si l'analyse statistique indique que des cambriolages se produisent dans des agrégats, vous effectuez un test pour déterminer la possibilité de l'intervention du hasard dans la constitution des agrégats. Par exemple, vous pouvez trouver 90 % de chances que les agrégats ne sont pas survenues par hasard, ce qui indique que les cambriolages sont probablement liés entre eux d'une façon ou d'une autre. Essentiellement en vue de déterminer la probabilité, le test compare la mesure que vous obtenez pour les entités existantes à la mesure attendue pour le même nombre d'entités réparties sur la même zone, mais distribuée aléatoirement.

Dans l'exemple ci-après, la carte de gauche montre les agrégats de secteurs de recensement comptant un nombre élevé de personnes âgées (orange) ou un nombre faible (bleu), à un niveau de probabilité de 90 %. La carte de droite montre des agrégats à un niveau de probabilité de 99 %.

Comparaison des agrégats détectées à des niveaux différents de probabilité.

Fonctions d'analyse statistique

Les fonctions statistiques d'ArcGIS for Desktop se trouvent dans ArcMap, ArcCatalog et le géotraitement, ainsi que dans deux extensions : Spatial Analyst et GeoStatistical Analyst.

Statistiques de table

Un ensemble principal de statistiques descriptives qui récapitulent les valeurs pour un seul champ est disponible à plusieurs emplacements d'ArcGIS for Desktop, la fenêtre de la table d'ArcMap, l'onglet d'aperçu de la table d'ArcCatalog, et le jeu d'outils Statistiques (dans la boîte à outils d'analyse).

Fonction	Emplacement	Statistiques	Sortie
Option du menu Statistiques	Fenêtre de table d'ArcMap ou onglet d'aperçu de table d'ArcCatalog	Total, Minimum, Maximum, Somme, Moyenne, Ecart type, Histogramme de fréquence	Les résultats s'affichent dans une fenêtre.
Outil Résumés statistiques	Boîte à outils Analyse/jeu d'outils Statistiques	Minimum, Maximum, Somme, Moyenne, Ecart type, Plage, Premier, Dernier	Les résultats sont écrits dans une nouvelle table.

Tableau des principales fonctions de résumés statistiques pour un champ unique

Pour récapituler un champ par un ou plusieurs autres champs (par exemple, pour compter le nombre de parcelles dans chaque classe d'utilisation du sol, additionner la surface dans chaque classe d'utilisation du sol ou trouver la taille moyenne de parcelle dans chaque classe), utilisez l'option Récapituler de la fenêtre de table d'ArcMap, ou l'outil Fréquence du jeu d'outils Statistiques de la boîte à outils Analyse.

Fonction	Emplacement	Statistiques	Sortie
Option du menu Récapituler	Fenêtre de table d'ArcMap (cliquer avec le bouton droit sur un nom de champ)	Minimum, Maximum, Moyenne, Somme, Ecart type, Variance	Les résultats sont écrits dans une nouvelle table.
Outil Fréquence	Boîte à outils Analyse/jeu d'outils Statistiques	Total, Somme	Les résultats sont écrits dans une nouvelle table.

Tableau des principales fonctions de résumés statistiques pour plusieurs champs

Statistiques spatiales

La boîte à outils Statistiques spatiales contient un certain nombre de routines statistiques pour l'analyse de la distribution d'un ensemble d'entités, l'analyse de modèles et l'identification d'agrégats.

Domaine fonctionnel	Jeu d'outils	Outils
Mesures de distribution géographique	Mesure de distributions géographiques	Centre moyen, Entité centrale, Standard Distance, Directional Distribution (Standard Deviational Ellipse), Direction moyenne linéaire
Analyse de modèle géographique	Analyse de modèles	Average Nearest Neighbor, Spatial Autocorrelation (Moran's I), High/Low Clustering (Getis-Ord General G)
Analyse d'agrégats géographiques	Appariement d’agrégats	Cluster and Outlier Analysis (Anselin Local Moran's I), Hot Spot Analysis (Getis-Ord Gi*)
Analyse de régression	Modélisation de relations spatiales	Moindres carrés ordinaires, Régression exploratoire, Régression pondérée géographiquement

Fonctions et emplacements des outils de statistiques spatiales

Statistiques raster

L'extension Spatial Analyst comprend plusieurs fonctions statistiques servant à analyser des rasters, principalement pour récapituler des valeurs attributaires et attribuer les résumés statistiques aux cellules dans une nouvelle couche raster. Celles-ci se trouvent dans plusieurs jeux d'outils différents de la boîte à outils Spatial Analyst.

Outil	Emplacement	Entrée	Sortie	Utilité
Statistiques de cellule	Jeu d'outils Local	Rasters multiples	Raster	Calcule les statistiques spécifiées pour chaque cellule en fonction de plusieurs entrées
Statistiques focales	Jeu d'outils Voisinage	Raster	Raster	Récapitule les valeurs d'un raster dans un voisinage défini autour de chaque cellule et attribue la valeur à cette cellule dans le raster en sortie
Statistiques de points	Jeu d'outils Voisinage	Entités ponctuelles	Raster	Récapitule les valeurs pour des attributs d'entités ponctuelles dans un voisinage défini et attribue des valeurs aux cellules dans le raster en sortie
Statistiques de lignes	Jeu d'outils Voisinage	Entités linéaires	Raster	Récapitule les valeurs pour des attributs d'entités de lignes dans un voisinage défini et attribue des valeurs aux cellules dans le raster en sortie
Statistiques zonales	Jeu d'outils Zonaux	Raster ou entités surfaciques	Raster ou table récapitulative	Récapitule les valeurs d'une surface raster par catégories ou classes (zones) du raster en entrée ou de jeu de données de polygone

Tableau récapitulatif des outils de statistiques raster

Outils d'exploration de données

GeoStatistical Analyst, tout en se concentrant sur la création de surfaces à partir d'un ensemble de points d'échantillonnage, contient un ensemble d'outils pour l'exploration visuelle des valeurs de données, à l'aide de diagrammes et de graphiques. Ceux-ci sont souvent utilisés avant la création de surfaces, pour décider quels paramètres utiliser pour un ensemble spécifique de données, mais ils servent aussi généralement à explorer un jeu de données. Ces outils permettent de déterminer la distribution de valeurs, s'il y a une tendance directionnelle dans les données, et s'il existe des relations entre deux attributs (par exemple, pour voir si les valeurs varient ensemble, ou inversement). Les outils sont disponibles par le biais de l'option Explorer des données de la barre d'outils GeoStatistical Analyst.

Rubriques connexes

Introduction aux outils SIG couramment utilisés