L'analyse statistique spatiale ne consiste pas à appliquer des méthodes statistiques traditionnelles (non spatiales) à des données spatiales (des données ayant des coordonnées x et y). Les statistiques spatiales intègrent directement l'espace et les relations spatiales dans leurs formules mathématiques (superficie, distance, longueur, etc.). Pour la plupart des statistiques spatiales, ces relations spatiales sont spécifiées formellement via un fichier ou une table de matrice de pondérations spatiales.
Une matrice de pondérations spatiales est une représentation de la structure spatiale des données. Il s'agit d'une quantification des relations spatiales existant entre les entités du jeu de données (ou, tout du moins, d'une quantification du mode de conceptualisation de ces relations). Etant donné que la matrice de pondérations spatiales impose une structure à vos données, vous devez sélectionner une conceptualisation qui reflète au mieux la façon dont les entités interagissent réellement les unes avec les autres (en gardant à l'esprit, bien sûr, l'objet de l'analyse). Si vous mesurez l'agrégation d'une espèce d'arbre particulière de qui se propage par graines dans la forêt, par exemple, un modèle d'inverse de la distance est probablement bien adapté. Toutefois, si vous évaluez la distribution géographique des navetteurs d'une région, le temps de trajet ou le coût de déplacement sera peut-être un meilleur choix.
Bien que son implémentation physique puisse être menée de différentes manières, au plan conceptuel, la matrice de pondérations spatiales est une table NxN (N étant le nombre d'entités dans le jeu de données). Celle-ci contient une ligne et une colonne pour chaque entité. La valeur de cellule pour toute combinaison ligne/colonne donnée est la pondération qui quantifie la relation spatiale entre ces entités de colonne et de ligne.
A la base, il existe deux stratégies pour créer des pondérations destinées à quantifier les relations parmi des entités de données : la pondération binaire ou variable. Pour les stratégies binaires (distance constante, K voisins les plus proches , triangulation de Delaunay, contiguïté ou fenêtre spatio-temporelle), une entité est un voisin (1) ou ne l'est pas (0). Pour les stratégies pondérées (inverse de la distance ou zone d'indifférence), l'impact ou l'influence des entités voisines est variable et les pondérations sont calculées pour refléter cette variation.
Conformément aux paramètres que vous avez spécifiés, l'outil Générer la matrice de pondérations spatiales crée un fichier de matrice de pondérations spatiales (SWM). Les valeurs de relation spatiale dans ce fichier sont stockées à l'aide de techniques de matrice creuse afin de réduire l'espace disque, la mémoire et le nombre de calculs requis. Ces valeurs de relation sont utilisées dans les formules mathématiques de plusieurs outils de statistique spatiale, notamment Spatial Autocorrelation (Global Moran's I), Hot Spot Analysis (Getis-Ord Gi*) et Cluster and Outlier Analysis (Anselin Local Moran's I). Bien que le fichier de matrice de pondérations spatiales puisse théoriquement stocker NxN relations spatiales, dans la plupart des cas, chaque entité n'est liée qu'à quelques autres. La méthodologie de matrice creuse exploite ce trait en stockant uniquement les relations non nulles.
Ressources supplémentaires
Getis, Arthur et Jared Aldstadt. "Constructing the Spatial Weights Matrix Using a Local Statistic." Geographical Analysis, 36(2): 90–104, 2004.
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.