Fonctionnement de l'analyse de points chauds optimisée—Aide

Evaluation initiale des données
Agrégation des incidents
Echelle de l'analyse
Analyse de points chauds
Sortie
Ressources supplémentaires

L'analyse de points chauds optimisée exécute l'outil Analyse de points chauds (Getis-Ord Gi*) à l'aide des paramètres découlant des caractéristiques de vos données en entrée. Tout comme le réglage automatique d'un appareil photo numérique se fonde sur l'éclairage et le sujet pour déterminer l'ouverture, la vitesse d'obturation et la mise au point appropriées, l'outil Analyse de points chauds optimisée interroge vos données pour connaître les paramètres qui donneront les meilleurs points chauds. Si, par exemple, le jeu de données Entités en entrée contient des données ponctuelles d'incident, l'outil agrège les incidents en entités pondérées. En utilisant la distribution des entités pondérées, l'outil identifie une échelle d'analyse appropriée. La signification statistique indiquée dans les entités en sortie est automatiquement ajustée pour tenir compte des tests multiples et de la dépendance spatiale à l'aide de la méthode de correction FDR (False Discovery Rate).

Chacune des décisions prises par l'outil afin d'obtenir les meilleurs résultats possibles est signalée en tant que messages au cours de l'exécution de l'outil et une explication de ces décisions est présentée dessous.

Tout comme le mode manuel de votre appareil photo vous permet de remplacer les paramètres automatiques, l'outil Analyse de points chauds (Getis-Ord Gi*) vous confère un contrôle total sur toutes les options de paramètre. Exécutez l'outil Analyse de points chauds optimisée et prenez note des paramètres qu'il utilise pour affiner et contrôler entièrement les paramètres de l'outil Analyse de points chauds (Getis-Ord Gi*).

Le workflow de l'outil Analyse de points chauds optimisée comprend les composants suivants. Les calculs et les algorithmes utilisés au sein de chacun de ces composants sont décrits ci-dessous.

Evaluation initiale des données

Dans ce composant, les entités en entrée, ainsi que le champ d'analyse, les polygones d'emprise définissant l'endroit où les incidents sont possibles et les polygones d'agrégation des incidents en points facultatifs, sont examinés avec soin pour s'assurer que le nombre d'entités et la variation adéquate des valeurs à analyser sont suffisants. Si l'outil rencontre des enregistrements dont la géométrie est endommagée ou absente, ou si un champ d'analyse est spécifié et que des valeurs Null sont présentes, les enregistrements associés sont répertoriés comme des enregistrements incorrects et sont exclus de l'analyse.

L'outil Analyse de points chauds optimisée utilise la statistique Getis-Ord Gi* et, tout comme de nombreuses méthodes statistiques, les résultats ne sont pas fiables si le nombre d'entités est inférieur à 30. Si vous fournissez des entités en entrée de type polygone ou des entités en entrée de type point, ainsi qu'un champ d'analyse, vous avez besoin d'au moins 30 entités pour utiliser cet outil. Le nombre minimal de polygones d'agrégation des incidents en points est également de 30. La couche d'entités représentant les polygones d’emprise définissant l’endroit où les incidents sont possibles peut inclure un ou plusieurs polygones.

Pour la statistique Gi*, des valeurs doivent également être associées à chaque entité analysée. Lorsque les entités en entrée que vous fournissez représentent des données d'incident (lorsque vous n'indiquez pas de champ d'analyse), l'outil agrège les incidents et les nombres d'incidents servent de valeurs à analyser. Au terme du processus d'agrégation, 30 entités au moins doivent toujours être présentes. Il est par conséquent préférable de commencer avec plus de 30 entités pour les données d'incident. Le tableau ci-dessous présente le nombre minimal d'entités pour chaque méthode d'agrégation des données d'incident :

Nombre minimal d'incidents	Méthode d'agrégation	Nombre minimal d'entités après l'agrégation
60	COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS, sans indiquer les polygones d'emprise définissant l'endroit où les incidents sont possibles	30
30	COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS, lorsque vous indiquez une classe d'entités pour le paramètre Polygones d'emprise définissant l'endroit où les incidents sont possibles	30
30	COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS	30
60	SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS	30

La statistique Gi* a également été conçue pour un champ d'analyse avec différentes valeurs. La statistique ne convient pas aux données binaires par exemple. L'outil Analyse de points chauds optimisée vérifie le champ d'analyse pour s'assurer que les valeurs présentent au moins une certaine variation.

Si vous spécifiez un chemin d'accès pour la surface de densité, ce composant du workflow de l'outil vérifie également le paramètre d'environnement du masque d'analyse raster. Si aucun masque d'analyse raster n'est défini, il crée une enveloppe convexe autour des points d'incident afin de découper la couche raster de surface de densité en sortie. Le paramètre Surface de densité est activé uniquement si vos entités en entrée sont des points et si l'Extension ArcGIS Spatial Analyst est installée. Il est activé uniquement pour la méthode d'agrégation des données d'incident SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS.

Les points aberrants d'emplacement sont des entités beaucoup plus éloignées des entités voisines que la majorité des entités du jeu de données. Imaginez un environnement urbain avec de grandes villes à forte densité de population au centre et des villes plus petites, moins densément peuplées, à la périphérie. Si vous calculez la distance moyenne du voisin le plus proche pour ces villes, le résultat est moindre si vous excluez les points aberrants d'emplacement situés à la périphérie et si vous vous concentrez uniquement sur les villes proches du centre urbain. Ceci est un exemple de l'impact significatif que peuvent avoir les points aberrants d'emplacement sur les statistiques spatiales, telles que Moyenne du voisin le plus proche. Comme l'outil Analyse de points chauds optimisée utilise les calculs de la moyenne et de la médiane du voisin le plus proche pour l'agrégation et pour identifier une échelle d'analyse adéquate, le composant Evaluation initiale des données de l'outil identifie également les points aberrants d'emplacement des entités en entrée ou des polygones d'agrégation des incidents en points et signale le nombre qu'il obtient. Pour ce faire, l'outil calcule la distance moyenne du voisin le plus proche de chaque entité et évalue la distribution de toutes ces distances. Les entités qui se trouvent à plus de trois écarts types de leur voisin non coïncident le plus proche sont considérées comme des points aberrants d'emplacement.

Agrégation des incidents

Pour les données d'incident, le prochain composant du workflow agrège vos données. Trois approches sont disponibles, selon la Méthode d’agrégation des données d’incident que vous sélectionnez. Les algorithmes de chacune de ces approches sont décrits ci-dessous.

COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS :
1. Réduisez les points coïncidents qui donnent un seul point à chaque emplacement unique du jeu de données, à l'aide de la méthode utilisée par l'outil Collecter les événements.
2. Calculez les distances moyenne et médiane du voisin le plus proche sur tous les points d'emplacement uniques, à l'exclusion des points aberrants d'emplacement. La distance moyenne du voisin le plus proche (ANN) est calculée en ajoutant la distance du voisin le plus proche de chaque entité et en divisant par le nombre d'entités (N). La distance médiane du voisin le plus proche (MNN) est calculée en triant les distances du voisin le plus proche par ordre croissant et en sélectionnant la distance qui se trouve au milieu de la liste triée.
3. Définissez la taille de cellule initiale (CS) sur ANN ou MNN, selon la valeur qui est la plus élevée.
4. Ajustez la taille de cellule pour prendre en compte les points coïncidents. Valeur moins élevée = MIN(ANN,MNN) ; Valeur plus élevée = MAX(ANN,MNN). Scalaire = MAX((Valeur plus élevée/Valeur moins élevée),2). La taille de cellule ajustée devient CS * Scalaire.
5. Créez un maillage de polygones de quadrillage avec la taille de cellule ajustée et superposez le maillage avec les points d'incident.
6. Comptabilisez le nombre d'incidents dans chaque cellule de polygone.
7. Si vous indiquez des Polygones d'emprise définissant l'endroit où les incidents sont possibles, toutes les cellules de polygone au sein des polygones d'emprise sont conservées. Si vous n'indiquez pas de Polygones d'emprise définissant l'endroit où les incidents sont possibles, les cellules de polygone comptant zéro incident sont supprimées.
8. Si le processus d'agrégation renvoie moins de 30 cellules de polygone ou si les nombres dans toutes les cellules de polygone sont identiques, un message indiquant que les entités en entrée que vous avez fournies ne conviennent pas à la méthode d'agrégation des données d'incident sélectionnée apparaît. Sinon, le composant d'agrégation de cette méthode s'exécute correctement.

COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS :
1. Pour cette méthode d'agrégation des données d'incident, une couche d'entités des polygones d'agrégation des incidents en points est requise. Les polygones d'agrégation superposent les points d'incident.
2. Comptabilisez le nombre d'incidents dans chaque polygone.
3. Vérifiez que les nombres d'incidents varient suffisamment pour l'analyse. Si, au terme du processus d'agrégation, tous les polygones ont le même nombre d'incidents, un message indiquant que les données ne conviennent pas à la méthode d'agrégation des données d'incident sélectionnée apparaît.

SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS :
1. Réduisez les points coïncidents qui donnent un seul point à chaque emplacement unique du jeu de données, à l'aide de la méthode utilisée par l'outil Collecter les événements. Comptabilisez le nombre d'entités d'emplacement uniques (UL).
2. Calculez les distances moyenne et médiane du voisin le plus proche sur tous les points d'emplacement uniques, à l'exclusion des points aberrants d'emplacement. La distance moyenne du voisin le plus proche (ANN) est calculée en ajoutant la distance du voisin le plus proche de chaque entité et en divisant par le nombre d'entités (N). La distance médiane du voisin le plus proche (MNN) est calculée en triant les distances du voisin le plus proche par ordre croissant et en sélectionnant la distance qui se trouve au milieu de la liste triée.
3. Définissez la distance de capture initiale (SD) sur ANN ou MNN, selon la valeur qui est la moins élevée.
4. Ajustez la distance de capture pour prendre en compte les points coïncidents. Scalaire = (UL/N) où N est le nombre d'entités de la couche des entités en entrée. La distance de capture ajustée devient SD * Scalaire.
5. Intégrez les points d'incident en trois itérations, en multipliant d'abord la distance de capture ajustée par 0,10, puis en multipliant la distance de capture ajustée par 0,25 et enfin, en les intégrant à une distance de capture égale à la distance de capture entièrement ajustée. L'exécution de cette procédure en trois phases permet de réduire la distortion des emplacements des points d'origine.
6. Réduisez les points capturés qui donnent un seul point à chaque emplacement avec une pondération pour indiquer le nombre d'incidents qui ont été capturés ensemble. Cette partie du processus d'agrégation utilise la méthode Collecter les événements.
7. Si le processus d'agrégation renvoie moins de 30 points pondérés, ou si les nombres de tous les points sont identiques, un message indiquant que les entités en entrée que vous avez fournies ne conviennent pas à la méthode d'agrégation des données d'incident sélectionnée apparaît. Sinon, le composant d'agrégation de cette méthode s'exécute correctement.

Echelle de l'analyse

Le composant suivant du workflow Analyse de points chauds optimisée s'applique aux entités pondérées soit parce que vous avez indiqué des entités en entrée avec un champ d'analyse, soit parce que la procédure d'agrégation des incidents a généré des pondérations à partir des nombres d'incidents. La prochaine étape consiste à identifier une échelle d'analyse appropriée. L'échelle d'analyse idéale est une distance qui correspond à l'échelle de la question que vous posez (si vous recherchez les points chauds d'une épidémie et que vous savez que le moustique vecteur de la maladie a une portée de 10 miles, par exemple, vous pouvez dans ce cas utiliser une distance de 10 miles). Lorsqu'il n'est pas possible de connaître la distance précise à utiliser pour l'échelle d'analyse, certaines stratégies peuvent vous aider. L'outil Analyse de points chauds optimisée utilise ces stratégies.

La première stratégie tentée est l'autocorrélation spatiale incrémentielle. Dès lors que vous remarquez une agrégation spatiale dans le paysage, vous voyez la preuve de l'existence de processus spatiaux sous-jacents. L'outil Autocorrélation spatiale incrémentielle exécute la statistique de l'indice global de Moran pour une série de distances de plus en plus élevées, mesurant l'intensité de l'agrégation spatiale pour chacune d'elles. L'intensité de l'agrégation est déterminée par le score z obtenu. Au fur et à mesure que la distance augmente, le score z fait de même, indiquant l'intensification de l'agrégation. Cependant, à une certaine distance , le score z atteint généralement un pic. Les pics représentent des distances où les processus spatiaux qui favorisent l'agrégation sont les plus prononcés. L'outil Analyse de points chauds optimisée recherche les pics de distance à l'aide de l'autocorrélation spatiale incrémentielle. Si un pic de distance est trouvé, cette distance devient l'échelle d'analyse. Si plusieurs pics de distance sont détectés, le premier pic de distance est sélectionné.

Si aucun pic de distance n'est identifié, l'analyse de points chauds optimisée examine la distribution spatiale des entités et calcule la distance moyenne pouvant générer K voisins pour chaque entité. La valeur K est calculée de la manière suivante : 0,05 * N, où N est le nombre d'entités de la couche des entités en entrée. La valeur K est ajustée afin de ne jamais être inférieure à 3 ou supérieure à 30. Si la distance moyenne pouvant générer K voisins dépasse une distance standard, l'échelle d'analyse est définie sur une distance standard. Sinon, elle reflète la distance moyenne de K voisins.

L'étape d'autocorrélation spatiale incrémentielle peut prendre du temps pour les jeux de données volumineux et denses. Par conséquent, lorsqu'une entité qui comprend 500 voisins ou plus est rencontrée, l'analyse incrémentielle est ignorée et la distance moyenne pouvant générer 30 voisins est calculée et utilisée pour l'échelle d'analyse.

La distance qui reflète l'échelle d'analyse est indiquée dans la fenêtre Résultats et sert à effectuer l'analyse de points chauds. Si vous fournissez un chemin d'accès pour le paramètre Surface de densité, cette distance optimale sert également de rayon de recherche avec l'outil Densité de noyau. Cette distance correspond au paramètre Canal distance ou distance seuil utilisé par l'outil Analyse de points chauds (Getis-Ord Gi*).

Analyse de points chauds

A ce stade du workflow Analyse de points chauds optimisée, tous les contrôles et tous les paramètres ont été réalisés. L'étape suivante consiste à exécuter la statistique Getis-Ord Gi*. Vous trouverez plus d'informations sur cette statistique dans la rubrique Fonctionnement de l'analyse de points chauds (Getis-Ord Gi*). Les résultats de la statistique Gi* sont automatiquement corrigés pour tenir compte des tests multiples et de la dépendance spatiale à l'aide de la méthode de correction FDR (False Discovery Rate). Les messages de la fenêtre Résultats récapitulent le nombre d'entités identifiées comme des points chauds ou froids statistiquement significatifs, une fois la correction FDR appliquée.

Sortie

Le dernier composant de l'outil Analyse de points chauds optimisée permet de créer les entités en sortie et, si spécifiée, la couche raster de surface de densité. Si les entités en entrée représentent les données d'incident qui nécessitent une agrégation, les entités en sortie reflètent les entités pondérées agrégées (des cellules de polygone de quadrillage, les polygones d'agrégation que vous avez fournis pour le paramètre Polygones d'agrégation des incidents en points ou des points pondérés). Chaque entité comporte un score z, une valeur de p et un résultat Gi Bin.

Lorsqu'elle est spécifiée, la surface de densité est créée à l'aide de l'outil Densité de noyau. Le rayon de recherche de cet outil est identique à l'échelle de la distance d'analyse utilisée pour l'analyse de points chauds. Le rendu par défaut est constitué de valeurs étirées le long d'un dégradé de couleurs en nuances de gris. Si un masque d'analyse raster est spécifié dans les paramètres d'environnement, la surface de densité en sortie est découpée sur le masque d'analyse. Si aucun masque d'analyse raster n'est spécifié, la surface de densité est découpée sur une enveloppe convexe autour des centroïdes des entités en entrée.

Ressources supplémentaires

Getis, A. et Aldstadt, J. (2004). Ord. 1992. "The Analysis of Spatial Association by Use of Distance Statistics" dans Geographical Analysis 24(3).

Getis, A. et Aldstadt, J. (2004). 1995. "Local Spatial Autocorrelation Statistics: Distributional Issues and an Application" dans Geographical Analysis 27(4).

La page Spatial Statistics Resources propose des vidéos rapides, des didacticiels, des séminaires Web, des articles et différents autres supports pour vous aider à utiliser les statistiques spatiales.