Analyse de points aberrants optimisée—Aide

Résumé
Illustration
Utilisation
Syntaxe
Exemple de code
Environnements
Informations de licence

Résumé

À partir de points d'incident ou d'entités pondérées (points ou polygones), crée une carte de points chauds, de points froids et de points spatiaux aberrants statistiquement significatifs à l'aide de la statistique Anselin Local Moran's I. Il évalue les caractéristiques de la classe d'entités en entrée pour générer des résultats optimaux.

Pour en savoir plus sur le fonctionnement de l'analyse de points aberrants optimisée

Illustration

Utilisation

Cet outil identifie les agrégats spatiaux statistiquement significatifs des valeurs élevées (points chauds) et des valeurs basses (points froids) ainsi que des points aberrants élevés et bas au sein de votre jeu de données. Il agrège automatiquement les données d'incident, identifie une échelle d'analyse appropriée et corrige les résultats en tenant compte des tests multiples et de la dépendance spatiale. Cet outil interroge vos données afin de déterminer les paramètres qui génèrent des résultats d'analyse de grappes et de points aberrants optimaux. Si vous souhaitez entièrement contrôler ces paramètres, utilisez à la place l'outil Analyse de grappes et de valeurs aberrantes.
Remarque :
Les données d'incidents sont des points représentant des événements (crime, accidents de la circulation) ou des objets (arbres, points de vente) où l'accent est mis sur la présence ou l'absence, plutôt que sur un attribut mesuré associé à chaque point.
Les paramètres calculés utilisés pour générer des résultats d'analyse de grappes et de valeurs aberrantes optimaux sont signalés dans la fenêtre Résultats . Les workflows et algorithmes associés sont expliqués dans la rubrique Fonctionnement de l'analyse de points aberrants optimisée.
Cet outil crée une nouvelle classe d’entités en sortie (Output Feature Class) avec un indice local (I) de Moran (LMiIndex), un score z, pseudo-valeur de p et un type agrégat/point aberrant (COType) pour chaque entité dans la classe d’entités en entrée (Input Feature Class). Il comprend également un champ (NNeighbors) indiquant le nombre de voisins que chaque entité a inclus dans ses calculs.
Le champ COType identifie les agrégats statistiquement très élevés et très bas (HH et LL) ainsi que les points aberrants élevés et bas (HL et LH), corrigés pour tenir compte des tests multiples et de la dépendance spatiale à l’aide de la méthode de correction FDR (False Discovery Rate).
Les scores z et les valeurs p sont des mesures de signification statistique qui indiquent si l'on peut ou non rejeter l'hypothèse nulle, entité par entité. Ces mesures indiquent en effet si la similarité apparente (agrégation spatiale de valeurs élevées ou faibles) ou la dissemblance apparente (point spatial aberrant) est plus prononcée qu'elle ne devrait l'être dans le cadre d'une répartition aléatoire. Les valeurs p et le score z de la classe d'entités en sortie ne reflètent aucune correction FDR (False Discovery Rate). Pour plus d'informations sur les scores z et les valeurs de p, reportez-vous à la rubrique Qu'est-ce qu'un score z ? Qu'est-ce qu'une valeur p ?
Un score z élevé positif pour une entité indique que les entités voisines ont des valeurs similaires (des valeurs élevées ou faibles). Le champ COType de la classe d’entités en sortie (Output Feature Class) sera HH pour un agrégat statistiquement significatif de valeurs élevées et LL pour un agrégat statistiquement significatif de valeurs faibles.
Un faible score z négatif (par exemple, inférieur à 3,96) pour une entité indique un point aberrant de données spatiales statistiquement significatif. Le champ COType de la classe d’entités en sortie (Output Feature Class) indique si l’entité a une valeur élevée et est entourée d’entités de valeurs faibles (HL) ou si l’entité a une valeur faible et est entourée d’entités de valeurs élevées (LH).
Le champ COType indique toujours les agrégats et les points aberrants statistiquement significatifs selon un niveau de confiance de 95 % corrigé FDR. Seules les entités statistiquement significatives ont des valeurs dans le champ COType.
Lorsque la Classe d'entités en entrée n'est pas projetée (c'est-à-dire, lorsque les coordonnées sont exprimées en degrés, minutes et secondes) ou lorsque le système de coordonnées en sortie est un Système de coordonnées géographiques, les distances sont calculées à l'aide des mesures à la corde. Les mesures de distance à la corde permettent de calculer rapidement et de fournir une bonne estimation de distance géodésiques réelles, du moins pour les points situés à environ trente degrés les uns des autres. Les distances de corde reposent sur un sphéroïde aplati. Si l'on prend deux points sur la surface de la Terre, la distance de corde qui les sépare est la longueur d'une ligne qui traverse la Terre en trois dimensions pour relier ces deux points. Les distances à la corde sont exprimées en mètres.
Attention :
Veillez à projeter les données si votre zone d'étude s'étend au-delà de 30 degrés. Les distances à la corde ne constituent pas une bonne estimation des distance géodésiques au-delà de 30 degrés.
Les entités en entrée peuvent être des points ou des polygones. Avec les polygones, un champ d'analyse est requis.
Si vous indiquez un champ d'analyse, il doit contenir plusieurs valeurs. Les formules mathématiques de cette statistique requièrent que la variable analysée fluctue quelque peu ; elle ne peut pas aboutir si toutes les valeurs en entrée sont égales à 1, par exemple.
Grâce au Champ d'analyse, cet outil est adapté à toutes les données (points ou polygones), notamment les données échantillonnées. En fait, il est efficace et fiable même en cas de suréchantillonnage. Lorsque de nombreuses entités sont présentes (suréchantillonnage), l'outil a plus d'informations pour calculer des résultats plus précis et fiables. Lorsqu'un nombre réduit d'entités est présent (sous-échantillonnage) l'outil fait ce qu'il peut pour produire des résultats précis et fiables, mais il a moins d'informations avec lesquelles travailler.
Dans le cas de données ponctuelles, vous pouvez souhaiter quelquefois analyser des valeurs de données associées à chaque entité ponctuelle et vous fournirez par conséquent un champ d'analyse. Dans d'autres cas, vous ne vous intéresserez qu'au modèle spatial (agrégation) des emplacements de points ou des incidents de points. La décision de fournir un champ d'analyse ou non dépend de la question que vous posez.
- L'analyse d'entités ponctuelles avec un champ d'analyse permet de répondre à ce type de question : où les valeurs élevées et faibles s'agrègent-elles ?
- Le champ d'analyse que vous sélectionnez peut représenter ce qui suit :
  - Des nombres (par exemple le nombre d'accidents de circulation aux intersections de rues)
  - Des taux (par exemple, le chômage urbain, où chaque ville est représentée par une entité ponctuelle)
  - Des moyennes (par exemple, le résultat moyen des écoles)
  - Des indices (par exemple, de satisfaction des clients pour les concessions automobiles à travers le pays)
- L'analyse d'entités ponctuelles en l'absence de champ d'analyse permet d'identifier les endroits où l'agrégation de points est inhabituellement (statistiquement significative) intense ou faible. Ce type d'analyse peut répondre à ce type de questions : Où se trouve la majeure partie des points ? Où se trouve un petit nombre de points ?
Si vous ne fournissez pas de champ d'analyse, l'outil agrège vos points afin d'obtenir un nombre de points à utiliser comme champ d'analyse. Il existe trois schémas d'agrégation :
- Pour COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS et COUNT_INCIDENTS_WITHIN_HEXAGON_POLYGONS, une taille de cellule de polygone appropriée est calculée et utilisée pour créer un maillage de polygones de quadrillage, qui est ensuite positionné sur les points d'incident. Les points au sein de chaque cellule de polygone sont comptabilisés. Si aucune couche d'entités des polygones d'emprise définissant l'endroit où les incidents sont possibles n'est fournie, les cellules avec zéro point sont supprimées et seules les cellules restantes sont analysées. Si une couche d'entités des polygones d'emprise est fournie, toutes les cellules qui se trouvent au sein des polygones d'emprise sont conservées et analysées. Les nombres de points pour chaque cellule de polygone sont utilisés comme champ d'analyse.
  Remarque :
  Bien que les polygones de quadrillage constituent la forme d'agrégation la plus courante, les hexagones peuvent être préférables pour certaines analyses.
- Pour COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS et COUNT_INCIDENTS_WITHIN_HEXAGON_POLYGONS, vous devez fournir la couche d'entités des polygones d'agrégation des incidents en nombres. Les incidents de points qui se trouvent au sein de chaque polygone sont comptabilisés, et ces polygones avec leurs nombres associés sont ensuite analysés. La stratégie d'agrégation COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS est appropriée lorsque les points sont associés à des unités administratives, telles que des secteurs, des départements ou des zones scolaires. Vous pouvez également utiliser cette option si vous souhaitez utiliser la même zone d'étude dans plusieurs analyses, afin d'améliorer les comparaisons.
- Pour SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS, une distance de capture est calculée et utilisée pour agréger les points d'incidents voisins. Chaque point agrégé se voit attribuer un nombre reflétant le nombre d'incidents qui ont été capturés ensemble. Les points agrégés sont ensuite analysés avec les nombres d'incidents utilisés comme champ d'analyse. L'option SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS est appropriée lorsque vous disposez d'un grand nombre de points coïncidents, ou presque coïncidents, et que vous souhaitez conserver les aspects du modèle spatial des données de points d'origine. Dans de nombreux cas, vous pouvez essayer à la fois SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS et COUNT_INCIDENTS_WITHIN_HEXAGON_POLYGONS pour voir quel résultat reflète le mieux le modèle spatial des données de points d'origine. Les solutions de quadrillage et hexagonales peuvent artificiellement séparer les incidents de points, mais certaines personnes peuvent interpréter plus facilement ce résultat que les points pondérés.
Attention :
L'analyse de données de points sans préciser de champ d'analyse a un sens uniquement si vous avez tous les incidents de points connus et si vous êtes sûr de l'absence de biais dans la distribution des points que vous analysez. Avec les données échantillonnées, vous allez presque toujours inclure un champ d'analyse (à moins que vous ne soyez particulièrement intéressé par le modèle spatial de votre schéma d'échantillonnage).
Lorsque vous sélectionnez COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS ou COUNT_INCIDENTS_WITHIN_HEXAGON_POLYGONS comme méthode d'agrégation des données d'incident, vous pouvez fournir une couche d'entités des polygones d'emprise définissant l'endroit où les incidents sont possibles. Si aucun polygone d'emprise n'est fourni, l'outil ne peut pas savoir si un emplacement sans incident doit avoir la valeur zéro pour indiquer qu'un incident est possible à cet emplacement (sans s'être produit), ou si l'emplacement doit être supprimé de l'analyse parce qu'aucun incident ne se produira jamais à cet emplacement. Par conséquent, si aucun polygone d'emprise n'est fourni, seules les cellules ayant au moins un incident sont conservées pour l'analyse. Si ce comportement ne correspond pas à vos attentes, vous pouvez fournir une couche d'entités des polygones d'emprise définissant l'endroit où les incidents sont possibles pour vous assurer que tous les emplacements au sein des polygones d'emprise sont conservés. Les cellules de quadrillage ou hexagonales sans incident sous-jacent reçoivent un nombre d'incidents de zéro.
Les incidents qui se trouvent en dehors des polygones d'emprise définissant l'endroit où les incidents sont possibles ou des polygones permettant d’agréger les incidents dans les nombres sont exclus de l'analyse.
Le paramètre Ajustement des performances spécifie le nombre de permutations utilisées dans l'analyse. Le choix du nombre de permutations doit faire l'objet d'un compromis entre précision et augmentation du temps de traitement. L'augmentation du nombre de permutations améliore la précision en augmentant la plage des valeurs possibles pour la pseudo valeur de p.
Les permutations permettent de déterminer la probabilité de trouver la distribution spatiale réelle des valeurs que vous analysez. Pour chaque permutation, les valeurs voisines autour de chaque entité sont réorganisées de manière aléatoire et la valeur de l'index Local Moran's I est calculée. Le résultat est une distribution de référence des valeurs qui est ensuite comparée à la valeur Moran's I réelle observée pour déterminer la probabilité que la valeur observée se trouve dans la distribution aléatoire. La valeur par défaut est de 199 permutations. Cependant, vous pouvez améliorer la distribution aléatoire en augmentant le nombre de permutations, ce qui augmente la précision de la pseudo valeur de p.
L'outil calculera l'échelle d'analyse optimale basée sur les caractéristiques de vos données ou vous pouvez définir l'échelle de l'analyse via le paramètre Distance Band dans les Paramètres de remplacement. Pour les entités sans voisin à cette distance, le Canal distance est étendu de telle sorte que chaque entité a au moins un voisin.
Plutôt que de laisser l'outil choisir les paramètres par défaut optimums pour la taille de cellule de grille et l'échelle d'analyse, les Paramètres de remplacement peuvent être utilisés pour définir la taille de cellule ou le canal distance pour l'analyse.
Remarque :
Alors que plusieurs unités linéaires apparaissent dans la liste déroulante Taille de cellule et Canal de distance, l'outil ne prend en charge que les kilomètres, les mètres, les miles et les pieds.
L'option Taille de cellule vous permet de définir la taille de la grille utilisée pour agréger vos données ponctuelles. Chaque cellule peut avoir, par exemple, des quadrillages de 50 mètres sur 50 mètres. Si vous optez pour l'agrégation avec des hexagones, la taille de cellule correspond à la hauteur de chaque hexagone et la largeur des hexagones obtenus est de deux fois la hauteur divisée par la racine carrée de 3.
Vous devez utiliser les outils Exploration des modèles spatio-temporels ou les outils Générer la matrice de pondérations spatiales et Analyse de grappes et de valeurs aberrantes si vous souhaitez identifier les points chauds spatio-temporels. Pour plus d'informations sur l'analyse d'agrégats spatio-temporels, reportez-vous aux rubriques Exploration des modèles spatio-temporels ou Analyse d'agrégats spatio-temporels.
Les couches peuvent permettre de définir la classe d'entités en entrée. Lorsque vous utilisez une couche avec une sélection, seules les entités sélectionnées sont comprises dans l'analyse.
La couche Output Features (Entités en sortie) est ajoutée automatiquement à la table des matières et le rendu par défaut est appliqué au champ COType. Le rendu est défini par un fichier de couche dans <ArcGIS>\Desktop10.x\ArcToolbox\Templates\Layers. Vous pouvez appliquer à nouveau le rendu par défaut, si nécessaire, en important la symbologie des couches modèle.

Syntaxe

OptimizedOutlierAnalysis(Input_Features, Output_Features, {Analysis_Field}, {Incident_Data_Aggregation_Method}, {Bounding_Polygons_Defining_Where_Incidents_Are_Possible}, {Polygons_For_Aggregating_Incidents_Into_Counts}, {Performance_Adjustment}, {Cell_Size}, {Distance_Band})

Paramètre	Explication	Type de données
Input_Features	Classe d'entités ponctuelles ou surfaciques pour laquelle une analyse des grappes et des valeurs aberrantes est effectuée.	Feature Layer
Output_Features	Classe d'entités en sortie qui reçoit les champs de résultats.	Feature Class
Analysis_Field (Facultatif)	Champ numérique (nombre d'incidents, taux de criminalité, résultats d'examens, etc.) à évaluer.	Field
Incident_Data_Aggregation_Method (Facultatif)	Méthode d'agrégation à utiliser pour créer des entités pondérées pour l'analyse à partir des données ponctuelles d'incident. COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS —Un maillage de polygones de quadrillage se superpose aux données ponctuelles d'incident et le nombre d'incidents au sein de chaque cellule de polygone est comptabilisé. Si aucun polygone d'emprise n'est fourni dans le paramètre Bounding_Polygons_Defining_Where_Incidents_Are_Possible, seules les cellules ayant au moins un incident sont utilisées dans l'analyse. Sinon, toutes les cellules au sein des polygones d'emprise sont analysées. COUNT_INCIDENTS_WITHIN_HEXAGON_POLYGONS —Un maillage de polygones de quadrillage hexagonaux se superpose aux données ponctuelles d'incident et le nombre d'incidents au sein de chaque cellule de polygone est comptabilisé. Si aucun polygone d'emprise n'est fourni dans le paramètre Bounding_Polygons_Defining_Where_Incidents_Are_Possible, seules les cellules ayant au moins un incident sont utilisées dans l'analyse. Sinon, toutes les cellules au sein des polygones d'emprise sont analysées. COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS —Vous fournissez les polygones d'agrégation qui se superposent aux données ponctuelles d'incident dans le paramètre Polygons_For_Aggregating_Incidents_Into_Counts. Les incidents au sein de chaque polygone sont comptabilisés. SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS —Les incidents à proximité sont agrégés ensemble pour créer un seul point pondéré. La pondération de chaque point est le nombre d'incidents agrégés à cet emplacement.	String
Bounding_Polygons_Defining_Where_Incidents_Are_Possible (Facultatif)	Classe d'entités surfaciques définissant l'endroit où les Input_Features d'incident peuvent se produire.	Feature Layer
Polygons_For_Aggregating_Incidents_Into_Counts (Facultatif)	Polygones à utiliser pour agréger les Input_Features d'incident afin d'obtenir un nombre d'incidents pour chaque entité surfacique.	Feature Layer
Performance_Adjustment (Facultatif)	Cette analyse utilise les permutations pour créer une distribution de référence. Le choix du nombre de permutations doit faire l'objet d'un compromis entre précision et augmentation du temps de traitement. Choisissez entre la vitesse et la précision. Des résultats plus robustes et plus précis sont plus longs à calculer. QUICK_199 —Avec 199 permutations, la pseudo valeur de p la plus petite possible est 0,005 et toutes les autres pseudo valeurs de p sont des multiples pairs de cette valeur. BALANCED_499 —Avec 499 permutations, la pseudo valeur de p la plus petite possible est 0,002 et toutes les autres pseudo valeurs de p sont des multiples pairs de cette valeur. ROBUST_999 —Avec 999 permutations, la pseudo valeur de p la plus petite possible est 0,001 et toutes les autres pseudo valeurs de p sont des multiples pairs de cette valeur.	String
Cell_Size (Facultatif)	Taille des cellules de grille utilisées pour agréger les Input_Features. Lorsque vous effectuez l'agrégation dans un quadrillage, cette distance sert de hauteur pour construire les polygones hexagonaux. Cet outil ne prend en charge que les kilomètres, les mètres, les miles et les pieds.	Linear Unit
Distance_Band (Facultatif)	Etendue spatiale du voisinage d'analyse. Cette valeur désigne les entités qui sont analysées ensemble en vue d'évaluer l'agrégation locale. Cet outil ne prend en charge que les kilomètres, les mètres, les miles et les pieds.	Linear Unit

Exemple de code

1er exemple d'utilisation de l'outil Analyse de points aberrants optimisée (fenêtre Python)

Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil OptimizedOutlierAnalysis.

import arcpy
arcpy.env.workspace = r"C:\OOA"
arcpy.OptimizedOutlierAnalysis_stats("911Count.shp", "911OptimizedOutlier.shp", "#", "SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS", "#", "#", "BALANCED_499", "#", "#")

2ème exemple d'utilisation de l'outil Analyse de points aberrants optimisée (script Python autonome)

Le script Python autonome ci-dessous illustre l'utilisation de l'outil OptimizedOutlierAnalysis.

# Analyze the spatial distribution of 911 calls in a metropolitan area
# Import system modules
import arcpy
# Set property to overwrite existing output, by default
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"C:\OOA\data.gdb"
try:
    # Set the current workspace (to avoid having to specify the full path to the feature classes each time)
    arcpy.env.workspace = workspace
    # Create a polygon that defines where incidents are possible  
    # Process: Minimum Bounding Geometry of 911 call data
    arcpy.MinimumBoundingGeometry_management("Calls911", "Calls911_MBG", "CONVEX_HULL", "ALL", 
                                             "#", "NO_MBG_FIELDS")
    # Optimized Outlier Analysis of 911 call data using fishnet aggregation method with a bounding polygon of 911 call data
    # Process: Optimized Outlier Analysis 
    ooa = arcpy.OptimizedOutlierAnalysis_stats("Calls911", "Calls911_ohsaFishnet", "#", "COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS", 
                                                "Calls911_MBG", "#", "BALANCED_499", , "#", "#") 
except arcpy.ExecuteError:
    # If any error occurred when running the tool, print the messages
    print(arcpy.GetMessages())

Environnements

Système de coordonnées en sortie
Remarque :
La géométrie de l'entité est projetée au système de coordonnées en sortie avant l'analyse. Tous les calculs mathématiques sont basés sur la référence spatiale du système de coordonnées en sortie. Lorsque le système de coordonnées en sortie est exprimé en degrés, minutes et secondes, les distances géodésiques sont estimées à l'aide de distances à la corde.
Transformations géographiques
Espace de travail courant
Espace de travail temporaire
Noms de champ qualifiés
Valeurs M en sortie
Résolution M
Tolérance M
Valeurs Z en sortie
Valeur Z en sortie par défaut
Résolution Z
Tolérance Z
Résolution XY
Tolérance XY
Générateur de nombres aléatoires
Remarque :
Le type de générateur de nombres aléatoires utilisé est toujours Mersenne Twister.

Informations de licence

Basic: Oui
Standard: Oui
Advanced: Oui

ArcMap

Analyse de points aberrants optimisée