Analyse de valeurs aberrantes locales—Aide

Résumé
Illustration
Utilisation
Syntaxe
Exemple de code
Environnements
Informations de licence

Résumé

Identifie les grappes et points aberrants statistiquement significatifs dans l'espace et le temps. Cet outil est une implémentation spatio-temporelle de la statistique Anselin Local Morans I.

Pour en savoir plus sur le fonctionnement de l'outil Analyse des points chauds émergents

Illustration

Utilisation

Cet outil peut uniquement accepter des fichiers netCDF créés par l'outil Créer un cube spatio-temporel en agrégeant des points.
Chaque groupe dans le cube spatio-temporel présente une valeur LOCATION_ID, time_step_ID, COUNT, ainsi que les champs de récapitulation qui ont été agrégés lors de la création du cube. Les bins associés au même emplacement physique partagent le même ID d'emplacement et constituent ensemble une série chronologique. Les bins associés au même intervalle temporel partagent le même ID d'intervalle temporel et constituent ensemble une tranche de temps. La valeur numérique de chaque bin représente le nombre de points présents à l'emplacement associé de l'intervalle temporel associé.
Cet outil analyse une variable dans le cube spatio-temporel en entrée netCDF à l'aide d'une implémentation spatio-temporelle de la statistique Anselin Local Morans I.
Les entités en sortie seront ajoutées à la table des matières avec le rendu qui récapitule les résultats de l'analyse spatio-temporelle pour tous les emplacements analysés. Si vous spécifiez un Masque d'analyse de polygone, les emplacements analysés seront ceux qui figurent dans le masque d'analyse. Sinon, les emplacements analysés seront ceux qui présentent au moins un point pour au moins un intervalle temporel.
Outre l'option Classe d’entités en sortie, un récapitulatif d'analyse apparaît dans la fenêtre Résultats. En cliquant avec le bouton droit de la souris sur l'entrée Messages dans la fenêtre Résultats et en sélectionnant Affichage, vous affichez le récapitulatif d'analyse dans une boîte de dialogue Message. Le récapitulatif d'analyse apparaît également dans la boîte de dialogue de progression.
L'outil Analyse de valeurs aberrantes locales identifie les grappes et points aberrants statistiquement significatifs dans l'espace et le temps. Reportez-vous à la section Pour en savoir plus sur le fonctionnement de l'outil Analyse de valeurs aberrantes locales pour accéder aux définitions des catégories en sortie par défaut et obtenir des informations supplémentaires sur les algorithmes utilisés par cet outil d'analyse.
Pour identifier les grappes et points aberrants au sein du cube spatio-temporel, cet outil utilise une implémentation spatio-temporelle de la statistique Anselin Local Moran's I, qui tient compte de la valeur de chaque groupe dans le contexte des valeurs des groupes voisins. Un groupe est considéré comme un voisin lorsque son centroïde se trouve dans la distance de voisinage et que son intervalle temporel est compris dans l'intervalle temporel de voisinage spécifié. Si vous n'indiquez pas de valeur pour Distance du voisinage, une valeur est calculée pour vous en fonction de la distribution spatiale de vos données ponctuelles. Si vous n'indiquez aucune valeur pour l'option Intervalle temporel de voisinage, l'outil utilise une valeur par défaut, à savoir 1 intervalle temporel.
Pour déterminer quels bins sont inclus dans chaque voisinage d'analyse, l'outil trouve d'abord les bins voisins inclus dans la Distance du voisinage spécifiée. Ensuite, pour chacun de ces groupes, il inclut les groupes se trouvant aux mêmes endroits séparés par N phases précédentes, N représentant la valeur d'intervalle temporel de voisinage que vous spécifiez.
La valeur de l'option Intervalle temporel de voisinage représente le nombre d'intervalles temporels à inclure dans le voisinage d'analyse. Si l'intervalle temporel de votre cube équivaut à trois mois, par exemple, et que vous indiquez 2 comme valeur d'Intervalle temporel de voisinage, le nombre total de bins compris dans la Distance du voisinage, ainsi que tous les bins associés pour les deux intervalles temporels précédents (représentant une période de neuf mois) seront inclus dans le voisinage d'analyse.
Les permutations permettent de déterminer la probabilité de trouver la distribution spatiale réelle des valeurs que vous analysez. Pour chaque permutation, les valeurs voisines autour de chaque groupe sont réorganisées de manière aléatoire et la valeur de l'index Local Moran's I est calculée. Le résultat est une distribution de référence des valeurs qui est ensuite comparée à la valeur Moran's I réelle observée pour déterminer la probabilité que la valeur observée se trouve dans la distribution aléatoire. La valeur par défaut est de 499 permutations. Cependant, vous pouvez améliorer la distribution aléatoire en augmentant le nombre de permutations, ce qui augmente la précision de la pseudo valeur de p.
Si le paramètre Nombre de permutations est défini sur 0, le résultat est une valeur de p traditionnelle et non une pseudo valeur de p.
Les permutations employées par cet outil tirent parti des performances accrues disponibles dans les systèmes équipés de plusieurs processeurs (ou de processeurs multicœur). L'outil utilise par défaut la moitié du nombre maximal des processeurs disponibles. La vitesse de traitement optimisée se remarque davantage dans les cubes spatio-temporels plus volumineux ou lors de l'exécution de l'outil avec un nombre plus important de permutations. Le nombre de processeurs utilisés peut être augmenté ou réduit à l'aide de l'environnement Facteur de traitement parallèle.
La couche d'entités Masque d'analyse de polygone peut inclure un ou plusieurs polygones définissant la zone d'étude de l'analyse. Ces polygones doivent indiquer l'endroit où les entités ponctuelles risquent d'être présentes et exclure les surfaces où les points ne risquent pas d'apparaître. Si vous analysez des tendances de cambriolage dans des résidences, par exemple, vous pouvez utiliser le masque d'analyse de polygone pour exclure un lac étendu, des parcs régionaux ou d'autres endroits ne comprenant aucune résidence.
Le masque d'analyse de polygone est intersecté avec l'étendue du cube spatio-temporel en entrée et n'étend pas les dimensions du cube.
Si le masque d'analyse de polygone que vous utilisez pour définir votre zone d'étude couvre une surface qui s'étend au-delà de l'étendue des entités en entrée qui ont servi lors de la création initiale du cube, vous pouvez recréer votre cube en utilisant ce masque d'analyse de polygone en tant que paramètre d'environnement d'étendue en sortie. Cette opération permet de s'assurer que toute la surface couverte par le masque d'analyse de polygone est comprise dans l'outil Analyse de valeurs aberrantes locales. L'utilisation du masque d'analyse de polygone comme paramètre d'environnement d'étendue en sortie au cours de la création du cube permet de s'assurer que l'étendue du cube concorde avec l'étendue du masque d'analyse de polygone.
Cet outil crée une nouvelle classe d'entités en sortie comportant les attributs suivants pour chaque emplacement du cube spatio-temporel. Ces champs peuvent être utilisés pour une visualisation personnalisée de la sortie. Reportez-vous à la rubrique Pour en savoir plus sur le fonctionnement de l'outil Analyse de valeurs aberrantes locales pour plus d'informations sur les autres résultats d'analyse.
- Nombre de points aberrants
- Pourcentage de points aberrants
- Nombre de grappes faibles
- Pourcentage de grappes faibles
- Nombre de points aberrants faibles
- Pourcentage de points aberrants faibles
- Nombre de grappes élevées
- Pourcentage de grappes élevées
- Nombre de points aberrants élevés
- Pourcentage de points aberrants élevés
- Emplacements sans voisins spatiaux
- Emplacements avec un point aberrant dans l'intervalle temporel le plus récent
- Type grappe-point aberrant
- et résumé statistique complémentaire
Le type grappe-point aberrant indique toujours les grappes et points aberrants statistiquement significatifs pour un niveau de confiance de 95 % et seuls les groupes statistiquement significatifs contiennent des valeurs dans ce champ. Cette signification reflète une correction FDR (False Discovery Rate).
Le rendu par défaut de la classe d'entités en sortie repose sur le champ CO_TYPE et indique les emplacements statistiquement significatifs. Il présente les emplacements ayant fait partie d'une grappe élevée-élevée, d'un point aberrant élevé-faible, d'un point aberrant faible-élevé ou d'une grappe faible-faible, ou classés en tant que Types multiples au fil du temps.
Pour garantir que chaque emplacement possède au moins un voisin temporel, l'index Local Moran's n'est pas calculé pour la première tranche horaire. Les valeurs de groupe de la première tranche horaire sont cependant incluses dans le calcul de la moyenne globale.

L'exécution de l'outil Analyse de valeurs aberrantes locales permet de rajouter des résultats d'analyse dans le cube spatio-temporel en entrée netCDF. Chaque groupe est analysé par rapport aux groupes voisins pour mesurer l'agrégation des valeurs élevées et faibles et pour identifier les éventuels points aberrants spatiaux et temporels au sein de ces grappes. Le résultat de cette analyse est un index Local Moran's I, une pseudo valeur de p (ou une valeur de p si aucune permutation n'a été utilisée) et un type de grappe ou de point aberrant (CO_TYPE) pour chaque groupe du cube spatio-temporel.

Vous trouverez ci-dessous un récapitulatif des variables ajoutées au Cube spatio-temporel en entrée :


Nom de variable	Description	Dimension
OUTLIER_{ANALYSIS_VARIABLE}_INDEX	Index Local Moran's I calculé.	Tridimensionnel : une valeur d'index Local Moran's I pour chaque groupe du cube spatio-temporel.
OUTLIER_{ANALYSIS_VARIABLE}_PVALUE	Pseudo valeur de p ou valeur de p de la Statistique Anselin Local Morans I qui mesure la signification statistique de la valeur d'index I Local Moran's I.	Tridimensionnel : une valeur de p ou pseudo valeur de p pour chaque groupe du cube spatio-temporel.
OUTLIER_{ANALYSIS_VARIABLE}_TYPE	Le type de catégorie de résultat faisant la distinction entre une grappe statistiquement significative de valeurs élevées (élevé-élevé), une grappe de valeurs faibles (faible-faible), un point aberrant dans lequel une valeur élevée est entourée principalement de valeurs faibles (élevé-faible) et un point aberrant dans lequel une valeur faible est entourée principalement de valeurs élevées (faible-élevé).	Tridimensionnel : un type de grappe ou de point aberrant pour chaque groupe du cube spatio-temporel. Ce bin est basé sur une correction FDR.
OUTLIER_{ANALYSIS_VARIABLE} _HAS_SPATIAL_NEIGHBORS	Indique les emplacements qui ont des voisins spatiaux et ceux qui s'appuient uniquement sur des voisins temporels.	Bidimensionnel : une classification pour chaque emplacement. L'analyse des emplacements qui n'ont pas de voisins spatiaux génère des calculs reposant uniquement sur des voisins temporels.

Syntaxe

LocalOutlierAnalysis_stpm (in_cube, analysis_variable, output_features, {neighborhood_distance}, neighborhood_time_step, {number_of_permutations}, {polygon_mask})

Paramètre	Explication	Type de données
in_cube	Cube netCDF à analyser. Ce fichier doit comporter une extension (.nc) et doit avoir été généré à l'aide de l'outil Créer un cube spatio-temporel en agrégeant des points.	File
analysis_variable	Variable numérique dans le fichier netCDF que vous voulez analyser.	String
output_features	La classe d'entités en sortie contenant les emplacements ayant été considérés comme des grappes ou points aberrants statistiquement significatifs.	Feature Class
neighborhood_distance (Facultatif)	Etendue spatiale du voisinage d'analyse. Cette valeur désigne les entités qui sont analysées ensemble en vue d'évaluer l'agrégation spatio-temporelle locale.	Linear Unit
neighborhood_time_step	Nombre d'intervalles temporels à inclure dans le voisinage d'analyse. Cette valeur désigne les entités qui sont analysées ensemble en vue d'évaluer l'agrégation spatio-temporelle locale.	Long
number_of_permutations (Facultatif)	Nombre de permutations aléatoires pour le calcul des pseudo valeurs de p. Le nombre par défaut de permutations est de 499. Si vous choisissez 0 permutation, la valeur de p standard est calculée. 0 —Les permutations ne sont pas utilisées et une valeur de p standard est calculée. 99 —Avec 99 permutations, la pseudo valeur de p la plus petite possible est 0,01 et toutes les autres pseudo valeurs de p sont des multiples pairs de cette valeur. 199 —Avec 199 permutations, la pseudo valeur de p la plus petite possible est 0,005 et toutes les autres pseudo valeurs de p sont des multiples pairs de cette valeur. 499 —Avec 499 permutations, la pseudo valeur de p la plus petite possible est 0,002 et toutes les autres pseudo valeurs de p sont des multiples pairs de cette valeur. 999 —Avec 999 permutations, la pseudo valeur de p la plus petite possible est 0,001 et toutes les autres pseudo valeurs de p sont des multiples pairs de cette valeur. 9999 —Avec 9999 permutations, la pseudo valeur de p la plus petite possible est 0,0001 et toutes les autres pseudo valeurs de p sont des multiples pairs de cette valeur.	Long
polygon_mask (Facultatif)	Couche d'entités surfaciques dont un ou plusieurs polygones définissent la zone d'étude d'analyse. Un masque d'analyse surfacique permet, par exemple, d'exclure un lac de grande envergure de l'analyse. Les groupes définis dans le cube spatio-temporel en entrée qui se situent en dehors du masque ne sont pas inclus dans l'analyse.	Feature Layer

Exemple de code

Exemple 1 d'utilisation du script Analyse de valeurs aberrantes locales (fenêtre Python)

Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil Analyse de valeurs aberrantes locales.

# LocalOutlierAnalysis of homicides in a metropolitan area
arcpy.env.workspace = r"C:\STPM"
arcpy.LocalOutlierAnalysis_stpm("Homicides.nc", "COUNT", "LOA_Homicides.shp", "5 Miles", 2, 499, "#")

Exemple 2 d'utilisation de l'outil Analyse de valeurs aberrantes locales (script Python autonome)

Le script de fenêtre Python autonome ci-dessous illustre l'utilisation de l'outil Analyse de valeurs aberrantes locales.

# Create Space Time Cube by aggregating homicide incidents in a metropolitan area
# Import system modules
import arcpy
# Set property to overwrite existing output, by default
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"C:\STPM"
try:
    # Set the current workspace (to avoid having to specify the full path to the feature 
    # classes each time)
    arcpy.env.workspace = workspace
    # Create Space Time Cube by aggregating homicide incident data with 3 months and 3 miles settings
    # Process: Create Space Time Cube By Aggregating Points
    cube = arcpy.CreateSpaceTimeCube_stpm("Homicides.shp", "Homicides.nc", "MyDate", "#", 
                                          "3 Months", "End time", "#", "3 Miles", "Property MEDIAN SPACETIME; Age STD ZEROS", "HEXAGON_GRID")
    # Create a polygon that defines where incidents are possible  
    # Process: Minimum Bounding Geometry of homicide incident data
    arcpy.MinimumBoundingGeometry_management("Homicides.shp", "bounding.shp", "CONVEX_HULL",
                                             "ALL", "#", "NO_MBG_FIELDS")
    # Local Outlier Analysis of homicide incident cube using 5 Miles neighborhood 
    # distance and 2 neighborhood time step with 499 permutations to detect outliers
    # Process: Local Outlier Analysis
    loa = arcpy.LocalOutlierAnalysis_stpm("Homicides.nc", "COUNT", "LOA_Homicides.shp", "5 Miles",
                                          2, 499, "bounding.shp")
except:
    # If any error occurred when running the tool, print the messages
    print(arcpy.GetMessages())

Environnements

Espace de travail courant
Espace de travail temporaire
Système de coordonnées en sortie
Transformations géographiques
Générateur de nombres aléatoires
Remarque :
Le type de générateur de nombres aléatoires utilisé est toujours Mersenne Twister.

Informations de licence

ArcGIS Desktop Basic: Oui
ArcGIS Desktop Standard: Oui
ArcGIS Desktop Advanced: Oui

ArcMap

Analyse de valeurs aberrantes locales