Disponible avec une licence Geostatistical Analyst.
Introduction
Le krigeage bayésien empirique (EBK) est une méthode d'interpolation géostatistique qui automatise les aspects les plus difficiles de la création d'un modèle de krigeage valide. Dans Geostatistical Analyst, les autres méthodes de krigeage nécessitent l'ajustement manuel de paramètres pour l'obtention de résultats précis, mais la méthode EBK calcule automatiquement ces paramètres par un processus d'établissement de sous-groupes et de simulations.
Le krigeage bayésien empirique diffère également des autres méthodes de krigeage en tenant compte de l'erreur introduite par l'estimation du semi-variogramme sous-jacent. Les autres méthodes de krigeage calculent le semi-variogramme à partir d'emplacements de données connus et utilisent ce semi-variogramme unique pour établir des prévisions à des emplacements inconnus. Ce processus implique que le semi-variogramme estimé est le semi-variogramme réel pour la région d'interpolation. En ignorant l'incertitude de l'estimation du semi-variogramme, les autres méthodes de krigeage sous-estiment les erreurs standard de prévision.
La méthode de krigeage bayésien empirique est disponible dans l'assistant géostatistique et sous la forme d'un outil de géotraitement.
Avantages et inconvénients
Avantages
- Modélisation interactive minimale requise.
- Précision accrue des erreurs standard de prévision par rapport aux autres méthodes de krigeage.
- Prévisions plus précises des données modérément non stationnaires.
- Précision accrue pour les petits jeux de données par rapport aux autres méthodes de krigeage.
Inconvénients
- La durée de traitement augmente rapidement avec le nombre de points en entrée, la taille du sous-ensemble et le facteur de superposition. L'application d'une transformation entraîne également une augmentation de la durée de traitement, surtout si le Type de modèle de semi-variogramme K-Bessel ou K-Bessel Detrended est utilisé. Ces paramètres sont décrits dans les sections suivantes de cette rubrique.
- Le traitement est plus lent qu'avec les autres méthodes de krigeage surtout lorsque vous générez des rasters en sortie.
- Le co-krigeage et les corrections anisotropes ne sont pas disponibles.
- La transformation Empirique journal est particulièrement sensible aux points aberrants. Si vous utilisez ce type de transformation avec des données qui contiennent des points aberrants, vos prévisions présenteront des ordres de grandeur supérieurs ou inférieurs aux valeurs de vos points en entrée. Ce paramètre est décrit dans la section Transformations ci-dessous.
Estimation de semi-variogramme
Contrairement à d'autres méthodes de krigeage (qui utilisent des moindres carrés pondérés), avec la méthode EBK, les paramètres de semi-variogramme sont estimés à l'aide du maximum de vraisemblance restreint (REML - Restricted Maximum Likelihood). Vu les limites de calcul du REML pour des jeux de données importants, les données en entrée sont d'abord divisées en sous-ensembles superposés d'une taille spécifique (valeur par défaut de 100 points par sous-ensemble). Dans chaque sous-ensemble, les semi-variogrammes sont estimés comme suit :
- Un semi-variogramme est estimé à partir des données du sous-ensemble.
- En prenant ce semi-variogramme comme modèle, les nouvelles données sont simulées inconditionnellement à chaque emplacement en entrée du sous-ensemble.
- Un nouveau semi-variogramme est estimé à partir des données simulées.
- Les étapes 2 et 3 sont renouvelées un certain nombre de fois. Dans chaque répétition, le semi-variogramme estimé à l'étape 1 permet de simuler un nouveau jeu de données aux emplacements en entrée et les données simulées permettent d'estimer un nouveau semi-variogramme.
Ce processus génère un nombre important de semi-variogrammes pour chaque sous-ensemble. Lorsque ces derniers sont tracés ensemble, il en résulte une distribution de semi-variogrammes ombrés en fonction de la densité (plus la couleur bleue est foncée, plus le nombre de semi-variogrammes traversant cette région est élevé). Les semi-variances empiriques sont représentées par des croix bleues. En outre, la médiane de la distribution est représentée par une ligne rouge continue et les 25e et 75e centiles apparaissent sous la forme de lignes rouges en pointillés, comme l'indique l'illustration ci-dessous.
Le nombre de semi-variogrammes simulés par sous-ensemble s'élève par défaut à 100 et chacun de ces semi-variogrammes est une estimation du semi-variogramme réel pour le sous-ensemble.
Pour chaque emplacement de prévision, la prévision est calculée à l'aide d'une nouvelle distribution de semi-variogrammes générée par un échantillon basé sur la vraisemblance de semi-variogrammes individuels prélevé à partir de spectres de semi-variogrammes dans le voisinage du point. Par exemple, si l'emplacement de prévision a des voisins dans trois sous-ensembles différents (comme l'indique le voisinage de recherche), la prévision est calculée à l'aide de semi-variogrammes simulés provenant de chacun des trois sous-ensembles. Ces semi-variogrammes sont choisis de manière probabiliste en fonction de leurs valeurs de vraisemblance.
Modèle de krigeage
Dans Geostatistical Analyst, le krigeage bayésien empirique diffère des autres méthodes de krigeage, car il utilise une fonction aléatoire intrinsèque comme modèle de krigeage.
Les autres modèles de krigeage supposent que le processus suit une moyenne générale (ou tendance spécifiée) avec des variations individuelles autour de cette moyenne. Les écarts importants sont rapprochés de la moyenne pour que l'écart des valeurs ne soit jamais trop important. Toutefois, la méthode EBK ne suppose pas une tendance vers une moyenne générale. Ainsi, les écarts importants sont tout aussi susceptibles d'augmenter que de diminuer. Par conséquent, les fonctions aléatoires intrinsèques corrigent les tendances que présentent les données.
Modèle de semi-variogramme
Pour une distance donnée h, le krigeage bayésien empirique prend en charge les semi-variogrammes suivants :
- Puissance
- γ(h)= Nugget + b|h|α
- Linéaire
- γ(h)= Nugget + b|h|
- Spline de plaque fine
- γ(h)= Nugget + b|h2|*ln(|h|)
La valeur de Nugget et b (pente) doit être positive et la valeur de α (puissance) doit être comprise entre 0,25 et 1,75. Conformément à ces restrictions, les paramètres sont estimés à l'aide du REML. Ces modèles de semi-variogrammes ne présentent pas de paramètre de plage ou de seuil, car les fonctions n'ont pas de limite supérieure.
Le krigeage bayésien empirique permet d'analyser la distribution empirique des estimations de paramètres, car des semi-variogrammes sont estimés à chaque emplacement. En cliquant sur l'onglet Nugget, Pente ou Puissance, vous affichez les distributions des paramètres associés. Le graphique suivant illustre les distributions des paramètres de semi-variogrammes pour les semi-variogrammes illustrés dans le graphique précédent :
En cliquant sur un emplacement différent de la surface d'aperçu, la distribution des semi-variogrammes et les distributions des paramètres de semi-variogrammes sont indiquées pour le nouvel emplacement. Si les distributions ne changent pas considérablement à travers le domaine de données, on peut supposer que les données sont globalement stationnaires. Les distributions devraient varier progressivement à travers le domaine de données. Toutefois, si vous constatez des changements considérables dans les distributions sur de petites distances, vous pouvez augmenter la valeur de Facteur de superposition pour lisser les transitions des distributions.
Transformations
Le krigeage bayésien empirique propose la méthode d'approximation d'inclinaison multiplicative pour la transformation du score normal et deux options de distribution de base : Empirique et Empirique journal. La transformation Empirique journal exige que toutes les valeurs de données soient positives et elle garantit que toutes les prévisions seront positives. Ce type de transformation est adapté aux données concernant les précipitations, par exemple, lesquelles ne peuvent pas être négatives.
Si une transformation est appliquée, un modèle de krigeage simple est utilisé à la place d'une fonction aléatoire intrinsèque. En raison de ces changements, les distributions des paramètres prennent les valeurs Nugget, Partial Sill et Plage.
Si vous sélectionnez K-Bessel ou K-Bessel Detrended comme valeur de l'option Semivariogram Type, un graphique supplémentaire apparaît pour le paramètre Forme avec K-Bessel. Un onglet Transformation supplémentaire apparaît également et affiche la distribution des transformations ajustées (une pour chaque simulation). Comme c'est le cas pour l'onglet Semi-variogrammes, la distribution des transformations est colorée en fonction de la densité et des lignes de quantiles sont affichées.
Semi-variogrammes
Toutes les méthodes géostatistiques supposent une auto-corrélation spatiale selon laquelle les objets les plus rapprochés sont plus semblables que les objets séparés par une distance supérieure et le semi-variogramme définit comment cette similarité diminue avec la distance. Certains semi-variogrammes (de type exponentiel, par exemple) supposent que la similarité se dissipe rapidement. En revanche, le modèle de semi-variogramme Whittle, suppose que la similarité se dissipe lentement. Même avec les mêmes pépite, plage et seuil, ces deux semi-variogrammes définiront une similarité décroissante de façons totalement différentes. Pour obtenir des résultats fiables, il convient de choisir le semi-variogramme qui correspond le mieux au comportement de votre phénomène. Les modèles de semi-variogrammes disponibles varient selon le type de transformation choisi.
Si la valeur de Transformation est Aucune, les modèles suivants de semi-variogrammes sont disponibles :
- Puissance (valeur par défaut)
- Linéaire
- Spline de plaque fine
Si la valeur de Transformation est Empirique ou Empirique journal, les modèles suivants de semi-variogrammes sont disponibles :
- Exponentiel (valeur par défaut)
- Exponentiel décomposé
- Whittle
- Whittle décomposé
- K-Bessel
- K-Bessel Detrended
Les trois modèles de semi-variogrammes décomposés sont identiques à leurs équivalents non décomposés, à l'exception du fait qu'une tendance de premier ordre est supprimée. La suppression d'une tendance a un effet minime sur la vitesse de calcul. Vous pouvez vérifier la présence d'une tendance à l'aide de l'outil ESDA Trend Analysis (Analyse de tendance).
Avantages et inconvénients de chaque modèle
Chaque semi-variogramme présente des avantages et des inconvénients. Lorsque vous choisissez un semi-variogramme, vous devez tenir compte de la durée de calcul et de la souplesse du modèle (capacité à prendre en charge une plage variée de jeux de données) :
- Puissance
- Avantages : relativement rapide et souple. C'est un choix sûr qui assure un bon équilibre entre les performances et la précision.
- Inconvénients : moins souple et plus lent que les autres choix.
- Linéaire
- Avantages : très rapide.
- Inconvénients : modèle le moins souple.
- Spline de plaque fine
- Avantages : très rapide. Fonctionne mieux en présence de fortes tendances.
- Inconvénients : moins souple, surtout en l'absence de tendance.
- Exponentiel
- Avantages : garantit une transformation souple. Plus rapide que les méthodes K-Bessel et K-Bessel Detrended.
- Inconvénients : manque de flexibilité de la forme du semi-variogramme. Lent par rapport aux modèles Puissance, Linéaire et Spline de plaque fine.
- Exponentiel décomposé
- Avantages : garantit une transformation souple. Plus rapide que les méthodes K-Bessel et K-Bessel Detrended. Supprime la tendance de premier ordre.
- Inconvénients : manque de flexibilité de la forme du semi-variogramme. Lent par rapport aux modèles Puissance, Linéaire et Spline de plaque fine.
- Whittle
- Avantages : garantit une transformation souple. Plus rapide que les méthodes K-Bessel et K-Bessel Detrended.
- Inconvénients : manque de flexibilité de la forme du semi-variogramme. Lent par rapport aux modèles Puissance, Linéaire et Spline de plaque fine.
- Whittle décomposé
- Avantages : garantit une transformation souple. Plus rapide que les méthodes K-Bessel et K-Bessel Detrended. Supprime la tendance de premier ordre.
- Inconvénients : manque de flexibilité de la forme du semi-variogramme. Lent par rapport aux modèles Puissance, Linéaire et Spline de plaque fine.
- K-Bessel
- Avantages : modèle le plus souple et le plus précis.
- Inconvénients : durée de calcul la plus longue.
- K-Bessel Detrended
- Avantages : modèle le plus souple et le plus précis. Supprime la tendance de premier ordre.
- Inconvénients : durée de calcul la plus longue.
Choix d'un semi-variogramme
Le choix d'un semi-variogramme devrait reposer sur l'un des critères suivants :
- Si vous avez le temps d'attendre pour obtenir des résultats précis, choisissez la méthode K-Bessel ou K-Bessel Detrended. C'est la présence ou l'absence de tendance qui déterminera votre choix.
- Si vous souhaitez obtenir rapidement vos résultats pour un degré de précision moindre, choisissez la méthode Linéaire ou Spline de plaque fine. En l'absence de tendance ou si la tendance est faible, choisissez la méthode Linéaire.
- La méthode Puissance propose un bon équilibre entre la précision et la vitesse.
- Si une transformation est nécessaire, mais que vous n'avez pas le temps d'attendre trop longtemps la génération de la sortie, choisissez la méthode Exponentiel ou Whittle (ou les équivalents décomposés). Choisissez la méthode qui correspond le mieux aux semi-variances empiriques de l'assistant géostatistique (description ci-dessous). La validation croisée doit également être prise en compte.
Si vous devez faire un choix entre les méthodes Exponentiel, Whittle et leurs équivalents décomposés, choisissez le semi-variogramme le mieux adapté aux semi-variances empiriques, d'un point de vue visuel (les croix bleues dans le graphique ci-dessous). Dans l'idéal, les semi-variances empiriques doivent se trouver au milieu du spectre de semi-variogrammes. Par exemple, dans le graphique suivant, les croix bleues ne se trouvent pas au milieu du spectre de semi-variogrammes (la plupart d'entre elles se trouvent dans la partie supérieure) :
En revanche, le semi-variogramme suivant est préférable car les croix bleues se trouvent au milieu du spectre de semi-variogrammes :
Calculs de distance pour les données de coordonnées géographiques
Si vos données en entrée se trouvent dans un système de coordonnées géographiques, les distances seront calculées à l'aide d'une distance de corde. La distance de corde entre deux points est la distance en ligne droite qui connecte les deux points. Cette ligne traverse la terre plutôt que d'en parcourir la surface. Pour vous représenter cette ligne, imaginez les rayons d'une lampe torche à travers une sphère transparente. La longueur du faisceau de lumière entre le point d'entrée de la lumière et le point de sortie de la sphère est la distance de corde entre ces deux points. L'avantage principal que présente l'utilisation d'une distance de corde sur une distance géodésique est qu'elle sollicite moins de ressources de calcul. En outre, les ressources théoriques concernant le krigeage sur des sphéroïdes sont limitées.
Les versions précédentes d'ArcGIS traitaient les coordonnées géographiques comme les coordonnées d'un carré et calculaient la distance euclidienne entre les points. Toutefois, une cellule d'un degré sur un degré n'est pas un carré, ce qui produit une distance déformée. Cette distorsion s'aggrave au fur et à mesure que vous vous éloignez de l'équateur, vers le nord ou le sud.
Paramètres supplémentaires pour le krigeage bayésien empirique
Le krigeage bayésien empirique fait appel à trois paramètres non disponibles dans les autres méthodes de krigeage :
- Taille du sous-ensemble : spécifie le nombre de points dans chaque sous-ensemble. Plus la taille du sous-ensemble est importante, plus la durée de calcul du krigeage bayésien empirique sera longue.
- Facteur de superposition : spécifie le degré de superposition entre les sous-ensembles. Chaque point en entrée peut être compris dans plusieurs sous-ensembles. Le facteur de superposition indique le nombre moyen des sous-ensembles dans lesquels chaque point sera compris. Par exemple, un facteur de superposition équivalent à 1,5 implique qu'environ la moitié des points sera utilisée dans un sous-ensemble et l'autre moitié dans deux sous-ensembles. Plus le facteur de superposition est élevé et plus la surface en sortie est lisse, mais le temps de traitement est également plus long.
- Nombre de simulations : spécifie le nombre de semi-variogrammes simulés pour chaque sous-ensemble. L'augmentation du nombre de simulations contribue à une précision accrue des prévisions, mais le temps de traitement est également plus long.
Références
- Chilès, J-P., and P. Delfiner (1999). Chapitre 4 de Geostatistics: Modeling Spatial Uncertainty. New York: John Wiley & Sons, Inc.
- Krivoruchko K. (2012). "Empirical Bayesian Kriging," ArcUser Fall 2012.
- Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging," ArcUser Fall 2012.
- Krivoruchko K. and Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data," Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences. Springer 2014, pp. 61-64.
- Pilz, J., and G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods," Stochastic Environmental Research and Risk Assessment 22 (5): 621–632.