需要 Geostatistical Analyst 许可。
简介
经验贝叶斯克里金法 (EBK) 是一种地统计插值方法,可自动执行构建有效克里金模型过程中的那些最困难的步骤。Geostatistical Analyst 中的其他克里金方法需要您手动调整参数来获取准确的结果,而 EBK 可通过构造子集和模拟的过程来自动计算这些参数。
经验贝叶斯克里金法与其他克里金方法也有所不同,它通过估计基础半变异函数来说明所引入的误差。其他克里金方法通过已知的数据位置计算半变异函数,并使用此单一半变异函数在未知位置进行预测;此过程隐式假定估计的半变异函数是插值区域的真实半变异函数。由于不考虑半变异函数估计的不确定性,其他克里金方法都低估了预测的标准误差。
经验贝叶斯克里金法在地统计向导 中以地理处理工具的形式提供。
优点和缺点
优点
- 需要极少的交互式建模。
- 预测标准误差比其他克里金方法更准确。
- 可准确预测一般程度上不稳定的数据。
- 对于小型数据集,比其他克里金法更准确。
缺点
- 处理时间会随着输入点数、子集大小或重叠系数的增加而快速增加。应用变换还会增加处理时间,尤其是选择 K-Bessel 或去除趋势的 K-Bessel 作为半变异模型类型时。这些参数将在本主题的后续章节中进行介绍。
- 处理速度比其他克里金方法慢,尤其是输出为栅格时。
- 协同克里金法和各向异性校正不可用。
- 对数经验变换对异常值尤其敏感。如果将该变换用于含有异常值的数据,则可能会得到大于或小于输入点值若干个数量级的预测结果。该参数将在下面的“变换”部分进行介绍。
半变异函数估计
与其他克里金法(使用加权最小二乘)不同,EBK 中的半变异函数参数是使用受限最大似然法 (REML) 估计的。由于 REML 对大型数据集有计算限制,输入数据首先被分为多个特定大小的重叠子集(默认为每子集 100 个点)。在每个子集中,按以下方式估计半变异函数:
- 通过子集中的数据估计半变异函数。
- 将此半变异函数用作模型,新数据会在子集的每个输入位置进行无条件模拟。
- 通过已模拟的数据估计新的半变异函数。
- 将步骤 2 和步骤 3 重复执行指定次数。在每次重复中,步骤 1 中估计的半变异函数用于模拟输入位置的一组新数据,已模拟的数据用于估计新的半变异函数。
此过程将为每个子集创建大量半变异函数,并且在将它们绘制在一起时,结果是按密度着色的半变异函数分布(蓝色越深,通过该区域的半变异函数就越多)。经验半方差用蓝色十字表示。此外,分布的中值用红色实线表示,25% 和 75% 百分数值用红色虚线表示,如下图所示。
每个子集中模拟的半变异函数数量默认为 100,其中每一个半变异函数都是子集的真实半变异函数的估计。
对于每个预测位置,都使用新的半变异函数分布计算预测,该分布是通过对点邻域内半变异函数光谱中的各个半变异函数进行基于可能性的采样而生成的。例如,如果预测位置在三个不同的子集(由搜索邻域指定)中均有邻域,则将使用每个子集的某些模拟的半变异函数计算预测;这些半变异函数根据其可能性值以概率的方式选择。
克里金模型
经验贝叶斯克里金法与 Geostatistical Analyst 中的其他克里金方法不同,它使用固有的随机函数作为克里金模型。
其他克里金模型假定过程遵循一个总体平均值(或指定趋势),并且各种变化均围绕该平均值。较大的偏差将向平均值拉回,因此值不会偏差过大。但是,EBK 不会呈现出趋于总体平均值的趋势,因此较大偏差变大变小的可能性相同。因此,固有的随机函数本身就会对数据的趋势进行校正。
半变异函数模型
对于给定距离 h,经验贝叶斯克里金法支持以下半变异函数:
- 幂函数
- γ(h)= Nugget + b|h|α
- 线性函数
- γ(h)= Nugget + b|h|
- 薄板样条函数
- γ(h)= Nugget + b|h2|*ln(|h|)
块金值和 b(坡度)必须为正值,而 α(幂)必须介于 0.25 和 1.75 之间。在这些限制下,使用 REML 估计参数。这些半变异函数模型没有变程或基台参数,因为函数没有上限。
在 EBK 中,可以分析参数估计的经验分布,因为在每个位置都估计了多个半变异函数。单击块金值、坡度或幂选项卡可显示关联参数的分布。下图显示了前一图片中显示的模拟半变异函数的半变异函数参数分布:
单击预览表面上的不同位置,可显示新位置的半变异函数分布和半变异函数参数分布。如果分布在数据值域内没有显著变化,则表明数据处于全局稳态。分布应在整个数据值域内平滑变化;但如果发现在较短距离的分布中出现较大变化,增加重叠系数的值以平滑分布的过渡。
变换
经验贝叶斯克里金法为乘偏斜常态得分变换提供了两个基本分布:经验法和对数经验法。对数经验变换要求所有数据值为正,以保证所有预测结果为正值。它适用于诸如降雨量等不得为负的数据。
如果应用了变换,将使用简单克里金模型,而不使用固有的随机函数。由于这些变化,参数分布更改为块金值、偏基台值和变程值。
如果选择 K-Bessel 或去除趋势的 K-Bessel 作为半变异函数类型,将另外显示一个图形来表示 K-Bessel 中的形状参数。此外,会出现一个变换选项卡,显示拟合变换的分布(每个模拟一个)。与半变异函数选项卡相同,变换分布按密度着色,并提供分位数线。
半变异函数
所有的地统计方法都假设空间自相关(即距离较近的事物比距离较远的事物更相似),半变异函数则定义这种相似性如何随距离的增加而减少。某些半变异函数(如指数函数)假设相似性快速减少。另一方面,消减半变异函数模型则假设相似性缓慢减少。即使包含相同的块金、变程、基台,这两种半变异函数也会以截然不同的方式定义相似性的减少。要获得可靠的结果,关键在于选择与您的现象的行为方式最为匹配的半变异函数。半变异函数模型的可用情况取决于您如何设置变换。
如果将变换设置为 None,那么以下半变异函数模型可用:
- 幂函数(默认)
- 线性函数
- 薄板样条函数
如果将变换设置为经验或对数经验,则以下半变异函数模型可用:
- 指数函数(默认)
- 去除趋势的指数函数
- 消减函数
- 去除趋势的消减函数
- K-Bessel
- 去除趋势的 K-Bessel
除应用一阶趋势移除外,这三种去除趋势的半变异函数模型与未去除趋势的对应模型是相同的。移除趋势对计算速度的影响可以忽略不计。可使用趋势分析 ESDA 工具检查趋势是否存在。
每种模型的优点和缺点
每种半变异函数都具有其各自的优缺点。选择半变异函数时,应考虑函数模型的计算时间和灵活性(精确覆盖广大范围数据集的能力):
- 幂函数
- 优点:相对较快和灵活。通常是平衡性能和精度的安全选择。
- 缺点:较其他选择而言灵活性较差,速度也较慢。
- 线性函数
- 优点:非常快。
- 缺点:灵活性最差的模型。
- 薄板样条函数
- 优点:非常快。在存在强大趋势时最有效。
- 缺点:灵活性较差,尤其在不存在任何趋势时。
- 指数函数
- 优点:可灵活进行变换。速度比 K-Bessel 和去除趋势的 K-Bessel 更快。
- 缺点:半变异函数的形状不灵活。速度比幂函数、线性函数和薄板样条函数更慢。
- 去除趋势的指数函数
- 优点:可灵活进行变换。速度比 K-Bessel 和去除趋势的 K-Bessel 更快。移除一阶趋势。
- 缺点:半变异函数的形状不灵活。速度比幂函数、线性函数和薄板样条函数更慢。
- 消减函数
- 优点:可灵活进行变换。速度比 K-Bessel 和去除趋势的 K-Bessel 更快。
- 缺点:半变异函数的形状不灵活。速度比幂函数、线性函数和薄板样条函数更慢。
- 去除趋势的消减函数
- 优点:可灵活进行变换。速度比 K-Bessel 和去除趋势的 K-Bessel 更快。移除一阶趋势。
- 缺点:半变异函数的形状不灵活。速度比幂函数、线性函数和薄板样条函数更慢。
- K-Bessel
- 优点:最灵活、最精确。
- 缺点:计算时间最长。
- 去除趋势的 K-Bessel
- 优点:最灵活、最精确。移除一阶趋势。
- 缺点:计算时间最长。
选择半变异函数
大多数情况下,应根据下列条件明确选择半变异函数:
- 如果您愿意耐心等待获取最准确的结果,应选择 K-Bessel 或去除趋势的 K-Bessel。应根据是否存在趋势来选择相应的函数。
- 如果您需要快速获得结果,并愿意牺牲一定的精度,应选择线性函数或薄板样条函数。如果不存在趋势或趋势很弱,则更适合选择线性函数。
- 如果需要平衡精度和速度,幂函数是个不错的选择。
- 如果需要进行变换,但又无法长时间等待结果,应选择指数函数或消减函数(或未去除趋势的对应函数)。您应选择与地统计向导 中的经验半方差最为匹配的函数(如下所述)。另外还应考虑进行交叉验证。
如果试图在指数函数、消减函数及其去除趋势的对应函数之间进行选择,应选择在视觉上与经验半方差最拟合的半变异函数(见下图中的蓝色十字)。理想情况下,经验半方差应落在半变异函数光谱的中间。例如,在下图中,蓝色十字没有落在半变异函数光谱的中间(大多都落到光谱的顶部):
相反,应优先选择下列半变异函数,因为蓝色十字落在了半变异函数光谱的中间:
地理坐标中数据的距离计算
如果输入数据位于地理坐标系中,将使用弦距离来计算距离。任意两点之间的弦距离为连接这两点的直线距离。这条线为穿过地球的直线,而不是沿其表面的曲线。为使其直观化,假设用手电筒照射透明的球体。光线进入球体和离开球体两点之间的光束长度即为这两点之间的弦距离。与测地线距离相比,使用弦距离的主要好处是运算量较小。此外,关于在球体上执行克里金法,只有有限的理论。
之前版本的 ArcGIS 将地理坐标视为方格坐标,并计算点之间的欧氏距离。但是,1 × 1 度像元并非一个准确的方格,因此,该距离将变形。从赤道向北或向南移动时,变形会更严重。
经验贝叶斯克里金法的其他参数
经验贝叶斯克里金法使用三个未在其他克里金方法中出现的参数:
- 子集大小 - 指定每个子集中的点数。子集大小越大,EBK 计算耗时越长。
- 重叠系数 - 指定子集之间的重叠程度。每个输入点均可落入多个子集中,重叠系数指定了各点将落入的子集的平均数。例如,重叠系数 1.5 表示大约一半的点用在一个子集中,另一半的点用在两个子集中。高重叠系数值会使输出表面更加平滑,但处理时间也更长。
- 模拟的次数 - 指定将为每个子集模拟的半变异函数的数量。模拟次数越多,生成的预测就越精确,但处理时间也会增加。
参考资料
- Chilès, J-P., and P. Delfiner (1999). Chapter 4 of Geostatistics: Modeling Spatial Uncertainty。New York: John Wiley & Sons, Inc。
- Krivoruchko K. (2012). "Empirical Bayesian Kriging," ArcUser Fall 2012。
- Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging," ArcUser Fall 2012。
- Krivoruchko K. and Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data," Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences, Springer 2014, pp. 61-64。
- Pilz, J., and G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods," Stochastic Environmental Research and Risk Assessment 22 (5):621–632。