Disponible con una licencia de Geostatistical Analyst.
Introducción
El Kriging bayesiano empírico (EBK) es un método de interpolación de estadísticas geográficas que automatiza los aspectos más complejos de la creación de un modelo kriging válido. Otros métodos kriging de Geostatistical Analyst requieren el ajuste manual de los parámetros para obtener resultados precisos, pero EBK calcula automáticamente esos parámetros por medio de un proceso de creación de subconjuntos y simulaciones.
El Kriging bayesiano empírico se diferencia además de otros métodos kriging en que tiene en cuenta el error introducido al estimar el semivariograma subyacente. Otros métodos kriging calculan el semivariograma a partir de ubicaciones de datos conocidas y utilizan este único semivariograma para realizar predicciones en ubicaciones desconocidas. En este proceso se asume implícitamente que el semivariograma estimado es el verdadero semivariograma para la región de interpolación. Al no tener en cuenta la incertidumbre de la estimación del semivariograma, otros métodos kriging subestiman los errores estándar de la predicción.
El Kriging bayesiano empírico se suministra en el Asistente de estadísticas geográficas y como herramienta de geoprocesamiento.
Ventajas y desventajas
Ventajas
- El modelado interactivo requerido es mínimo.
- Los errores estándar de la predicción son más precisos que en otros métodos kriging.
- Permite realizar predicciones precisas de datos moderadamente no estacionarios.
- Es más preciso que otros métodos kriging para los datasets pequeños.
Desventajas
- El tiempo de procesamiento aumenta rápidamente a medida que el número de puntos de entrada, el tamaño del subconjunto o el factor de superposición se incrementan. Aplicar una transformación aumentará también el tiempo de procesamiento, en especial si K de Bessel o K de Bessel sin tendencia se eligen como tipo de modelo del semivariograma. Estos parámetros se describen en las secciones siguientes de este tema.
- El procesamiento es más lento que en otros métodos kriging, especialmente cuando los resultados se envían a un ráster.
- El cokriging y las correcciones anisotrópicas no están disponibles.
- La transformación Logarítmica empírica es especialmente sensible a los valores atípicos. Si utiliza esta transformación con datos que contienen valores atípicos, puede recibir predicciones que estén unos órdenes de magnitud por encima o por debajo de los valores de los puntos de entrada. Este parámetro se describe en la sección Transformaciones.
Estimación del semivariograma
A diferencia de otros métodos kriging (que usan cuadrados mínimos ponderados), en EBK los parámetros del semivariograma se estiman usando la verosimilitud máxima restringida (REML). Debido a las limitaciones computacionales de REML para los datasets grandes, los datos de entrada se dividen primero en subconjuntos superpuestos de un tamaño especificado (con un ajuste predeterminado de 100 puntos por subconjunto). En cada subconjunto, los semivariogramas se estiman del modo siguiente:
- Un semivariograma se estima a partir de los datos del subconjunto.
- Usando este semivariograma como modelo, los nuevos datos se simulan sin condiciones en cada una de las ubicaciones de entrada del subconjunto.
- Se estima un nuevo semivariograma a partir de los datos simulados.
- Los pasos 2 y 3 se repiten un número de veces especificado. En cada repetición, el semivariograma estimado en el paso 1 se usa para simular un nuevo conjunto de datos en las ubicaciones de entrada y los datos simulados se utilizan para estimar un nuevo semivariograma.
Este proceso crea un alto número de semivariogramas para cada subconjunto y, cuando se trazan juntos, el resultado es una distribución de semivariogramas sombreados por densidad (cuanto más oscuro sea el color azul, mayor será el número de semivariogramas que atraviesan esa región). Las semivarianzas empíricas se representan mediante cruces azules. Además, la mediana de la distribución se representa con una línea roja continua y los percentiles 25 y 75 se muestran con líneas discontinuas rojas, como se puede ver a continuación.
El número de semivariogramas simulados por subconjunto tiene el valor predeterminado 100 y cada uno de esos semivariogramas es una estimación del verdadero semivariograma del subconjunto.
Para cada ubicación de la predicción, la predicción se calcula usando una nueva distribución de semivariogramas que se genera mediante un muestreo de verosimilitud de los distintos semivariogramas de los espectros de semivariogramas de la vecindad del punto. Por ejemplo, si una ubicación de predicción tiene vecinos en tres subconjuntos diferentes (como se especifica en la vecindad de búsqueda), la predicción se calculará usando algunos semivariogramas simulados de cada uno de los tres subconjuntos. Estos semivariogramas se eligen con criterios probabilísticos basados en sus valores de verosimilitud.
Modelo kriging
El Kriging bayesiano empírico se diferencia de otros métodos kriging de Geostatistical Analyst en el uso de una función aleatoria intrínseca como modelo kriging.
En otros modelos kriging se asume que el proceso sigue una media global (o tendencia especificada) con variaciones individuales en torno a esa media. Las desviaciones grandes se llevan hacia la media, de manera que los valores nunca se desvían demasiado. Sin embargo, EBK no presupone una tendencia hacia una media global, y las desviaciones grandes pueden volverse más grandes o más pequeñas. Por tanto, las funciones aleatorias intrínsecas corrigen inherentemente las tendencias de los datos.
Modelo de semivariograma
Para una distancia h dada, el Kriging bayesiano empírico admite los siguientes semivariogramas:
- Potencia
- γ(h)= Nugget + b|h|α
- Lineal
- γ(h)= Nugget + b|h|
- Spline de lámina delgada
- γ(h)= Nugget + b|h2|*ln(|h|)
Nugget y b (pendiente) deben ser positivos, y α (potencia) debe estar entre 0,25 y 1,75. Bajo estas restricciones, los parámetros se estiman usando REML. Estos modelos de semivariogramas no tiene un parámetro de rango o de meseta porque las funciones no tienen límite superior.
En EBK, es posible analizar la distribución empírica de las estimaciones del parámetro porque se estiman muchos semivariogramas en cada ubicación. Al hacer clic en las pestañas Nugget, Pendiente o Potencia, se muestran las distribuciones de los parámetros asociados. El gráfico siguiente muestra las distribuciones de los parámetros del semivariograma para los semivariogramas simulados que se muestran en el gráfico anterior:
Al hacer clic en una ubicación diferente en la superficie de vista previa, la distribución del semivariograma y las distribuciones de los parámetros de los semivariogramas se muestran para la nueva ubicación. Si las distribuciones no cambian significativamente en el dominio de datos, se puede entender que los datos son globalmente estacionarios. Las distribuciones deben cambiar con suavidad en el conjunto del dominio de datos; sin embargo, si ve cambios grandes en las distribuciones para distancias pequeñas, incrementar el valor del factor de superposición puede suavizar las transiciones de las distribuciones.
Transformaciones
El Kriging bayesiano empírico ofrece la transformación de puntuación normal de sesgo multiplicativo con dos posibles distribuciones de base: Empírica y Empírica logarítmica. La transformación Empírica logarítmica requiere que todos los valores de datos sean positivos y garantiza que todas las predicciones serán positivas. Es adecuada para datos como las precipitaciones, que no pueden ser negativas.
Si se aplica una transformación, se usa un modelo kriging simple en lugar de una función aleatoria intrínseca. A causa de estos cambios, las distribuciones de parámetros cambian a Nugget, Meseta parcial y Rango.
Si se elige K de Bessel o K de Bessel sin tendencia para Tipo de semivariograma, se muestra un gráfico adicional para el parámetro Forma en K de Bessel. También aparece una pestaña Transformación adicional que muestra la distribución de las transformaciones ajustadas (una para cada simulación). Al igual que en la pestaña Semivariogramas, la distribución de la transformación está coloreada por densidad y se proporcionan líneas cuantiles.
Semivariogramas
En todos los métodos de estadísticas geográficas se presupone una autocorrelación espacial; es decir: que las cosas más próximas se parecen más que las más lejanas, y el semivariograma define cómo disminuye la semejanza con la distancia. En algunos semivariogramas (Exponencial, por ejemplo), se supone que la semejanza disminuye con rapidez. El modelo de semivariograma Whittle, sin embargo, supone que la semejanza disminuye lentamente. Incluso con los mismos valores de nugget, rango y meseta, estos dos semivariogramas definirán la semejanza decreciente de modos radicalmente distintos. La clave para obtener resultados fiables es elegir el semivariograma que más se acerca al comportamiento del fenómeno. Los modelos de semivariogramas disponibles dependen de la transformación que se elija.
Si Transformación se define como Ninguna, estarán disponibles los siguientes modelos de semivariogramas:
- Potencia (predeterminado)
- Lineal
- Spline de lámina delgada
Si Transformación se define como Empírica o Empírica logarítmica, estarán disponibles los siguientes modelos de semivariogramas:
- Exponencial (predeterminado)
- Exponencial sin tendencia
- Whittle
- Whittle sin tendencia
- K de Bessel
- K de Bessel sin tendencia
Los tres modelos de semivariogramas sin tendencia son iguales que los modelos correspondientes en los que no se ha eliminado la tendencia, salvo por el hecho de que se aplica una eliminación de tendencia de primer orden. La eliminación de la tendencia tiene un efecto despreciable en la velocidad del cálculo. La presencia de la tendencia se puede comprobar con la herramienta ESDA de análisis de tendencia.
Ventajas y desventajas de cada modelo
Cada semivariograma tiene ventajas y desventajas. Cuando se elige un semivariograma, se deben tener en cuenta el tiempo de cálculo y la flexibilidad del modelo (la capacidad de dar cabida a una amplia gama de datasets):
- Potencia
- Ventajas: relativamente rápido y flexible. Suele ser una opción segura que equilibra rendimiento y precisión.
- Desventajas: menos flexible y más lento que otras opciones.
- Lineal
- Ventajas: muy rápido.
- Desventajas: es el modelo menos flexible.
- Spline de lámina delgada
- Ventajas: muy rápido. Funciona mejor en los casos con tendencias fuertes.
- Desventajas: menos flexible, en especial cuando no hay ninguna tendencia presente.
- Exponencial
- Ventajas: ofrece una transformación flexible. Más rápido que K de Bessel y K de Bessel sin tendencia.
- Desventajas: la forma del semivariograma no es flexible. Lento comparado con Potencia, Lineal y Spline de lámina delgada.
- Exponencial sin tendencia
- Ventajas: ofrece una transformación flexible. Más rápido que K de Bessel y K de Bessel sin tendencia. Elimina la tendencia de primer orden.
- Desventajas: la forma del semivariograma no es flexible. Lento comparado con Potencia, Lineal y Spline de lámina delgada.
- Whittle
- Ventajas: ofrece una transformación flexible. Más rápido que K de Bessel y K de Bessel sin tendencia.
- Desventajas: la forma del semivariograma no es flexible. Lento comparado con Potencia, Lineal y Spline de lámina delgada.
- Whittle sin tendencia
- Ventajas: ofrece una transformación flexible. Más rápido que K de Bessel y K de Bessel sin tendencia. Elimina la tendencia de primer orden.
- Desventajas: la forma del semivariograma no es flexible. Lento comparado con Potencia, Lineal y Spline de lámina delgada.
- K de Bessel
- Ventajas: más flexible y preciso.
- Desventajas: es el que más tarda en realizar el cálculo.
- K de Bessel sin tendencia
- Ventajas: más flexible y preciso. Elimina la tendencia de primer orden.
- Desventajas: es el que más tarda en realizar el cálculo.
Elegir un semivariograma
La elección del semivariograma debería resultar clara en la mayoría de los casos considerando los siguientes criterios:
- Si está dispuesto a esperar para obtener los resultados más precisos, debe elegir, K de Bessel o K de Bessel sin tendencia. La presencia o ausencia de tendencia será lo que determine cuál de ellos se usa.
- Si necesita resultados rápidos y está dispuesto a sacrificar algo de precisión, debe elegir Lineal o Spline de lámina delgada. Si no hay tendencia o la tendencia es débil, es mejor usar Lineal.
- Si necesita un equilibrio entre precisión y velocidad, Potencia es una buena opción.
- Si se requiere una transformación, pero no puede permitirse esperar mucho tiempo para obtener los resultados, debe elegir Exponencial o Whittle (o sus equivalentes sin tendencia). Debe elegir el que coincida con las semivarianzas empíricas en el Asistente de estadísticas geográficas (que se describe a continuación). También se debe tener en cuenta la validación cruzada.
Si tiene que elegir entre Exponencial, Whittle y sus equivalentes sin tendencia, debe elegir el semivariograma que proporcione el mejor ajuste visual para las semivarianzas empíricas (las cruces azules de los gráficos siguientes). En una situación ideal, las semivarianzas deberían estar en la parte central del espectro del semivariograma. Por ejemplo, en el siguiente gráfico, las cruces azules no están en la parte central del espectro del semivariograma (la mayoría se encuentra hacia la parte superior del espectro):
En su lugar, se debe preferir el siguiente semivariograma, ya que las cruces azules están en la parte central del espectro del semivariograma:
Cálculos de distancia para los datos en coordenadas geográficas
Si los datos de entrada están en un sistema de coordenadas geográficas, las distancias se calcularán usando la distancia cordal. La distancia cordal entre dos puntos cualesquiera es la distancia en línea recta que conecta los dos puntos. Esta línea atravesará la Tierra en lugar de discurrir por su superficie. Para visualizarlo, imagine que enciende una linterna a través de una esfera transparente. La longitud del haz de luz entre el punto por el que entra la luz y el punto por el que sale de la esfera es la distancia cordal entre esos dos puntos. La principal ventaja de usar la distancia cordal en lugar de la geodésica es que consume menos recursos de cálculo. Además, la teoría sobre el uso de kriging en esferoides es limitada.
Las versiones anteriores de ArcGIS trataban las coordenadas geográficas como coordenadas cuadradas y calculaban la distancia euclídea entre los puntos. Sin embargo, una celda de un grado por un grado no es realmente un cuadrado, por lo que la distancia estará distorsionada. Esta distorsión empeora a medida que aumenta la distancia hacia el norte o el sur con respecto al ecuador.
Parámetros adicionales para el Kriging bayesiano empírico
El Kriging bayesiano empírico emplea tres parámetros que no aparecen en otros métodos kriging:
- Tamaño del subconjunto: especifica el número de puntos de cada subconjunto. Cuanto mayor sea el tamaño del subconjunto, más tiempo hará falta para el cálculo de EBK.
- Factor de superposición: especifica el grado de superposición entre los subconjuntos. Cada punto de entrada puede entrar en varios subconjuntos y el factor de superposición especifica el número promedio de subconjuntos en el que encaja cada punto. Por ejemplo, un factor de superposición de 1,5 significa que aproximadamente la mitad de los puntos se utilizarán en un subconjunto y la otra mitad, en dos subconjuntos. Un valor más alto del factor de superposición hace que la superficie de salida sea más suave, pero también aumenta el tiempo de procesamiento.
- Número de simulaciones: especifica el número de semivariogramas que se simularán para cada subconjunto. Más simulaciones harán que las predicciones sean más precisas, pero el tiempo de procesamiento también aumentará.
Referencias
- Chilès, J-P. y P. Delfiner (1999). Capítulo 4 de Geostatistics: Modeling Spatial Uncertainty. Nueva York: John Wiley & Sons, Inc.
- Krivoruchko K. (2012). "Empirical Bayesian Kriging", ArcUser otoño de 2012.
- Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging", ArcUser otoño de 2012.
- Krivoruchko K. y Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data", Mathematics of Planet Earth. Proceedings de la XV Conferencia Anual de la International Association for Mathematical Geosciences. Springer 2014, pp. 61-64.
- Pilz, J. y G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods", Stochastic Environmental Research and Risk Assessment 22 (5): 621-632.