EBK Regression Prediction (Geostatistical Analyst)

Disponible con una licencia de Geostatistical Analyst.

Resumen

EBK Regression Prediction es un método de interpolación de estadísticas geográficas que usa Kriging bayesiano empírico con rásteres de variables explicativas que afectan al valor de los datos que se están interpolando. Este método combina kriging con el análisis de regresión para realizar predicciones que son más precisas de lo que la regresión o kriging pueden conseguir por separado.

Más información sobre EBK Regression Prediction

Uso

  • Esta herramienta solo admite salidas de mapas de predicción. Para crear mapas de errores, cuantiles o probabilidades estándar, genere una capa de estadísticas geográficas y conviértala en un ráster (o varios rásteres) con GA Layer To Rasters.

  • Este método kriging puede manipular razonablemente datos de entrada no estacionarios.

  • Este método de interpolación admite únicamente las Vecindades de búsqueda Estándar circular y Circular suavizado.

  • Si alguno de sus Rásteres de variable explicativa de entrada tiene muchas celdas NoData, es posible que la Capa de estadísticas geográficas de salida no se visualice en el mapa. No supone un problema y los cálculos se han realizado correctamente. Para visualizar la salida, convierta su capa de estadísticas geográficas en un ráster con GA Layer To Rasters o GA Layer To Grid. También puede optar por generar un ráster directamente desde esta herramienta utilizando el parámetro Ráster de predicción de salida.

  • Si las Entidades de variable dependiente de entrada están en un sistema de coordenadas geográficas, todas las distancias se calcularán mediante distancias de cuerda. Para obtener más información sobre distancias de cuerda, consulte la sección Cálculos de distancia para datos en coordenadas geográficas del tema de ayuda Qué es el kriging bayesiano empírico.

Parámetros

EtiquetaExplicaciónTipo de datos
Entidades de variable dependiente de entrada

Las entidades de punto de entrada que contiene el campo que se interpolará.

Feature Layer
Campo de variable dependiente

El campo de las Entidades de variable dependiente de entrada que contiene los valores de la variable dependiente. Este es el campo que se interpolará.

Field
Rásteres de variable explicativa de entrada

Rásteres de entrada que representan las variables explicativas que se utilizarán para crear el modelo de regresión. Estos rásteres deben representar variables que se sabe que pueden influir en los valores de la variable dependiente. Por ejemplo, al interpolar datos de temperatura, se debe utilizar un ráster de elevación como variable explicativa, ya que la temperatura se ve afectada por la elevación. Puede utilizar hasta 62 rásteres explicativos.

Raster Layer; Mosaic Layer
Capa de estadísticas geográficas de salida

La capa de estadísticas geográficas de salida que muestra el resultado de la interpolación.

Geostatistical Layer
Ráster de predicción de salida
(Opcional)

El ráster de salida que muestra el resultado de la interpolación. El tamaño de celda predeterminado será el máximo de los tamaños de celda de Rásteres de variable explicativa de entrada. Para utilizar otro tamaño de celda, utilice la configuración de entorno Tamaño de celda.

Raster Dataset
Clase de entidad de diagnóstico de salida
(Opcional)

Clase de entidad poligonal de salida que muestra las regiones de cada modelo local y contiene campos con información de diagnóstico de los modelos locales. Para cada subconjunto, se creará un polígono que rodea los puntos del subconjunto para que pueda identificar fácilmente qué puntos se utilizaron en cada subconjunto. Por ejemplo, si hay 10 modelos locales, habrá diez polígonos en esta salida. La clase de entidad contendrá los siguientes campos:

  • Número de componentes principales (PrincComps): el número de componentes principales que se utilizaron como variables explicativas. El valor siempre será menor o igual que el número de rásteres de variables explicativas.
  • Porcentaje de varianza (PercVar): el porcentaje de varianza captada por los componentes principales. Este valor será mayor que o igual al valor especificado en el parámetro Porcentaje acumulativo mínimo de varianza que aparece a continuación.
  • Error cuadrático medio (RMSE): la raíz cuadrada de los errores de validación cruzada promedio al cuadrado. Cuanto más pequeño sea este valor, mejor se ajusta el modelo.
  • Intervalo del 90 por ciento (Perc90): el porcentaje de puntos de datos que están dentro de un intervalo de confianza de validación cruzada del 90 por ciento. Lo ideal sería que este número estuviese cerca de 90. Un valor significativamente inferior a 90 indica que los errores estándar se están infravalorando. Un valor significativamente superior a 90 indica que los errores estándar se están sobrevalorando.
  • Intervalo del 95 por ciento (Perc95): el porcentaje de puntos de datos que están dentro de un intervalo de confianza de validación cruzada del 95 por ciento. Lo ideal sería que este número estuviese cerca de 95. Un valor significativamente inferior a 95 indica que los errores estándar se están infravalorando. Un valor significativamente superior a 95 indica que los errores estándar se están sobrevalorando.
  • Error de absolutos medios (MeanAbsErr): el promedio de los valores absolutos de los errores de validación cruzada. Este valor debe ser lo más pequeño posible. Es similar a Error cuadrático medio, pero está menos influenciado por valores extremos.
  • Error medio (MeanError): el promedio de errores de la validación cruzada. Este valor debe ser próximo a cero. Un valor significativamente diferente a cero indica que las predicciones están sesgadas.
  • Continuous Ranked Probability Score (CRPS): la puntuación de probabilidad continua clasificada es un diagnóstico que mide la desviación de la función de distribución acumulada predictiva a cada valor de datos observado. Este valor debe ser lo más pequeño posible. Este diagnóstico tiene ventajas sobre los diagnósticos de validación cruzada porque compara los datos con una distribución completa en lugar de con predicciones de un solo punto.
Feature Class
Campo de error de medición de variable dependiente
(Opcional)

Un campo que especifica el error de medición de cada punto en las entidades de variable dependiente. Para cada punto, el valor de este campo debería corresponderse con una desviación estándar del valor medido del punto. Utilice este campo si los valores de error de medición no son los mismos en cada punto.

Una fuente común de error de medición no constante es cuando los datos se miden con diferentes dispositivos. Un dispositivo puede ser más preciso que otro, lo que significa que tendrá un error de medición menor. Por ejemplo, un termómetro redondea al grado más cercano y otro a la décima más cercana a un grado. La variabilidad de las mediciones la suele proporcionar el fabricante del dispositivo de medición o se puede conocer de la práctica empírica.

Deje este parámetro vacío si no hay ningún valor de error de medición o si se desconocen los valores de error de medición.

Field
Porcentaje acumulativo mínimo de varianza
(Opcional)

El porcentaje mínimo acumulado de varianza de los componentes principales de los rásteres de variables explicativas. Antes de crear el modelo de regresión, se calculan los componentes principales de las variables explicativas y estos componentes principales se utilizan como variables explicativas en la regresión. Cada componente principal captura un determinado porcentaje de la varianza de las variables explicativas, y este parámetro controla el porcentaje mínimo de varianza que deben capturar los componentes principales de cada modelo local. Por ejemplo, si se proporciona un valor de 75, el software utilizará el número mínimo de componentes principales necesarios para capturar al menos el 75 por ciento de la varianza de las variables explicativas.

Los componentes principales no están todos correlacionados mutuamente entre sí, por lo que el uso de componentes principales soluciona el problema de la multicolinealidad (variables explicativas que están correlacionadas entre sí). La mayoría de la información contenida en todas las variables explicativas se puede capturar con frecuencia en solo un par de componentes principales. Al descartar los componentes principales menos útiles, el cálculo del modelo se vuelve más estable y eficiente sin una pérdida significativa de precisión.

Para calcular los componentes principales, debe existir variabilidad en las variables explicativas, de modo que si alguno de sus Rásteres de variable explicativa de entrada contiene valores constantes dentro de un subconjunto, estos rásteres constantes no se utilizarán para calcular los componentes principales de ese subconjunto. Si todos los rásteres de variables explicativas de un subconjunto contienen valores constantes, la Clase de entidad de diagnóstico de salida indicará que se utilizaron cero componentes principales y que capturaron el cero por ciento de la variabilidad.

Double
Entidades poligonales de subconjunto
(Opcional)

Proporcione entidades poligonales que definan dónde se calcularán los modelos locales. Los puntos dentro de cada polígono se utilizarán para los modelos locales. Este parámetro es útil cuando sabe que los valores de la variable dependiente cambian según las regiones conocidas. Por ejemplo, estos polígonos pueden representar distritos sanitarios administrativos donde la política sanitaria cambia entre distintos distritos.

También puede utilizar la herramienta Generar polígonos del subconjunto para crear polígonos de un subconjunto. Los polígonos creados por esta herramienta no se superpondrán ni compactarán.

Feature Layer
Tipo de transformación de variable dependiente
(Opcional)

Tipo de transformación que se aplicará a los datos de entrada.

  • NingunaNo se aplica ninguna transformación. Esta es la opción predeterminada.
  • EmpíricaTransformación de sesgo multiplicativo con función base Empírica.
  • Empírica logarítmicaTransformación de sesgo multiplicativo con función base Empírica logarítmica. Todos los valores de datos deben ser positivos. Si elige esta opción, todas las predicciones serán positivas.
String
Tipo de modelo de semivariograma
(Opcional)

El modelo de semivariograma que se utilizará para la interpolación.

  • ExponencialSemivariograma Exponencial
  • NuggetSemivariograma Nugget
  • WhittleSemivariograma Whittle
  • K de BesselSemivariograma K de Bessel
String
Número máximo de puntos de cada modelo local
(Opcional)

Los datos de entrada se dividirán automáticamente en subconjuntos que no tienen más que este número de puntos. Si se proporcionan Entidades poligonales de subconjunto, se ignorará el valor de este parámetro.

Long
Factor de superposición del área del modelo local
(Opcional)

Factor que representa el grado de superposición entre los modelos locales (también llamados subconjuntos). Cada punto de entrada puede encontrarse en varios subconjuntos, y el factor de superposición especifica el número promedio de subconjuntos en los que se encontrará cada punto. Un valor alto del factor de superposición hace que la superficie de salida sea más suave, pero también aumenta el tiempo de procesamiento. Los valores deben estar entre 1 y 5. Si se proporcionan Entidades poligonales de subconjunto, se ignorará el valor de este parámetro.

Double
Número de simulaciones
(Opcional)

El número de semivariogramas simulados de cada modelo local. Utilizar más simulaciones hará que los cálculos del modelo sean más estables, pero el modelo tardará más en calcularse.

Long
Vecindad de búsqueda
(Opcional)

Define qué puntos colindantes se utilizarán para controlar la salida. Estándar es la opción predeterminada.

Estándar circular

  • Máx. vecinos: el número máximo de vecinos que se utilizará para estimar el valor en la ubicación desconocida.
  • Mín. vecinos: el número mínimo de vecinos que se utilizará para estimar el valor en la ubicación desconocida.
  • Tipo de sector: la geometría de la vecindad.
    • Un sector: elipse simple.
    • Cuatro sectores: elipse dividida en cuatro sectores.
    • Cuatro sectores desplazados: elipse dividida en cuatro sectores y desplazada 45 grados.
    • Ocho sectores: elipse dividida en ocho sectores.
  • Ángulo: el ángulo de rotación para el eje (círculo) o semieje mayor (elipse) de la ventana en movimiento.
  • Radio: la longitud del radio del círculo de búsqueda.

Circular suavizado

  • Factor de suavizado: la opción Suavizar interpolación crea una elipse exterior y una elipse interior a una distancia igual al Semieje mayor multiplicada por el Factor de suavizado. Los puntos que quedan fuera de la elipse más pequeña, pero dentro de la elipse más grande, se ponderan mediante una función sigmoidea con un valor entre cero y uno.
  • Radio: la longitud del radio del círculo de búsqueda.
Geostatistical Search Neighborhood

arcpy.ga.EBKRegressionPrediction(in_features, dependent_field, in_explanatory_rasters, out_ga_layer, {out_raster}, {out_diagnostic_feature_class}, {measurement_error_field}, {min_cumulative_variance}, {in_subset_features}, {transformation_type}, {semivariogram_model_type}, {max_local_points}, {overlap_factor}, {number_simulations}, {search_neighborhood})
NombreExplicaciónTipo de datos
in_features

Las entidades de punto de entrada que contiene el campo que se interpolará.

Feature Layer
dependent_field

El campo de las Entidades de variable dependiente de entrada que contiene los valores de la variable dependiente. Este es el campo que se interpolará.

Field
in_explanatory_rasters
[[in_explanatory_raster,…],...]

Rásteres de entrada que representan las variables explicativas que se utilizarán para crear el modelo de regresión. Estos rásteres deben representar variables que se sabe que pueden influir en los valores de la variable dependiente. Por ejemplo, al interpolar datos de temperatura, se debe utilizar un ráster de elevación como variable explicativa, ya que la temperatura se ve afectada por la elevación. Puede utilizar hasta 62 rásteres explicativos.

Raster Layer; Mosaic Layer
out_ga_layer

La capa de estadísticas geográficas de salida que muestra el resultado de la interpolación.

Geostatistical Layer
out_raster
(Opcional)

El ráster de salida que muestra el resultado de la interpolación. El tamaño de celda predeterminado será el máximo de los tamaños de celda de Rásteres de variable explicativa de entrada. Para utilizar otro tamaño de celda, utilice la configuración de entorno Tamaño de celda.

Raster Dataset
out_diagnostic_feature_class
(Opcional)

Clase de entidad poligonal de salida que muestra las regiones de cada modelo local y contiene campos con información de diagnóstico de los modelos locales. Para cada subconjunto, se creará un polígono que rodea los puntos del subconjunto para que pueda identificar fácilmente qué puntos se utilizaron en cada subconjunto. Por ejemplo, si hay 10 modelos locales, habrá diez polígonos en esta salida. La clase de entidad contendrá los siguientes campos:

  • Número de componentes principales (PrincComps): el número de componentes principales que se utilizaron como variables explicativas. El valor siempre será menor o igual que el número de rásteres de variables explicativas.
  • Porcentaje de varianza (PercVar): el porcentaje de varianza captada por los componentes principales. Este valor será mayor que o igual al valor especificado en el parámetro Porcentaje acumulativo mínimo de varianza que aparece a continuación.
  • Error cuadrático medio (RMSE): la raíz cuadrada de los errores de validación cruzada promedio al cuadrado. Cuanto más pequeño sea este valor, mejor se ajusta el modelo.
  • Intervalo del 90 por ciento (Perc90): el porcentaje de puntos de datos que están dentro de un intervalo de confianza de validación cruzada del 90 por ciento. Lo ideal sería que este número estuviese cerca de 90. Un valor significativamente inferior a 90 indica que los errores estándar se están infravalorando. Un valor significativamente superior a 90 indica que los errores estándar se están sobrevalorando.
  • Intervalo del 95 por ciento (Perc95): el porcentaje de puntos de datos que están dentro de un intervalo de confianza de validación cruzada del 95 por ciento. Lo ideal sería que este número estuviese cerca de 95. Un valor significativamente inferior a 95 indica que los errores estándar se están infravalorando. Un valor significativamente superior a 95 indica que los errores estándar se están sobrevalorando.
  • Error de absolutos medios (MeanAbsErr): el promedio de los valores absolutos de los errores de validación cruzada. Este valor debe ser lo más pequeño posible. Es similar a Error cuadrático medio, pero está menos influenciado por valores extremos.
  • Error medio (MeanError): el promedio de errores de la validación cruzada. Este valor debe ser próximo a cero. Un valor significativamente diferente a cero indica que las predicciones están sesgadas.
  • Continuous Ranked Probability Score (CRPS): la puntuación de probabilidad continua clasificada es un diagnóstico que mide la desviación de la función de distribución acumulada predictiva a cada valor de datos observado. Este valor debe ser lo más pequeño posible. Este diagnóstico tiene ventajas sobre los diagnósticos de validación cruzada porque compara los datos con una distribución completa en lugar de con predicciones de un solo punto.
Feature Class
measurement_error_field
(Opcional)

Un campo que especifica el error de medición de cada punto en las entidades de variable dependiente. Para cada punto, el valor de este campo debería corresponderse con una desviación estándar del valor medido del punto. Utilice este campo si los valores de error de medición no son los mismos en cada punto.

Una fuente común de error de medición no constante es cuando los datos se miden con diferentes dispositivos. Un dispositivo puede ser más preciso que otro, lo que significa que tendrá un error de medición menor. Por ejemplo, un termómetro redondea al grado más cercano y otro a la décima más cercana a un grado. La variabilidad de las mediciones la suele proporcionar el fabricante del dispositivo de medición o se puede conocer de la práctica empírica.

Deje este parámetro vacío si no hay ningún valor de error de medición o si se desconocen los valores de error de medición.

Field
min_cumulative_variance
(Opcional)

El porcentaje mínimo acumulado de varianza de los componentes principales de los rásteres de variables explicativas. Antes de crear el modelo de regresión, se calculan los componentes principales de las variables explicativas y estos componentes principales se utilizan como variables explicativas en la regresión. Cada componente principal captura un determinado porcentaje de la varianza de las variables explicativas, y este parámetro controla el porcentaje mínimo de varianza que deben capturar los componentes principales de cada modelo local. Por ejemplo, si se proporciona un valor de 75, el software utilizará el número mínimo de componentes principales necesarios para capturar al menos el 75 por ciento de la varianza de las variables explicativas.

Los componentes principales no están todos correlacionados mutuamente entre sí, por lo que el uso de componentes principales soluciona el problema de la multicolinealidad (variables explicativas que están correlacionadas entre sí). La mayoría de la información contenida en todas las variables explicativas se puede capturar con frecuencia en solo un par de componentes principales. Al descartar los componentes principales menos útiles, el cálculo del modelo se vuelve más estable y eficiente sin una pérdida significativa de precisión.

Para calcular los componentes principales, debe existir variabilidad en las variables explicativas, de modo que si alguno de sus Rásteres de variable explicativa de entrada contiene valores constantes dentro de un subconjunto, estos rásteres constantes no se utilizarán para calcular los componentes principales de ese subconjunto. Si todos los rásteres de variables explicativas de un subconjunto contienen valores constantes, la Clase de entidad de diagnóstico de salida indicará que se utilizaron cero componentes principales y que capturaron el cero por ciento de la variabilidad.

Double
in_subset_features
(Opcional)

Proporcione entidades poligonales que definan dónde se calcularán los modelos locales. Los puntos dentro de cada polígono se utilizarán para los modelos locales. Este parámetro es útil cuando sabe que los valores de la variable dependiente cambian según las regiones conocidas. Por ejemplo, estos polígonos pueden representar distritos sanitarios administrativos donde la política sanitaria cambia entre distintos distritos.

También puede utilizar la herramienta Generar polígonos del subconjunto para crear polígonos de un subconjunto. Los polígonos creados por esta herramienta no se superpondrán ni compactarán.

Feature Layer
transformation_type
(Opcional)

Tipo de transformación que se aplicará a los datos de entrada.

  • NONENo se aplica ninguna transformación. Esta es la opción predeterminada.
  • EMPIRICALTransformación de sesgo multiplicativo con función base Empírica.
  • LOGEMPIRICALTransformación de sesgo multiplicativo con función base Empírica logarítmica. Todos los valores de datos deben ser positivos. Si elige esta opción, todas las predicciones serán positivas.
String
semivariogram_model_type
(Opcional)

El modelo de semivariograma que se utilizará para la interpolación.

Más información sobre los modelos de semivariograma en EBK Regression Prediction

  • EXPONENTIALSemivariograma Exponencial
  • NUGGETSemivariograma Nugget
  • WHITTLESemivariograma Whittle
  • K_BESSELSemivariograma K de Bessel
String
max_local_points
(Opcional)

Los datos de entrada se dividirán automáticamente en subconjuntos que no tienen más que este número de puntos. Si se proporcionan Entidades poligonales de subconjunto, se ignorará el valor de este parámetro.

Long
overlap_factor
(Opcional)

Factor que representa el grado de superposición entre los modelos locales (también llamados subconjuntos). Cada punto de entrada puede encontrarse en varios subconjuntos, y el factor de superposición especifica el número promedio de subconjuntos en los que se encontrará cada punto. Un valor alto del factor de superposición hace que la superficie de salida sea más suave, pero también aumenta el tiempo de procesamiento. Los valores deben estar entre 1 y 5. Si se proporcionan Entidades poligonales de subconjunto, se ignorará el valor de este parámetro.

Double
number_simulations
(Opcional)

El número de semivariogramas simulados de cada modelo local. Utilizar más simulaciones hará que los cálculos del modelo sean más estables, pero el modelo tardará más en calcularse.

Long
search_neighborhood
(Opcional)

Define qué puntos colindantes se utilizarán para controlar la salida. Estándar es la opción predeterminada.

A continuación, se muestran clases de vecindades de búsqueda: SearchNeighborhoodStandardCircular y SearchNeighborhoodSmoothCircular.

Estándar circular

  • radius: la longitud del radio del círculo de búsqueda.
  • angle: el ángulo de rotación para el eje (círculo) o semieje mayor (elipse) de la ventana en movimiento.
  • nbrMax: el número máximo de vecinos que se utilizará para estimar el valor en la ubicación desconocida.
  • nbrMin: el número mínimo de vecinos que se utilizará para estimar el valor en la ubicación desconocida.
  • sectorType: la geometría de la vecindad.
    • ONE_SECTOR: elipse simple.
    • FOUR_SECTORS: elipse dividida en cuatro sectores.
    • FOUR_SECTORS_SHIFTED: elipse dividida en cuatro sectores y desplazada 45 grados.
    • EIGHT_SECTORS: elipse dividida en ocho sectores.

Circular suavizado

  • radius: la longitud del radio del círculo de búsqueda.
  • smoothFactor: la opción Suavizar interpolación crea una elipse exterior y una elipse interior a una distancia igual al Semieje mayor multiplicada por el Factor de suavizado. Los puntos que quedan fuera de la elipse más pequeña, pero dentro de la elipse más grande, se ponderan mediante una función sigmoidea con un valor entre cero y uno.
Geostatistical Search Neighborhood

Muestra de código

Ejemplo 1 de EBKRegressionPrediction (ventana de Python)

Interpolar una clase de entidad de punto utilizando rásteres de variables explicativas.

import arcpy
arcpy.EBKRegressionPrediction_ga("HousingSales_Points", "SalePrice",
                ["AREASQFEET", "NUMBATHROOMS", "NUMBEDROOMS","TOTALROOMS"],
                "out_ga_layer", None, None, None, 95, None, "LOGEMPIRICAL",
                "EXPONENTIAL", 100, 1, 100, None)
Ejemplo 2 de EBKRegressionPrediction (script independiente)

Interpolar una clase de entidad de punto utilizando rásteres de variables explicativas.

# Name: EBKRegressionPrediction_Example_02.py
# Description: Interpolates housing prices using EBK Regression Prediction
# Requirements: Geostatistical Analyst Extension
# Author: Esri

# Import system modules
import arcpy

# Set environment settings
arcpy.env.workspace = "C:/gaexamples/data.gdb"

# Set local variables
inDepFeatures = "HousingSales_Points"
inDepField = "SalePrice"
inExplanRasters = ["AREASQFEET", "NUMBATHROOMS", "NUMBEDROOMS","TOTALROOMS"]
outLayer = "outEBKRP_layer"
outRaster = "outEBKRP_raster"
outDiagFeatures = "outEBKRP_features"
inDepMeField = ""
minCumVariance = 97.5
outSubsetFeatures = ""
depTransform = ""
semiVariogram= "K_BESSEL"
maxLocalPoints = 50
overlapFactor = 1
numberSinulations = 200
radius = 100000
searchNeighbourhood = arcpy.SearchNeighborhoodStandardCircular(radius)

# Check out the ArcGIS Geostatistical Analyst extension license
arcpy.CheckOutExtension("GeoStats")

# Execute EBKRegressionPrediction
arcpy.EBKRegressionPrediction_ga(inDepFeatures, inDepField, inExplanRasters,
                outLayer, outRaster, outDiagFeatures, inDepMeField, minCumVariance,
                outSubsetFeatures, depTransform, semiVariogram, maxLocalPoints,
                overlapFactor, numberSinulations, searchNeighbourhood)

Información de licenciamiento

  • Basic: Requiere Geostatistical Analyst
  • Standard: Requiere Geostatistical Analyst
  • Advanced: Requiere Geostatistical Analyst

Temas relacionados