Validación cruzada (Geostatistical Analyst)

Disponible con una licencia de Geostatistical Analyst.

Resumen

Elimina una ubicación de datos y predice los datos asociados utilizando los datos del resto de las ubicaciones. El uso principal de esta herramienta es comparar el valor predicho con el valor observado a fin de obtener información útil sobre algunos de los parámetros del modelo.

Más información sobre cómo realizar la validación cruzada y la validación

Uso

  • Al utilizar esta herramienta en Python, el objeto result contiene tanto una clase de entidad como una CrossValidationResult, que tiene las siguientes propiedades:

    • Count: número total de muestras utilizadas.
    • Mean Error: diferencia media entre los valores medidos y los previstos.
      Mean error
    • Root Mean Square Error: indica la precisión con la que el modelo predice los valores medidos. Cuanto menor sea este error, mejor.
      Error cuadrático medio
    • Average Standard Error: media de los errores estándar de predicción.
      Error estándar medio
    • Mean Standardized Error: media de los errores estandarizados. Este valor debe ser próximo a 0.
      Error medio estandarizado
    • Root Mean Square Standardized Error: debería ser cercano a 1 si los errores estándar de predicción son válidos. Si el error medio cuadrático estandarizado es mayor que 1, está subestimando la variabilidad de sus predicciones. Si el error medio cuadrático estandarizado es inferior a 1, se está sobrestimando la variabilidad de las predicciones.
      Error medio cuadrático estandarizado
    • Percent in 90% Interval: porcentaje de puntos que tienen un intervalo de confianza de validación cruzada del 90 por ciento. Este valor debe ser próximo a 90.
    • Percent in 95% Interval: porcentaje de puntos que tienen un intervalo de confianza de validación cruzada del 95 por ciento. Este valor debe ser próximo a 95.
    • Average CRPS: puntuación media de la probabilidad continua clasificada (CRPS) de todos los puntos. CRPS es un diagnóstico que mide la desviación de la función de distribución acumulativa predictiva a cada valor de los datos observados. Este valor debe ser lo más pequeño posible. Este diagnóstico tiene ventajas sobre otros diagnósticos de validación cruzada porque compara los datos con una distribución completa en lugar de con predicciones de un solo punto. El cálculo de esta estadística implica simulaciones para que no se pueda escribir en una fórmula simple.

    Solo los resultados de Mean y Root Mean Square Error están disponibles para IDW,Interpolación polinómica global,Funciones de base radial,Interpolación de difusión con barreras e Interpolación kernel con barreras.

    Porcentaje en intervalo de 90%, Porcentaje en intervalo de 95% y Promedio CRPS solo están disponibles para los modelos Empirical Bayesian Kriging y EBK Regression Prediction.

  • Los campos de la clase de entidad de salida opcional se describen en la herramienta GA Layer To Points.

Parámetros

EtiquetaExplicaciónTipo de datos
Capa de estadísticas geográficas de entrada

La capa de estadísticas geográficas que se analizará.

Geostatistical Layer
Clase de entidad de puntos de salida
(Opcional)

Almacena las estadísticas de validación cruzada en cada ubicación de la capa de estadísticas geográficas.

Feature Class

Salida derivada

EtiquetaExplicaciónTipo de datos
Recuento

Número total de muestras utilizadas.

Long
Error medio

Mean Error: diferencia media entre los valores medidos y los previstos.

Double
Valor medio cuadrático

Root Mean Square Error: indica la precisión con la que el modelo predice los valores medidos.

Double
Estándar promedio

Average Standard Error: media de los errores estándar de predicción.

Double
Valor medio estandarizado

Mean Standardized Error: media de los errores estandarizados.

Double
Valor medio cuadrático estandarizado

Root Mean Square Standardized Error: debería ser cercano a 1 si los errores estándar de predicción son válidos.

Double
Porcentaje en intervalo del 90%

Percent in 90% Interval: porcentaje de puntos que tienen un intervalo de confianza de validación cruzada del 90 por ciento. Este valor debe ser próximo a 90.

Double
Porcentaje en intervalo del 95%

Percent in 95% Interval: porcentaje de puntos que tienen un intervalo de confianza de validación cruzada del 95 por ciento. Este valor debe ser próximo a 95.

Double
Average CRPS

Average CRPS: puntuación media de la probabilidad continua clasificada (CRPS) de todos los puntos. CRPS es un diagnóstico que mide la desviación de la función de distribución acumulativa predictiva a cada valor de los datos observados. Este valor debe ser lo más pequeño posible. Este diagnóstico tiene ventajas sobre otros diagnósticos de validación cruzada porque compara los datos con una distribución completa en lugar de con predicciones de un solo punto. El cálculo de esta estadística implica simulaciones para que no se pueda escribir en una fórmula simple.

Double

arcpy.ga.CrossValidation(in_geostat_layer, {out_point_feature_class})
NombreExplicaciónTipo de datos
in_geostat_layer

La capa de estadísticas geográficas que se analizará.

Geostatistical Layer
out_point_feature_class
(Opcional)

Almacena las estadísticas de validación cruzada en cada ubicación de la capa de estadísticas geográficas.

Feature Class

Salida derivada

NombreExplicaciónTipo de datos
count

Número total de muestras utilizadas.

Long
mean_error

Mean Error: diferencia media entre los valores medidos y los previstos.

Double
root_mean_square

Root Mean Square Error: indica la precisión con la que el modelo predice los valores medidos.

Double
average_standard

Average Standard Error: media de los errores estándar de predicción.

Double
mean_standardized

Mean Standardized Error: media de los errores estandarizados.

Double
root_mean_square_standardized

Root Mean Square Standardized Error: debería ser cercano a 1 si los errores estándar de predicción son válidos.

Double
percent_in_90_interval

Percent in 90% Interval: porcentaje de puntos que tienen un intervalo de confianza de validación cruzada del 90 por ciento. Este valor debe ser próximo a 90.

Double
percent_in_95_interval

Percent in 95% Interval: porcentaje de puntos que tienen un intervalo de confianza de validación cruzada del 95 por ciento. Este valor debe ser próximo a 95.

Double
average_crps

Average CRPS: puntuación media de la probabilidad continua clasificada (CRPS) de todos los puntos. CRPS es un diagnóstico que mide la desviación de la función de distribución acumulativa predictiva a cada valor de los datos observados. Este valor debe ser lo más pequeño posible. Este diagnóstico tiene ventajas sobre otros diagnósticos de validación cruzada porque compara los datos con una distribución completa en lugar de con predicciones de un solo punto. El cálculo de esta estadística implica simulaciones para que no se pueda escribir en una fórmula simple.

Double

Muestra de código

Ejemplo de CrossValidation 1 (ventana Python)

Realiza una validación cruzada en una capa de estadísticas geográficas de entrada.

import arcpy
arcpy.env.workspace = "C:/gapyexamples/data"
cvResult = arcpy.CrossValidation_ga("C:/gapyexamples/data/kriging.lyr")
print("Root Mean Square error = " + str(cvResult.rootMeanSquare))
Ejemplo de CrossValidation 2 (script independiente)

Realiza una validación cruzada en una capa de estadísticas geográficas de entrada.

# Name: CrossValidation_Example_02.py
# Description: Perform cross validation on an input geostatistical layer.
# Requirements: Geostatistical Analyst Extension

# Import system modules
import arcpy

# Set environment settings
arcpy.env.workspace = "C:/gapyexamples/data"

# Set local variables
inLayer = "C:/gapyexamples/data/kriging.lyr"

# Execute CrossValidation
cvResult = arcpy.CrossValidation_ga(inLayer)
print("Root Mean Square error = " + str(cvResult.rootMeanSquare))

Información de licenciamiento

  • Basic: Requiere Geostatistical Analyst
  • Standard: Requiere Geostatistical Analyst
  • Advanced: Requiere Geostatistical Analyst

Temas relacionados