Seleccionar muestra aleatoria (Data Reviewer)

Disponible con una licencia de Data Reviewer.

Resumen

Selecciona una muestra aleatoria de las entidades o filas de entrada según el método de muestreo especificado.

El resultado es una selección realizada en la capa de entrada en el marco del mapa. La herramienta también puede crear un archivo .json que registra los Id. de objeto (OID) seleccionados y la expresión SQL utilizada para la selección. La selección se puede utilizar para los flujos de trabajo de la herramienta de revisión visual Examinar entidades y de la herramienta Ejecutar comprobaciones de datos.

Uso

  • El parámetro Método de muestreo ofrece las siguientes opciones:

    • Número fijo: el número de registros seleccionados se basará en el valor del parámetro Número de registros.
    • Porcentaje: el número de registros seleccionados se basará en el valor del parámetro Porcentaje de registros.
    • Cálculo automático: el número de registros seleccionados se basará en un cálculo que utiliza los valores de los parámetros Nivel de confianza y Margen de error.

  • La opción Cálculo automático del parámetro Método de muestreo utiliza las siguientes variables para calcular el número de registros:

    z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) n=((z/m)^2)*(p*(1-p)) n'=(n*N)/(n+(N-1))
    • La estadística z para el nivel de confianza deseado (z). La estadística z se calcula utilizando la variable del nivel de confianza y el módulo scipy.stats z=scipy.stats.norm.ppf(1-(1-confidence_level)/2).
    • El margen de error aceptable en el intervalo de confianza (m).
    • La probabilidad (p) es mayor en 0,5 porque no hay datos históricos sobre si un determinado porcentaje de registros se aprobará o suspenderá. Dado que las probabilidades de que los registros se aprueben o suspendan son iguales, 0,5 es el valor más conservador que se puede utilizar en la ecuación de varianza.
    • El tamaño de la población (N) es el número total de registros en una capa de entidades o tabla.

  • Se seleccionan OID aleatorios utilizando el módulo random Python random.sample(population, k), donde population es la lista de valores de OID y k es el tamaño de la muestra.

  • El resultado de esta herramienta es una selección aleatoria de registros del valor del parámetro Filas de entrada, basada en el valor del parámetro Método de muestreo.

  • Utilice el parámetro opcional Archivo de salida para crear un archivo .json que incluya lo siguiente:

    • La fecha y hora en que se ejecutó la herramienta
    • El espacio de trabajo del que se obtiene la entrada
    • El nombre de las capas o tablas de entidades de entrada
    • El número total de registros seleccionados
    • Los OID de los registros seleccionados
    • La expresión SQL que se utilizó para realizar la selección

  • Se implementarán todas las selecciones realizadas en el parámetro Filas de entrada, independientemente de si el botón de alternancia Usar los registros seleccionados está desactivado.

  • La tabla o capa de entidades debe tener un campo ObjectID antes de ejecutar esta herramienta.

  • Si el botón de alternancia Usar los registros seleccionados está desactivado, el valor del parámetro Archivo de salida registrará una selección aleatoria de entidades basada en todo el dataset. Sin embargo, si se aplica una consulta de definición, solo se seleccionarán en el marco del mapa las entidades o filas que coincidan con la consulta.

Parámetros

EtiquetaExplicaciónTipo de datos
Filas de entrada

Los datos a los que se aplicará la selección.

Feature Layer; Table View
Método de muestreo

Especifica el método de muestreo que se utilizará.

  • Número fijoEl número de registros seleccionados se basará en el valor del parámetro de número de registros.
  • PorcentajeEl número de registros seleccionados se basará en el valor del parámetro de porcentaje de registros.
  • Calcular automáticamenteEl número de registros seleccionados se basará en un cálculo que utiliza los valores de los parámetros de nivel de confianza y margen de error.
String
Número de registros
(Opcional)

Número de registros que se seleccionarán.

Este parámetro está activo si el valor del parámetro Método de muestreo es Número fijo.

Long
Porcentaje de registros
(Opcional)

Porcentaje de registros de la entrada que se seleccionarán.

Este parámetro está activo si el valor del parámetro Método de muestreo es Porcentaje.

Long
Nivel de confianza
(Opcional)

El nivel de confianza es la probabilidad de que un tamaño de muestra sea estadísticamente significativo, introducido como un porcentaje, por ejemplo, 98 o 95.

Este parámetro se utilizará para calcular la estadística z (z).

La estadística z se puede calcular mediante el módulo scipy.stats z=scipy.stats.norm.ppf(1-(1-confidence_level)/2).

Este parámetro está activo si el valor del parámetro Método de muestreo es Cálculo automático.

Long
Margen de error
(Opcional)

Margen de error aceptable en el intervalo de confianza (m), especificado como porcentaje, por ejemplo, 8 o 5.

Este parámetro utiliza la estadística z calculada (z) para calcular el tamaño real de la muestra (n') utilizando las siguientes ecuaciones: de n=((z/m)^2)*(p*(1-p)) a n'=(n*N)/(n+(N-1)).

Este parámetro está activo si el valor del parámetro Método de muestreo es Cálculo automático.

Long
Archivo de salida
(Opcional)

Archivo .json de salida que contendrá un registro de los datos seleccionados.

File

Salida derivada

EtiquetaExplicaciónTipo de datos
Filas actualizadas

Entradas actualizadas con las selecciones aplicadas.

Feature Layer; Table View

arcpy.Reviewer.SelectRandomSample(in_layer_or_view, sample_method, {number_of_records}, {percentage_of_records}, {confidence_level}, {margin_of_error}, {out_file})
NombreExplicaciónTipo de datos
in_layer_or_view

Los datos a los que se aplicará la selección.

Feature Layer; Table View
sample_method

Especifica el método de muestreo que se utilizará.

  • FIXED_NUMBEREl número de registros seleccionados se basará en el valor del parámetro de número de registros.
  • PERCENTAGEEl número de registros seleccionados se basará en el valor del parámetro de porcentaje de registros.
  • AUTO_CALCULATEEl número de registros seleccionados se basará en un cálculo que utiliza los valores de los parámetros de nivel de confianza y margen de error.
String
number_of_records
(Opcional)

Número de registros que se seleccionarán.

Este parámetro está habilitado si el valor del parámetro sample_method es FIXED_NUMBER.

Long
percentage_of_records
(Opcional)

Porcentaje de registros de la entrada que se seleccionarán.

Este parámetro está habilitado si el valor del parámetro sample_method es PERCENTAGE.

Long
confidence_level
(Opcional)

El nivel de confianza es la probabilidad de que un tamaño de muestra sea estadísticamente significativo, introducido como un porcentaje, por ejemplo, 98 o 95.

Este parámetro se utilizará para calcular la estadística z (z).

La estadística z se puede calcular mediante el módulo scipy.stats z=scipy.stats.norm.ppf(1-(1-confidence_level)/2).

Este parámetro está habilitado si el valor del parámetro sample_method es AUTO_CALCULATE.

Long
margin_of_error
(Opcional)

Margen de error aceptable en el intervalo de confianza (m), especificado como porcentaje, por ejemplo, 8 o 5.

Este parámetro utiliza la estadística z calculada (z) para calcular el tamaño real de la muestra (n') utilizando las siguientes ecuaciones: de n=((z/m)^2)*(p*(1-p)) a n'=(n*N)/(n+(N-1)).

Este parámetro está habilitado si el valor del parámetro sample_method es AUTO_CALCULATE.

Long
out_file
(Opcional)

Archivo .json de salida que contendrá un registro de los datos seleccionados.

File

Salida derivada

NombreExplicaciónTipo de datos
out_layer_or_view

Entradas actualizadas con las selecciones aplicadas.

Feature Layer; Table View

Muestra de código

Ejemplo 1 de SelectRandomSample (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la función SelectRandomSample.

import arcpy
arcpy.env.workspace = r"C:\USAData\Data.gdb"
arcpy.SelectRandomSample_Reviewer("Cities", "FIXED_NUMBER", number_of_records = 35, out_file = "C:\\USAData\\Cities_Sample.json")
Ejemplo 2 de SelectRandomSample (secuencia de comandos autónoma)

La siguiente secuencia de comandos autónoma crea una selección aleatoria de entidades dentro de la capa de entidades Cities.

# Name: SelectRandomSample_Example.py
# Description: Use the SelectRandomSample tool in ArcGIS Pro to select a random sample of features from a feature class.

# Import system modules
import arcpy

# Set environment workspace
arcpy.env.workspace = r"C:\USAData\Data.gdb"

# Set local variables
in_layer_or_view = "Cities"
sampling_method = "AUTO_CALCULATE"
confidence_level = 98
margin_of_error = 5
out_file = r"C:\USAData\Cities_Sample.json"

# Generate a random sample of features
arcpy.SelectRandomSample_Reviewer(in_layer_or_view, sampling_method, confidence_level, margin_of_error, out_file)

Información de licenciamiento

  • Basic: Requiere Data Reviewer
  • Standard: Requiere Data Reviewer
  • Advanced: Requiere Data Reviewer

Temas relacionados