Sélectionner un échantillonnage aléatoire (Data Reviewer)

Disponible avec une licence Data Reviewer.

Synthèse

Sélectionne un échantillon aléatoire d’entités ou de lignes en entrée en fonction de la méthode d’échantillonnage spécifiée.

La sortie est une sélection effectuée sur la couche en entrée dans la fenêtre cartographique. L’outil peut également créer un fichier .json qui enregistre les identifiants d’objets (OID) sélectionnés, ainsi que l’expression SQL utilisée pour la sélection. La sélection peut être utilisée pour les processus de l’outil de révision visuelle Parcourir les entités et de l’outil Exécuter des vérifications des données.

Utilisation

  • Le paramètre Méthode d’échantillonnage comporte les options suivantes :

    • Nombre fixe : le nombre d’enregistrements sélectionnés se base sur la valeur du paramètre Nombre d’enregistrements.
    • Pourcentage : le nombre d’enregistrements sélectionnés se base sur la valeur du paramètre Pourcentage d’enregistrements.
    • Calculer automatiquement : le nombre d’enregistrements sélectionnés se base sur un calcul utilisant les valeurs de paramètre Niveau de confiance et Marge d’erreur.

  • L’option Calculer automatiquement du paramètre Méthode d’échantillonnage utilise les variables suivantes pour calculer le nombre d’enregistrements :

    z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) n=((z/m)^2)*(p*(1-p)) n'=(n*N)/(n+(N-1))
    • Statistique z pour le niveau de confiance souhaité (z). La statistique z est calculée à l’aide de la variable du niveau de confiance et du module scipy.stats : z=scipy.stats.norm.ppf(1-(1-confidence_level)/2).
    • Marge d’erreur acceptable dans l’intervalle de confiance (m).
    • La probabilité (p) est la plus élevée à 0,5 car il n’existe pas de connaissance antérieure indiquant si un certain pourcentage d’enregistrements réussit ou échoue. Étant donné que les chances de réussite ou d’échec des enregistrements sont équivalentes, 0,5 est la valeur la plus classique à utiliser dans l’équation de variance.
    • La taille de population (N) est le nombre total d’enregistrements dans une couche d’entités ou une table.

  • Les OID aléatoires sont sélectionnés à l’aide du module random Python : random.sample(population, k), où population est la liste des valeurs d’OID, et k la taille de l’échantillon.

  • La sortie de cet outil est une sélection aléatoire d’enregistrements provenant de la valeur du paramètre Enregistrements en entrée, qui se base sur la valeur du paramètre Méthode d’échantillonnage.

  • Utilisez le paramètre facultatif Fichier en sortie pour créer un fichier .json incluant les éléments suivants :

    • Date et heure à laquelle l’outil a été exécuté
    • L’espace de travail dont provient l’entrée
    • Le nom des couches ou tables d’entités en entrée
    • Le nombre total d’enregistrements sélectionnés
    • Les OID des enregistrements sélectionnés
    • L’expression SQL qui a été utilisée pour effectuer la sélection

  • Toutes les sélections effectuées dans le paramètre Enregistrements en entrée sont implémentées, même si le bouton basculeUtiliser les enregistrements sélectionnés est désactivé.

  • La table ou couche d’entités doit avoir un champ ObjectID avant d’exécuter cet outil.

  • Si le bouton bascule Utiliser les enregistrements sélectionnés est désactivé, la valeur du paramètre Fichier en sortie enregistre une sélection aléatoire des entités en fonction de la totalité du jeu de données. Toutefois, si un ensemble de définition est appliqué, seules les entités ou les enregistrements correspondant à la requête sont sélectionnés dans la fenêtre cartographique.

Paramètres

ÉtiquetteExplicationType de données
Enregistrements en entrée

Données auxquelles s’applique la sélection.

Feature Layer; Table View
Méthode d’échantillonnage

Spécifie la méthode d’échantillonnage à utiliser.

  • Nombre fixeLe nombre d’enregistrements sélectionnés se base sur la valeur du paramètre Nombre d’enregistrements.
  • PourcentageLe nombre d’enregistrements sélectionnés est basé sur la valeur du paramètre Pourcentage d’enregistrements.
  • Calculer automatiquementLe nombre d’enregistrements sélectionnés se base sur un calcul utilisant les valeurs de paramètre Niveau de confiance et Marge d’erreur.
String
Nombre d’enregistrements
(Facultatif)

Nombre d’enregistrements qui seront sélectionnés.

Ce paramètre est actif lorsque la valeur du paramètre Méthode d’échantillonnage est Nombre fixe.

Long
Pourcentage d’enregistrements
(Facultatif)

Pourcentage d’enregistrements dans l’entrée qui seront sélectionnées.

Ce paramètre est actif lorsque la valeur du paramètre Méthode d’échantillonnage est Pourcentage.

Long
Niveau de confiance
(Facultatif)

Le niveau de confiance est la probabilité qu’une taille de l’échantillon, saisie sous forme de pourcentage, comme 98 ou 95, soit statistiquement pertinente.

Ce paramètre est utilisé pour calculer la statistique z (z).

Il est possible de calculer la statistique z à l’aide du module scipy.stats : z=scipy.stats.norm.ppf(1-(1-confidence_level)/2).

Ce paramètre est actif lorsque la valeur du paramètre Méthode d’échantillonnage est Calculer automatiquement.

Long
Marge d’erreur
(Facultatif)

Marge d’erreur acceptable dans le niveau de confiance, saisie sous forme de pourcentage, comme 8 ou 5.

Ce paramètre utilise la statistique z calculée (z) pour calculer la taille réelle de l’échantillon (n’) à l’aide des équations suivantes : n=((z/m)^2)*(p*(1-p)) à n'=(n*N)/(n+(N-1)).

Ce paramètre est actif lorsque la valeur du paramètre Méthode d’échantillonnage est Calculer automatiquement.

Long
Fichier en sortie
(Facultatif)

Fichier .json en sortie qui contiendra un enregistrement des données sélectionnées.

File

Sortie obtenue

ÉtiquetteExplicationType de données
Enregistrements mis à jour

Entrée mise à jour avec les sélections appliquées.

Feature Layer; Table View

arcpy.Reviewer.SelectRandomSample(in_layer_or_view, sample_method, {number_of_records}, {percentage_of_records}, {confidence_level}, {margin_of_error}, {out_file})
NomExplicationType de données
in_layer_or_view

Données auxquelles s’applique la sélection.

Feature Layer; Table View
sample_method

Spécifie la méthode d’échantillonnage à utiliser.

  • FIXED_NUMBERLe nombre d’enregistrements sélectionnés se base sur la valeur du paramètre Nombre d’enregistrements.
  • PERCENTAGELe nombre d’enregistrements sélectionnés est basé sur la valeur du paramètre Pourcentage d’enregistrements.
  • AUTO_CALCULATELe nombre d’enregistrements sélectionnés se base sur un calcul utilisant les valeurs de paramètre Niveau de confiance et Marge d’erreur.
String
number_of_records
(Facultatif)

Nombre d’enregistrements qui seront sélectionnés.

Ce paramètre est activé lorsque la valeur du paramètre sample_method est FIXED_NUMBER.

Long
percentage_of_records
(Facultatif)

Pourcentage d’enregistrements dans l’entrée qui seront sélectionnées.

Ce paramètre est activé lorsque la valeur du paramètre sample_method est PERCENTAGE.

Long
confidence_level
(Facultatif)

Le niveau de confiance est la probabilité qu’une taille de l’échantillon, saisie sous forme de pourcentage, comme 98 ou 95, soit statistiquement pertinente.

Ce paramètre est utilisé pour calculer la statistique z (z).

Il est possible de calculer la statistique z à l’aide du module scipy.stats : z=scipy.stats.norm.ppf(1-(1-confidence_level)/2).

Ce paramètre est activé lorsque la valeur du paramètre sample_method est AUTO_CALCULATE.

Long
margin_of_error
(Facultatif)

Marge d’erreur acceptable dans le niveau de confiance, saisie sous forme de pourcentage, comme 8 ou 5.

Ce paramètre utilise la statistique z calculée (z) pour calculer la taille réelle de l’échantillon (n’) à l’aide des équations suivantes : n=((z/m)^2)*(p*(1-p)) à n'=(n*N)/(n+(N-1)).

Ce paramètre est activé lorsque la valeur du paramètre sample_method est AUTO_CALCULATE.

Long
out_file
(Facultatif)

Fichier .json en sortie qui contiendra un enregistrement des données sélectionnées.

File

Sortie obtenue

NomExplicationType de données
out_layer_or_view

Entrée mise à jour avec les sélections appliquées.

Feature Layer; Table View

Exemple de code

Exemple 1 de la fonction SelectRandomSample (fenêtre Python)

Le script ci-dessous pour la fenêtre Python illustre l’utilisation de la fonction SelectRandomSample.

import arcpy
arcpy.env.workspace = r"C:\USAData\Data.gdb"
arcpy.SelectRandomSample_Reviewer("Cities", "FIXED_NUMBER", number_of_records = 35, out_file = "C:\\USAData\\Cities_Sample.json")
Exemple 2 de la fonction SelectRandomSample (script autonome)

Le script autonome suivant crée une sélection aléatoire d’entités dans la couche d’entités Villes.

# Name: SelectRandomSample_Example.py
# Description: Use the SelectRandomSample tool in ArcGIS Pro to select a random sample of features from a feature class.

# Import system modules
import arcpy

# Set environment workspace
arcpy.env.workspace = r"C:\USAData\Data.gdb"

# Set local variables
in_layer_or_view = "Cities"
sampling_method = "AUTO_CALCULATE"
confidence_level = 98
margin_of_error = 5
out_file = r"C:\USAData\Cities_Sample.json"

# Generate a random sample of features
arcpy.SelectRandomSample_Reviewer(in_layer_or_view, sampling_method, confidence_level, margin_of_error, out_file)

Informations de licence

  • Basic: Nécessite Data Reviewer
  • Standard: Nécessite Data Reviewer
  • Advanced: Nécessite Data Reviewer

Rubriques connexes