Sélectionner un échantillonnage aléatoire (Data Reviewer)—ArcGIS Pro

Disponible avec une licence Data Reviewer.

Synthèse

Sélectionne un échantillon aléatoire d’entités ou de lignes en entrée en fonction de la méthode d’échantillonnage spécifiée.

La sortie est une sélection effectuée sur la couche en entrée dans la fenêtre cartographique. L’outil peut également créer un fichier .json qui enregistre les identifiants d’objets (OID) sélectionnés, ainsi que l’expression SQL utilisée pour la sélection. La sélection peut être utilisée pour les processus de l’outil de révision visuelle Parcourir les entités et de l’outil Exécuter des vérifications des données.

Utilisation

Le paramètre Méthode d’échantillonnage comporte les options suivantes :
- Nombre fixe : le nombre d’enregistrements sélectionnés se base sur la valeur du paramètre Nombre d’enregistrements.
- Pourcentage : le nombre d’enregistrements sélectionnés se base sur la valeur du paramètre Pourcentage d’enregistrements.
- Calculer automatiquement : le nombre d’enregistrements sélectionnés se base sur un calcul utilisant les valeurs de paramètre Niveau de confiance et Marge d’erreur.
L’option Calculer automatiquement du paramètre Méthode d’échantillonnage utilise les variables suivantes pour calculer le nombre d’enregistrements :
```
z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) n=((z/m)^2)*(p*(1-p)) n'=(n*N)/(n+(N-1))
```
- Statistique z pour le niveau de confiance souhaité (z). La statistique z est calculée à l’aide de la variable du niveau de confiance et du module scipy.stats : z=scipy.stats.norm.ppf(1-(1-confidence_level)/2).
- Marge d’erreur acceptable dans l’intervalle de confiance (m).
- La probabilité (p) est la plus élevée à 0,5 car il n’existe pas de connaissance antérieure indiquant si un certain pourcentage d’enregistrements réussit ou échoue. Étant donné que les chances de réussite ou d’échec des enregistrements sont équivalentes, 0,5 est la valeur la plus classique à utiliser dans l’équation de variance.
- La taille de population (N) est le nombre total d’enregistrements dans une couche d’entités ou une table.
Les OID aléatoires sont sélectionnés à l’aide du module random Python : random.sample(population, k), où population est la liste des valeurs d’OID, et k la taille de l’échantillon.
La sortie de cet outil est une sélection aléatoire d’enregistrements provenant de la valeur du paramètre Enregistrements en entrée, qui se base sur la valeur du paramètre Méthode d’échantillonnage.
Utilisez le paramètre facultatif Fichier en sortie pour créer un fichier .json incluant les éléments suivants :
- Date et heure à laquelle l’outil a été exécuté
- L’espace de travail dont provient l’entrée
- Le nom des couches ou tables d’entités en entrée
- Le nombre total d’enregistrements sélectionnés
- Les OID des enregistrements sélectionnés
- L’expression SQL qui a été utilisée pour effectuer la sélection
Toutes les sélections effectuées dans le paramètre Enregistrements en entrée sont implémentées, même si le bouton basculeUtiliser les enregistrements sélectionnés est désactivé.
La table ou couche d’entités doit avoir un champ ObjectID avant d’exécuter cet outil.
Si le bouton bascule Utiliser les enregistrements sélectionnés est désactivé, la valeur du paramètre Fichier en sortie enregistre une sélection aléatoire des entités en fonction de la totalité du jeu de données. Toutefois, si un ensemble de définition est appliqué, seules les entités ou les enregistrements correspondant à la requête sont sélectionnés dans la fenêtre cartographique.

Paramètres

Étiquette	Explication	Type de données
Enregistrements en entrée	Données auxquelles s’applique la sélection.	Feature Layer; Table View
Méthode d’échantillonnage	Spécifie la méthode d’échantillonnage à utiliser. Nombre fixe—Le nombre d’enregistrements sélectionnés se base sur la valeur du paramètre Nombre d’enregistrements. Pourcentage—Le nombre d’enregistrements sélectionnés est basé sur la valeur du paramètre Pourcentage d’enregistrements. Calculer automatiquement—Le nombre d’enregistrements sélectionnés se base sur un calcul utilisant les valeurs de paramètre Niveau de confiance et Marge d’erreur.	String
Nombre d’enregistrements (Facultatif)	Nombre d’enregistrements qui seront sélectionnés. Ce paramètre est actif lorsque la valeur du paramètre Méthode d’échantillonnage est Nombre fixe.	Long
Pourcentage d’enregistrements (Facultatif)	Pourcentage d’enregistrements dans l’entrée qui seront sélectionnées. Ce paramètre est actif lorsque la valeur du paramètre Méthode d’échantillonnage est Pourcentage.	Long
Niveau de confiance (Facultatif)	Le niveau de confiance est la probabilité qu’une taille de l’échantillon, saisie sous forme de pourcentage, comme 98 ou 95, soit statistiquement pertinente. Ce paramètre est utilisé pour calculer la statistique z (z). Il est possible de calculer la statistique z à l’aide du module scipy.stats : z=scipy.stats.norm.ppf(1-(1-confidence_level)/2). Ce paramètre est actif lorsque la valeur du paramètre Méthode d’échantillonnage est Calculer automatiquement.	Long
Marge d’erreur (Facultatif)	Marge d’erreur acceptable dans le niveau de confiance, saisie sous forme de pourcentage, comme 8 ou 5. Ce paramètre utilise la statistique z calculée (z) pour calculer la taille réelle de l’échantillon (n’) à l’aide des équations suivantes : n=((z/m)^2)(p(1-p)) à n'=(n*N)/(n+(N-1)). Ce paramètre est actif lorsque la valeur du paramètre Méthode d’échantillonnage est Calculer automatiquement.	Long
Fichier en sortie (Facultatif)	Fichier .json en sortie qui contiendra un enregistrement des données sélectionnées.	File

Sortie obtenue

Étiquette	Explication	Type de données
Enregistrements mis à jour	Entrée mise à jour avec les sélections appliquées.	Feature Layer; Table View

arcpy.Reviewer.SelectRandomSample(in_layer_or_view, sample_method, {number_of_records}, {percentage_of_records}, {confidence_level}, {margin_of_error}, {out_file})

Nom	Explication	Type de données
in_layer_or_view	Données auxquelles s’applique la sélection.	Feature Layer; Table View
sample_method	Spécifie la méthode d’échantillonnage à utiliser. FIXED_NUMBER—Le nombre d’enregistrements sélectionnés se base sur la valeur du paramètre Nombre d’enregistrements. PERCENTAGE—Le nombre d’enregistrements sélectionnés est basé sur la valeur du paramètre Pourcentage d’enregistrements. AUTO_CALCULATE—Le nombre d’enregistrements sélectionnés se base sur un calcul utilisant les valeurs de paramètre Niveau de confiance et Marge d’erreur.	String
number_of_records (Facultatif)	Nombre d’enregistrements qui seront sélectionnés. Ce paramètre est activé lorsque la valeur du paramètre sample_method est FIXED_NUMBER.	Long
percentage_of_records (Facultatif)	Pourcentage d’enregistrements dans l’entrée qui seront sélectionnées. Ce paramètre est activé lorsque la valeur du paramètre sample_method est PERCENTAGE.	Long
confidence_level (Facultatif)	Le niveau de confiance est la probabilité qu’une taille de l’échantillon, saisie sous forme de pourcentage, comme 98 ou 95, soit statistiquement pertinente. Ce paramètre est utilisé pour calculer la statistique z (z). Il est possible de calculer la statistique z à l’aide du module scipy.stats : z=scipy.stats.norm.ppf(1-(1-confidence_level)/2). Ce paramètre est activé lorsque la valeur du paramètre sample_method est AUTO_CALCULATE.	Long
margin_of_error (Facultatif)	Marge d’erreur acceptable dans le niveau de confiance, saisie sous forme de pourcentage, comme 8 ou 5. Ce paramètre utilise la statistique z calculée (z) pour calculer la taille réelle de l’échantillon (n’) à l’aide des équations suivantes : n=((z/m)^2)(p(1-p)) à n'=(n*N)/(n+(N-1)). Ce paramètre est activé lorsque la valeur du paramètre sample_method est AUTO_CALCULATE.	Long
out_file (Facultatif)	Fichier .json en sortie qui contiendra un enregistrement des données sélectionnées.	File

Sortie obtenue

Nom	Explication	Type de données
out_layer_or_view	Entrée mise à jour avec les sélections appliquées.	Feature Layer; Table View

Exemple de code

Exemple 1 de la fonction SelectRandomSample (fenêtre Python)

Le script ci-dessous pour la fenêtre Python illustre l’utilisation de la fonction SelectRandomSample.

import arcpy
arcpy.env.workspace = r"C:\USAData\Data.gdb"
arcpy.SelectRandomSample_Reviewer("Cities", "FIXED_NUMBER", number_of_records = 35, out_file = "C:\\USAData\\Cities_Sample.json")

Exemple 2 de la fonction SelectRandomSample (script autonome)

Le script autonome suivant crée une sélection aléatoire d’entités dans la couche d’entités Villes.

# Name: SelectRandomSample_Example.py
# Description: Use the SelectRandomSample tool in ArcGIS Pro to select a random sample of features from a feature class.

# Import system modules
import arcpy

# Set environment workspace
arcpy.env.workspace = r"C:\USAData\Data.gdb"

# Set local variables
in_layer_or_view = "Cities"
sampling_method = "AUTO_CALCULATE"
confidence_level = 98
margin_of_error = 5
out_file = r"C:\USAData\Cities_Sample.json"

# Generate a random sample of features
arcpy.SelectRandomSample_Reviewer(in_layer_or_view, sampling_method, confidence_level, margin_of_error, out_file)

Environnements

Espace de travail courant

Informations de licence

Basic: Nécessite Data Reviewer
Standard: Nécessite Data Reviewer
Advanced: Nécessite Data Reviewer

Rubriques connexes

Vous avez un commentaire à formuler concernant cette rubrique ?

Synthèse

Utilisation

Paramètres

Sortie obtenue

Sortie obtenue

Exemple de code

Environnements

Informations de licence

Rubriques connexes

Dans cette rubrique