Zufallsstichprobe auswählen (Data Reviewer)

Mit der Data Reviewer-Lizenz verfügbar.

Zusammenfassung

Wählt basierend auf der angegebenen Stichprobenmethode eine Zufallsstichprobe der Eingabe-Features oder -Zeilen aus.

Die Ausgabe ist eine Auswahl, die im Eingabe-Layer im Kartenrahmen erstellt wird. Das Werkzeug kann auch eine .json-Datei, in der die ausgewählten Objekt-IDs (OIDs) gespeichert werden, und den SQL-Ausdruck, der für die Auswahl verwendet wird, erstellen. Die Auswahl kann für die Workflows des Werkzeugs Features durchsuchen zur visuellen Überprüfung und des Werkzeugs Datenprüfungen ausführen verwendet werden.

Verwendung

  • Für den Parameter Stichprobenmethode gibt es die folgenden Optionen:

    • Feste Anzahl: Die Anzahl der ausgewählten Datensätze hängt vom Wert für den Parameter Anzahl der Datensätze ab.
    • Prozentsatz: Die Anzahl der ausgewählten Datensätze hängt vom Wert für den Parameter Prozentsatz der Datensätze ab.
    • Automatische Berechnung: Die Anzahl der ausgewählten Datensätze basiert auf einer Berechnung mit den Parameterwerten Konfidenzniveau und Fehlerspanne.

  • Für die Option Automatische Berechnung des Parameters Stichprobenmethode werden zum Berechnen der Anzahl der Datensätze die folgenden Variablen verwendet:

    z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) n=((z/m)^2)*(p*(1-p)) n'=(n*N)/(n+(N-1))
    • Die Z-Statistik für das gewünschte Konfidenzniveau (z). Die Z-Statistik wird mit der Konfidenzniveauvariablen und dem scipy.stats-Modul z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) berechnet.
    • Die zulässige Fehlerspanne im Konfidenzintervall (m).
    • Die Wahrscheinlichkeit (p) ist bei 0,5 am höchsten, da kein bisheriges Wissen darüber vorhanden ist, ob ein bestimmter Prozentsatz von Datensätzen erfolgreich oder nicht erfolgreich sein wird. Da die Wahrscheinlichkeit, dass Datensätze erfolgreich sind, gleich hoch ist, wie die Wahrscheinlichkeit, dass sie nicht erfolgreich sind, ist 0,5 der konservativste Wert, der in der Gleichung für Varianz verwendet wird.
    • Die Populationsgröße (N) ist die Gesamtzahl der Datensätze in einem Feature-Layer oder in einer Feature-Tabelle.

  • Zufalls-OIDs werden mit dem Python-random-Modul random.sample(population, k) ausgewählt, wobei population die Liste der OID-Werte und k die Größe der Stichprobe angibt.

  • Die Ausgabe dieses Werkzeugs ist eine Zufallsauswahl von Datensätzen aus dem Parameterwert Eingabezeilen, der auf dem Parameterwerte Stichprobenmethode basiert.

  • Verwenden Sie den optionalen Parameter Ausgabedatei, um eine .json-Datei zu erstellen, die Folgendes enthält:

    • Datum und der Uhrzeit der Ausführung des Werkzeugs
    • Der Workspace, aus dem die Eingabe stammt
    • Der Name der Eingabe-Feature-Layer oder -Tabellen
    • Die Gesamtanzahl der ausgewählten Datensätze
    • Die OIDs der ausgewählte Datensätze
    • Der für die Auswahl verwendete SQL-Ausdruck

  • Alle im Parameter Eingabezeilen vorgenommen Auswahlen werden implementiert. Dabei spielt es keine Rolle, ob die Umschaltfläche Ausgewählte Datensätze verwenden deaktiviert ist.

  • Der Feature-Layer bzw. die Tabelle muss über ein Feld ObjectID verfügen, bevor dieses Werkzeug ausgeführt wird.

  • Wenn die Umschaltfläche Ausgewählte Datensätze verwenden deaktiviert ist, zeichnet der Wert des Parameters Ausgabedatei eine zufällige Auswahl von Features auf der Grundlage des gesamten Datasets auf. Wenn jedoch eine Definitionsabfrage angewendet wird, werden nur die Features oder Zeilen im Kartenrahmen ausgewählt, die der Abfrage entsprechen.

Parameter

BeschriftungErläuterungDatentyp
Eingabezeilen

Die Daten, auf die die Auswahl angewendet wird.

Feature Layer; Table View
Stichprobenmethode

Gibt die Stichprobenmethode an, die verwendet wird.

  • Feste AnzahlDie Anzahl der ausgewählten Datensätze hängt vom Wert für den Parameter "Anzahl der Datensätze" ab.
  • ProzentsatzDie Anzahl der ausgewählten Datensätze hängt vom Wert für den Parameter "Prozentsatz der Datensätze" ab.
  • Automatische BerechnungDie Anzahl der ausgewählten Datensätze basiert auf einer Berechnung mit den Parameterwerten "Konfidenzniveau" und "Fehlerspanne".
String
Anzahl der Datensätze
(optional)

Die Anzahl der Datensätze, die ausgewählt werden.

Dieser Parameter ist aktiv, wenn der Parameterwert Stichprobenmethode auf Feste Anzahl festgelegt ist.

Long
Prozentsatz der Datensätze
(optional)

Der Prozentsatz der Datensätze in der Eingabe, der ausgewählt wird.

Dieser Parameter ist aktiv, wenn der Parameterwert Stichprobenmethode auf Prozentsatz festgelegt ist.

Long
Konfidenzniveau
(optional)

Das Konfidenzniveau gibt die Wahrscheinlichkeit an, mit der eine Stichprobengröße statistisch signifikant ist, und wird in Prozent angegeben, z. B 98 oder 95.

Dieser Parameter wird zum Berechnen der Z-Statistik (z) verwendet.

Die Z-Statistik kann mit dem scipy.stats-Modul z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) berechnet werden.

Dieser Parameter ist aktiv, wenn der Parameterwert Stichprobenmethode auf Automatische Berechnung festgelegt ist.

Long
Fehlerspanne
(optional)

Die zulässige Fehlerspanne im Konfidenzniveau. Sie wird in Prozent angegeben, z. B. 8 oder 5.

Bei diesem Parameter wird die berechnete Z-Statistik (z) verwendet, um die tatsächliche Stichprobengröße (n') anhand der folgenden Gleichungen zu berechnen: n=((z/m)^2)*(p*(1-p)) zu n'=(n*N)/(n+(N-1)).

Dieser Parameter ist aktiv, wenn der Parameterwert Stichprobenmethode auf Automatische Berechnung festgelegt ist.

Long
Ausgabedatei
(optional)

Die Ausgabe-.json-Datei, die den Datensatz mit den ausgewählten Daten enthält.

File

Abgeleitete Ausgabe

BeschriftungErläuterungDatentyp
Aktualisierte Zeilen

Die aktualisierte Eingabe mit angewendeter Auswahl.

Feature Layer; Table View

arcpy.Reviewer.SelectRandomSample(in_layer_or_view, sample_method, {number_of_records}, {percentage_of_records}, {confidence_level}, {margin_of_error}, {out_file})
NameErläuterungDatentyp
in_layer_or_view

Die Daten, auf die die Auswahl angewendet wird.

Feature Layer; Table View
sample_method

Gibt die Stichprobenmethode an, die verwendet wird.

  • FIXED_NUMBERDie Anzahl der ausgewählten Datensätze hängt vom Wert für den Parameter "Anzahl der Datensätze" ab.
  • PERCENTAGEDie Anzahl der ausgewählten Datensätze hängt vom Wert für den Parameter "Prozentsatz der Datensätze" ab.
  • AUTO_CALCULATEDie Anzahl der ausgewählten Datensätze basiert auf einer Berechnung mit den Parameterwerten "Konfidenzniveau" und "Fehlerspanne".
String
number_of_records
(optional)

Die Anzahl der Datensätze, die ausgewählt werden.

Dieser Parameter ist aktiviert, wenn der Parameterwert sample_method auf FIXED_NUMBER festgelegt ist.

Long
percentage_of_records
(optional)

Der Prozentsatz der Datensätze in der Eingabe, der ausgewählt wird.

Dieser Parameter ist aktiviert, wenn der Parameterwert sample_method auf PERCENTAGE festgelegt ist.

Long
confidence_level
(optional)

Das Konfidenzniveau gibt die Wahrscheinlichkeit an, mit der eine Stichprobengröße statistisch signifikant ist, und wird in Prozent angegeben, z. B 98 oder 95.

Dieser Parameter wird zum Berechnen der Z-Statistik (z) verwendet.

Die Z-Statistik kann mit dem scipy.stats-Modul z=scipy.stats.norm.ppf(1-(1-confidence_level)/2) berechnet werden.

Dieser Parameter ist aktiviert, wenn der Parameterwert sample_method auf AUTO_CALCULATE festgelegt ist.

Long
margin_of_error
(optional)

Die zulässige Fehlerspanne im Konfidenzniveau. Sie wird in Prozent angegeben, z. B. 8 oder 5.

Bei diesem Parameter wird die berechnete Z-Statistik (z) verwendet, um die tatsächliche Stichprobengröße (n') anhand der folgenden Gleichungen zu berechnen: n=((z/m)^2)*(p*(1-p)) zu n'=(n*N)/(n+(N-1)).

Dieser Parameter ist aktiviert, wenn der Parameterwert sample_method auf AUTO_CALCULATE festgelegt ist.

Long
out_file
(optional)

Die Ausgabe-.json-Datei, die den Datensatz mit den ausgewählten Daten enthält.

File

Abgeleitete Ausgabe

NameErläuterungDatentyp
out_layer_or_view

Die aktualisierte Eingabe mit angewendeter Auswahl.

Feature Layer; Table View

Codebeispiel

SelectRandomSample: Beispiel 1 (Python-Fenster)

Das folgende Skript im Python-Fenster veranschaulicht, wie Sie die Funktion SelectRandomSample verwenden.

import arcpy
arcpy.env.workspace = r"C:\USAData\Data.gdb"
arcpy.SelectRandomSample_Reviewer("Cities", "FIXED_NUMBER", number_of_records = 35, out_file = "C:\\USAData\\Cities_Sample.json")
SelectRandomSample: Beispiel 2 (eigenständiges Skript)

Mit dem folgenden eigenständigen Skript wird eine Zufallsauswahl der Features innerhalb des Feature-Layers "Cities" erstellt.

# Name: SelectRandomSample_Example.py
# Description: Use the SelectRandomSample tool in ArcGIS Pro to select a random sample of features from a feature class.

# Import system modules
import arcpy

# Set environment workspace
arcpy.env.workspace = r"C:\USAData\Data.gdb"

# Set local variables
in_layer_or_view = "Cities"
sampling_method = "AUTO_CALCULATE"
confidence_level = 98
margin_of_error = 5
out_file = r"C:\USAData\Cities_Sample.json"

# Generate a random sample of features
arcpy.SelectRandomSample_Reviewer(in_layer_or_view, sampling_method, confidence_level, margin_of_error, out_file)

Lizenzinformationen

  • Basic: Erfordert Data Reviewer
  • Standard: Erfordert Data Reviewer
  • Advanced: Erfordert Data Reviewer

Verwandte Themen