Résumé
Standardise les valeurs des champs en les convertissant en valeurs conformes à une échelle spécifiée. Parmi les méthodes de standardisation figurent les suivantes : score z, minimum-maximum, maximum absolu et standardisation robuste.
Illustration
Utilisation
Il existe quatre méthodes de standardisation : Z-Score (Score z), Minimum-maximum, Absolute maximum (Maximum absolu) et Robust standardization (Standardisation robuste).
- La méthode Z-Score (Score z) mesure la différence entre une valeur et la moyenne de toutes les valeurs du champ à l’aide d’écarts types, ou score standard.
- Application potentielle : évaluer l’importance d’une valeur par rapport à la distribution des valeurs dans un champ. Par exemple, la participation des votants d’un comté peut être évaluée par rapport à celle d’autres comtés du pays, ce qui révèle des modèles de participation types et permet d’identifier les comtés où la participation est très élevée et très faible.
- Remarque : cette méthode s’applique lorsque la distribution est normale. Par conséquent, elle est déconseillée si la distribution des données est significativement faussée.
- Équation :, où x' est la valeur standardisée, x est la valeur initiale, x̄ est la moyenne et σx est l’écart type.
- La méthode Minimum-maximum préserve les relations entre les valeurs de données initiales lors de la conversion des valeurs dans une échelle comprise entre des valeurs minimum et maximum spécifiées par l’utilisateur.
- Application potentielle : un évaluateur de biens immobilier peut mettre à l’échelle les caractéristiques des biens, telles que le nombre de pièces d’une maison ou l’âge d’une maison en années, avant d’utiliser ces caractéristiques dans un modèle, par exemple l’outil Classification et régression basées sur une forêt.
- Remarque : cette approche est influencée par les points aberrants, ou valeurs extrêmes, présents dans les données.
- Équation :, où x' est la valeur standardisée, x est la valeur initiale, min(x) est le minimum des données, max(x) est le maximum des données, a est le minimum spécifié par l’utilisateur et b est le maximum spécifié par l’utilisateur.
- La méthode Maximum absolu compare la différence entre une valeur et la valeur maximum absolue d’une répartition en divisant chaque valeur par la valeur maximum absolue dans le champ.
- Application potentielle : cette méthode est utile lorsque le maximum de vos données est stable et logique, et que vous souhaitez comparer chaque valeur à ce maximum. Par exemple, le nombre de votes pour un comté ne peut pas être supérieur au nombre de personnes en âge de voter dans le comté. Le comté présentant la proportion de votes la plus élevée devient le maximum et tous les autres comtés sont évalués en fonction de ce maximum absolu de participation.
- Remarque : l’échelle en sortie est comprise entre -1 et 1. Les valeurs positives les plus élevées correspondent aux valeurs proches de 1 et les valeurs négatives les plus élevées, aux valeurs proches de -1.
- Équation :, où x' est la valeur standardisée, x est la valeur initiale et max(|x|) est le maximum des valeurs absolues dans les données.
- La méthode Standardisation robuste standardise les valeurs des champs spécifiés à l’aide d’une variante robuste de la méthode Score z. Cette variante utilise la médiane et l’intervalle interquartile au lieu de la moyenne et de l’écart type.
- Application potentielle : un évaluateur de biens immobiliers tente d’estimer la valeurs des biens dans une ville, mais un quartier dans lequel les prix sont particulièrement élevés produit des points aberrants dans les données. L’évaluateur utilise la standardisation robuste pour limiter l’impact de ces points aberrants dans la distribution des valeurs des biens immobiliers pour la ville.
- Remarque : l’utilisation de la médiane et de l’intervalle interquartile peut permettre de limiter efficacement l’impact des points aberrants dans la distribution.
- Équation :, où x' est la valeur standardisée, x est la valeur initiale, median(x) est la médiane des données et IQR(x) est l’intervalle interquartile des données.
- La méthode Z-Score (Score z) mesure la différence entre une valeur et la moyenne de toutes les valeurs du champ à l’aide d’écarts types, ou score standard.
Si plusieurs champs sont fournis, la méthode de standardisation spécifiée est appliquée à tous les champs.
Cet outil modifie les données en entrée et ajoute les nouveaux champs standardisés à la table ou la classe d’entités en entrée.
Pour chaque champ sélectionné, des statistiques résumées sont présentées dans les messages de géotraitement générés. Celles-ci incluent le maximum, le minimum, la somme, la moyenne, l’écart type, la médiane, l’asymétrie et l’aplatissement.
Syntaxe
arcpy.management.StandardizeField(in_table, fields, {method}, {min_value}, {max_value})
Paramètre | Explication | Type de données |
in_table | Table qui contient les champs dont les valeurs doivent être standardisées. | Table View; Raster Layer; Mosaic Layer |
fields [[input_field, output_field],...] | Champs contenant les valeurs à standardiser. Pour chaque champ, un nom de champ en sortie peut être spécifié. Si aucun nom de champ en sortie n’est spécifié, l’outil en crée un, basé sur le nom du champ et la méthode sélectionnée. | Value Table |
method (Facultatif) | Spécifie la méthode à utiliser pour standardiser les valeurs présentes dans les champs spécifiés.
| String |
min_value (Facultatif) | Valeur utilisée par la méthode MIN-MAX du paramètre method pour spécifier la valeur minimale dans l’échelle des valeurs en sortie spécifiées. | Double |
max_value (Facultatif) | Valeur utilisée par la méthode MIN-MAX du paramètre method pour spécifier la valeur maximale dans l’échelle des valeurs en sortie spécifiées. | Double |
Sortie dérivée
Nom | Explication | Type de données |
updated_table | Tableau contenant les nouveaux champs standardisés. | Vue tabulaire |
Exemple de code
Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil StandardizeField.
arcpy.management.StandardizeField("County_VoterTurnout",
"voter_turnout voter_turnout_Z_SCORE", "Z-SCORE")
Le script autonome suivant illustre l'utilisation de l'outil StandardizeField.
# Import system modules
import arcpy
try:
# Set the workspace and input features.
arcpy.env.workspace = r"C:\\Standardize\\MyData.gdb"
inputFeatures = ”County_VoterTurnout”
# Set the input fields that will be standardized
fields = "votes_total;rawdiff_dem_vs_gop;pctdiff_dem_vs_gop"
# Set the standardization method.
method = "ROBUST"
# Run the Standardize Field tool
arcpy.management.StandardizeField(inputFeatures, fields, method)
except arcpy.ExecuteError:
# If an error occurred when running the tool, print the error message.
print(arcpy.GetMessages())
Environnements
Informations de licence
- Basic: Oui
- Standard: Oui
- Advanced: Oui
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?