Vous pouvez évaluer la qualité et la distribution des valeurs de chaque champ dans vos données à l’aide de l’ingénierie des données. Par exemple, le nombre de valeurs nulles dans un champ peut constituer une mesure de qualité des données utile pour identifier les entités dont des données sont manquantes. Les statistiques descriptives, telles que la moyenne, l’écart type et l’aplatissement, peuvent vous aider à comprendre la distribution des valeurs dans les champs, ainsi qu’à déterminer la marche à suivre pour utiliser un champ dans une analyse.
La vue Data Engineering (Ingénierie des données) dans ArcGIS Pro vous permet d’afficher des mesures et statistiques descriptives pour les champs d’intérêt dans vos données, dans un format tabulaire qui affiche chaque champ sous forme de ligne et chaque statistique sous forme de colonne. Vous pouvez recourir à cette table pour mieux explorer les données et corriger les éventuels problèmes de données en définissant la symbologie, en créant des diagrammes et en exécutant les outils de géotraitement appropriés à chaque mesure et propriété du champ sélectionné.
Sélectionner des champs et calculer les statistiques
Lorsque vous ouvrez la vue Data Engineering (Ingénierie des données), elle comporte deux volets : l’un d’entre eux affiche les champs dans vos données et l’autre affiche une table des statistiques de champs (une fois qu’ils ont été sélectionnés et calculés).
En savoir plus sur la vue Data Engineering (Ingénierie des données)
Pour commencer, cliquez sur un seul champ dans le volet des champs, appuyez sur Ctrl et cliquez pour sélectionner des champs individuels distincts ou appuyez sur Maj et cliquez pour sélectionner plusieurs champs. Faites ensuite glisser les champs dans le volet des statistiques.
Vous pouvez également cliquer avec le bouton droit sur les champs sélectionnés et choisir Add To Statistics (Ajouter aux statistiques) ou Add To Statistics And Calculate (Ajouter aux statistiques et calculer).
Une fois les champs ajoutés, ils s’affichent sous forme de lignes dans la table des statistiques. Chaque ligne contient le nom du champ, l’alias et le type de données des champs sélectionnés. Une série de colonnes statistiques s’affichent également. Elles contiendront des informations complémentaires concernant les champs sélectionnés une fois les calculs effectués.
Pour renseigner les colonnes statistiques des champs sélectionnés, cliquez sur le bouton Calculate (Calculer).
Les colonnes statistiques sont renseignées avec les informations concernant chaque champ des données.
Si vous avez sélectionné des enregistrements, les résultats correspondent aux enregistrements sélectionnés dans les données. Le nombre d’entités sélectionnées et le nombre d’entités qui ont été utilisées pour calculer les statistiques s’affichent sous la table des statistiques.
Si des mises à jour sont en attente dans la table ou couche d’entités, elles sont utilisées dans le calcul.
Types de statistiques
Dans la vue Data Engineering (Ingénierie des données), vous pouvez calculer et afficher les statistiques et les mesures de qualité des données de chaque champ dans les données sous forme de colonnes dans une table. Une fois les valeurs calculées, cliquez avec le bouton droit sur les cellules statistiques de chaque champ afin d’accéder à des fonctions complémentaires. Certaines de ces fonctions utilisent des outils de géotraitement pour modifier les données en entrée. Si les données ne sont pas modifiables, créez une copie modifiable avant d’entamer le processus d’ingénierie des données.
Remarque :
La façon dont les résultats dans la table des statistiques sont arrondis dépend de la magnitude de la valeur. Au moins une décimale est affichée pour les statistiques avec décimales, mais des décimales supplémentaires ne sont ajoutées que si cela permet de maintenir le taux des erreurs d’arrondissement à moins de un pour cent.
Statistique | Description | Types de données applicables | Options de menu |
---|---|---|---|
Nombre de valeurs nulles | Nombre total d’enregistrements contenant des valeurs nulles dans le champ. Pour sélectionner des enregistrements qui contiennent des valeurs nulles, cliquez avec le bouton droit sur les cellules dans cette colonne. Remarque :Si la symbologie de la couche n’est pas configurée pour afficher les valeurs nulles, la sélection risque de ne pas apparaître sur la carte. Configurez la symbologie de façon à afficher les valeurs hors de la plage sous forme d’entités avec des valeurs nulles. | Numérique, texte, date |
|
Aperçu du diagramme | Représentation visuelle de la distribution des valeurs dans le champ. Des histogrammes s’affichent pour les champs numériques (court, long, flottant, double), des diagrammes à barres pour les champs catégoriels (texte) et des diagrammes linéaires pour les champs de type date. Utilisez la colonne d’aperçu du diagramme pour réaliser une exploration initiale. Pour créer des diagrammes relatifs aux champs d’intérêt, cliquez avec le bouton droit sur les cellules dans cette colonne. Remarque :Les histogrammes et les diagrammes linéaires s’affichent avec 20 groupes par défaut. Selon la rareté des données, il est possible que certains groupes ne contiennent aucune donnée. Les groupes avec des valeurs vides sont traités sous forme de valeur zéro dans l’aperçu du diagramme. Pour changer le niveau de détail, cliquez avec le bouton droit sur l’aperçu du diagramme et créez un diagramme. | Numérique, texte, date |
|
Minimal | Plus petite valeur dans le champ. Pour sélectionner des enregistrements qui contiennent la valeur minimale, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Maximum | Plus grande valeur dans le champ. Pour sélectionner des enregistrements qui contiennent la valeur maximale, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Moyenne | Moyenne de toutes les valeurs dans le champ. Il s’agit de la valeur moyenne dans une distribution, calculée sous forme de somme des valeurs divisée par le nombre total de valeurs dans le champ. La moyenne est la mesure la plus courante de la tendance centrale dans une distribution. Pour calculer la date moyenne des champs de date, chaque date est convertie en nombre en calculant la différence entre la date et une date de référence (par exemple, 1900-01-01), calculée en millisecondes. La somme de toutes les valeurs de millisecondes divisée par la quantité de valeurs de date permet d’obtenir la date moyenne, qui est arrondie à la seconde la plus proche à des fins d’affichage. Remarque :La date moyenne n’est peut-être pas dans la même résolution temporelle (minutes, secondes, millisecondes) que les valeurs du champ. Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures à la moyenne, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Écart type | Écart type des valeurs dans le champ. L’écart type est une mesure de la dispersion de la distribution. Il est calculé sous forme de racine carré de la variance, où la variance est la moyenne de la différence au carré de chaque valeur par rapport à la moyenne du champ. | Numérique | |
Médiane | Médiane toutes les valeurs dans le champ. La médiane est la valeur du milieu dans la liste triée des valeurs. Si le nombre de valeurs est égal, la médiane est la moyenne entre les deux valeurs du milieu dans la distribution. Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures à la médiane, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Effectif | Nombre total de valeurs non nulles dans le champ. | Numérique, texte, date |
|
Nombre de valeurs uniques | Nombre de valeurs uniques dans le champ. | Numérique, texte, date | Aucune action unique |
Mode | Mode de toutes les valeurs dans le champ. Le mode est la valeur qui se produit le plus fréquemment dans le champ. Dans le cas des rattachements, lorsque la valeur qui survient le plus fréquemment dans un champ correspond à plusieurs valeurs, la cellule affiche <Multiple Values> (<Plusieurs valeurs>). Pour sélectionner des enregistrements qui contiennent le mode, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, texte, date |
|
Le moins courant | Valeur la moins courante dans le champ. Dans le cas des rattachements, lorsque la valeur la moins courante dans un champ correspond à plusieurs valeurs, la cellule affiche <Multiple Values> (<Plusieurs valeurs>). Pour sélectionner des enregistrements qui contiennent la valeur la moins courante, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, texte, date |
|
Points aberrants | Nombre d’enregistrements avec des valeurs de points aberrants dans le champ. Les points aberrants sont des valeurs plus de 1,5 fois supérieures à l’écart interquartile au-dessus du troisième quartile ou au-dessous du premier quartile du champ sélectionné. Pour sélectionner des enregistrements qui contiennent les points aberrants, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique |
|
Somme | Somme de toutes les valeurs dans le champ. | Numérique | Aucune action unique |
Plage | Différence entre les valeurs les plus petites et les plus grandes dans le champ. | Numérique | Aucune action unique |
Écart interquartile | Plage entre les valeurs du premier quartile et du troisième quartile dans le champ. Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. La valeur du premier quartile correspond à la limite supérieure du premier groupe dans l’ordre croissant et le troisième quartile correspond à la limite supérieure du troisième groupe. Pour sélectionner des enregistrements qui contiennent des valeurs dans cette plage, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique |
|
Premier quartile | Valeur du premier quartile dans le champ. Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. La valeur du premier quartile correspond à la limite supérieure du premier groupe dans l’ordre croissant. Dans le cas des rattachements, la moyenne de toutes les valeurs correspondantes s’affiche. Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures au premier quartile, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Troisième quartile | Valeur du troisième quartile dans le champ. Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. Le troisième quartile correspond à la limite supérieure du troisième groupe. Dans le cas des rattachements, la moyenne de toutes les valeurs correspondantes s’affiche. Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures au troisième quartile, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Coefficient de variation | Coefficient de variation des valeurs dans le champ. Le coefficient de variation est une mesure de la dispersion relative des valeurs. Il est calculé comme l’écart type, divisé par la moyenne du champ. Contrairement à l’écart type, qui doit toujours être pris en compte dans le contexte de la plage de données, le coefficient de variation offre deux façons de comparer les séries de données avec différentes plages et moyennes. | Numérique | |
Inclinaison | Déformation des valeurs dans le champ. La déformation mesure la symétrie de la distribution. La déformation est égale à zéro (ou proche de zéro) si la distribution est symétrique des deux côtés, comme dans le cas d’une distribution normale. Les distributions avec des extrémités plus longues sur la gauche présentent une déformation négative et les distributions avec des extrémités plus longues sur la droite présentent une déformation positive. La déformation est calculée comme étant le troisième moment (la moyenne des valeurs de données à la puissance trois) divisé par l’écart type à la puissance trois. | Numérique | |
Kurtosis | Aplatissement des valeurs dans le champ. L’aplatissement décrit le poids des extrémités dans une distribution par rapport aux extrémités d’une distribution normale, ce qui aide à identifier la fréquence des valeurs extrêmes. Les distributions dont l’aplatissement est inférieur à trois présentent des extrémités plus légères et moins de valeurs extrêmes que la distribution normale. Les distributions dont l’aplatissement est supérieur à trois présentent des extrémités plus lourdes et davantage de valeurs extrêmes que la distribution normale. L’aplatissement est calculé comme étant le quatrième moment (la valeur attendue des données à la puissance quatre) divisé par la puissance quatre de l’écart type. | Numérique |
Table des statistiques interactive
La table des statistiques est interactive. Cliquez avec le bouton droit sur les cellules et en-têtes et utilisez la barre d’outils pour accéder aux fonctions.
Interagir avec des champs
Cliquez avec le bouton droit sur un en-tête de ligne pour accéder aux fonctions applicables au champ sélectionné, par exemple :
- Create Chart (Créer un diagramme) : créez des diagrammes à l’aide du champ sélectionné. Les recommandations sont fournies en fonction du type de données.
- Clean (Nettoyer), Construct (Construire), Integrate (Intégrer) et Format : accédez aux outils de géotraitement pour préparer les données. Reportez-vous à Préparer les données pour en savoir plus sur ces options.
- Remove Field (Supprimer un champ) : supprimez le champ de la table des statistiques.
Remarque :
La plupart des opérations de géotraitement qui modifient les données en entrée ne peuvent pas être annulées.
Afficher des types de données spécifiques
La barre d’outils de la table des statistiques comprend des options pour désigner les champs et colonnes de statistiques qui doivent s’afficher en fonction du type de données.
Vous pouvez par exemple cliquer sur l’option Text (Texte) pour supprimer les champs dont le type de données est Texte.
Lorsque vous supprimez des types de données de la table des statistiques, les colonnes qui sont propres au type de données supprimé sont également supprimées. Cela permet de simplifier l’examen des éléments d’intérêt dans la table. Par exemple, si vous n’affichez que les champs dont le type de données est Date, les colonnes qui décrivent les distributions (par exemple la déformation et l’aplatissement) sont ignorées. Le nombre de colonnes est ainsi réduit à seulement celles qui présentent un intérêt.
Trier, masquer, figer et réorganiser les colonnes
Les options des en-têtes de colonnes vous permettent de trier, masquer et figer les colonnes dans la table.
Le tri vous permet de réorganiser les lignes en fonction de la valeur dans les statistiques calculées. Vous pouvez par exemple trier les champs en fonction de la colonne Number of Null Values (Nombre de valeurs nulles) pour identifier les champs où des données sont manquantes.
Remarque :
Le tri n’est possible que si la table contient des champs avec un type de données unique. Utilisez les options d’affichage de la barre d’outils pour filtrer sur un type de données spécifique, puis triez.
Pour masquer des colonnes, cliquez sur Hide Column (Masquer la colonne). La colonne est ainsi retirée de la vue. Pour afficher toutes les colonnes masquées, cliquez sur Show all columns (Afficher toutes les colonnes).
Cliquez sur Freeze/Unfreeze (Figer/libérer) pour déplacer la colonne au début de la table des statistiques et la verrouiller en place afin qu’elle s’affiche toujours lorsque vous faites défiler la table horizontalement.
Pour réorganiser les colonnes, cliquez sur un en-tête de colonne et faites-le glisser vers la nouvelle position.
Bibliographie
- Sheskin, D.J. (2000). « Handbook of Parametric and Nonparametric Statistical Procedures. » Second Edition. Boca Raton, Florida: Chapman & Hall/CRC. ISBN : 978-1-58488-814-7.
- UCLA : Statistical Consulting Group.
« IEEE Standard for Floating-Point Arithmetic. » IEEE Std 754-2019 (Revision of IEEE 754-2008), vol., no., pp.1-84, 22 juillet 2019. https://ieeexplore.ieee.org/document/8766229.
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?