Interagir avec les statistiques

Vous pouvez évaluer la qualité et la distribution des valeurs de chaque champ dans vos données à l’aide de l’ingénierie des données. Par exemple, le nombre de valeurs nulles dans un champ peut constituer une mesure de qualité des données utile pour identifier les entités dont des données sont manquantes. Les statistiques descriptives, telles que la moyenne, l’écart type et l’aplatissement, peuvent vous aider à comprendre la distribution des valeurs dans les champs, ainsi qu’à déterminer la marche à suivre pour utiliser un champ dans une analyse.

La vue Data Engineering (Ingénierie des données) dans ArcGIS Pro vous permet d’afficher des mesures et statistiques descriptives pour les champs d’intérêt dans vos données, dans un format tabulaire qui affiche chaque champ sous forme de ligne et chaque statistique sous forme de colonne. Vous pouvez recourir à cette table pour mieux explorer les données et corriger les éventuels problèmes de données en définissant la symbologie, en créant des diagrammes et en exécutant les outils de géotraitement appropriés à chaque mesure et propriété du champ sélectionné.

Sélectionner des champs et calculer les statistiques

Lorsque vous ouvrez la vue Data Engineering (Ingénierie des données), elle comporte deux volets : l’un d’entre eux affiche les champs dans vos données et l’autre affiche une table des statistiques de champs (une fois qu’ils ont été sélectionnés et calculés).

En savoir plus sur la vue Data Engineering (Ingénierie des données)

Pour commencer, cliquez sur un seul champ dans le volet des champs, appuyez sur Ctrl et cliquez pour sélectionner des champs individuels distincts ou appuyez sur Maj et cliquez pour sélectionner plusieurs champs. Faites ensuite glisser les champs dans le volet des statistiques.

Sélectionner et faire glisser les champs dans le volet des statistiques

Vous pouvez également cliquer avec le bouton droit sur les champs sélectionnés et choisir Add To Statistics (Ajouter aux statistiques) ou Add To Statistics And Calculate (Ajouter aux statistiques et calculer).

Une fois les champs ajoutés, ils s’affichent sous forme de lignes dans la table des statistiques. Chaque ligne contient le nom du champ, l’alias et le type de données des champs sélectionnés. Une série de colonnes statistiques s’affichent également. Elles contiendront des informations complémentaires concernant les champs sélectionnés une fois les calculs effectués.

Pour renseigner les colonnes statistiques des champs sélectionnés, cliquez sur le bouton Calculate (Calculer).

Bouton Calculer

Les colonnes statistiques sont renseignées avec les informations concernant chaque champ des données.

Table des statistiques avec des statistiques et diagrammes pour chaque champ

Si vous avez sélectionné des enregistrements, les résultats correspondent aux enregistrements sélectionnés dans les données. Le nombre d’entités sélectionnées et le nombre d’entités qui ont été utilisées pour calculer les statistiques s’affichent sous la table des statistiques.

Si des mises à jour sont en attente dans la table ou couche d’entités, elles sont utilisées dans le calcul.

Types de statistiques

Dans la vue Data Engineering (Ingénierie des données), vous pouvez calculer et afficher les statistiques et les mesures de qualité des données de chaque champ dans les données sous forme de colonnes dans une table. Une fois les valeurs calculées, cliquez avec le bouton droit sur les cellules statistiques de chaque champ afin d’accéder à des fonctions complémentaires. Certaines de ces fonctions utilisent des outils de géotraitement pour modifier les données en entrée. Si les données ne sont pas modifiables, créez une copie modifiable avant d’entamer le processus d’ingénierie des données.

Remarque :

La façon dont les résultats dans la table des statistiques sont arrondis dépend de la magnitude de la valeur. Au moins une décimale est affichée pour les statistiques avec décimales, mais des décimales supplémentaires ne sont ajoutées que si cela permet de maintenir le taux des erreurs d’arrondissement à moins de un pour cent.

StatistiqueDescriptionTypes de données applicablesOptions de menu

Nombre de valeurs nulles

Nombre total d’enregistrements contenant des valeurs nulles dans le champ.

Pour sélectionner des enregistrements qui contiennent des valeurs nulles, cliquez avec le bouton droit sur les cellules dans cette colonne.

Remarque :

Si la symbologie de la couche n’est pas configurée pour afficher les valeurs nulles, la sélection risque de ne pas apparaître sur la carte. Configurez la symbologie de façon à afficher les valeurs hors de la plage sous forme d’entités avec des valeurs nulles.

Numérique, texte, date

  • Sélectionner (sélectionner les lignes contenant des valeurs nulles pour le champ spécifié)
  • Remplacer les valeurs manquantes (pour les couches d’entités uniquement)

Aperçu du diagramme

Représentation visuelle de la distribution des valeurs dans le champ.

Des histogrammes s’affichent pour les champs numériques (court, long, flottant, double), des diagrammes à barres pour les champs catégoriels (texte) et des diagrammes linéaires pour les champs de type date.

Utilisez la colonne d’aperçu du diagramme pour réaliser une exploration initiale. Pour créer des diagrammes relatifs aux champs d’intérêt, cliquez avec le bouton droit sur les cellules dans cette colonne.

Remarque :

Les histogrammes et les diagrammes linéaires s’affichent avec 20 groupes par défaut. Selon la rareté des données, il est possible que certains groupes ne contiennent aucune donnée. Les groupes avec des valeurs vides sont traités sous forme de valeur zéro dans l’aperçu du diagramme. Pour changer le niveau de détail, cliquez avec le bouton droit sur l’aperçu du diagramme et créez un diagramme.

Numérique, texte, date

Minimal

Plus petite valeur dans le champ.

Pour sélectionner des enregistrements qui contiennent la valeur minimale, cliquez avec le bouton droit sur les cellules dans cette colonne.

Numérique, date

Maximum

Plus grande valeur dans le champ.

Pour sélectionner des enregistrements qui contiennent la valeur maximale, cliquez avec le bouton droit sur les cellules dans cette colonne.

Numérique, date

Moyenne

Moyenne de toutes les valeurs dans le champ.

Il s’agit de la valeur moyenne dans une distribution, calculée sous forme de somme des valeurs divisée par le nombre total de valeurs dans le champ. La moyenne est la mesure la plus courante de la tendance centrale dans une distribution.

Pour calculer la date moyenne des champs de date, chaque date est convertie en nombre en calculant la différence entre la date et une date de référence (par exemple, 1900-01-01), calculée en millisecondes. La somme de toutes les valeurs de millisecondes divisée par la quantité de valeurs de date permet d’obtenir la date moyenne, qui est arrondie à la seconde la plus proche à des fins d’affichage.

Remarque :

La date moyenne n’est peut-être pas dans la même résolution temporelle (minutes, secondes, millisecondes) que les valeurs du champ.

Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures à la moyenne, cliquez avec le bouton droit sur les cellules dans cette colonne.

Numérique, date

  • Sélectionner (sélectionner des lignes supérieures ou inférieures à la moyenne)

Écart type

Écart type des valeurs dans le champ.

L’écart type est une mesure de la dispersion de la distribution. Il est calculé sous forme de racine carré de la variance, où la variance est la moyenne de la différence au carré de chaque valeur par rapport à la moyenne du champ.

Numérique

Médiane

Médiane toutes les valeurs dans le champ.

La médiane est la valeur du milieu dans la liste triée des valeurs. Si le nombre de valeurs est égal, la médiane est la moyenne entre les deux valeurs du milieu dans la distribution.

Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures à la médiane, cliquez avec le bouton droit sur les cellules dans cette colonne.

Numérique, date

  • Sélectionner (sélectionner des lignes supérieures ou inférieures au niveau de la médiane)

Effectif

Nombre total de valeurs non nulles dans le champ.

Numérique, texte, date

  • Sélectionner (sélectionner les lignes qui faisaient partie des statistiques calculées)

Nombre de valeurs uniques

Nombre de valeurs uniques dans le champ.

Numérique, texte, date

Aucune action unique

Mode

Mode de toutes les valeurs dans le champ.

Le mode est la valeur qui se produit le plus fréquemment dans le champ. Dans le cas des rattachements, lorsque la valeur qui survient le plus fréquemment dans un champ correspond à plusieurs valeurs, la cellule affiche <Multiple Values> (<Plusieurs valeurs>).

Pour sélectionner des enregistrements qui contiennent le mode, cliquez avec le bouton droit sur les cellules dans cette colonne.

Numérique, texte, date

  • Sélectionner (sélectionner les lignes avec valeur modale ; pour les champs de type entier, de texte et de date uniquement)

Le moins courant

Valeur la moins courante dans le champ.

Dans le cas des rattachements, lorsque la valeur la moins courante dans un champ correspond à plusieurs valeurs, la cellule affiche <Multiple Values> (<Plusieurs valeurs>).

Pour sélectionner des enregistrements qui contiennent la valeur la moins courante, cliquez avec le bouton droit sur les cellules dans cette colonne.

Numérique, texte, date

  • Sélectionner (sélectionner les lignes avec la valeur la moins courante ; pour les champs de type entier, de texte et de date uniquement)

Points aberrants

Nombre d’enregistrements avec des valeurs de points aberrants dans le champ.

Les points aberrants sont des valeurs plus de 1,5 fois supérieures à l’écart interquartile au-dessus du troisième quartile ou au-dessous du premier quartile du champ sélectionné.

Pour sélectionner des enregistrements qui contiennent les points aberrants, cliquez avec le bouton droit sur les cellules dans cette colonne.

Numérique

  • Sélectionner (sélectionner les lignes de points aberrants)

Somme

Somme de toutes les valeurs dans le champ.

Numérique

Aucune action unique

Plage

Différence entre les valeurs les plus petites et les plus grandes dans le champ.

Numérique

Aucune action unique

Écart interquartile

Plage entre les valeurs du premier quartile et du troisième quartile dans le champ.

Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. La valeur du premier quartile correspond à la limite supérieure du premier groupe dans l’ordre croissant et le troisième quartile correspond à la limite supérieure du troisième groupe.

Pour sélectionner des enregistrements qui contiennent des valeurs dans cette plage, cliquez avec le bouton droit sur les cellules dans cette colonne.

Numérique

Premier quartile

Valeur du premier quartile dans le champ.

Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. La valeur du premier quartile correspond à la limite supérieure du premier groupe dans l’ordre croissant.

Dans le cas des rattachements, la moyenne de toutes les valeurs correspondantes s’affiche.

Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures au premier quartile, cliquez avec le bouton droit sur les cellules dans cette colonne.

Numérique, date

Troisième quartile

Valeur du troisième quartile dans le champ.

Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. Le troisième quartile correspond à la limite supérieure du troisième groupe.

Dans le cas des rattachements, la moyenne de toutes les valeurs correspondantes s’affiche.

Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures au troisième quartile, cliquez avec le bouton droit sur les cellules dans cette colonne.

Numérique, date

Coefficient de variation

Coefficient de variation des valeurs dans le champ.

Le coefficient de variation est une mesure de la dispersion relative des valeurs. Il est calculé comme l’écart type, divisé par la moyenne du champ.

Contrairement à l’écart type, qui doit toujours être pris en compte dans le contexte de la plage de données, le coefficient de variation offre deux façons de comparer les séries de données avec différentes plages et moyennes.

Numérique

Inclinaison

Déformation des valeurs dans le champ.

La déformation mesure la symétrie de la distribution. La déformation est égale à zéro (ou proche de zéro) si la distribution est symétrique des deux côtés, comme dans le cas d’une distribution normale. Les distributions avec des extrémités plus longues sur la gauche présentent une déformation négative et les distributions avec des extrémités plus longues sur la droite présentent une déformation positive.

La déformation est calculée comme étant le troisième moment (la moyenne des valeurs de données à la puissance trois) divisé par l’écart type à la puissance trois.

Numérique

Kurtosis

Aplatissement des valeurs dans le champ.

L’aplatissement décrit le poids des extrémités dans une distribution par rapport aux extrémités d’une distribution normale, ce qui aide à identifier la fréquence des valeurs extrêmes. Les distributions dont l’aplatissement est inférieur à trois présentent des extrémités plus légères et moins de valeurs extrêmes que la distribution normale. Les distributions dont l’aplatissement est supérieur à trois présentent des extrémités plus lourdes et davantage de valeurs extrêmes que la distribution normale.

L’aplatissement est calculé comme étant le quatrième moment (la valeur attendue des données à la puissance quatre) divisé par la puissance quatre de l’écart type.

Numérique

Table des statistiques interactive

La table des statistiques est interactive. Cliquez avec le bouton droit sur les cellules et en-têtes et utilisez la barre d’outils pour accéder aux fonctions.

Interagir avec des champs

Cliquez avec le bouton droit sur un en-tête de ligne pour accéder aux fonctions applicables au champ sélectionné, par exemple :

  • Create Chart (Créer un diagramme) : créez des diagrammes à l’aide du champ sélectionné. Les recommandations sont fournies en fonction du type de données.
  • Clean (Nettoyer), Construct (Construire), Integrate (Intégrer) et Format : accédez aux outils de géotraitement pour préparer les données. Reportez-vous à Préparer les données pour en savoir plus sur ces options.
  • Remove Field (Supprimer un champ) : supprimez le champ de la table des statistiques.

Remarque :

La plupart des opérations de géotraitement qui modifient les données en entrée ne peuvent pas être annulées.

Options des fonctions pour une ligne dans la table des statistiques

Afficher des types de données spécifiques

La barre d’outils de la table des statistiques comprend des options pour désigner les champs et colonnes de statistiques qui doivent s’afficher en fonction du type de données.

Filtrer les champs par type de données

Vous pouvez par exemple cliquer sur l’option Text (Texte) pour supprimer les champs dont le type de données est Texte.

Lorsque vous supprimez des types de données de la table des statistiques, les colonnes qui sont propres au type de données supprimé sont également supprimées. Cela permet de simplifier l’examen des éléments d’intérêt dans la table. Par exemple, si vous n’affichez que les champs dont le type de données est Date, les colonnes qui décrivent les distributions (par exemple la déformation et l’aplatissement) sont ignorées. Le nombre de colonnes est ainsi réduit à seulement celles qui présentent un intérêt.

Trier, masquer, figer et réorganiser les colonnes

Les options des en-têtes de colonnes vous permettent de trier, masquer et figer les colonnes dans la table.

Options de la colonne Nombre de valeurs nulles dans la table des statistiques

Le tri vous permet de réorganiser les lignes en fonction de la valeur dans les statistiques calculées. Vous pouvez par exemple trier les champs en fonction de la colonne Number of Null Values (Nombre de valeurs nulles) pour identifier les champs où des données sont manquantes.

Remarque :

Le tri n’est possible que si la table contient des champs avec un type de données unique. Utilisez les options d’affichage de la barre d’outils pour filtrer sur un type de données spécifique, puis triez.

Pour masquer des colonnes, cliquez sur Hide Column (Masquer la colonne). La colonne est ainsi retirée de la vue. Pour afficher toutes les colonnes masquées, cliquez sur Show all columns (Afficher toutes les colonnes).

Option Afficher toutes les colonnes

Cliquez sur Freeze/Unfreeze (Figer/libérer) pour déplacer la colonne au début de la table des statistiques et la verrouiller en place afin qu’elle s’affiche toujours lorsque vous faites défiler la table horizontalement.

Pour réorganiser les colonnes, cliquez sur un en-tête de colonne et faites-le glisser vers la nouvelle position.

Bibliographie

Rubriques connexes