Fonctionnement de l’outil Remplacer les valeurs manquantes

L’outil Remplacer les valeurs manquantes remplace les valeurs manquantes (nulles) par des valeurs évaluées pour limiter l’impact des valeurs nulles sur les analyses ultérieures. De nombreuses raisons peuvent justifier l’absence de données. Par exemple, il peut manquer des données, car un capteur est momentanément hors service, un site d’échantillonnage est inaccessible ou des valeurs de données ont été supprimées pour des raisons de confidentialité. Lorsqu’il manque une ou plusieurs valeurs dans une entité, par défaut, la plupart des méthodes statistiques ignorent cette entité dans l’analyse. En ignorant des entités de cette façon, vous risquez de générer des déformations ou de fausser l’exactitude des résultats, car l’analyse est exécutée sur un jeu de données incomplet. Plutôt que d’éliminer des données précieuses en risquant d’influencer vos analyses ou d’entraîner des « écarts » dans votre carte, les valeurs des données manquantes peuvent être « remplacées » par d’autres informations provenant du jeu de données ou d’autres jeux de données (par exemple, un jeu de données ou des unités d’agrégation de tailles plus importantes). Pour les données spatiales, vous pouvez utiliser des valeurs d’entités voisines dans l'espace pour évaluer les valeurs manquantes. Pour les données spatio-temporelles, vous pouvez également utiliser des voisins dans le temps pour remplacer les valeurs manquantes. Pour les données non spatiales, vous pouvez utiliser les statistiques globales du champ contenant les valeurs manquantes pour remplacer les valeurs manquantes. L’évaluation et le remplacement des valeurs manquantes permet de conserver les valeurs existantes et de remplacer les valeurs nulles selon la méthode choisie. Une fois les valeurs manquantes remplacées, vous pouvez analyser le jeu de données comme s’il était complet.

Par exemple, un jeu de données des États-Unis, dans lequel les 50 Etats disposent de l’équivalent de 100 ans de données sur le revenu par habitant. Il manque 1 an de données pour la Californie (valeur nulle). Si vous tentez de créer un cube spatio-temporel, toutes les données concernant la Californie sont supprimées de l’analyse, car le jeu de données contient une seule valeur nulle. Les 99 autres valeurs pour la Californie ne sont pas prises en compte dans l’analyse, car la série chronologique doit être complète pour être incluse. L’outil Remplacer les valeurs manquantes permet de remplacer la valeur nulle par une estimation satisfaisante de la valeur manquante et garantit ainsi l’inclusion de la Californie dans les analyses ultérieures.

Interpréter les résultats

L’outil produit en sortie un nouveau champ qui contient le jeu entier de valeurs existantes et imputées, ainsi qu’un champ indiquant quelles valeurs ont été évaluées. L’outil produit également en sortie des messages indiquant le pourcentage d’enregistrements pour lesquels des valeurs ont été imputées, précisant la distribution des données avant et après le remplacement des valeurs manquantes, ainsi que le nombre total et le pourcentage de valeurs remplacées.

Bonnes pratiques

Pour décider si cet outil est adapté à vos données et quels paramètres choisir, vous devez tenir compte de plusieurs éléments.

  • Identifiez les valeurs manquantes. L'espace réservé identifiant une valeur de données manquante peut varier d’un jeu de données à un autre. Dans une classe d’entités de géodatabase, les valeurs manquantes sont stockées et identifiées par la mention <Null> et ainsi facilement reconnaissables. Toutefois, les fichiers de formes ne peuvent pas stocker de valeurs nulles. Il se peut que des outils ou autres procédures qui créent des fichiers de formes stockent ou interprètent des valeurs nulles comme étant égales à zéro. Dans certains cas, les valeurs nulles d’un fichier de formes sont identifiées par un nombre positif ou négatif très élevé. Pour identifier les valeurs de données manquantes, il est conseillé de trier les valeurs du champ qui vous intéresse dans l’ordre croissant, puis dans l’ordre décroissant. En constatant des valeurs nulles, de nombreuses valeurs égales à zéro, ou des valeurs extrêmement élevées ou faibles, vous pourrez mieux identifier l’espace réservé qui a été utilisé pour indiquer une valeur manquante. Les métadonnées peuvent parfois indiquer l’espace réservé utilisé pour identifier les données manquantes.
  • Comptez les valeurs manquantes. Vous ne voulez pas remplacer trop de valeurs. Même si aucune limite n’est imposée, si vous ne connaissez pas le nombre exact de valeurs de données à remplacer, nous vous recommandons de ne pas remplacer plus de 5 pour cent des valeurs du jeu de données.
  • Identifiez l’emplacement des valeurs manquantes. Appariez l’attribut avec les données manquantes et explorez les modèles spatiaux. Déterminez si les données manquantes sont agrégées ou si elles se trouvent aux alentours ou au centre de votre zone d’étude. Vérifiez également si les valeurs manquantes semblent se trouver dans des zones comprenant principalement des valeurs élevées ou faibles. Toutes ces situations suggèrent une tendance quant à l’emplacement ou aux valeurs des données manquantes et indiquent qu’elles ne manquent pas par hasard. Le remplacement de valeurs manquantes produit de meilleurs résultats lorsqu'elles manquent au hasard.
  • Vérifiez le nombre et le pourcentage des valeurs remplacées pour savoir s’il manque d’autres valeurs. Dans ce cas, essayez de modifier la méthode de remplacement des valeurs et d’augmenter, par exemple, le nombre de voisins ou la taille du voisinage. Veillez à ne pas remplacer des valeurs manquante par des valeurs que vous avez déjà utilisées. Cette pratique est très déconseillée, car en procédant ainsi, vous évaluez des valeurs à partir d’évaluations.
  • Examinez la distribution des données avant et après le remplacement des valeurs manquantes en comparant les statistiques descriptives, telles que la moyenne et l’écart type, et en examinant l’histogramme pour vérifier si la courbe est inclinée, élevée ou aplatie. La meilleure solution produit des distributions de forme identique.
  • Essayez d’appliquer la méthode de remplacement des valeurs sur une zone locale ou régionale. Vous remarquerez peut-être que la méthode utilisée pour remplacer des valeurs est plus efficace dans certaines régions que dans d’autres. Par exemple, si vous remplacez des valeurs en utilisant la moyenne des valeurs voisines et que la plage des écarts standard signalés est étendue, essayez de modifier la méthode utilisée en choisissant, par exemple, un autre type de voisinage ou une autre méthode de remplacement. Dans l’idéal, l’écart type doit être presque identique pour toutes les valeurs remplacées, ce qui indique qu’elles diffèrent toutes de la même façon que celles des voisins utilisés pour remplacer les valeurs.
  • Pensez à la manière dont vous exploiterez les données une fois les valeurs remplacées. Si les données doivent simplement être cartographiées pour générer une visualisation esthétique sans discontinuités, les légères variations que présentent les valeurs remplacées peuvent être masquées par la méthode de cartographie. Par exemple, puisque la cartographie choroplèthe classe habituellement les données en plusieurs catégories, les variations entre les catégories ne sont pas visiblement apparentes. Si les données servent à générer des statistiques officielles, vous devez bien comprendre ce qu’implique le remplacement de données manquantes et l’impact de cette pratique.
  • Faites savoir à votre public que vous avez remplacé des valeurs manquantes. Si vous rédigez un rapport, décrivez la méthode utilisée pour remplacer les valeurs manquantes et communiquez les hypothèses justifiant le choix de la méthode de remplacement (vous assurer que les valeurs remplacées ne sont ni surestimées, ni sous-estimées, par exemple). Si vous créez une carte, vous pouvez identifier sur une autre carte les entités pour lesquelles vous avez remplacé des valeurs, par exemple. Les cartographes peuvent également identifier des entités polygonales à l’aide d'un motif de hachure ou en pointillés ou d’un contour d’entité unique. Utilisez ces méthodes avec précaution, car elles risquent d’obscurcir le remplissage des polygones ou de modifier la perception de la couleur du remplissage.
  • Pour la méthode de remplissage Tendance temporelle, l’emplacement présentant une valeur nulle en cours de remplissage doit comporter au moins deux périodes temporelles avec des valeurs au début et au moins deux périodes temporelles avec des valeurs à la fin de la série temporelle pour être renseigné. Toutefois, la première et les deux dernières valeurs de période temporelle ne sont pas toujours suffisantes. Vous pouvez avoir une large séquence de valeurs manquantes au milieu de la série temporelle, auquel cas, les valeurs interpolées peuvent ne pas être fiables pour une analyse ultérieure, tels que les outils dans le jeu d’outils Prévision de séries chronologiques.

Choisissez une méthode de remplacement

Lorsque vous remplacez des valeurs manquantes, vous devez choisir une méthode de remplacement en utilisant des valeurs de moyenne, minimum, maximum, médianes ou voisines, par exemple. Si vous souhaitez sous-estimer les valeurs remplacées, utilisez une valeur minimum. Procédez ainsi, par exemple, si vous remplacez des valeurs manquantes correspondant au nombre d’étudiants bénéficiant d’un déjeuner gratuit. De la même façon, utilisez des valeurs maximum pour ne pas sous-estimer les valeurs manquantes lorsque vous remplacez les valeurs correspondant au nombre de personnes titulaires de diplômes de l’enseignement supérieur, par exemple. Utilisez une valeur médiane, si vous soupçonnez la présence de valeurs élevées ou faibles de points aberrants localement, telles que des valeurs correspondant à des logements, par exemple. Utilisez des valeurs de moyenne, si les valeurs semblent être identiques à celles de leurs voisins.

Vous devez également décider de la manière dont vous allez définir un ensemble de voisins qui servira à calculer les valeurs manquantes. Vous pouvez définir des voisins en fonction de diverses relations spatiales, à savoir un nombre fixe de voisins, tous les voisins se trouvant à une distance fixe ou les voisins contigus (c'est-à-dire ceux qui partagent une bordure ou qui présentent des angles qui se touchent).

La méthode de remplacement et les voisins que vous utilisez varient selon l’utilisation que vous souhaitez faire des données remplacées. Par exemple, un cartographe pourra remplir des polygones dans lesquels il manque des données pour créer une carte à l’aspect esthétique ne présentant aucune discontinuité. Dans ce cas, il convient de calculer la moyenne de nombreux voisins spatiaux. Un analyste immobilier qui remplace des données manquantes correspondant à la valeur d'une maison va utiliser des voisins se trouvant à une distance fixe et calculer leur valeur médiane pour éviter l’influence des points aberrants.

Lorsque vous choisissez une combinaison de type de voisinage et de méthode de remplacement, tenez compte des entités voisines qui pourraient influencer les entités auxquelles il manque des données et choisissez la méthode de remplacement des valeurs manquantes la moins susceptible de fausser les résultats de l’analyse. Prenez, par exemple, le cas d'un analyste spécialiste de la santé publique dans une région qui possède des données sur le saturnisme chez les enfants au niveau du groupe d’îlots de recensement, et que des données manquent dans certains groupes de blocs. L’analyste peut utiliser des groupes de blocs voisins partageant une bordure avec le groupe de blocs dans lequel il manque des données, puis utiliser le maximum des valeurs voisines pour remplacer les données manquantes. L’utilisation de groupes de blocs contigus est justifiée, car ils contiennent probablement les habitations de personnes d’un âge semblable et que l’âge des habitants est un facteur de risque reconnu pour l’exposition au plomb. En utilisant la valeur maximum des groupes de blocs voisins pour remplacer les valeurs manquantes, vous risquez de surestimer le niveau réel de saturnisme. Dans cet exemple qui traite de la santé des enfants, il est préférable de surestimer le risque plutôt que de le sous-estimer.

Ressources supplémentaires

La page Ressources de statistiques spatiales sur https://www.esriurl.com/spatialstats contient une variété de ressources vous aidant à utiliser les outils Statistiques spatiales et Exploration des modèles spatio-temporels :

  • Tutoriels pratiques et Leçons d’apprentissage
  • Vidéos d’atelier et présentations
  • Formation et séminaires Web
  • Liens vers des livres, des articles et des papiers techniques
  • Exemples de scripts et études de cas