Un index est un nombre qui mesure un sujet d’intérêt, souvent quelque chose qu’il est difficile de mesurer ou de définir, comme la vulnérabilité sociale ou l’innovation en entreprise. L’outil Calculer l’index composite crée un index en combinant plusieurs variables dans une même variable. Cet outil suit un processus en trois étapes avec le prétraitement des variables, la combinaison des variables et le post-traitement de l’index.
Pour créer un index dans les règles, il convient de réfléchir à son objectif pendant la phase de conception et à la transparence du processus pendant la phase de communication. L’outil Calculer l’index composite vous guide tout au long du processus de création d’un index abouti et vous aide à visualiser et comprendre les résultats.
En savoir plus sur les pratiques conseillées en matière de création d’index composites dans ArcGIS
Applications possibles
Les applications possibles de l’outil Calculer l’index composite sont les suivantes :
- Un service de protection de l’environnement souhaite créer un index de qualité de l’air pour informer l’action publique et les citoyens à propos de la pollution. Pour cela, il collecte des données sur les polluants courants auprès de stations de surveillance. Un analyste peut exécuter l’outil Calculer l’index composite pour combiner les indicateurs des différents polluants dans un index de qualité de l’air unique.
- Un service de santé publique souhaite créer un index de risque pour la santé respiratoire afin de mettre en évidence les injustices environnementales. Pour cela, l’analyste peut exécuter plusieurs fois l’outil Calculer l’index composite afin de créer un index constitué de plusieurs sous-index : la première exécution de l’outil donnera lieu à la création des sous-index pour les différents domaines, et la dernière exécution de l’outil créera l’index final.
- Une compétence territoriale souhaite faire une demande de subvention d’infrastructure. Pour pouvoir y prétendre, elle doit prouver que les ressources seront affectées à des communes mal desservies. Elle crée un index qui combine les variables d’infrastructure et les variables démographiques pour identifier les zones les plus mal desservies.
Prétraitement des variables
Pour créer un index abouti, les variables doivent avoir une échelle compatible. Pour cela, l’outil propose des options de prétraitement qui dotent les différentes variables en entrée d’une échelle de mesure commune afin d’assurer la cohérence de la combinaison. De même, l’outil peut éventuellement inverser les variables pour faire en sorte que la signification des valeurs élevées soit la même dans chaque variable.
Remarque :
Utilisez l’outil Transformer un champ pour transformer les variables.
Prétraiter les variables pour inverser le sens
Réfléchissez à la signification des valeurs faibles et élevées dans chaque variable et assurez-vous qu’il existe une cohérence entre elles. Par exemple, dans un index de vulnérabilité sociale, la vulnérabilité dans les localités où les revenus moyens sont faibles est plus élevée que dans les localités où la proportion de personnes non assurées est faible ; ces variables ont un sens opposé dans le contexte de l’objectif de l’index.
Lorsque vous entrez une variable dans l’outil, demandez-vous si elle a besoin d’être inversée ; si c’est le cas, activez la case à cocher Inverser le sens pour inverser le sens de la variable.
L’inverse de la variable est calculé en multipliant chaque valeur par -1 et en mettant à l’échelle le champ situé dans la plage initiale de la variable.
Prétraiter les variables pour qu’elles utilisent la même échelle
Utilisez le paramètre Méthode de mise à l’échelle des variables en entrée pour sélectionner une méthode de mise à l’échelle commune. La méthode sélectionnée s’applique à toutes les variables, et les champs qui en résultent sont fournis dans la sortie. Les options disponibles sont les suivantes :
Minimum-maximum : cette méthode met à l’échelle les variables entre 0 et 1 en utilisant les valeurs minimale et maximale de chaque variable. Il s’agit de la méthode la plus simple dans la mesure où elle préserve la distribution des variables en entrée et applique une échelle de 0 à 1 facile à interpréter.
Cette méthode applique la formule suivante :
Sachant que cette méthode préserve la distribution des variables, elle peut être affectée par les distributions asymétriques et les points aberrants. Par exemple, s’il existe un seul point aberrant avec une valeur très élevée, il lui sera attribué la valeur 1, mais les autres valeurs seront similaires et plus proches de zéro. En raison de la variation réduite de la variable prétraitée, il se peut qu’elle ait moins d’influence sur l’index obtenu.
Par ailleurs, sachant que cette méthode dépend des valeurs minimales et maximales des données en entrée, elle est moins indiquée pour les comparaisons d’index sur plusieurs périodes et lorsque les valeurs minimale et maximale d’une variable sont susceptibles de varier à chaque intervalle temporel.
Minimum-maximum (plages de données personnalisées) : cette méthode met à l’échelle les variables entre 0 et 1 en utilisant les valeurs minimale et maximale possibles pour chaque variable. Cette méthode est intéressante lorsque les valeurs minimale et maximale possibles n’existent pas dans la plage de la variable ou si vous souhaitez créer un index qui doit toujours pouvoir faire l’objet de comparaisons à mesure que des données sont collectées.
Cette méthode applique la formule suivante :
Il existe plusieurs cas d’utilisation où il est pertinent de définir des valeurs minimale et maximale possibles :
- Lorsque l’index doit faire l’objet de comparaisons dans le temps et que les données actuelles ne représentent pas la plage de valeurs que l’index risque d’avoir à d’autres périodes.
- Lorsqu’il existe une statistique de référence, telle que les valeurs minimales et maximales d’une zone d’étude élargie. Par exemple, il se peut qu’un index dont la zone d’étude est la France utilise les valeurs minimales et maximales de tous les pays d’Europe.
- Lorsqu’il existe une référence ambitieuse, telle que l’espérance de vie idéale dans un index de développement humain. Même si les données elles-mêmes ne sont pas conformes à l’espérance de vie idéale, la référence est quand même utilisée pour définir le contexte de l’index.
- Lorsque les valeurs minimales et maximales théoriques des variables sont a priori connues, comme la connaissance des plages de températures absolues sur la Terre et l’utilisation d’enregistrements quotidiens dont la plage est plus petite.
Centile : cette méthode convertit les variables en centiles compris entre 0 et 1. Cette méthode peut s’avérer utile lorsque les classements de chaque variable sont plus importants que leurs valeurs effectives. De même, elle se montre tolérante vis-à-vis des points aberrants et des distributions asymétriques, car les variables sont transformées en distribution uniforme.
Il existe diverses définitions pour les centiles. Cette méthode utilise la formule suivante :
,
où R est le classement ordinal (valeur minimale de classement utilisée en cas d’égalités), N est le nombre de valeurs, et P est le centile obtenu.
Les centiles indiquent la position d’une valeur par rapport aux autres valeurs au sein de la variable. Par exemple, même si entre 50 000 euros et 60 000 euros, il n’y a pas en soi une différence de revenu considérable, la différence en centiles peut être importante s’il existe dans la plage un grand nombre d’entités avec des valeurs.
Classement : cette méthode classe les valeurs en entrée : elle attribue la valeur 1 à la valeur la plus basse de la variable et incrémente la valeur suivante de 1. Cette méthode peut s’avérer utile lorsque les classements de chaque variable sont plus importants que leurs valeurs effectives. De même, elle se montre tolérante vis-à-vis des points aberrants et des distributions asymétriques.
La méthode utilise la méthode de moyenne de classement, qui résout les égalités en attribuant la valeur moyenne de classement aux observations liées.
Cette méthode est similaire à celle des centiles, sauf que la plage des valeurs se situe entre 1 et le nombre d’enregistrements présents dans la table.
Score z : cette méthode standardise chaque variable en utilisant la formule Score z. Cette méthode est intéressante lorsque chaque valeur doit être évaluée par rapport à la moyenne de la variable. Tel est le cas par exemple lorsque vous voulez savoir si le pourcentage de personnes se trouvant en dessous du seuil de pauvreté est supérieur ou inférieur à la moyenne nationale, et dans quelle proportion.
Cette méthode utilise la formule suivante :
,
où x' est le score z, x est la valeur initiale, x̄ est la moyenne et σ est l’écart type.
Les scores z sont exprimés en écarts types, mesure de la dispersion dans les données. Un score z de 2 signifie que l’entité a deux écarts types de plus que la moyenne ; un score z de -1 indique qu’elle a un écart type de moins que la moyenne. Cette méthode est moins sensible aux effets négatifs des points aberrants que la méthode Minimum-maximum. Cependant, elle génère des valeurs négatives, ce qui la rend incompatible avec les méthodes de combinaison multiplicative.
Score z (personnalisé) : cette méthode standardise chaque variable en utilisant la formule Score z avec une moyenne et un écart type personnalisés. Cette méthode est intéressante lorsqu’il s’agit de créer des index à comparer à une statistique de référence ou qui se comparent dans le temps.
Cette méthode utilise la formule suivante :
,
où x' est la valeur standardisée, x est la valeur initiale, x̄c est la moyenne personnalisée et σc est l’écart type personnalisé.
Utilisez le paramètre Standardisation personnalisée pour définir la moyenne et l’écart type de référence.
Par exemple, pour créer un index de développement annuel qui sera mis à jour pour les 10 prochaines années en utilisant la première année comme point de comparaison, créez un index pour la première année en utilisant l’option Score z, qui utilise la moyenne et l’écart type effectifs pour chaque variable. Utilisez ensuite la même moyenne et le même écart type dans le paramètre Standardisation personnalisée pour les années suivantes. Les résultats pourront ainsi être comparés tous les ans en utilisant la distribution de la première année comme base de comparaison.
Cette méthode est également utile lorsqu’il s’agit de comparer des valeurs à une moyenne théorique qui n’est pas nécessairement égale à la moyenne des données. Par exemple, si le taux de chômage national est de 8 %, mais que le taux de chômage moyen est de 13 % dans les données, les scores z peuvent être définis par rapport à une moyenne nationale et à un écart type national. L’échantillon des données présentera davantage de valeurs positives pour montrer que le taux de chômage est supérieur à une moyenne nationale.
Signaler par seuil (binaire) : cette méthode convertit la variable en valeurs binaires (0, 1) qui indiquent si la valeur est supérieure ou inférieure à un seuil spécifié. Cette méthode est utile lorsqu’il est important de mettre en évidence certaines valeurs et que la variation des valeurs n’a pas d’importance.
Cette option active le paramètre Méthode de mise à l’échelle pour seuils qui permet de définir les seuils dans la plage d’une variable mise à l’échelle.
Il existe différents cas d’utilisation pour cette méthode :
- Des experts en qualité de l’air souhaitent mettre évidence les lieux où des seuils de santé humaine sont dépassés pour plusieurs variables de qualité de l’air. Ils définissent alors les variables du paramètre Méthode de mise à l’échelle pour seuils sur Brut et spécifient les seuils.
- Un organisme public souhaite mettre en évidence les régions le plus vulnérables dans divers domaines. Il définit alors le paramètre Méthode de mise à l’échelle pour seuils sur Centile et définit le seuil Supérieur à 0,9 pour chaque variable afin de mettre en évidence les régions les plus défavorisés.
- Un organisme international souhaite mettre en évidence les pays qui se situent invariablement en dessous de la moyenne pour ce qui est des indicateurs de développement humain. Il définit alors le paramètre Méthode de mise à l’échelle pour seuils sur Score z et définit les seuils Inférieur à 0 pour identifier les régions qui se situent en dessous de la moyenne.
Cette méthode est particulièrement utile lorsqu’elle est associée à l’option de combinaison de sommes pour comptabiliser le nombre de fois qu’une région dépasse les seuils.
La méthode n’est pas affectée par les points aberrants dans les variables en entrée, mais les informations d’intervalle dans chaque variable en entrée sont perdues, car chaque variable est convertie dans une forme binaire (0, 1).
Valeurs brutes : utilise les valeurs initiales de la variable.
Cette méthode ne doit être utilisée que si toutes les variables se trouvent sur une échelle comparable. Tel est le cas, par exemple, lorsque toutes les variables sont exprimées dans une unité standard comme les pourcentages ou les parties par million. Cette méthode peut aussi être intéressante si une standardisation ou une transformation de variables a déjà été effectuée avant d’exécuter l’outil.
Remarque :
L’option de mise à l’échelle sélectionnée s’applique à toutes les variables. Si vous avez besoin d’appliquer des options de mise à l’échelle différentes à chaque variable, avant d’utiliser cet outil, utilisez d’autres outils comme Standardiser un champ ou Reclasser un champ.
Si un champ comporte des valeurs Null, l’outil ne pourra pas calculer d’index pour les enregistrements. Utilisez l’outil Remplacer les valeurs manquantes pour entrer une valeur ou rechercher des données supplémentaires, selon le cas.
Combinaison des variables dans un index
Une fois que les variables ont été prétraitées dans une échelle commune, elles sont agrégées pour créer une valeur unique. Le paramètre Méthode de combinaison des variables mises à l’échelle propose les options suivantes :
- Somme
- Moyenne
- Multiplication
- Moyenne géométrique
Les options Somme et Moyenne sont considérées comme des méthodes additives, alors que les options Multiplication et Moyenne géométrique sont considérées comme des méthodes multiplicatives.
Méthodes additives
Les méthodes de combinaison Sum (Somme) et Mean (Moyenne) sont relativement simples à interpréter et sont couramment utilisées par divers indices. Les méthodes sont presque identiques ; les distributions qui en résultent se présentent sous la même forme, seule l’échelle est différente. Par conséquent, la carte d’index obtenue présente le même aspect. Seules les valeurs diffèrent.
Ces méthodes autorisent les valeurs élevées dans une variable pour compenser les valeurs faibles d’une autre variable.
Méthodes multiplicatives
Les méthodes Multiplication et Moyenne géométrique demandent plus de précautions, car les valeurs d’index obtenues peuvent être nettement plus élevées qu’avec une méthode additive. De plus, ces méthodes ne fonctionnent pas bien avec les valeurs négatives.
Malgré leurs inconvénients, les méthodes multiplicatives ont l’avantage de ne pas autoriser les valeurs élevées dans une variable pour compenser les valeurs faibles d’une autre variable ; une valeur d’index élevée n’est possible que s’il existe plusieurs variables avec des valeurs élevées.
Remarque :
Le paramètre Méthode prédéfinie de mise à l’échelle et combinaison des variables propose des modèles qui définissent les méthodes de prétraitement et de combinaison selon des approches de création d’index couramment utilisées.
Pondération
Les variables peuvent être pondérées pour représenter l’importance relative de chaque facteur eu égard à sa contribution dans l’index. Par défaut, toutes les pondérations sont définies sur 1, ce qui signifie que chaque variable a la même pondération. Toutefois, il peut être important de représenter la différence de contribution relative d’une variable par rapport aux autres. En faisant passer la pondération de l’une des variables à 2 et en maintenant les autres à 1, vous indiquez que cette variable doit être considérée comme deux fois plus importante que les autres dans sa contribution dans l’index final.
Vous pouvez également utiliser des pondérations qui, additionnées, sont égales à 1 : par exemple, si les variables utilisées sont au nombre de trois, et qu’une d’entre elles doit être considérée comme deux fois plus importante que les deux autres, vous pouvez utiliser les valeurs de pondération 0,5, 0,25 et 0,25.
Dans les méthodes additives, les pondérations s’appliquent en multipliant chaque variable par sa pondération respective. Dans les méthodes multiplicatives, les pondérations s’appliquent en élevant chaque variable à la puissance de sa pondération respective.
Les pondérations sont déterminantes pour l’index obtenu. Que vous choisissiez de garder des pondérations égales ou de les modifier afin de favoriser des variables, l’utilisation de pondérations ajoute de la subjectivité à l’analyse. Par ailleurs, vous pouvez sans le vouloir effectuer une pondération du fait de la corrélation et des différences de variance entre les variables. Pour en savoir plus sur l’impact de la corrélation et de la variance sur l’index, consultez le document des pratiques conseillées pour la création d’index composites.
Post-traitement de l’index
Une fois que les variables ont été prétraitées et combinées dans l’index brut, le post-traitement peut contribuer à rendre l’index plus compréhensible. Les options de la catégorie de paramètres Paramètres en sortie vous permettent d’ajuster le sens, d’ajuster l’échelle et de classer les valeurs.
Inverser l’index
Tenez compte de l’objectif de l’index et déterminez si les valeurs élevées de l’index sont telles que prévu. Activez éventuellement la case à cocher du paramètre Inverser les valeurs d’index en sortie pour inverser l’index brut et faire en sorte que les valeurs élevées deviennent les valeurs faibles et inversement.
Remarque :
Faites preuve de prudence lorsque vous inversez des valeurs de l’indice dans le cas des méthodes multiplicatives, car cette opération donne des résultats différents de l’inversion des variables en entrée.
Mettre à l’échelle l’index en utilisant des valeurs minimale et maximale
Utilisez le paramètre Valeurs minimale et maximale d’index en sortie pour spécifier la plage de l’index en sortie. Cette option peut être utile pour utiliser une échelle qui sera peut-être plus facile à interpréter, quelles que soient les méthodes de prétraitement et de combinaison choisies. Par exemple, spécifiez une Valeur minimale de 0 et une Valeur maximale de 100 pour mettre l’index brut à l’échelle de cette plage. L’option utilise la formule suivante :
,
où x est la valeur initiale, min(x) est la valeur minimale se trouvant dans l’index, max(x) est la valeur maximale se trouvant dans l’index, a est la valeur minimale spécifiée, b est la valeur maximale spécifiée, et x' est la valeur mise à l’échelle.
Classer l’index
Outre l’index brut en sortie, vous pouvez éventuellement classer l’index en sortie pour faciliter l’interrogation des résultats. Le paramètre Sorties classées supplémentaires vous propose quatre méthodes : Intervalle égal, Quantile, Écart type et Personnalisé. Chacune génère un champ supplémentaire en sortie.
La méthode à intervalles égaux divise la plage d’index en intervalles de longueur égale.
La méthode du quantile divise les valeurs en classes de telle sorte que chaque classe contienne le même nombre d’entités ou de lignes. Cette méthode génère une carte similaire à la couche de centiles de l’index, sauf qu’elle utilise des classes, contrairement à la distribution continue des centiles. Utilisez cette option pour créer une carte de quintiles (à cinq classes), de déciles (à 10 classes) ou d’autres types de quantiles basés sur le nombre de classes.
La méthode d’écart type classe l’index pour montrer à combien d’écarts types se trouve chaque valeur par rapport à la moyenne.
La méthode des classes personnalisées catégorise l’index continu en utilisant des limites de classe et des étiquettes personnalisées. Vous pouvez ajouter des étiquettes numériques ou des étiquettes textuelles, telles que Basse, Moyenne et Élevée.
Interpréter les résultats
La consultation et l’examen attentif de l’index obtenu est une étape importante de la préparation de l’index à une utilisation ultérieure. L’outil génère plusieurs cartes et diagrammes pour vous aider à interpréter le résultat.
Couches en sortie
Lorsque le paramètre Entités ou table en sortie est défini sur une classe d’entités ou un shapefile (plutôt qu’un ajout en entrée), l’outil crée plusieurs couches qui sont incluses dans le groupe de couches en sortie :
Conseil :
Utilisez les raccourcis Ctrl et Maj pour visualiser ou réduire rapidement les couches dans le groupe de couches.
La couche d’indexation affiche la distribution des valeurs d’index après une opération facultative de mise à l’échelle ou d’inversion. La couche fournit une carte choroplèthe continue qui permet d’évaluer les résultats de l’index. Vous pouvez vous servir de la carte pour évaluer les valeurs élevées et basses de l’index, tout en préservant la distribution de l’index et les éventuels points aberrants.
La couche de centiles d’index affiche les positions relatives (classements) entre les valeurs d’index. Sachant que les couleurs de la carte obtenue correspondent aux classements des valeurs d’index, elles ne préservent pas la distribution ou les différences d’index réelles. Utilisez cette méthode si vous voulez évaluer la situation des régions les uns par rapport aux autres en fonction de leur classement d’index.
La couche de classes à intervalles égaux d’index présente les classes en fonction de la distribution des valeurs d’index, mais elle regroupe les valeurs dans des classes en fonction des intervalles égaux définis par le paramètre Nombre de classes de l’index en sortie. Cette couche est une forme classée de la couche d’indexation.
La couche de centiles d’index attribue un nombre égal d’entités à chaque classe et représente une forme classée de la couche de centiles d’index. Le nombre de classes est défini par le paramètre index Nombre de classes de l’index en sortie.
La couche de classes d’écart type d’index permet de visualiser les régions situés en dessus et en dessous de la moyenne d’index. La combinaison de couleurs permet de mettre en évidence les valeurs d’index extrêmement élevées et basses, ce qui peut être utile pour identifier les régions qui peuvent nécessiter une étude plus poussée.
La couche de classes personnalisées d’index affiche les catégories spécifiées sur la carte et peut être utilisée à diverses fins, notamment pour fractionner un index continu en catégories inégales en fonction des interventions planifiées. Vous pouvez par exemple nommer les classes Basse, Moyenne et Élevée.
Diagrammes en sortie
L’outil génère des diagrammes qui peuvent apporter des réponses à diverses questions à propos de l’indice.
Explorer la distribution de l’index
La couche d’indexation principale dans le groupe de couches en sortie contient un histogramme de la distribution d’index. Avec la carte, elle peut vous aider à mieux comprendre la distribution des résultats.
Explorer les distributions des variables en entrée
La couche d’indexation principale contient deux boîtes à moustaches des variables en entrée : une qui permet de visualiser les distributions de variables avant la mise à l’échelle et l’autre après la mise à l’échelle. Il est souvent utile de comparer ces diagrammes côte à côte pour évaluer la façon dont la méthode de mise à l’échelle sélectionnée a changé les variables en entrée. La comparaison côte à côte de ces diagrammes peut vous aider déterminer si la méthode de mise à l’échelle sélectionnée a eu l’effet escompté sur la distribution des variables.
Vous pouvez également utiliser les boîtes à moustaches pour étudier des points aberrants en sélectionnant ces derniers dans la boîte à moustaches des variables en entrée et en vérifiant leur emplacement sur la carte. Vous pouvez ensuite afficher la boîte à moustaches des variables prétraitées pour contrôler si la méthode de prétraitement choisie a corrigé l’effet du point aberrant.
Explorer les résultats de chaque entité
La couche d’entités inclut des fenêtres contextuelles qui permettent de visualiser les valeurs de l’indice et les variables en entrée pour chaque entité. Utiliser l’outil Explorer pour cliquer sur une entité et utiliser une fenêtre contextuelle afin d’examiner les résultats.
Identifier les variables qui ont un impact sur l’index
La couche d’indexation comprend une matrice de nuage de points qui montre la corrélation entre l’index et chaque variable utilisée. Les variables présentant une forte corrélation avec l’index correspondent généralement aux variables dont la contribution a été la plus significative au niveau de l’index. À l’inverse, les variables ayant une faible corrélation avec l’index sont celles qui peuvent être considérées comme ayant le moins d’impact sur l’index. Par ailleurs, déterminez s’il existe des variables ayant une faible variation interne ; les variables dont la variation est faible sont celles qui ont le moins de chances de fournir des informations intéressantes à votre index.
Les cartes et les visualisations de données obtenues appellent davantage d’ajustements et d’affinements de l’index. Pour en savoir plus sur les autres éléments à prendre en considération lors de la création et de l’évaluation d’un index, consultez le document technique sur les pratiques conseillées.
Ressources supplémentaires
Consultez le document de l’Organisation de coopération et de développement économiques suivant : Handbook on Constructing Composite Indicators: Methodology and User Guide.
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?