Fonctionnement de Recherche de similarités

L’outil Recherche de similarités identifie quelles Entités candidates sont les plus semblables (ou dissemblables ) à une ou plusieurs Entités en entrée à apparier. La similarité s'appuie sur une liste spécifiée d'attributs numériques (Attributs dignes d'intérêt). Si plusieurs Entités en entrée à apparier sont spécifiées, la similarité dépend des moyennes de chaque Attributs dignes d'intérêt. La classe d'entités en sortie (Entités en sortie) contiendra les Entités en entrée à apparier ainsi que toutes les Entités candidates détectées, classées par similarité (comme spécifié par le paramètre Le plus ou le moins similaire). Le nombre de correspondances retourné dépend de la valeur du paramètre Nombre de résultats.

Applications possibles

  • Vous pouvez utiliser l'outil Recherche de similarités pour trouver d'autres villes comme la vôtre en termes de population, d'enseignement et de proximité d'installations de loisirs spécifiques.
  • Les autorités locales peuvent souhaiter promouvoir leur ville auprès d'entreprises afin d'augmenter les recettes liées à la fiscalité sur les entreprises. L'outil Recherche de similarités peut les aider à identifier d'autres villes comme la leur afin de comparer leurs attributs d'attraction (par exemple un faible taux de criminalité et un fort taux de croissance). Ces représentants locaux peuvent également être intéressés par des sites comme les leurs, mais plus petits ou plus grands (similarité cosinusoïdale). Le fait de déterminer qu'ils sont semblables à des localités plus grandes ou plus petites qui ont attiré les entreprises qui les intéressent leur permettra de mettre en avant les similarités tout en soulignant les avantages d'une plus petite taille (moins de circulation, ambiance conviviale) ou d'une plus grande taille (plus grand nombre de clients potentiels). Ces personnes peuvent également s'intéresser aux villes qui sont le moins semblables à la leur. Si certaines des localisations les moins semblables représentent une concurrence par rapport aux entreprises qu'ils souhaitent attirer, cette analyse leur fournira les informations dont ils ont besoin pour présenter une comparaison.
  • Un responsable des ressources humaines peut, par exemple, souhaiter justifier les fourchettes de salaire au sein de sa société. Une fois qu'il a identifié des villes semblables en termes de taille, de coûts de la vie et d'installations publiques, il peut examiner la fourchette des salaires de ces villes pour voir s'ils sont alignés.
  • Un analyste de la criminalité souhaitera effectuer une recherche dans la base de données pour voir si un crime s'inscrit dans un modèle ou une tendance plus large.
  • Un programme d'activités sportives extra-scolaire a remporté un vif succès dans la ville A. Les promoteurs souhaitent trouver d'autres villes présentant des caractéristiques semblables pour étendre leur programme.
  • Un organisme chargé du contrôle d'application de la loi a repéré des zones dans lesquelles des drogues sont cultivées ou fabriquées. L'identification de sites présentant des caractéristiques similaires peut l'aider à cibler ses recherches à venir.
  • Une chaîne de vente au détail possède plusieurs points de vente très fréquentés et quelques points de vente aux performances faibles. La recherche de sites présentant des caractéristiques démographiques et contextuelles semblables (accessibilité, visibilité, entreprises complémentaires, etc.) permettra d'identifier les meilleurs emplacements pour un nouveau point de vente.

Méthodes de correspondance

La correspondance peut se faire selon des valeurs attributaires, des valeurs attributaires classées ou des profils attributaires (similarité cosinusoïdale). L'algorithme employé pour chacune de ces méthodes est présenté ci-dessous. Pour toutes les méthodes, si plusieurs Entités en entrée à apparier sont présentes, la moyenne des attributs de toutes les entités est calculée pour créer une entité cible composée à utiliser pour le processus d'appariement : Moyenne des attributs présentant un intérêt

Valeurs attributaires

Lorsque vous sélectionnez Valeurs attributaires pour le paramètre Méthode d'appariement, l'outil standardise d'abord tous les Attributs d'intérêt. Il soustraie ensuite pour chaque candidat les valeurs standardisées de celles de l'entité cible, élève les différences au carré, puis additionne les différences au carré. Cette somme devient l'index de similarité de ce candidat. Une fois tous les candidats traités, ils sont classés de l'index le plus petit (le plus semblable) à l'index le plus grand (le moins semblable).

Approfondissement :

La standardisation des valeurs attributaires implique une transformation z dans laquelle la moyenne de toutes les valeurs est soustraite de chaque valeur et divisée par l'écart type pour toutes les valeurs (les entités en entrée à apparier et les entités candidates sont comprises dans le calcul des écarts types et des moyennes). La standardisation définit tous les attributs à la même échelle, même lorsque ceux-ci sont représentés par des types de nombres très différents : taux (chiffres de 0 à 1,0), population (avec des valeurs supérieures à un million) et distances (kilomètres, par exemple).

Valeurs attributaires classées

Lorsque vous sélectionnez Valeurs attributaires classées pour le paramètre Méthode d'appariement, l'outil commence par classer tous les Attributs d'intérêt pour l'entité cible et pour tous les candidats. Pour chaque candidat, il additionne ensuite la différence au carré de chaque attribut par rapport à l'entité cible. Si la valeur de population pour la cible est la dixième plus importante de tous les candidats, et que la population pour le candidat étudié est la quinzième, la somme de la différence de classement de la population au carré de ce candidat est 10 - 15 = -5 et -5**2 est égal à 25. La somme des différences de classement au carré pour tous les attributs d'intérêt devient l'index de similarité de ce candidat. Une fois tous les candidats traités, ils sont classés de l'index le plus petit (le plus semblable) à l'index le plus grand (le moins semblable).

Profils attributaires

Lorsque vous sélectionnez Profils attributaires pour le paramètre Méthode d'appariement, l'outil standardise d'abord tous les Attributs d'intérêt (un minimum de deux Attributs d'intérêt est requis pour cette méthode). Il applique ensuite des calculs de similarité cosinusoïdale afin de comparer le vecteur d'attributs standardisés pour chaque candidat avec le vecteur d'attributs standardisés pour l'entité cible appariée. La similarité cosinusoïdale de deux vecteurs, A et B, est calculée de la manière suivante :

Équation de similarité cosinusoïdale

La similarité cosinusoïdale ne se préoccupe pas de la correspondance des amplitudes des attributs, mais elle se concentre plutôt sur les relations entre les attributs. Si vous avez créé un profil (graphique linéaire) des attributs standardisés dans les vecteurs comparés (la cible et l'un des candidats), vous verrez peut-être des profils très similaires ou très différents :

Profils attributaires
Les profils de la première paire d'attributs sont très similaires, les profils de la dernière paire sont relativement différents.

L’index de similarité cosinusoïdale s’étend de 1,0 (similarité parfaite) à -1,0 (dissemblance parfaite) et est reporté dans le champ SIMINDEX (similarité cosinusoïdale). Cette méthode de similarité permet de rechercher des sites possédant les mêmes caractéristiques, mais à une échelle plus grande ou plus petite.

Meilleures pratiques

Appariement des modèles de similarité

Si vous définissez le paramètre Nombre de résultats sur zéro, l'outil classe toutes les entités candidates. La sortie de cette analyse indique le modèle spatial de similarité. Vous remarquerez que, lorsque vous classez tous les candidats, vous obtenez des informations sur les similitudes et les dissemblances.

Carte de similarités classées

Inclusion de variables spatiales

Supposons que vous connaissiez les emplacements (surfaces de polygones) où une espèce protégée donnée prospère et que vous souhaitiez voir d'autres zones où elle se porte bien. Vous rechercherez des sites semblables à ceux dans lesquels l'espèce se porte bien, mais vous pouvez également avoir besoin de zones suffisamment grandes et compactes pour assurer le bien-être de l'espèce. Pour cette analyse, vous pouvez calculer une métrique de compacité (les mesures de compacité courantes s'appuient sur la superficie d'un polygone par rapport à la zone d'un cercle du même périmètre). Vous pouvez ensuite inclure votre mesure de compacité et un attribut reflétant la taille du polygone (Shape_Area) dans le paramètre Fields To Append To Output (Champs à ajouter à la sortie) lorsque vous exécutez l’outil Recherche de similarité. Le fait de trier les dix premières correspondances de solutions en termes de compacité et de superficie vous aidera à identifier les emplacements les mieux adaptés à la réintroduction des espèces.

Peut-être êtes-vous un détaillant souhaitant étendre ses activités. Si vous possédez des points de vente existants qui ont remporté du succès, vous pouvez utiliser des attributs reflétant les principales caractéristiques de succès pour vous aider à trouver des emplacements candidats pour l'expansion. Supposons que les produits que vous vendez soient davantage destinés aux étudiants et que vous souhaitiez éviter les emplacements proches de vos points de vente actuels ou de concurrents. Avant d'exécuter l'outil Recherche de similarités, vous utiliseriez l'outil Proche pour créer des variables spatiales : distance par rapport aux universités ou endroits présentant une forte densité d'étudiants, distance par rapport à vos points de vente existants et distance par rapport à la concurrence. Vous pouvez ensuite inclure ces variables spatiales dans le paramètre Champs à ajouter à la sortie lorsque vous exécutez l'outil Recherche de similarités.