L’outil Évaluer la taille des groupes pour l’agrégation de points vous aide à choisir la bonne taille de groupe lors de l’agrégation d’un nombre de points donné en groupes carrés et hexagonaux disposés de manière à former une tessellation. L’outil permet également d’évaluer d’autres tailles de groupe afin de voir de quelle manière elles affecteraient les totaux et motifs obtenus si vous les utilisiez.

L’agrégation et la comptabilisation des points dans des groupes est un processus courant dans le domaine des SIG, notamment dans le cadre de l’agrégation des appels d’urgence, des pannes et d’observations des animaux. Il permet également de mieux visualiser de grandes quantités d’entités ponctuelles et de protéger la vie privée en occultant les localisations ponctuelles individuelles. Néanmoins, en dépit des nombreuses applications, on trouve relativement peu d’indications sur la grandeur des groupes. En pratique, les tailles de groupe sont souvent choisies en fonction de leur commodité (un nombre rond, par exemple) ou en fonction de la taille de groupe qui donne les résultats les plus esthétiques. Le choix de l’échelle change à la fois les éléments que vous pouvez détecter et la façon dont vous les interprétez (un exemple du problème d’unité de surface modifiable), aussi il est important de prendre des décisions contrôlables et reproductibles. Il est également important d’identifier la sensibilité du nombre de points obtenus par rapport à la taille du groupe : l’utilisation d’une plus grande ou plus petite taille de groupe aurait-elle entraîné des motifs différents et donc des conclusions divergentes ?
Par essence, la détermination de la taille de groupe qui convient pour l’agrégation des données ponctuelles en groupes pose un problème d’échelle. Les groupes trop petits sont presque vides et génèrent des nombres très variables et les groupes trop grands passent à côté des motifs locaux importants en les invisibilisant. Une taille de groupe adaptée est une taille suffisamment grande pour produire une grande diversité de nombres de points (plutôt que de nombreux groupes vides comptant un faible nombre de totaux élevés), mais suffisamment réduite pour préserver les motifs locaux des points dans les groupes obtenus (plutôt que de les fondre dans la masse des groupes agrégés).
Pour déterminer la bonne taille de groupe, une plage de tailles de groupe candidates est évaluée à l’aide de deux critères : l’uniformité interne et la variété du nombre de points. La métrique Uniformité interne mesure si les points figurant dans chaque groupe tendent à être répartis spatialement de manière aléatoire. Elle donne quasiment toujours la préférence aux petites tailles de groupe. Inversement, la métrique Variété du nombre de points mesure l’uniformité de la répartition des groupes obtenus. Elle donne quasiment toujours la préférence aux grandes tailles de groupe.

Ces deux métriques (chacune ayant une valeur comprise entre 0 et 1) sont ensuite multipliées ensemble pour produire un score d’évaluation unique pour chaque taille de groupe. La taille de groupe avec le score le plus élevé est recommandée par l’outil. La courbe du score d’évaluation permet également de comparer les autres tailles de groupe par rapport à la taille de groupe recommandée par l’outil.

Pour plus d’informations sur les scores d’évaluation et leur mode de calcul, reportez-vous à la section Détails supplémentaires sur l’évaluation des tailles de groupe ci-dessous.
Définir une limite d’agrégation appropriée
Outre la fourniture des points à agréger, vous devez également utiliser le paramètre Limite d’agrégation pour définir la zone dans laquelle les points doivent être agrégés et les groupes créés. La limite d’agrégation (parfois appelée zone d’étude ou zone d’intérêt) doit définir la surface dans laquelle les points peuvent apparaître et être enregistrés. Par exemple, lors de l’agrégation des appels d’urgence d’une ville, les limites de cette dernière doivent être utilisées comme limite d’agrégation car un appel d’urgence peut provenir de n’importe quel point de la ville alors que tout appel émis en dehors de la ville n’est pas inclus dans le jeu de données. Même s’il est tentant d’imaginer qu’il suffit de créer les groupes, puis de les découper sur la limite d’agrégation, la limite a un impact considérable sur le score d’évaluation et la taille de groupe recommandée. Une limite d’agrégation incorrecte entraîne souvent des tailles de groupes anormalement grandes ou petites. Il est donc fortement conseillé de déterminer la limite qui convient le mieux aux données.
Indiquer une limite pour délimiter les points qui peuvent ou non apparaître est important, car l’outil doit être en mesure de distinguer si une surface ne contient pas de points parce qu’aucun incident n’a eu lieu (comme un quartier d’une ville sans cambriolages au cours d’une semaine donnée) ou s’il est impossible d’observer des points dans la surface (comme la présence de baleines au sol). Comme l’outil évalue la variété des nombres de points obtenus dans les groupes, les nombres dont la valeur est égale à zéro sont aussi importants que les autres. L’outil évite les tailles de groupe qui produisent une grande proportion de groupes sans point. En pratique, cela signifie que si la limite d’agrégation est trop importante (c’est-à-dire qu’elle contient de nombreuses surfaces dans lesquelles les points ne peuvent pas être enregistrés), la taille de groupe recommandée sera anormalement grande pour combler les écarts et réduire le nombre de groupes vides. À l’inverse, si la zone d’étude est trop petite, l’outil recommandera des tailles de groupe plus petites pour augmenter le nombre de groupes sans point.
Si la limite d’agrégation appropriée pour les points est connue (les limites de la ville, par exemple), sélectionnez l’option Polygones personnalisés et indiquez la limite dans le paramètre Polygones personnalisés. Vous pouvez également tracer interactivement la limite d’agrégation sur une carte à l’aide de la saisie interactive d’entités.
En l’absence de limite d’agrégation appropriée connue, la limite peut être automatiquement créée à l’aide des options Enveloppe concave, Enveloppe convexe ou Enveloppe (voir Géométrie d’emprise minimale pour plus d’informations). Si vous utilisez une limite créée automatiquement, vous devez toujours procéder à l’évaluation visuelle de la limite pour déterminer si elle représente correctement les points. Si la limite n’est pas conforme, utilisez une option différente ou dessinez de manière interactive une limite qui représente mieux les points.
L’image suivante montre les tailles de groupe obtenues pour les mêmes données à l’aide des différentes options du paramètre Limite d’agrégation. L’option personnalisée utilise la limite réelle dans laquelle les points ont été collectés. En ce qui concerne les autres jeux de données (et en particulier ceux contenant des points spatiaux aberrants), la différence entre les tailles de groupe et entre les motifs obtenus peut être encore plus extrême.

Sorties de l’outil
L’outil crée trois sorties qui sont incluses dans un groupe de couches. La sortie principale est une classe d’entités surfaciques des groupes agrégés selon la taille de groupe recommandée. La couche est symbolisée selon le nombre de points qui se trouvent dans chaque groupe.
La deuxième sortie est une classe d’entités surfaciques de la limite d’agrégation utilisée par l’outil. Cette sortie est plus utile pour les options d’enveloppe concave et d’enveloppe convexe car elle permet d’afficher la forme des limites. La troisième sortie est une table contenant les scores d’évaluation pour toutes les tailles de groupe testées par l’outil. La table comporte deux diagrammes permettant d’examiner les tailles de groupe.
Diagramme du score d’évaluation selon les tailles de groupe
Le diagramme Score d’évaluation selon les tailles de groupe affiche le score d’évaluation pour toutes les tailles de groupe testées. Les points bleus dans le diagramme représentent les scores d’évaluation bruts pour les tailles de groupe qui sont ensuite lissés pour former une spline (la courbe bleue). La valeur la plus élevée de la courbe bleue correspond à la taille de groupe recommandée et est indiquée par une ligne verticale orange. Une région de confiance orange clair apparaît également autour de la taille de groupe recommandée et, toute taille de groupe qui se trouve dans cette plage est associée à un score d’évaluation qui n’est pas beaucoup plus bas que la taille recommandée. Vous pouvez donc sélectionner n’importe quelle valeur dans cette plage (et choisir, par exemple, un nombre rond) sans subir une baisse sensible du score d’évaluation.

La taille de groupe recommandée et la surface associée de chaque groupe sont visibles en bas du diagramme. Pour les groupes carrés, la taille du groupe correspond à la largeur ou la hauteur de chaque carré. Pour les hexagones, la taille du groupe correspond à la hauteur de chaque hexagone (la distance allant d’un segment plat au segment plat opposé).
Remarque :
La plus petite taille de groupe testée (valeur minimale de l’axe x) est la taille de groupe qui permet d’obtenir 20 groupes pour chaque point en entrée (en d’autres termes, les groupes sont tellement petits que plus de 95 pourcent d’entre eux ne contiennent aucun point) ; la plus grande taille de groupe testée (valeur maximale de l’axe x) correspond à 25 pourcent de l’étendue x ou y, selon celle qui est la plus grande. L’outil teste 100 tailles de groupe régulièrement incrémentées entre les valeurs minimale et maximale.
Diagramme Uniformité interne et variété du nombre de points selon les tailles de groupe
Le diagramme Uniformité interne et variété du nombre de points selon les tailles de groupe affiche les deux critères qui ont été associés pour produire le score d’évaluation. Pour chaque taille de groupe testée, une courbe verte affiche le score d’uniformité interne et une courbe violette indique le score de variété du nombre de points. Généralement, la courbe verte diminue et la courbe violette va en augmentant. La taille de groupe recommandée et l’intervalle de confiance sont également affichés en guise de contexte. La taille de groupe recommandée dispose habituellement de scores raisonnables pour les deux critères, ce qui indique un bon compromis entre les critères opposés. Pour plus d’informations sur chaque critère, reportez-vous à la section Détails supplémentaires sur l’évaluation des tailles de groupe ci-dessous.

Messages de géotraitement
Les messages de l’outil incluent une section Synthèse des résultats et une section Synthèse d’agrégation. La synthèse des résultats affiche la taille de groupe recommandée et la surface de groupe associée. Pour les hexagones, elle affiche également la longueur des côtés de chaque hexagone. La synthèse d’agrégation contient diverses statistiques de synthèse sur les groupes et les nombres de points obtenus, comme le nombre total de points, le nombre de groupes, le nombre moyen de points et la surface de la limite d’agrégation.
Pratiques conseillées et limitations
Voici les meilleures pratiques et limitations concernant l’utilisation de l’outil :
L’outil part du principe qu’il n’existe qu’une seule taille de groupe adaptée à l’agrégation des points. Or, dans de nombreux cas, une taille de groupe unique ne permet pas de représenter correctement les points dans l’ensemble de la limite d’agrégation. Par exemple, dans un comté comportant à la fois des zones rurales à faible densité de population et des zones urbaines à forte densité, il peut être difficile d’agréger les appels d’urgence pour l’intégralité du comté. Les groupes suffisamment petits pour représenter les zones urbaines seront quasiment vides dans les zones rurales tandis que les groupes suffisamment grands pour les zones rurales condenseront les centres urbains en seulement quelques groupes. La présence d’intervalles de confiance très larges autour de la taille du groupe recommandée, indiquant une forte incertitude sur la taille du groupe à utiliser, est un signe courant de ce type de problème. Une solution possible consiste à séparer les points en plusieurs jeux de données et à les agréger séparément à l’aide de différentes tailles de groupe.
- L’outil convient bien lorsque vous avez l’intention d’effectuer une analyse avec les nombres de points obtenus (par exemple, une analyse des points chauds ou une analyse des valeurs aberrantes locales) au lieu d’un simple lissage cartographique. Bien qu’il permette de lisser efficacement de grandes quantités de points pour une meilleure représentation visuelle, le but premier de l’outil est de produire des groupes agrégés qui préservent le plus possible la structure spatiale des points et génère des nombres de points propices à une analyse.
- Un nombre élevé de points coïncidents (plusieurs points situés à la même coordonnée) produit des tailles de groupe qui ne sont pas réalistes. L’outil renvoie un avertissement si l’un des points en entrée est coïncident.
Détails supplémentaires sur l’évaluation des tailles de groupe ci-dessous.
La méthodologie générale de l’outil vise à évaluer une plage de tailles de groupe à l’aide de deux métriques : l’uniformité interne et la variété du nombre de points. Un score entre 0 et 1 est attribué à chaque taille de groupe pour chacune des métriques et ces valeurs sont ensuite multipliées pour produire un score d’évaluation final qui tient compte des deux critères. La métrique Uniformité interne privilégie généralement les petites tailles de groupe tandis que la métrique Variété du nombre de points privilégie plutôt les grandes tailles de groupe. Les tailles de groupe avec un score d’évaluation élevé sont celles qui figurent au milieu et procurent le meilleur compromis entre les critères en concurrence. Les sections suivantes décrivent les critères en détail.
Uniformité interne
La métrique Uniformité interne mesure si les points sont répartis de manière uniforme dans les groupes obtenus. Par exemple, dans l’image ci-dessous, les points du groupe à gauche forment un agrégat important dans un angle, mais les points sont éparpillés uniformément de manière aléatoire dans le groupe de droite de sorte que celui-ci présente une uniformité interne supérieure.

L’uniformité interne est essentielle pour éviter de sélectionner une taille de groupe qui occulterait d’importants motifs locaux. Si les points d’un groupe forme un agrégat ou un motif nettement visible, le fait de synthétiser ces points risque de vous induire en erreur. Cette métrique vérifie si les points figurant dans chaque groupe sont organisés de manière aléatoire, ce qui suggère que le groupe synthétise fidèlement et de manière représentative les points qu’il englobe. Lorsqu’un nombre élevé de groupes affiche des motifs organisés, cela signifie que la taille du groupe est peut-être trop grande et masque des motifs importants.
La métrique est calculée en testant le caractère spatial totalement aléatoire de chaque groupe et la valeur correspond à la proportion des groupes avec une valeur p supérieure à 0,05 (c’est-à-dire qu’ils n’ont pas été détectés dans le cadre de l’agrégation). Les groupes sans point ne sont pas inclus dans la proportion étant donné qu’il est impossible de classer les cellules vides comme étant spatialement aléatoires ou comme étant agrégées.
Le test du caractère spatial totalement aléatoire divise chaque groupe en un nombre de groupes plus petits. Dans le cas de carrés, le groupe est divisé en 25 petits carrés et pour des hexagones, le groupe est divisé en 24 triangles. Le nombre de points dans les carrés ou les triangles est ensuite testé en termes d’uniformité à l’aide du test du khi-deux de qualité de l’ajustement.
Variété du nombre de points
La métrique Variété des nombres de points quantifie la diversité des nombres de points présents dans les groupes. Elle favorise les tailles de groupe qui offrent une grande variété de valeurs (nombre de points) au détriment des tailles de groupe qui génèrent de grandes proportions de groupes vides ainsi qu’un petit nombre de groupes avec des valeurs élevées de points. En principe, ceci encourage la richesse informationnelle qui va de pair avec l’idée que les agrégations devraient produire une variation et une diversité significative de nombres de points. C’est une idée particulièrement séduisante si vous avez l’intention de mener une analyse (comme une analyse des points chauds) sur le nombre de points. Dans les faits, cette métrique tend à augmenter la taille du groupe dans la mesure où les grands groupes sont plus enclins à cumuler des nombres plus variés et uniformément distribués.
Par exemple, dans l’image ci-dessous, les groupes du bas produisent une plus grande variété et une distribution plus régulière des nombres de points que les groupes situés en haut. Les groupes du bas ont un score supérieur en termes de variété du nombre de points. En règle générale, plus la distribution des nombres de points est proche d’une distribution uniforme (plate), plus le score est élevé.

La métrique est calculée à l’aide de la mesure d’entropie normalisée de Shannon. Pour chaque taille de groupe, la distribution des nombres de groupes est divisée en cinq intervalles égaux et l’entropie de cette distribution est calculée. L’entropie est ensuite divisée par l’entropie d’une distribution uniforme, ce qui produit un score compris entre 0 et 1.
Remarque :
L’uniformité interne et la variété du nombre de points sont générées en simulant des carrés ou hexagones aléatoires dans la limite d’agrégation au lieu de construire une tessellation complète pour chaque groupe de taille. Ceci permet d’optimiser la vitesse de traitement, mais les résultats seront légèrement différents lors d’une nouvelle exécution de l’outil. Toutefois, vous pouvez utiliser l’environnement Générateur de nombres aléatoires pour garantir des résultats reproductibles. Le nombre de polygones simulés pour chaque taille de groupe est calculé de telle sorte qu’en moyenne 75 pourcent de la limite d’agrégation soit couverte par les simulations.
Intervalles de confiance bootstrap
Les intervalles de confiance orange autour de la taille de groupe recommandée dans les diagrammes sont créés à l’aide du bootstrap. Ce traitement rééchantillonne de manière aléatoire les scores d’évaluation avec remplacement et estime une spline pour chaque jeu rééchantillonné de scores d’évaluation. Pour chaque rééchantillonnage, le score d’évaluation de la taille de groupe recommandée est enregistré et le cinquième centile est déterminé. Toutes les tailles de groupes dont le score d’évaluation est supérieur à cette valeur seront incluses dans l’intervalle de confiance. Ces tailles de groupe peuvent être interprétées comme disposant d’un score d’évaluation qui n’est pas significativement inférieur au score d’évaluation de la taille de groupe recommandée par l’outil.
Hexagones H3
L’outil n’autorise pas l’agrégation en hexagones H3. Toutefois, lors de l’agrégation en hexagones, vous pouvez afficher les résolutions H3 associées sous forme de guides dans le diagramme Score d’évaluation selon les tailles de groupe. Par défaut, les guides sont désactivés, mais vous pouvez les activer dans l’onglet Guides de la fenêtre Propriétés du diagramme.

Lorsqu’ils sont activés, les guides (lignes grises verticales en pointillé) permettent d’afficher le score d’évaluation des résolutions H3 qui se trouvent dans la plage des tailles de groupe testées et de sélectionner celle qui est la plus adaptée aux données. Par exemple, dans l’image ci-dessous, la résolution H3 n° 4 possède le score d’évaluation le plus élevé, est la plus proche de la taille de groupe recommandée et se trouve dans l’intervalle de confiance.

Bibliographie
Les ressources suivantes ont été utilisées pour implémenter l’outil :
- Ramos, Rafael G. 2025. "Finding an Adequate Areal Unit to Map Crime: A Spatial Data Perspective." New Research in Crime Modeling and Mapping Using Geospatial Technologies (p. 27-44). Cham: Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-81580-5_2.
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?