Comprendre la répartition des données

Disponible avec une licence Business Analyst.

La répartition des données vous permet d’utiliser des attributs disponibles dans des géographies du recensement (par exemple, la population totale) afin de calculer des informations pour vos géographies personnalisées (par exemple, des anneaux ou des zones de desserte isochrones). L’algorithme de répartition utilise une deuxième couche appelée couche de répartition (par exemple, des points de peuplement) pour calculer des attributs dans un polygone Par exemple, avec la répartition des données, vous pouvez estimer le nombre de personnes affectées par une tornade ou un ouragan, le nombre de seniors qui vivent à moins de 15 minutes d’un centre communautaire ou encore le nombre de ménages situés dans la zone de chalandise principale d’un magasin.

La répartition des données est l’agrégation des données ArcGIS Business Analyst dans des anneaux et des polygones. ArcGIS Pro utilise la même approche pour la répartition des données que le service GeoEnrichment, qui a recourt à une méthodologie d’extraction géographique sophistiquée pour agréger les données des anneaux et d’autres polygones. Une méthodologie d’extraction géographique détermine comment les données sont rassemblées et synthétisées ou agrégées pour les entités en entrée. Pour les unités géographiques standard, telles que les régions, les provinces, les départements ou les codes postaux, le lien entre une zone désignée et ses données attributaires est une simple relation de type un vers un. Par exemple, si une zone de chalandise d’étude en entrée contient une sélection de codes postaux, l’extraction de données correspond à la simple collecte des données de ces zones.

Mode de synthèse des données

Le processus d'extraction géographique pour les zones tampons concentriques, les zones de desserte autour d’un point et autres polygones à géographie non standard est plus complexe, car le polygone en entrée peut intersecter des zones géographiques contenant des données qui doivent être agrégées.

Le diagramme suivant illustre ce cas. Le polygone au centre représente une zone d’étude en entrée en cours d'enrichissement. Par exemple, l’outil de géotraitement Enrichir la couche dans ArcGIS Pro peut calculer la population totale de cette zone. Les polygones étiquetés représentent les géographies du recensement qui contiennent les valeurs de population totale. Aux États-Unis, il peut s’agir de groupes d’îlots avec des données d’enrichissement ; au Canada, il peut s’agir de zones de diffusion.

polygone

Le service GeoEnrichment fait appel à une méthodologie d’extraction géographique pondérée des centroïdes pour agréger les données des anneaux et d’autres polygones. La méthode d’extraction pondérée des centroïdes utilise les données des îlots de recensement pour mieux répartir les groupes d’îlots qui ne sont pas exclusivement contenus au sein d’un anneau. Aux États-Unis, au Canada et dans beaucoup d’autres pays ou zones, les îlots de recensement sont la plus petite unité de géographie du recensement. Ces zones de taille réduite servent à créer tous les autres niveaux de géographie du recensement. Par exemple, aux États-Unis, un ou plusieurs îlots sont agrégés pour créer un groupe d’îlots.

La méthode des centroïdes pondérés est illustrée par la figure suivante :

Méthode des centroïdes pondérés

Dans la figure précédente, les îlots de recensement sont représentés par des points noirs. En prenant la zone P3 comme exemple, la pondération de la population de cette zone est déterminée en additionnant les pondérations d’îlots au sein du polygone. La somme de ces pondérations correspond à une proportion de la zone P3 située dans la zone d’étude. Dans le cadre de la synthèse d’une variable démographique telle que la population totale, cette proportion est utilisée pour agréger et synthétiser des données. Par exemple, si 90 % de la population des îlots de la zone P3 se situent dans la zone d’étude et que la population totale de la zone P3 s’élève à 100 personnes, vous pouvez en déduire que 90 personnes dans la zone P3 sont incluses dans la zone d’étude.

Îlots pondérés

La pondération w1 du site P1 est calculée en additionnant les pondérations des points d’îlots appartenant à l’intersection du site P1 et du polygone cible T :

formule de la pondération du site

Ici, ß est un îlot et W1(ß) est une pondération de cet îlot du site P1.

Dans le cadre de la synthèse d’une variable démographique telle que la population totale, les pondérations doivent être déterminées pour toutes les géographies d’intersection. Le service GeoEnrichment calcule la pondération W1(ß) sous forme d’un rapport entre la population totale associée à l’îlot (ß) du site P1 et la somme des valeurs de population totale de tous les îlots du site P1 :

formule

Fonctionnement de la répartition des données

Les outils Enrichir la couche dans ArcGIS Pro et ArcGIS Online et le service GeoEnrichment utilisent un algorithme de répartition des données afin de redistribuer les variables démographiques, d’entreprise, économiques et paysagères dans des entités surfaciques en entrée. L’algorithme analyse chaque polygone à enrichir par rapport à un jeu de données ponctuels et à un jeu de données détaillés de polygones d’unités de rapport contenant des attributs pour les variables sélectionnées. Selon la façon dont chaque polygone enrichi se superpose à ces jeux de données, l’algorithme détermine le nombre approprié de chaque variable à attribuer.

En fonction du pays dans lequel se trouve le polygone d’enrichissement, le jeu de données ponctuels granulaire représente un des éléments suivants :

  • Census Block Points (Points d’îlots de recensement) : États-Unis et Canada uniquement. Ces points sont produits à l’origine sous forme de centroïdes à partir des zones de comptabilisation de recensement les plus détaillées dans ces pays : les îlots de recensement aux États-Unis et les zones de diffusion au Canada. Dans certains cas, Esri a déplacé ces points vers des zones résidentielles, au lieu de les laisser dans des zones industrielles ou non habitées. Chaque point comporte des attributs pour le nombre total d’habitants et de ménages vivant dans la zone de comptabilisation correspondante.
  • Settlement Points (Points de peuplement) : pour la plupart des autres pays, Esri produit des points de peuplement en fonction d’un modèle de probabilité de peuplement qui utilise l’imagerie Landsat8 pour les intersections routières. Les intersections routières sont particulièrement utiles dans les zones où le couvert forestier dense masque les habitations. Les points de peuplement sont produits à l’origine sous forme de surface raster dasymétrique, ce qui signifie que les endroits inhabitables ou inhabités ont été retirés. Cette surface raster est produite à une résolution de 75 mètres, ce qui correspond environ à la taille d’un îlot urbain. Le modèle attribue à chaque cellule ou point un score de probabilité de peuplement, qui représente la probabilité que des gens y vivent.
  • Points de peuplement basés sur l’adresse : Suisse et Pays-Bas uniquement. Certains pays suivent et rendent disponibles les points représentant les adresses résidentielles de leurs citoyens. Esri agrège le nombre de ces points d’adresse dans un raster dont la résolution est de 75 mètres et le convertit en jeu de données ponctuels comme des points de peuplement.
  • Emprise des bâtiments dans les points de peuplement (groupe de données Espagne AIS uniquement). Le décompte des centroïdes de l’emprise des bâtiments résidentiels est agrégé dans un raster dont la résolution est de 75 mètres afin de produire un jeu de données sur les points de peuplement.

Méthodologie de répartition

L’illustration ci-dessous montre le lien entre le polygone de zone tampon concentrique violet à enrichir et les points de peuplement en bleu foncé, ainsi que des polygones statistiques détaillés avec des contours gris qui prennent en charge l’enrichissement. Voici comment fonctionne le processus qui permet d’enrichir l’anneau violet avec la population totale :

  1. Sélectionnez les polygones statistiques qui se trouvent entièrement à l’intérieur du polygone d’anneau. Ces polygones apparaissent en blanc. Calculez la somme de la variable de population totale pour ces polygones.
  2. Sélectionnez les polygones statistiques qui intersectent partiellement le polygone d’anneau. Ils apparaissent en vert clair. Pour chacun de ces polygones, procédez comme suit :
    1. Sélectionnez tous les points de peuplement en bleu foncé qui se trouvent à l’intérieur. À l’aide de la variable de population totale du polygone statistique et de la somme des scores de probabilité de peuplement, déterminez le ratio de personnes par unité de score de peuplement.
    2. Uniquement pour les points qui se trouvent à l’intérieur de l’anneau violet, calculez la somme de probabilité de peuplement, puis déduisez-en le nombre de personnes représentées par ces points.

      Points de peuplement

      Les points de peuplement en bleu foncé représentent deux types d’informations. Tout d’abord, un carroyage de points régulièrement espacés de 75 mètres qui est produit selon la description ci-dessus. Ensuite, comme certaines unités de rapport sont assez petites pour se situer entre le carroyage de points de 75 mètres, les centroïdes de ces unités sont ajoutés pour que ces zones ne soient pas oubliées.

Variantes de la méthode de répartition

La description ci-dessus s’applique à la plupart des pays, mais aux États-Unis et au Canada, le processus est plus simple car les points ont déjà un attribut avec la population qui y vit. Ainsi, la somme de l’attribut de population pour les points situés à l’intérieur du polygone d’enrichissement suffit pour déterminer la population totale. Les valeurs des autres variables sont calculées en fonction des moyennes ou taux précalculés de population ou de synthèse.

Les informations ci-dessus décrivent la méthode de répartition par défaut, qui s’appelle BlockApportionment. Désormais, si ArcGIS Pro détecte un polygone de grande taille, la méthode BlockApportionment dans ArcGIS Pro est optimisée pour appliquer une méthode utilisant moins de calculs. ArcGIS Pro utilise maintenant des couches de points d’îlots généralisés dans le calcul, au fur et à mesure que la taille de la zone à enrichir augmente. La table attributaire des résultats d’une opération d’enrichissement présente le nom de la méthode utilisée dans la zone aggregationMethod.

La méthode utilise différentes géographies et différents points d’îlots généralisés comme base de la répartition. Pour les polygones de grande taille, la méthode utilise des géographies de polygone de plus en plus grossières et des points d’îlots plus généralisés. Par exemple, aux États-Unis, la méthode utilise les limites des secteurs de recensement à la place des polygones de groupes d’îlots du bureau du recensement américain, et des points d’îlots généralisés à la place des points d’îlots les plus affinés comme base de la répartition. Cette optimisation de la répartition des données a pour objet d’améliorer les performances et la précision.

Ces seuils reposent sur les diamètres des zones tampon :

  • Aux États-Unis, les diamètres et jeux de données surfaciques/ponctuels suivants sont utilisés :
    • De 0 à 504 miles, des groupes d’îlots et des points d’îlots de recensement sont utilisés.
    • De 867 à 954 miles, des secteurs et des points d’îlots de recensement reposant sur le niveau de généralisation 2 sont utilisés.
    • De 867 à 954 miles, des secteurs et des points d’îlots de recensement reposant sur le niveau de généralisation 3 sont utilisés.
    • De 867 à 954 miles, des secteurs et des points d’îlots de recensement reposant sur le niveau de généralisation 4 sont utilisés.
    • Au-delà de 954 miles, des secteurs et des points d’îlots de recensement reposant sur le niveau de généralisation 5 sont utilisés.
Conseil :

Le champ aggregationMethod dans la sortie de l’outil Enrichir la couche affiche la méthode de répartition, le niveau géographique et les couches de points d’îlots utilisés pour répartir/enrichir les données.

Couches de répartition

Une couche de répartition est une entité ponctuelle contenant un champ de pondération utilisé dans les collections de données statistiques pour estimer et agréger les données dans d’autres couches. Lorsque vous utilisez un jeu de données local dans Business Analyst, les couches de répartition, par défaut, sont des centroïdes d’îlots de recensement.

Conseil :

Reportez-vous à Créer une collection Statistical Data Collection pour en savoir plus.

Vous pouvez appliquer les méthodes de répartition suivantes aux champs de données :

  • NONE : aucune répartition n’est utilisée.
  • GEOM : utilise la surface géographique d’un polygone. Aucune répartition ponctuelle sur une maille fine n’est utilisée.
  • POP_W : utilise la population pondérée de l’année de recensement décennal.
  • HH_W : utilise les ménages pondérés de l’année de recensement décennal.
  • HU_W : utilise les logements pondérés de l’année de recensement décennal.
  • POP_W_CY : utilise la population pondérée du jeu de données de l’année actuelle.
  • HH_W_CY : utilise les ménages pondérés du jeu de données de l’année actuelle.
  • HU_W_CY : utilise les logements pondérés du jeu de données de l’année actuelle.
  • BUS_W_CY : utilise les entreprises pondérées du jeu de données de l’année actuelle.
  • Population des travailleurs de jour : utilise les emplacements de la population des travailleurs pondérés du jeu de données de l’année actuelle.
  • Population des habitants de jour : utilise les emplacements de la population des habitants pondérés du jeu de données de l’année actuelle.
Remarque :

La liste des méthodes de répartition est spécifique aux données locales des États-Unis. Votre liste dépend des données locales installées et est issue de la couche de points des centroïdes d’îlots.

Les collections de données statistiques (SDCX) vous permettent de personnaliser la couche de répartition afin d’utiliser n’importe quelle couche de points. Ceci permet d’associer vos polygones personnalisés à une couche de répartition personnalisée afin d’affiner les résultats et d’utiliser d’autres méthodes que celles par défaut. Aucun jeu de données installé localement n’est requis.

Exemples de couches de répartition personnalisées

L’emplacement international et la surface de données non démographiques sont des exemples de couches de répartition.

Exemple d’emplacement international

Vous pouvez créer une collection de données statistiques (SDCX) au Japon pour analyser la population des ménages historiques (par exemple, la population en 1900) à l’aide de données issues de sources de recherche. Vous pouvez commencer par les polygones de division administrative (préfecture) du Japon. Ces polygones ont des limites importantes et présentent une répartition géométrique corrigée qui ne renvoie pas des résultats exacts. Pour améliorer l’exactitude et la granularité (et obtenir des résultats propres à cette période), vous pouvez charger une nouvelle couche d’entités ponctuelles contenant les emplacements où la population s’est installée, avec des pondérations pour l’année 1900. Les pondérations peuvent contenir le nombre de ménages de l’année en question. L’association des limites japonaises à la nouvelle couche de répartition vous permet de mieux cerner la population des ménages dans n’importe quelle limite, par exemple dans une zone de 5 kilomètres autour de Tokyo.

Exemple de surface de données non démographiques

Vous pouvez créer une collection de données statistiques (SDCX) dans les champs pétrolifères du Texas, où la population humaine risque d’être minimale, mais où vous devez tout de même estimer avec exactitude les niveaux des ressources souterraines. Au lieu de limites administratives, comme des groupes d’îlots, vous pouvez commencer par une couche de carroyage personnalisée de 2x2 miles contenant des emplacements agrégés de gisements souterrains, par exemple de gaz naturel ou de pétrole brut. Pour améliorer l’exactitude et la granularité, vous pouvez charger une nouvelle couche d’entités ponctuelles contenant les emplacements des puits de pétrole et de gaz avec des pondérations mensuelles pour chaque type de ressource naturelle. L’association de la couche de carroyage des champs pétrolifères à la nouvelle couche de répartition vous permet de mieux cerner les niveaux des ressources actuelles dans n’importe quelle limite, par exemple une zone définie présentant une activité sismique.

Définir une couche de répartition

Pour définir une couche de répartition, procédez comme suit :

  1. Créez une collection de données statistiques (SDCX) à l’aide d’une couche de limite personnalisée.
  2. Dans la boîte de dialogue SDCX Edit (Mise à jour SDCX), dans l’onglet Source, définissez Apportionment Layer (Couche de répartition) sur une couche d’entités ponctuelles. Pour améliorer la précision, l’entité ponctuelle doit intersecter la limite personnalisée. La couche d’entités ponctuelles doit contenir un champ numérique utilisé pour la pondération Apportionment Method (Méthode de répartition). Le premier champ numérique trouvé est utilisé.
  3. Vous pouvez également redéfinir la valeur Apportionment Method (Méthode de répartition) sur un champ numérique dans l’onglet Variables.

Toutes les modifications apportées sont répercutées dans un index de performance SDCX actualisé. Vous pouvez créer l’index à partir de l’onglet Source. Vous pouvez sélectionner des variables personnalisées dans le nœud Custom Data (Données personnalisées) de n’importe quel outil qui utilise l’explorateur de données, tel que le processus Enrich Layer (Enrichir la couche).