Ce document fournit des informations supplémentaires sur les paramètres des outils et présente également le vocabulaire et les concepts essentiels pour l’analyse de données à l’aide des Outils de statistiques spatiales. Consultez-le lorsque vous avez besoin d'informations supplémentaires sur les paramètres des outils.
Remarque :
- Les outils de la boîte à outils Spatial Statistics (Statistiques spatiales) ne fonctionnent pas directement avec les couches d’événements XY. Utilisez l'outil Copier des entités pour convertir les données d'événements XY en classe d'entités avant d'exécuter votre analyse.
- Lorsque vous utilisez des shapefiles, n'oubliez pas qu'ils ne peuvent pas stocker de valeurs Null. Il se peut que des outils ou autres procédures qui créent des shapefiles à partir d'entrées autres que des shapefiles stockent des valeurs nulles ou les interprètent comme telles. Dans certains cas, les valeurs Null sont stockées sous forme de valeurs négatives très élevées dans les fichiers de formes. Cela peut aboutir à des résultats inattendus. Reportez-vous à la rubrique Remarques concernant le géotraitement pour la sortie de fichiers de formes pour plus d'informations.
Conceptualisation des relations spatiales
Une différence importante entre statistiques spatiales et classiques (aspatiales ou non spatiales) est que les premières intègrent l'espace et les relations spatiales directement dans leurs formules mathématiques. En conséquence, un grand nombre des outils de la boîte à outils Spatial Statistics (Statistiques spatiales) nécessitent la sélection d’une valeur pour le paramètre Conceptualization of Spatial Relationships (Conceptualisation des relations spatiales) avant l’analyse. Parmi les conceptualisations courantes, citons inverse de la distance, temps de trajet, distance constante, K voisins les plus proches et contiguïté. La conceptualisation des relations spatiales que vous utilisez dépend de ce que vous mesurez. Si vous mesurez l'agrégation d'une espèce particulière de plante propagée par les semences, par exemple, l'inverse de la distance est probablement mieux adapté. Cependant, si vous évaluez la distribution géographique des banlieusards d’une région, le temps ou le coût de trajet peuvent être de meilleurs choix pour la description de ces relations spatiales. Pour certaines analyses, l'espace et le temps peuvent être moins importants que d'autres concepts plus abstraits tels que la familiarité (plus une chose est familière, plus elle est fonctionnellement proche) ou l'interaction spatiale (liaisons téléphoniques plus fréquentes entre Los Angeles et New York, par exemple, qu'entre New York et une plus petite ville plus proche de New York, comme Poughkeepsie ; certains diront peut-être que Los Angeles et New York sont fonctionnellement plus proches).
L’outil Spatially Constrained Multivariate Clustering (Agrégation multivariée spatialement contrainte) contient le paramètre Spatial Constraints (Contraintes spatiales), et si les options de ce paramètre sont similaires à celles du paramètre Conceptualization of Spatial Relationships (Conceptualisation de relations spatiales), elles s’utilisent différemment. Lorsqu’une contrainte spatiale est imposée, seules les entités qui partagent au moins un voisin (comme cela est défini par les méthodes de contiguïté, de relations de voisin le plus proche ou de triangulation) peuvent appartenir au même groupe. Pour des obtenir des informations et des exemples supplémentaires, consultez la rubrique Fonctionnement de l’agrégation multivariée spatialement contrainte.
Options du paramètre de Conceptualisation des relations spatiales comme présentées ci-après. L'option que vous sélectionnez détermine les relations voisines pour les outils qui évaluent chaque entité dans le contexte des entités voisines. Ces outils sont notamment Auto-corrélation spatiale (Global Moran's I), Analyse de points chauds (Getis-Ord Gi*) et Analyse de grappes et de valeurs aberrantes (Anselin Local Moran's I). Notez que certaines de ces options sont disponibles uniquement si vous utilisez l'outil Générer la matrice de pondérations spatiales.
Inverse de la distance, inverse de la distance au carré (impédance)
Grâce aux options de distance inverse, le modèle conceptuel des relations spatiales est l'impédance ou la fréquentation en fonction de la distance. Toutes les entités ont un impact ou une influence sur les autres entités, mais plus elles sont éloignées, plus cet impact est réduit. Vous devez généralement spécifier une valeur de Canal distance ou distance seuil lorsque vous utilisez une conceptualisation d'inverse de la distance pour réduire le nombre de calculs requis, particulièrement sur des jeux de données volumineux. Si aucun canal distance ou aucune distance seuil n'est spécifié, une valeur seuil par défaut est calculée. Vous pouvez forcer toutes les entités à être voisines de toutes les autres entités en définissant l'option à zéro.
La distance euclidienne inverse est adaptée à la modélisation de données continues, telles que les variations de température. La distance de Manhattan inverse peut mieux fonctionner si les analyses impliquent les localisations de quincailleries ou d’autres équipements urbains fixes, par exemple, si les données de réseau routier ne sont pas disponibles. Lorsque vous utilisez l'option Inverse distance squared (Inverse de la distance au carré), le modèle conceptuel est le même qu'avec Inverse distance (Distance inverse) hormis que la pente est plus prononcée. Les influences des voisins s'affaiblissent donc plus rapidement et seuls les voisins les plus proches d'une entité cible exercent une influence substantielle dans les calculs de cette entité.
Canal distance (sphère d'influence)
Pour certains outils comme Analyse de points chauds, un canal de distance constante est la conceptualisation par défaut des relations spatiales. Avec l'option Fixed distance band (Canal de distance constante), vous imposez aux données un modèle conceptuel d'interactions spatiales de sphère d'influence ou de fenêtre mobile. Chaque entité est analysée dans le contexte des entités voisines se trouvant à la distance critique que vous spécifiez pour Canal distance ou distance seuil. Les voisins contenus dans la distance spécifiée sont pondérés de manière égale. Les entités se trouvant hors de la distance spécifié n'ont aucune incidence sur les calculs (leur poids est zéro). Adoptez la méthode Fixed distance band (Canal de distance constante) si vous souhaitez évaluer les propriétés statistiques de vos données à une échelle spatiale (fixe) donnée. Si vous étudiez la migration quotidienne de travailleurs et que vous savez que le trajet moyen jusqu'au lieu de travail est de 15 km, par exemple, une distance de 15 km convient pour votre analyse. Vous trouverez ci-après, dans la rubrique Sélection d'une distance constante, les stratégies permettant d'identifier une échelle d'analyse appropriée.
Zone d'indifférence
L’option Zone of indifference (Zone d'indifférence) du paramètre Conceptualization of Spatial Relationships (Conceptualisation de relations spatiales) combine les modèles Fixed distance band (Canal de distance constante) et Inverse distance (Distance inverse). Les entités situées dans le canal distance ou la distance seuil sont comprises dans les analyses de l'entité cible. Une fois la distance critique dépassée, le niveau d'influence (la pondération) chute rapidement. Supposons que vous cherchiez un travail et ayez le choix entre un travail situé à 5 kilomètres et un autre situé à 6 kilomètres. Vous ne tiendrez probablement pas beaucoup compte de la distance lorsque vous déciderez quel travail accepter. Maintenant, supposons que vous ayez le choix entre un travail situé à 5 kilomètres et un autre situé à 20 kilomètres. Dans ce cas, la distance est plus une impédance et elle peut être prise en compte dans votre prise de décision. Utilisez cette méthode si vous voulez conserver l'échelle d'analyse fixe, mais que vous ne souhaitez pas imposer des limites strictes sur les entités voisines incluses dans les calculs d'entités cible.
Contiguïté de polygones (premier ordre).
Pour les classes d'entités surfaciques, vous pouvez sélectionner Tronçons de contiguïté uniquement (parfois appelé « Rook's Case ») ou Angles des tronçons de contiguïté (parfois appelé « Queen's Case »). Dans le cas de Tronçons de contiguïté uniquement, les polygones qui partagent un tronçon (dont des limites coïncident) sont inclus dans les calculs du polygone cible. Les polygones qui ne partagent pas de limite sont exclus des calculs d'entités cible. Avec l’option Contiguity edges corners (Angles des tronçons de contiguïté), les polygones qui partagent un tronçon ou un angle sont inclus dans les calculs pour le polygone cible. Si deux polygones se chevauchent en partie, ils sont considérés comme étant voisins et sont inclus dans leurs calculs réciproques. Utilisez l'une de ces conceptualisations de contiguïté avec des entités surfaciques si vous modélisez un type de processus contagieux ou si vous utilisez des données continues représentées sous la forme de polygones.
K voisins les plus proches
Les relations de voisinage peuvent également être conçues de sorte que chaque entité soit évaluée dans le contexte spatial du nombre spécifié de ses voisins les plus proches. Si K (le nombre de voisins) est 8, les huit voisins les plus proches de l’entité cible seront inclus dans les calculs pour cette entité. Sur les sites à densité d'entités élevée, le contexte spatial de l'analyse sera réduit. De la même façon, sur les sites à densité d'entités faible, le contexte spatial de l'analyse sera plus important. Un avantage de ce modèle de relations spatiales est qu'il garantit l'existence de voisins pour chaque entité cible, même si les densités cible présentent de fortes variations dans la zone d'étude. Cette méthode est disponible dans l'outil Générer la matrice de pondérations spatiales. L’option K nearest neighbors (K voisins les plus proches) avec 8 comme valeur du paramètre Number of Neighbors (Nombre de voisins) est la conceptualisation par défaut utilisée avec Exploratory Regression (Régression exploratoire) pour évaluer les valeurs résiduelles de régression.
Triangulation de Delaunay (voisins naturels)
L’option Delaunay Triangulation (Triangulation de Delaunay) construit des voisins en créant des triangles de Voronoi à partir d’entités ponctuelles ou de centroïdes d’entités de sorte que chaque point ou centroïde soit un nœud de triangle. Les nœuds connectés par le bord d'un triangle sont considérés comme voisins. L’utilisation de la triangulation de Delaunay garantit que chaque entité possède au moins un voisin, même si les données incluent des îles ou des densités d’entités très variables. N'utilisez pas la triangulation de Delaunay si certaines entités coïncident. Cette méthode est disponible dans l'outil Générer la matrice de pondérations spatiales.
Fenêtre spatio-temporelle
Cette option permet de définir des relations entre entités en termes de fenêtres d'espace (distance constante) et de temps (intervalle temporel constant). Cette option est disponible quand vous créez un fichier de matrice de pondérations spatiales à l'aide de l'outil Générer la matrice de pondérations spatiales. Lorsque vous sélectionnez l’option Space time window (Fenêtre spatio-temporelle), vous devez spécifier une valeur pour les paramètres suivants : Date/Time Field (Champ de date/heure), Date/Time Interval Type (Type d’intervalle de date/heure) (Hours (Heures), Days (Jours) ou Months (Mois), par exemple) et Date/Time Interval Value (Valeur d’intervalle de date/heure). La valeur d'intervalle est un entier. Si, par exemple, vous avez sélectionné Hours (Heures) comme type d’intervalle et 3 comme valeur d’intervalle, deux entités seront considérées comme voisines si les valeurs de leur champ de date/heure ont moins de trois heures d’écart. Avec cette conceptualisation, les entités sont voisines si elles se trouvent dans la limite de distance spécifiée et si elles sont comprises dans l'intervalle de temps spécifié de l'entité cible. Par exemple, vous pouvez sélectionner la Space time window (Fenêtre spatio-temporelle) dans Conceptualization of Spatial Relationships (Conceptualisation de relations spatiales) si vous voulez créer un fichier de matrice de pondérations spatiales à utiliser avec l’outil Hot Spot Analysis (Analyse de points chauds) afin d’identifier les points chauds spatio-temporels. Pour obtenir des informations supplémentaires, dont la procédure à suivre pour visualiser les résultats, consultez la rubrique Analyse spatio-temporelle. D'autres méthodes sont disponibles pour vous aider à visualiser en 3D un cube spatio-temporel netCDF.
Obtenir des relations spatiales à partir d'un fichier (relations spatiales définies par l'utilisateur).
Vous pouvez créer un fichier où stocker les relations de voisinage d'une entité à l'aide de l'outil Générer la matrice de pondérations spatiales. Si les relations spatiales pour vos entités sont définies dans une table, vous pouvez utiliser l'outil Générer la matrice de pondérations spatiales pour convertir cette table en fichier de matrice de pondérations spatiales (.swm). Vous devez inclure des champs particuliers dans votre table afin d'utiliser l'option Convertir la table pour obtenir un fichier SWM. Vous pouvez également fournir un chemin d’accès au fichier texte ASCII formaté qui définit votre propre conceptualisation personnalisée des relations spatiales (d’après l’interaction spatiale, par exemple).
Sélection d'une conceptualisation des relations spatiales : pratiques conseillées.
Plus la modélisation de l'interaction des entités dans l'espace est réaliste, plus les résultats sont précis. Le choix du paramètre Conceptualisation de relations spatiales doit refléter les relations inhérentes entre les entités que vous analysez. Votre choix peut également être motivé par les caractéristiques de vos données.
Les méthodes d’inverse de la distance (Inverse distance (Inverse de la distance) et Inverse distance squared (Inverse de la distance au carré)), par exemple, sont mieux adaptées aux données continues ou à des processus de modèle dans lesquels, plus deux entités sont proches dans l’espace, plus elles sont susceptibles d’interagir ou de s’influencer mutuellement. Grâce à cette conceptualisation spatiale, chaque entité est potentiellement voisine de toutes les autres, et, dans le cas de jeux de données importants, le nombre de calculs impliqués est énorme. Essayez toujours d'inclure une valeur Canal distance ou distance seuil lorsque vous utilisez les conceptualisations d'inverse de la distance. Ce point est particulièrement important pour les jeux de données volumineux. Si vous laissez le paramètre Distance Band or Threshold Distance (Canal distance ou distance seuil) vide, une distance seuil est calculée, mais ce ne sera peut-être pas la distance appropriée pour votre analyse. La distance seuil par défaut est la distance minimale qui garantit que chaque entité possède au moins un voisin.
La méthode Fixed distance band (Canal de distance constante) est recommandée pour les données ponctuelles. C'est l'option par défaut utilisée par l'outil Hot Spot Analysis (Getis-Ord Gi*). Cette méthode fonctionne bien pour des données surfaciques lorsque la taille des polygones est très variable (polygones très grands à la limite de la zone d’étude et polygones très petits en son centre, par exemple) et que vous voulez garantir une échelle d’analyse constante. Vous trouverez ci-dessous, dans la rubrique Sélection d’une valeur de canal de distance constante, les stratégies permettant de déterminer une valeur de canal de distance appropriée pour votre analyse.
La conceptualisation Zone of indifference (Zone d’indifférence) fonctionne bien quand la distance constante est adéquate, mais l’imposition de limites strictes sur les relations de voisinage ne constitue pas une représentation précise de vos données. N'oubliez pas que le modèle conceptuel de la zone d'indifférence considère toute entité comme un voisin de toutes les autres entités. Cette option n'est donc pas adaptée aux jeux de données volumineux puisque la valeur Canal distance ou distance seuil fournie ne limite pas le nombre de voisins, mais spécifie uniquement où l'intensité des relations spatiales commence à décroître.
Les conceptualisations de contiguïté des polygones (Contiguity edges only (Tronçons de contiguïté uniquement) et Contiguity edges corners (Angles des tronçons de contiguïté)) sont efficaces si les polygones sont de taille et de distribution similaires et que les relations spatiales sont une fonction de la proximité des polygones (si deux polygones partagent une limite, leur interaction spatiale augmente). Lorsque vous sélectionnerez une conceptualisation de contiguïté de polygone, vous souhaiterez presque toujours sélectionner la standardisation par lignes pour les outils possédant le paramètre Standardisation par lignes.
L’option K nearest neighbors (K voisins les plus proches) est efficace lorsque vous souhaitez garantir un nombre minimal de voisins dans l’analyse. Surtout si les valeurs associées aux entités sont faussées (qu’elles ne sont pas distribuées normalement), il est important que chaque entité soit évaluée dans le contexte d’au moins huit voisins (il s’agit là uniquement d’une règle générale). Si la distribution de vos données varie dans votre zone d'étude et que certaines entités sont éloignées de toutes les autres entités, cette méthode fonctionne bien. Notez toutefois que le contexte spatial de votre analyse change selon les variations rencontrées dans la rareté ou la densité de vos entités. Lorsque la détermination de l'échelle d'analyse est moins importante que la détermination du nombre de voisins, la méthode des K voisins les plus proches est adaptée.
Certains analystes considèrent l’option Delaunay triangulation (Triangulation de Delaunay) comme une méthode de création de voisins naturels pour un ensemble d’entités. Il s’agit d’une bonne option lorsque vos données comprennent des polygones d’îles (des polygones isolés ne partageant aucun bord avec d’autres polygones) ou si la distribution spatiale d’entités est très inégale. Elle n’est cependant pas appropriée si certaines de vos entités coïncident. Similaire à la méthode des K voisins les plus proches, la triangulation de Delaunay garantit que chaque entité possède au moins un voisin, mais qu'elle utilise la distribution des données pour déterminer le nombre de voisins que chaque entité obtient.
Les paramètres de l’option Space time window (Fenêtre spatio-temporelle) permettent de définir des relations entre entités en termes de proximité spatiale et de proximité temporelle. Vous utiliserez cette option pour identifier les points chauds spatiaux-temporels ou créer des groupes pour lesquels l’appartenance a été contrainte par la proximité spatiale et temporelle. Vous trouverez des exemples d'analyse spatio-temporelle, ainsi que des stratégies de représentation efficace des résultats de ce type d'analyse, dans la rubrique Analyse spatio-temporelle.
Pour certaines applications, l'interaction spatiale est mieux modélisée en termes de temps de trajet ou distance à parcourir. Si vous modélisez l'accessibilité de services urbains, par exemple, ou si vous cherchez des points chauds de criminalité urbaine, la modélisation de relations spatiales en termes de réseau est une bonne option. Utilisez l’outil Generate Network Spatial Weights (Générer les pondérations spatiales de réseau) pour créer un fichier matrice de pondérations spatiales (.swm) avant l’analyse. Sélectionnez GET_SPATIAL_WEIGHTS_FROM_FILE comme valeur de Conceptualization of Spatial Relationships (Conceptualisation de relations spatiales) et, pour le paramètre Weights Matrix File (Fichier de matrice de pondérations), indiquez le chemin complet du fichier SWM que vous avez créé.
Conseil :
De nombreuses organisations gèrent leurs propres jeux de données de réseau de transport auxquels vous avez peut-être déjà accès. StreetMap Premium for ArcGIS comprend également des jeux de données de réseau préconçus au format SDC qui couvrent l’Amérique du Nord, l’Amérique latine, l’Europe, le Moyen-Orient, l’Afrique, le Japon, l’Australie et la Nouvelle-Zélande. Ces jeux de données réseau peuvent être utilisés en l'état par cet outil.
Si aucune option du paramètre Conceptualization of Spatial Relationships (Conceptualisation de relations spatiales) n’est adaptée à votre analyse, vous pouvez créer un fichier texte ASCII ou une table incluant les relations d’entité à entité de votre choix puis les utiliser pour créer un fichier de matrice de pondérations spatiales. Si l’une des options ci-dessus répond presque parfaitement à vos besoins, utilisez l’outil Generate Spatial Weights Matrix (Générer la matrice de pondérations spatiales) pour créer un fichier SWM de base, puis mettez à jour votre fichier de matrice de pondérations spatiales.
Méthode de distance
Nombre des outils de la boîte à outils Spatial Statistics utilisent la distance dans leurs calculs. Ces outils vous donnent le choix entre distance euclidienne ou de Manhattan.
- La distance euclidienne est calculée de la manière suivante
D = sq root [(x1–x2)**2.0 + (y1–y2)**2.0]
où (x1,y1) est la coordonnée du point A, (x2,y2) la coordonnée du point B et D la distance en ligne droite entre les points A et B.
- La distance de Manhattan est calculée de la manière suivante
D = abs(x1–x2) + abs(y1–y2)
où (x1,y1) est la coordonnée du point A, (x2,y2) la coordonnée du point B et D est la différence verticale plus horizontale entre les points A et B. Il s'agit de la distance que vous devez parcourir si vous êtes limité aux déplacements nord-sud et est-ouest. Cette méthode est généralement plus appropriée que la distance euclidienne lorsque le trajet est limité à un réseau de rues et si les coûts de déplacement dans le réseau de rues ne sont pas disponibles.
Si vos entités en entrée ne sont pas projetées (c’est-à-dire si elles ne sont pas exprimées en degrés, minutes et secondes) ou si le système de coordonnées en sortie est défini comme étant un système de coordonnées géographiques ou lorsque vous précisez un chemin de classe d’entités en sortie vers un jeu de données d’entités doté d’une référence spatiale de système de coordonnées géographiques, les distances sont calculées à l’aide des mesures à la corde et le paramètre Distance Method (Méthode de calcul de distance) est désactivé. Les mesures de distance de corde sont utilisées, car elles sont rapides à calculer et produisent des évaluations fiables des distances géodésiques réelles, du moins pour les points se trouvant à environ 30 degrés les uns des autres. Les distances à la corde s'appuient sur une sphère plutôt que sur la véritable forme d'ellipsoïde aplati de la Terre. Si l'on prend deux points sur la surface de la Terre, la distance à la corde qui les sépare est la longueur d'une ligne qui traverse la Terre en trois dimensions pour relier ces deux points. Les distances à la corde sont exprimées en mètres.
Attention :
Veillez à projeter les données si votre zone d'étude s'étend au-delà de 30 degrés. Les distances à la corde ne constituent pas une bonne estimation des distance géodésiques au-delà de 30 degrés.
Potentiel propre (champ donnant une pondération intra-zonale)
Plusieurs outils de la boîte à outils Spatial Statistics permettent de fournir un champ représentant la pondération à utiliser pour le potentiel propre. Le potentiel propre représente la distance ou la pondération entre une entité et elle-même. Cette pondération est souvent égale à zéro, mais, dans certains cas, il se peut que vous deviez spécifier une autre valeur fixe ou une valeur différente pour chaque entité. Si votre conceptualisation de relations spatiales s’appuie sur les distances parcourues dans et entre des secteurs de recensement, par exemple, vous pouvez décider de modéliser le potentiel propre afin de refléter les coûts de déplacement intra-zonaux d’après la taille du polygone comme suit :
dii = 0.5*[(Ai / π)**0.5]
où dii est le coût de déplacement associé au déplacement intra-zonal pour les entités surfaciques i et Ai la zone associées à l'entité surfacique i.
Standardisation
La standardisation par lignes est recommandée chaque fois que la répartition de vos entités est potentiellement influencée par la conception de l'échantillonnage ou un plan d'agrégation imposé. Lorsque la standardisation par lignes est sélectionnée, chaque pondération est divisée par la somme des lignes (la somme des pondérations de toutes les entités voisines). La pondération standardisée de lignes est souvent utilisée avec des voisinages de distance constante et presque toujours utilisée pour les voisinages d'après la contiguïté des polygones. Cela permet de réduire le biais occasionné par les entités possédant des nombres de voisins différents. La standardisation par ligne met à l'échelle toutes les pondérations, de sorte qu'elles se trouvent entre 0 et 1, et crée une structure de pondération relative, plutôt qu'absolue. Chaque fois que vous travaillez avec des entités surfaciques représentant des limites administratives, vous souhaiterez probablement sélectionner l'option Standardisation par lignes.
Voici quelques exemples :
- Supposons que vous disposiez d'un ensemble complet de tous les délits. Certaines parties de votre zone d'étude comprennent un grand nombre de points, car il s'agit des endroits où la criminalité est élevée. D'autres comprennent peu de points, car la criminalité y est faible. La densité des points reflète correctement ce que vous essayez de comprendre : la distribution spatiale de la criminalité. Vous n'utiliserez probablement pas la standardisation par lignes pour vos pondérations spatiales.
- Supposons que vous ayez collecté des échantillons de sol. Pour une raison indéterminée (il faisait beau, ou bien vous étiez dans un endroit où vous n’avez pas eu à escalader de clôture, à traverser un marécage ou à gravir une montagne), vous avez beaucoup d’échantillons pour certaines parties de la zone d’étude, et moins pour d’autres. En d'autres termes, la densité des points n'est pas strictement le résultat d'un échantillon aléatoire préparé avec soin. Certaines de vos préconceptions ont pu être introduites. En outre, les endroits comportant plus de points ne reflètent pas nécessairement la distribution spatiale sous-jacente des données que vous analysez. Pour minimiser les biais qui peuvent avoir été introduits au cours du processus d'échantillonnage, vous devrez soumettre vos pondérations spatiales à la standardisation par lignes. Lorsque vous procédez à une standardisation par lignes, le fait qu’une entité ait 2 voisins et qu’une autre en ait 18 a peu d’effet sur les résultats. La somme des pondérations est égale à 1.
- Lorsque que vous agrégez vos données, vous leur imposez une structure. Cette structure reflète rarement correctement les données que vous analysez et les questions que vous posez. Par exemple, alors que les polygones de recensement (comme les secteurs de recensement) sont applicables à la population, même si votre analyse implique des questions relatives à la population, il vous faudra probablement procéder à une standardisation par lignes de vos pondérations car ces polygones constituent seulement une des nombreuses façons de représenter ces dernières. Pour les données surfaciques, vous devrez pratiquement toujours effectuer la standardisation par lignes des pondérations spatiales.
Canal distance ou distance seuil
Canal distance ou distance seuil définit l'échelle d'analyse de la plupart des conceptualisations de relations spatiales (par exemple, Inverse de la distance et Canal distance constante). Il s'agit d'une valeur numérique positive représentant une distance limite. Les entités se trouvant à l'extérieur de la limite spécifiée pour une entité cible ne sont pas prises en compte dans l'analyse pour cette entité. Avec Zone d'indifférence, toutefois, l'influence des entités situées hors de la distance donnée est réduite par rapport à la proximité, tandis que les entités se trouvant dans le seuil de distance sont considérées à part égale.
Il est important de choisir une distance appropriée. Certaines statistiques spatiales nécessitent que chaque entité ait au moins un voisin pour que l'analyse soit fiable. SI la valeur que vous définissez pour Canal distance ou distance seuil est trop petite (et que certaines entités n'ont pas de voisins), un message d'avertissement indique que vous devez essayer à nouveau avec une valeur de distance plus importante. L'outil Calculer la bande de distance à partir du nombre de voisins évalue les distances minimale, maximale et moyenne pour un nombre spécifié de voisins et peut vous aider à déterminer une valeur de canal distance adéquate à utiliser pour l'analyse. Consultez la rubrique Sélection d’une valeur de canal de distance constante pour plus d’indications.
Si aucune valeur n'est spécifiée, une distance seuil par défaut est calculée. Le tableau ci-après indique la façon dont les différentes valeurs du paramètre Conceptualisation de relations spatiales se comportent pour chacun des trois types d'entrée possibles (les valeurs négatives ne sont pas valides) :
Inverse de la distance, Inverse de la distance au carré | Canal distance constante, Zone d'indifférence | Contiguïté polygonale, Triangulation de Delaunay, K voisins les plus proches | |
---|---|---|---|
0 | Aucun seuil ni limite n'est appliqué, toutes les entités sont des voisins de toutes les autres entités. | Non valide. Une erreur d’exécution est générée. | Ignoré. |
vierge | Une distance par défaut est calculée. Cette valeur est la distance minimale qui permet de s'assurer que chaque entité possède au moins un voisin. | Une distance par défaut est calculée. Cette valeur est la distance minimale qui permet de s'assurer que chaque entité possède au moins un voisin. | Ignoré. |
nombre positif | La valeur positive, non zéro, spécifiée est utilisée comme distance limite, les relations de voisinage existent uniquement parmi les entités au sein de cette distance les unes par rapport aux autres. | Dans le cas du canal de distance constante, seules les entités qui se trouvent dans cette limite spécifiée les unes par rapport aux autres sont voisines. Dans le cas de la zone d’indifférence, les entités au sein de cette limite spécifiée les unes par rapport aux autres sont voisines, ainsi que celles situées en-dehors de la limite, mais celles-ci ont une pondération ou une influence qui diminue à mesure que la distance augmente. | Ignoré. |
Nombre de voisins
Spécifiez un nombre entier positif pour représenter le nombre de voisins à inclure dans l'analyse de chaque entité cible. Si la valeur choisie pour le paramètre Conceptualization of Spatial Relationships (Conceptualisation de relations spatiales) est K nearest neighbors (K voisins les plus proches), chaque entité cible est évaluée dans le contexte des K entités les plus proches (où K est le nombre de voisins spécifié). Pour le paramètre Inverse distance (Distance inverse) ou Fixed distance band (Canal de distance constante), lorsque vous exécutez l'outil Générer la matrice de pondérations spatiales, spécifiez une valeur pour le paramètre Number of Neighbors (Nombre de voisins) pour que chaque entité ait un minimum de K voisins. Pour la méthode de contiguïté polygonale, les entités pour lesquelles le paramètre Number of Neighbors (Nombre de voisins) n’est pas spécifié se voient attribuer des voisins supplémentaires en fonction de la proximité des centroïdes des entités.
Fichier de matrice de pondérations
Plusieurs outils permettent de définir des relations spatiales entre entités en fournissant un chemin vers un fichier de matrice de pondérations spatiales. Les pondérations spatiales sont des nombres qui reflètent la distance, l'heure ou d'autres coûts entre toutes les entités dans le jeu de données. Vous pouvez créer le fichier de matrice de pondérations spatiales à l’aide de l’outil Generate Spatial Weights Matrix (Générer la matrice de pondérations spatiales) ou il peut s’agir d’un simple fichier ASCII.
Lorsque le fichier de matrice de pondérations spatiales est un simple fichier de texte ASCII, la première ligne doit être le nom d'un champ d'ID unique. Cela vous permet d'utiliser tout champ numérique dans votre jeu de données comme ID lors de la génération de ce fichier. Cependant, ce champ doit être de type entier (long ou court) et contenir des valeurs uniques pour chaque entité. Après la première ligne, le fichier de pondérations spatiales doit contenir trois colonnes :
- ID d'entité de départ
- ID d'entité d'arrivée
- Pondération
Supposons, par exemple, que vous ayez trois stations service. Le champ que vous utilisez comme champ d’ID est StationID et les ID d’entités sont 1, 2 et 3. Vous souhaitez modéliser les relations spatiales entre ces trois stations service grâce au temps de trajet en minutes. Vous pouvez créer un fichier ASCII comme celui-ci :
En général, lorsque des pondérations représentent une distance ou une durée, elles sont inversées (par exemple 1/10 lorsque la distance est 10 km ou 10 minutes), afin que les entités plus proches aient une pondération supérieure aux entités plus éloignées. Vous remarquerez que les pondérations au-dessus de celles de la station service 1 sont à 10 minutes de la station 2. Le temps de trajet n'est pas symétrique dans cet exemple (le trajet de la station 1 à la 3 est de 7 minutes, mais celui de la station 3 à la 1 est de seulement 6 minutes). Remarquez que la pondération entre la station service 1 et elle-même est 0 et qu'il n'existe aucune entrée pour la station 2 par rapport à elle-même. Les entrées manquantes sont supposées avoir une pondération égale à 0.
La saisie de valeurs pour la matrice de pondérations spatiales peut être une tâche fastidieuse, même pour de petits jeux de données. Il est préférable de faire appel à l’outil Generate Spatial Weights Matrix (Générer la matrice de pondérations spatiales) ou d’écrire un script Python qui se chargera de cette tâche.
Fichier de matrice de pondérations spatiales (.swm)
L’outil Generate Spatial Weights Matrix (Générer la matrice de pondérations spatiales) crée un fichier de matrice de pondérations spatiales (.swm) qui définit les relations spatiales entre toutes les entités de votre jeu de données en fonction des paramètres que vous spécifiez. Ce fichier est créé en format binaire afin que les valeurs qu'il contient ne puissent pas être vues directement. Pour consulter ou modifier les relations entre entités dans un fichier SWM, utilisez l'outil Convertir la matrice de pondérations spatiales en table.
Si les relations spatiales entre entités sont stockées dans une table, vous pouvez utiliser l’outil Generate Spatial Weights Matrix (Générer la matrice de pondérations spatiales) pour convertir cette table en fichier .swm. La table a besoin des champs suivants :
Nom du champ | Description |
---|---|
<Nom du champ d’ID unique> | Champ de nombre entier qui existe dans la classe d'entités en entrée avec un ID unique pour chaque entité. il s'agit de l'ID d'entité de départ. |
NID | Champ d'entier contenant les ID des entités voisines. Il s'agit de l'ID d'entité d'arrivée. |
POIDS | C'est la pondération numérique quantifiant la relation spatiale entre les entités de départ et d'arrivée. Les valeurs élevées représentent des pondérations plus importantes et une influence, ou interaction, plus forte entre deux entités. |
Partage de fichiers de matrice de pondérations spatiales
La sortie de l’outil Generate Spatial Weights Matrix (Générer la matrice de pondérations spatiales) est un fichier SWM. Ce fichier est lié à la classe d'entités en entrée, au champ d'ID unique et aux paramètres du système de coordonnées en sortie lors de la création du fichier SWM. D’autres personnes peuvent dupliquer les relations spatiales que vous définissez pour l’analyse à l’aide de votre fichier SWM et de la même classe d’entités en entrée ou d’une classe d’entités liant toutes les entités (ou un sous-ensemble de celles-ci) à un champ Unique ID correspondant. Essayez d'éviter que votre système de coordonnées en sortie ne diffère de la référence spatiale associée à votre classe d'entités en entrée, particulièrement si vous projetez de partager vos fichiers SWM avec d'autres personnes. Une meilleure stratégie consiste à projeter la classe d’entités en entrée, puis à définir le système de coordonnées en sortie comme étant le même que celui de la classe d’entités en entrée avant de créer les fichiers SWM.
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?