Introduction aux fichiers de modèle de statistiques spatiales

Un fichier de modèle de statistiques spatiales (.ssm) est un fichier contenant le modèle entraîné, les propriétés et les diagnostics du modèle d’une analyse effectuée par plusieurs outils du jeu d’outils Modélisation des relations spatiales. Le fichier de modèle de statistiques spatiales permet d’effectuer des prévisions en utilisant de nouveaux jeux de données et peut être partagé de manière sécurisée avec d’autres utilisateurs afin que ceux-ci puissent l’utiliser avec leurs données. Un spécialiste de la faune sauvage peut ainsi collecter sur le terrain des données concernant les emplacements connus d’espèces menacées et construire un modèle afin de prévoir d’autres emplacements probables de ces espèces dans sa zone d’étude. Il peut ensuite partager le fichier .ssm avec d’autres spécialistes de la faune sauvage afin que ceux-ci puissent utiliser le fichier pour déterminer les emplacements possibles de ces espèces dans leurs propres zones d’étude. Les données utilisées pour entraîner le modèle ne sont pas stockées dans le fichier .ssm. En partageant ce fichier de modèle, vous ne courrez donc aucun risque de révéler des informations sensibles sur l’emplacement des espèces en danger.

Vous pouvez utiliser les outils suivants pour la gestion et la prévision avec les fichiers .ssm :

  • Définir les propriétés du fichier de modèle de statistiques spatiales : définir les propriétés d’un fichier .ssm, y compris les descriptions de variables et les unités. Ceci vous permet d’expliquer les variables du modèle et leurs unités afin de permettre à d’autres personnes d’utiliser le fichier de manière appropriée. Vous pouvez par exemple spécifier qu’une entité de distance explicative représente les distances jusqu’aux hôpitaux mesurées en miles américains de façon à indiquer aux autres utilisateurs de n’utiliser le modèle que pour un type de données particulier.
  • Décrire le fichier de modèle de statistiques spatiales : afficher les propriétés d’un fichier .ssm, y compris la méthode d’analyse, les noms des jeux de données, les propriétés et les diagnostics du modèle. Ceci vous permet de mieux comprendre la signification de chaque variable pour vous permettre d’associer correctement toutes les variables, jeux de données et unités lorsque vous utilisez le fichier pour effectuer des prévisions avec de nouvelles données.
  • Prévoir à l’aide d’un fichier de modèle de statistiques spatiales : utilisez le fichier .ssm pour effectuer des prévisions avec de nouveaux jeux de données. Vous devez faire correspondre chaque variable ou jeu de données du fichier .ssm avec un nouveau jeu de données de même type et de même unité. Ainsi, une variable explicative du fichier de modèle peut exiger un raster de valeurs de températures mesurées en degrés Celsius.

Vous pouvez créer un fichier .ssm à l’aide du paramètre Fichier du modèle entraîné en sortie dans les outils suivants :

Processus du fichier de modèle de statistiques spatiales

Exemples d’application

Les scénarios suivants décrivent des processus analytiques dans lesquels un fichier .ssm peut s’avérer utile.

Scénario 1 : réutiliser le modèle pour réduire le temps d’entraînement du modèle

Lorsque la modélisation analytique implique l’utilisation de jeux de données volumineux, le processus d’entraînement peut être très long et onéreux en termes de matériel informatique. Il est également souvent nécessaire d’entraîner plusieurs fois le modèle pour en affiner les paramètres. Une fois les paramètres optimaux déterminés, vous ne souhaiterez pas répéter ce processus d’entraînement pour chaque jeu de données futur que vous utiliserez pour vos prévisions. Le fait de créer un fichier .ssm avec les résultats d’entraînement initiaux vous permettra de le réutiliser pour tous les jeux de données futurs sans qu’il soit nécessaire d’entraîner à nouveau le modèle. Le fait d’utiliser le même modèle d’entraînement permet également de garantir la cohérence des prévisions pour l’ensemble des jeux de données futurs via l’utilisation du même modèle de prévision sous-jacent.

Scénario 2 : partager des fichiers de modèle entraînés avec d’autres personnes

Vous pouvez partager le fichier .ssm avec d’autres personnes souhaitant utiliser le modèle avec leurs propres données. Le fichier de modèle ne permet pas d’accéder aux données utilisées pour créer le modèle, vous pouvez donc le partager sans risquer de révéler d’éventuelles informations confidentielles utilisées lors de l’entraînement. Avant de partager le modèle, vous pouvez utiliser l’outil Définir les propriétés du modèle de statistiques spatiales pour ajouter les descriptions des variables et les unités des variables. Ceci permettra aux autres utilisateurs de savoir quels types de données et quelles unités utiliser pour effectuer des prévisions avec le fichier. L’utilisateur qui reçoit le fichier de modèle peut voir les propriétés et diagnostics du modèle à l’aide de l’outil Décrire le fichier de modèle de statistiques spatiales, puis effectuer des prévisions en utilisant ses propres données à l’aide de l’outil Prévoir à l’aide d’un fichier de modèle de statistiques spatiales.

Scénario 3 : automatiser l’analyse des services de données en mode continu

Lorsque l’on travaille avec des données mises à jour régulièrement, comme un service de données en continu de localisation des feux de forêt, l’utilisation d’un fichier .ssm permet d’automatiser de manière simple le traitement des données à mesure que celles-ci deviennent disponibles. Le fichier .ssm peut être réutilisé rapidement dans l’outil Prévoir à l’aide d’un fichier de modèle de statistiques spatiales pour traiter les données à chaque fois que celles-ci sont mises à jour.

Contenu d’un fichier .ssm

Les fichiers .ssm stockent des informations complètes sur les modèles. Outre les descriptions des variables et des unités créées par l’outil Définir les propriétés du modèle de statistiques spatiales, les fichiers .ssm contiennent également les diagnostics du modèle permettant de contrôler la précision et la fiabilité de ce dernier.

Le fichier .ssm de l’outil Régression linéaire généralisée comprend les coefficients de régression et les diagnostics, comme les valeurs AICc, R2, R2 ajusté, statistiques F de jointure et statistiques Wald de jointure. Consultez la rubrique Interprétation des messages de diagnostic pour obtenir la liste complète des diagnostics du modèle et leur description.

Le fichier .ssm de l’outil Régression et classification basées sur une forêt, comprend les arbres décisionnels, les caractéristiques du modèle, les diagnostics de validation, l’importance des variables principales et les diagnostics de plage de variables explicatives. Les erreurs Out Of Bag du modèle ne sont pas incluses, car ce diagnostic n’est pas pertinent pour réaliser de nouvelles prévisions et que cela augmenterait de manière importante la taille du fichier .ssm. Consultez la rubrique Message et diagnostics en sortie pour plus d’informations.

Le fichier .ssm de l’outil Prévision de présence seule (MaxEnt) comprend des informations importantes sur le modèle entraîné, les caractéristiques et le résumé du modèle, les coefficients de régression, le résumé catégoriel (si l’une des variables explicatives est catégorielle) et les diagnostics de plage de variables explicatives pour l’entraînement des données. Les résultats de validation croisée et les comptes de points de présence et d’arrière-plan ne sont pas inclus car ceux-ci peuvent potentiellement être utilisés via rétro-ingénierie pour obtenir les données confidentielles utilisées pour l’entraînement du modèle, comme les emplacements des espèces menacées. Consultez la section Messages de géotraitement pour plus d’informations.

Bonnes pratiques

Tenez compte des éléments suivants lors de la création et de l’utilisation des fichiers .ssm :

  • Utilisez l’outil Définir les propriétés du modèle de statistiques spatiales pour inclure une description et une unité pour chaque variable afin de rendre le modèle plus clair et plus facile à utiliser par les autres utilisateurs. La documentation des variables et de leur utilisation est importante pour la précision scientifique et la reproductibilité.
  • Bien que les fichiers .ssm ne contiennent pas les données d’entraînement (seulement les résultats de l’entraînement) et qu’ils ne stockent pas non plus les diagnostics les plus sensibles du modèle, la protection de la vie privée et la sécurité des données restent une préoccupation essentielle. Certains diagnostics complexes du modèle, comme la matrice de confusion peuvent potentiellement être utilisés pour obtenir certaines données d’origine de l’entraînement par rétro-ingénierie.
  • Lorsque vous utilisez un fichier .ssm créé par une autre personne, consultez les propriétés de ce fichier à l’aide de l’outil Décrire le fichier de modèle de statistiques spatiales. Les descriptions et les unités des variables sont très importantes. Vous pourriez avoir à convertir manuellement les données pour les adapter aux unités utilisées par le modèle avant de pouvoir utiliser celui-ci pour effectuer des prévisions. Ainsi, vous pourriez devoir convertir des valeurs de températures exprimées en degrés Fahrenheit en degrés Celsius pour garantir l’exactitude des prévisions.

Modèle de données HDF5

Le fichier .ssm utilise le modèle de données Format de données hiérarchique version 5 (HDF5) pour stocker les résultats du modèle et les métadonnées. Le modèle de données HDF5 présente les avantages suivants :

  • Le modèle HDF5 stocke les données volumineuses dans une structure organisée autorisant une compression élevée. Il peut par exemple stocker un modèle de régression basée sur une forêt entraîné à l’aide de 600 000 entités et de 10 000 arbres dans un fichier d’une taille inférieure à 20 Go. Un modèle de données moins efficace aurait du mal à stocker le résultat d’un modèle d’une telle complexité dans un fichier conventionnel pouvant être facilement partagé.
  • Le modèle HDF5 est un modèle de données autodescriptif, ce qui signifie que vous pouvez joindre des métadonnées directement aux jeux de données plutôt que de devoir séparer les données et les métadonnées dans des fichiers différents. Cette synchronisation permet aux données du modèle HDF5 d’être transparentes et accessibles sans qu’il soit nécessaire de gérer plusieurs fichiers devant être conservés ensemble.
  • Le modèle HDF5 offre de grandes performances en termes de lecture et d’écriture des données. Ainsi, le fait de choisir de créer un fichier .ssm lorsque l’on utilise l’outil Statistiques spatiales n’augmente pas de manière significative le temps d’exécution de l’outil. Il est possible d’accéder rapidement au modèle lorsque celui-ci est utilisé pour effectuer des prévisions avec les nouvelles données pour réduire les coûts de fonctionnement.

Plus d’informations sur le modèle HDF5

Outre les outils Définir les propriétés du fichier de modèle de statistiques spatiales, Décrire le fichier de modèle de statistiques spatiales et Prévoir à l’aide d’un fichier de modèle de statistiques spatiales, vous pouvez également examiner les fichiers .ssm à l’aide des bibliothèques HDF5 standard.

L’exemple de code Python suivant montre comment examiner et imprimer les propriétés d’un fichier .ssm à l’aide du paquetage h5py :


# Import necessary packages
import numpy as np
import h5py

spatialStatsModel = h5py.File(r'C:/MyData/MySSMFile.ssm', 'r')

# Get a list of keys of the variables:
ls = list(spatialStatsModel.keys())

# Get the attributes of the model:
attrs = list(spatialStatsModel.attrs)

# Print all the datasets and attributes
print("The variables in the model:")
for k in ls:
     print("{}---{}, --- {}".format(k, spatialStatsModel[k][()],
                             type(spatialStatsModel[k][()])))

print("The attributes in the model:")
for k in attrs:
     print("{}---{}, --- {}".format(k, spatialStatsModel.attrs.get(k),
                             type(spatialStatsModel.attrs.get(k))))

# Close the .ssm file
spatialStatsModel.close

Rubriques connexes