Файл модели пространственной статистики (.ssm) — это файл, содержащий обученную модель, свойства и диагностику модели анализа, выполняемого несколькими инструментами в наборе инструментов Моделирование пространственных отношений. Файл модели пространственной статистики можно использовать для составления прогнозов с использованием новых наборов данных и безопасного обмена ими с другими пользователями, которые могут использовать их со своими данными. Например, эколог заповедника может собрать полевые данные об известных местонахождениях исчезающего вида и построить модель для прогнозирования других вероятных местонахождений этого вида в пределах изучаемой области. Затем они могут поделиться файлом .ssm с другими экологами, которые могут использовать его для прогнозирования вероятных местонахождений этого вида в пределах своих собственных районов исследования. Поскольку данные, использованные для обучения модели, не хранятся в файле .ssm, конфиденциальные исходные данные о местонахождении исчезающих видов не будут раскрыты при совместном использовании файла модели.
Для управления и прогнозирования с помощью файлов .ssm можно использовать следующие инструменты:
- Задать свойства файла модели пространственной статистики — задайте свойства файла .ssm включая описания переменных и единицы измерения. Это позволит объяснить переменные модели и их единицы измерения, чтобы другие могли использовать этот файл соответствующим образом. Например, можно указать, что поясняющий параметр расстояния представляет расстояния до больниц в милях США, чтобы другие могли знать, что модель следует использовать только для определенного типа данных.
- Описать файл модели пространственной статистики — просмотр свойств файла .ssm, включая метод анализа, имена наборов данных, свойства и диагностику модели. Это позволяет понять, что означает каждая переменная, чтобы вы могли правильно сопоставлять все переменные, наборы данных и единицы измерения при использовании файла для прогнозирования с использованием новых данных.
- Прогнозировать, используя файл модели пространственной статистики — используйте файл .ssm для прогнозирования с использованием новых наборов данных. Вы должны сопоставить каждую переменную или набор данных в файле .ssm с новым набором данных, имеющим тот же тип и единицу измерения. Например, для независимой переменной в файле модели может потребоваться растр значений температур, измеренных в градусах Цельсия.
Вы можете создать файл .ssm, используя параметр Выходной файл обученной модели в следующих инструментах:
- Обобщенная линейная регрессия
- Классификация на основе леса и регрессия
- Прогнозирование только присутствия (MaxEnt)
Примеры применения
Следующие сценарии описывают аналитические рабочие процессы, в которых может быть полезен файл .ssm.
Сценарий 1: Повторное использование модели для сокращения времени обучения модели
При выполнении аналитического моделирования с большими наборами данных, процесс обучения может занять очень много времени и потребовать дорогостоящего компьютерного оборудования. Во многих случаях также потребуется обучить модель несколько раз, чтобы точно настроить параметры. После выбора параметров модели, которые дают наилучшие результаты, вы не хотите повторять этот процесс обучения для каждого будущего набора данных, который будет использоваться для составления прогнозов. Создание файла .ssm с первоначальными результатами обучения позволит вам повторно использовать его со всеми будущими наборами данных без необходимости повторного обучения модели. Использование одной и той же модели обучения также обеспечивает согласованность прогнозов для всех будущих наборов данных за счет использования одной и той же базовой модели прогнозирования.
Сценарий 2: Поделитесь файлами обученной модели с другими
Вы можете поделиться файлом .ssm с другими пользователями, которые хотят использовать модель со своими собственными данными. Поскольку данные, использованные для создания модели, недоступны напрямую из файла модели, вы можете поделиться ими, не раскрывая конфиденциальные данные, которые использовались для ее обучения. Перед предоставлением общего доступа к модели можно использовать инструмент Задать свойства модели пространственной статистики, чтобы добавить описания переменных и единицы измерения переменных. Это будет полезно другим пользователям, чтобы они знали, какие типы данных и в каких единицах измерения использовать при составлении прогнозов с помощью этого файла. После получения файла модели получатель может просматривать свойства и диагностику модели с помощью инструмента Описать файл модели пространственной статистики, а затем делать прогнозы на основе своих данных с помощью инструмента Прогнозировать, используя файл модели пространственной статистики.
Сценарий 3: Автоматизация анализа сервисов потоковых данных
При работе с регулярно обновляемыми данными, такими как сервис потоковых данных о местоположении лесных пожаров, использование файла .ssm позволяет легко автоматизировать работу по мере поступления новых данных. При каждом обновлении данных вы можете быстро повторно использовать файл .ssm в инструменте Прогнозировать, используя файл модели пространственной статистики с обновленными данными.
Содержимое файла .ssm
Файлы .ssm хранят всестороннюю информацию о моделях. В дополнение к описаниям переменных и единиц измерения, которые создаются с помощью инструмента Задать свойства модели пространственной статистики, файлы .ssm также содержат диагностику модели для проверки точности и надежности модели.
Для инструмента Обобщенная линейная регрессия файл .ssm включает коэффициенты регрессии и диагностики, такие как AICc, R2, Выровненный R2, Соединенная F-статистика и Соединенная статистика Вальда. Смотрите раздел Интерпретация сообщений и показателей диагностики для получения полного списка и описания диагностики модели.
Для инструмента Классификация на основе леса и регрессия файл .ssm включает деревья решений, характеристики модели, диагностику проверки, значимость самой верхней переменной и диагностику диапазона независимых переменных. Ошибки модели, не вошедшие в набор Out Of Bag (OOB), не включены, поскольку эта диагностика не имеет отношения к созданию новых прогнозов и значительно увеличила бы размер файла .ssm. Дополнительную информацию см. в разделе Выходные сообщения и диагностика.
Для инструмента Прогнозирование только присутствия (MaxEnt) файл .ssm содержит важную информацию по обученной модели, характеристиках модели и сводке, коэффициентах регрессии, категорийной сводке (если какие-либо независимые переменные являются категорийными) и диагностике диапазонов независимых переменных для обучающих данных. Результаты перекрестной проверки и подсчеты точек присутствия и фона не включены, поскольку они потенциально могут быть использованы для обратного проектирования конфиденциальных данных, используемых для обучения модели, таких как местоположения исчезающих видов. Дополнительные сведения см. в разделе Сообщения геообработки.
Рекомендации
При создании и использовании файлов .ssm следует учитывать следующие соображения:
- Чтобы сделать модель более прозрачной и значимой для совместного использования, вы используете инструмент Задать свойства модели пространственной статистики, чтобы указать описание и единицы измерения для каждой переменной. Документирование переменных и их использования важно для научной точности и воспроизводимости.
- Хотя файлы .ssm напрямую не упаковывают данные обучения (только результаты обучения) и не хранят наиболее конфиденциальную диагностику модели, конфиденциальность и безопасность данных по-прежнему являются потенциальной проблемой. Некоторая сложная диагностика модели, такая как матрица неточностей, потенциально может быть использована для обратного проектирования некоторых исходных обучающих данных.
- При использовании файла .ssm, созданного другими пользователями, следует изучить свойства с помощью инструмента Описать файл модели пространственной статистики. Описания переменных и единицы измерения особенно важны, и вам может потребоваться вручную преобразовать данные в единицы измерения, принятые моделью, прежде чем использовать их для прогнозирования. Например, может потребоваться преобразовать значения температуры из градусов по Фаренгейту в градусы Цельсия, чтобы прогнозы были точными.
Модель данных HDF5
Файл .ssm использует модель данных формата иерархических данных версии 5 (HDF5) для хранения результатов модели и метаданных. HDF5 обладает следующими преимуществами:
- HDF5 хранит большие данные в организованной структуре, которая может быть сильно сжата. Например, он позволяет хранить регрессионную модель на основе леса, обученную с использованием 600 000 объектов и 10 000 деревьев, в файле размером менее 20 ГБ. Менее эффективная модель данных столкнулась бы с трудностями при хранении результата такой сложной модели в обычном файле, которым можно удобно поделиться.
- HDF5 — это модель данных с самоописанием, то есть вы можете прикреплять метаданные непосредственно к наборам данных, а не разделять данные и метаданные на разные файлы. Такая синхронизация позволяет данным HDF5 быть прозрачными и доступными без необходимости управления несколькими файлами, которые должны храниться вместе.
- HDF5 обеспечивает высокопроизводительное чтение и запись данных. Например, выбор в пользу создания файла .ssm при использовании инструмента пространственной статистики не увеличит время выполнения инструмента на заметную величину. При использовании модели для прогнозирования с использованием новых данных к модели можно быстро получить доступ, чтобы минимизировать накладные расходы.
В дополнение к инструментам Задать свойства файла модели пространственной статистики, Описать файл модели пространственной статистики и Прогнозировать, используя файл модели пространственной статистики, проверять файлы .ssm можно и с помощью стандартных библиотек HDF5.
Следующий пример кода Python показывает, как проверить и распечатать свойства файла .ssm с помощью пакета h5py:
# Import necessary packages
import numpy as np
import h5py
spatialStatsModel = h5py.File(r'C:/MyData/MySSMFile.ssm', 'r')
# Get a list of keys of the variables:
ls = list(spatialStatsModel.keys())
# Get the attributes of the model:
attrs = list(spatialStatsModel.attrs)
# Print all the datasets and attributes
print("The variables in the model:")
for k in ls:
print("{}---{}, --- {}".format(k, spatialStatsModel[k][()],
type(spatialStatsModel[k][()])))
print("The attributes in the model:")
for k in attrs:
print("{}---{}, --- {}".format(k, spatialStatsModel.attrs.get(k),
type(spatialStatsModel.attrs.get(k))))
# Close the .ssm file
spatialStatsModel.close