Сводка
Строит Обобщенную линейную регрессию (ОЛР) для вычисления прогнозов или моделирования взаимосвязи между независимыми переменными и зависимой переменной. Инструмент используется для подгонки различных моделей, в частности, непрерывных (МНК), бинарных (логистических) и числовых (Пуассона).
Более подробно о работе инструмента Обобщенная линейная регрессия
Иллюстрация
Использование
-
Основными выходными данными этого инструмента является файл-отчет в виде сообщений, которые появляются в нижней части панели Геообработка во время выполнения этого инструмента. Чтобы получить доступ к сообщениям, поместите курсор мыши над индикатором выполнения и щелкните всплывающую кнопку, или разверните раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента из панели История геообработки.
В параметре Входные объекты укажите поле, представляющее явление, которое вы моделируете (Зависимую переменную), а также укажите одно или несколько полей, представляющих Независимые переменные. Поля должны быть числовыми и содержать диапазоны значений. Объекты с пустыми значениями в зависимой или независимых переменных исключаются из анализа; но можно использовать инструмент Заполнить пустые значения чтобы сделать набор данных полным перед запуском расчета.
-
Инструмент Обобщенная линейная регрессия создает Выходные значения с информацией о коэффициентах и результатами проверок. Выходной класс объектов автоматически добавляется в таблицу содержания со схемой отображения применяемой к модели невязок. Полное пояснение по каждому результату см. в разделе Как работает инструмент Обобщенная линейная регрессия.
Опция, выбранная для параметра Тип модели, зависит от моделируемых данных. Для получения точных результатов регрессионного анализа корректность модели очень важна.
-
Сводная информация по результатам и проверки записываются в окно сообщений, а также под информацией о классе объектов отображаются диаграммы. Проверки и диаграммы в отчете связаны с Типом модели и подробно рассматриваются в разделе Как работает инструмент Обобщенная линейная регрессия.
-
Результаты ОЛР являются заслуживающими доверия только в том случае, если ваши данные и регрессионная модель удовлетворяет всем допущениям, неотъемлемо требуемым этим методом. Очень важно оценить результат по всем проверкам и свериться с таблицей Распространенные проблемы, последствия и решения регрессии в статье Основы регрессионного анализа , чтобы быть уверенным в корректном определении модели.
Зависимая переменная и Независимые переменные должны быть заданы числовыми полями, содержащими диапазоны значений. Инструмент не может работать, когда все переменные имеют одинаковые значения (например, все значения для поля равны 9.0).
Независимые переменные могут быть получены из полей или вычислены по объектам расстояния с использованием параметра Независимые объекты расстояния Можно использовать комбинации этих типов независимых переменных, но необходим хотя бы один тип. Независимые объекты расстояния используются для автоматического создания независимых переменных, представляя расстояние от предоставленных объектов до Входных объектов. Расстояния будут вычислены от каждого из входных Независимых объектов расстояния до ближайшего Входного объекта. Если входные Независимые объекты расстояния являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. Но для полигонов и линий расстояния рассчитываются по-разному. Более подробно см. Как инструменты близости вычисляют расстояние.
Если в анализе используется параметр независимые объекты расстояния, желательно, чтобы данные были спроецированы. Для корректного вычисления расстояний настоятельно рекомендуется, чтобы данные находились в Системе координат проекции, а не в Географической системе координат.
-
Если наблюдается статистически значимая пространственная автокорреляция невязок в регрессии, модель ОЛР будет считаться некорректной и, следовательно, результаты регрессии ОЛР не будут считаться надежными. Примените инструмент Пространственная автокорреляция к невязкам вашей регрессии, чтобы оценить потенциальные проблемы. Статистически значимая пространственная автокорреляция невязок регрессии скорее всего указывает на один или несколько недостающих ключевых независимых переменных модели.
-
Вы должны визуально оценить все очевидные отклонения прогнозов в большую и меньшую сторону в невязках вашей регрессии, чтобы увидеть, дают ли они представления о потенциальных недостающих переменных в вашей модели регрессии. Иногда проведение Анализа горячих точек по невязкам помогает визуализировать пространственную кластеризацию отклонений прогнозов в большую и меньшую сторону.
-
Если неопределенность является результатом попытки моделировать нестационарные переменные, используя глобальную модель (ОЛР – это глобальная модель), то может быть использована Географически взвешенная регрессия для улучшения прогнозов и лучшего понимания нестационарности (региональных вариаций) в ваших независимых переменных.
-
Если результатом вычисления является бесконечность или неопределенность, результат для файлов, которые не являются шейп-файлами, будет Null; для шейп-файлов результат будет – DBL_MAX (например, -1.7976931348623158e+308).
Внимание:
При использовании шейп-файлов, помните, что в них нельзя хранить нулевые (null) значения. Инструменты или другие процедуры, создающие шейп-файлы из прочих входных данных, могут хранить значения NULL в виде 0 или оперировать ими как нулем. В некоторых случаях нули в шейп-файлах хранятся как очень маленькие отрицательные числа. Это может привести к неожиданным результатам. Дополнительные сведения см. в разделе Рекомендации по геообработке выходных данных шейп-файла.
Синтаксис
arcpy.stats.GeneralizedLinearRegression(in_features, dependent_variable, model_type, output_features, explanatory_variables, {distance_features}, {prediction_locations}, {explanatory_variables_to_match}, {explanatory_distance_matching}, {output_predicted_features})
Parameter | Объяснение | Тип данных |
in_features | Класс пространственных объектов, содержащий зависимые и независимые переменные. | Feature Layer |
dependent_variable | Числовое поле, содержащее наблюдаемые значения, которые нужно смоделировать. | Field |
model_type | Указывает тип моделируемых данных.
| String |
output_features | Создаваемый новый класс объектов с оценками зависимых переменных и невязками. | Feature Class |
explanatory_variables [explanatory_variables,...] | Перечень полей, представляющих независимые переменные в вашей регрессионной модели. | Field |
distance_features [distance_features,...] (Дополнительный) | Автоматически создает независимые переменные путем вычисления расстояния от предоставленных объектов до in_features. Расстояния будут вычислены от каждого из входных distance_features до ближайшего in_features. Если входные distance_features являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. | Feature Layer |
prediction_locations (Дополнительный) | Класс объектов, представляющий местоположения, для которых вычисляются оценки. Каждый объект в этом наборе данных должен содержать значения для всех указанных независимых переменных. Зависимая переменная для этих объектов будет оценена на основании модели, калиброванной для данных во входном классе объектов. | Feature Layer |
explanatory_variables_to_match [[Field from Prediction Locations, Field from Input Features],...] (Дополнительный) | Сопоставляет независимые переменные в prediction_locations с соответствующими независимыми переменными во in_features, – например, [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]] | Value Table |
explanatory_distance_matching [[Prediction Distance Features, Input Explanatory Distance Features],...] (Дополнительный) | Сопоставляет объекты расстояния, указанные в features_to_predict слева с соответствующими объектами расстояния для in_features справа, например, [["stores2010", "stores2000"], ["freeways2010", "freeways2000"]]. | Value Table |
output_predicted_features (Дополнительный) | Выходной класс объектов с оценками зависимых переменных для каждого prediction_location. Выходной класс объектов с оценками зависимых переменных для каждого Прогнозируемого местоположения. | Feature Class |
Пример кода
В следующем скрипте окна Python показано, как используется инструмент GeneralizedLinearRegression.
import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("landslides", "occurred",
"BINARY", "out_features",
"eastness;northness;elevation;slope",
"rivers")
Следующий автономный скрипт Python демонстрирует, как использовать инструмент GeneralizedLinearRegression.
# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, average household income and the
# distance to the central business district (CBD)
import arcpy
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("crime_counts",
"total_crimes", "COUNT", "out_features", "YRBLT;TOTPOP;AVGHINC",
"CBD", "prediction_locations", "YRBLT YRBLT;TOTPOP TOTPOP;AVGHINC AVGHINC",
"CBD CBD", "predicted_features")
Environments
Информация о лицензиях
- Basic: Ограничено
- Standard: Ограничено
- Advanced: Да