Обобщенная линейная регрессия (ОЛР) (Пространственная статистика)

Краткая информация

Строит Обобщенную линейную регрессию (ОЛР) для вычисления прогнозов или моделирования взаимосвязи между независимыми переменными и зависимой переменной. Инструмент используется для подгонки различных моделей, в частности, непрерывных (МНК), бинарных (логистических) и числовых (Пуассона).

Более подробно о работе инструмента Обобщенная линейная регрессия

Иллюстрация

Обобщенная линейная регрессия

Использование

  • Основными выходными данными этого инструмента является файл-отчет в виде сообщений, которые появляются в нижней части панели Геообработка во время выполнения этого инструмента. Чтобы получить доступ к сообщениям, поместите курсор мыши над индикатором выполнения и щелкните всплывающую кнопку, или разверните раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента из панели История геообработки.

  • В параметре Входные объекты укажите поле, представляющее явление, которое вы моделируете (Зависимую переменную), а также укажите одно или несколько полей, представляющих Независимые переменные. Поля должны быть числовыми и содержать диапазоны значений. Объекты с пустыми значениями в зависимой или независимых переменных исключаются из анализа; но можно использовать инструмент Заполнить пустые значения чтобы сделать набор данных полным перед запуском расчета.

  • Инструмент Обобщенная линейная регрессия создает Выходные значения с информацией о коэффициентах и результатами проверок. Выходной класс объектов автоматически добавляется в таблицу содержания со схемой отображения применяемой к модели невязок. Полное пояснение по каждому результату см. в разделе Как работает инструмент Обобщенная линейная регрессия.

  • Опция, выбранная для параметра Тип модели, зависит от моделируемых данных. Для получения точных результатов регрессионного анализа корректность модели очень важна.

    Типы данных непрерывной, числовой и бинарной модели

  • Сводная информация по результатам и проверки записываются в окно сообщений, а также под информацией о классе объектов отображаются диаграммы. Проверки и диаграммы в отчете связаны с Типом модели и подробно рассматриваются в разделе Как работает инструмент Обобщенная линейная регрессия.

  • Результаты ОЛР являются заслуживающими доверия только в том случае, если ваши данные и регрессионная модель удовлетворяет всем допущениям, неотъемлемо требуемым этим методом. Очень важно оценить результат по всем проверкам и свериться с таблицей Распространенные проблемы, последствия и решения регрессии в статье Основы регрессионного анализа , чтобы быть уверенным в корректном определении модели.

  • Зависимая переменная и Независимые переменные должны быть заданы числовыми полями, содержащими диапазоны значений. Инструмент не может работать, когда все переменные имеют одинаковые значения (например, все значения для поля равны 9.0).

  • Независимые переменные могут быть получены из полей или вычислены по объектам расстояния с использованием параметра Независимые объекты расстояния Можно использовать комбинации этих типов независимых переменных, но необходим хотя бы один тип. Независимые объекты расстояния используются для автоматического создания независимых переменных, представляя расстояние от предоставленных объектов до Входных объектов. Расстояния будут вычислены от каждого из входных Независимых объектов расстояния до ближайшего Входного объекта. Если входные Независимые объекты расстояния являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. Но для полигонов и линий расстояния рассчитываются по-разному. Более подробно см. Как инструменты близости вычисляют расстояние.

  • Если в анализе используется параметр независимые объекты расстояния, желательно, чтобы данные были спроецированы. Для корректного вычисления расстояний настоятельно рекомендуется, чтобы данные находились в Системе координат проекции, а не в Географической системе координат.

  • Если наблюдается статистически значимая пространственная автокорреляция невязок в регрессии, модель ОЛР будет считаться некорректной и, следовательно, результаты регрессии ОЛР не будут считаться надежными. Примените инструмент Пространственная автокорреляция к невязкам вашей регрессии, чтобы оценить потенциальные проблемы. Статистически значимая пространственная автокорреляция невязок регрессии скорее всего указывает на один или несколько недостающих ключевых независимых переменных модели.

  • Вы должны визуально оценить все очевидные отклонения прогнозов в большую и меньшую сторону в невязках вашей регрессии, чтобы увидеть, дают ли они представления о потенциальных недостающих переменных в вашей модели регрессии. Иногда проведение Анализа горячих точек по невязкам помогает визуализировать пространственную кластеризацию отклонений прогнозов в большую и меньшую сторону.

  • Если неопределенность является результатом попытки моделировать нестационарные переменные, используя глобальную модель (ОЛР – это глобальная модель), то может быть использована Географически взвешенная регрессия для улучшения прогнозов и лучшего понимания нестационарности (региональных вариаций) в ваших независимых переменных.

  • Если результатом вычисления является бесконечность или неопределенность, результат для файлов, которые не являются шейп-файлами, будет Null; для шейп-файлов результат будет – DBL_MAX (например, -1.7976931348623158e+308).

  • Внимание:

    При использовании шейп-файлов, помните, что в них нельзя хранить нулевые (null) значения. Инструменты или другие процедуры, создающие шейп-файлы из прочих входных данных, могут хранить значения NULL в виде 0 или оперировать ими как нулем. В некоторых случаях нули в шейп-файлах хранятся как очень маленькие отрицательные числа. Это может привести к неожиданным результатам. Дополнительные сведения см. в разделе Рекомендации по геообработке выходных данных шейп-файла.

Параметры

ПодписьОписаниеТип данных
Входные объекты

Класс пространственных объектов, содержащий зависимые и независимые переменные.

Feature Layer
Зависимая переменная

Числовое поле, содержащее наблюдаемые значения, которые нужно смоделировать.

Field
Тип модели

Указывает тип моделируемых данных.

  • Непрерывная (Гауссова) dependent_variable представлена непрерывными данными. Модель использует регрессию Гаусса и инструмент вычисляет регрессию по методу наименьших квадратов.
  • Бинарная (Логистическая) dependent_variable указывает наличие или отсутствие. Это могут быть либо стандартные значения 1 или 0, или непрерывные значения, записанные на основании некоего порогового значения. Модель использует логистическую регрессию.
  • Количественная (Пуассона)dependent_variable дискретна и представляет события, например, число преступлений, заболеваний или дорожных происшествий. Модель использует регрессию Пуассона.
  • Непрерывная (Гауссова) Зависимая переменная представлена непрерывными данными. Модель использует регрессию Гаусса и инструмент вычисляет регрессию по методу наименьших квадратов.
  • Бинарная (Логистическая) Зависимая переменная указывает наличие или отсутствие. Это могут быть либо стандартные значения 1 или 0, или непрерывные значения, записанные на основании некоего порогового значения. Модель использует логистическую регрессию.
  • Количественная (Пуассона)Зависимая переменная дискретна и представляет события, например, число преступлений, заболеваний или дорожных происшествий. Модель использует регрессию Пуассона.
String
Выходные объекты

Создаваемый новый класс объектов с оценками зависимых переменных и невязками.

Feature Class
Независимые переменные

Перечень полей, представляющих независимые переменные в вашей регрессионной модели.

Field
Независимые объекты расстояния
(Дополнительный)

Автоматически создает независимые переменные путем вычисления расстояния от предоставленных объектов до Входных объектов. Расстояния будут вычислены от каждого из входных Независимых объектов расстояния до ближайшего Входного объекта. Если входные Независимые объекты расстояния являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов.

Feature Layer
Прогнозируемые местоположения
(Дополнительный)

Класс объектов, представляющий местоположения, для которых вычисляются оценки. Каждый объект в этом наборе данных должен содержать значения для всех указанных независимых переменных. Зависимая переменная для этих объектов будет оценена на основании модели, калиброванной для данных во входном классе объектов.

Feature Layer
Сопоставление независимых переменных
(Дополнительный)

Сопоставляет независимые переменные в Прогнозируемых местоположениях с соответствующими независимыми переменными во Входном классе объектов,

Value Table
Сопоставление объектов расстояния
(Дополнительный)

Сопоставляет объекты расстояния, указанные в Прогнозируемых местоположениях слева с соответствующими объектами расстояния для Входных объектов справа.

Value Table
Выходные объекты прогнозирования
(Дополнительный)

Выходной класс объектов с оценками зависимых переменных для каждого Прогнозируемого местоположения.

Feature Class

arcpy.stats.GeneralizedLinearRegression(in_features, dependent_variable, model_type, output_features, explanatory_variables, {distance_features}, {prediction_locations}, {explanatory_variables_to_match}, {explanatory_distance_matching}, {output_predicted_features})
ИмяОписаниеТип данных
in_features

Класс пространственных объектов, содержащий зависимые и независимые переменные.

Feature Layer
dependent_variable

Числовое поле, содержащее наблюдаемые значения, которые нужно смоделировать.

Field
model_type

Указывает тип моделируемых данных.

  • CONTINUOUS dependent_variable представлена непрерывными данными. Модель использует регрессию Гаусса и инструмент вычисляет регрессию по методу наименьших квадратов.
  • BINARY dependent_variable указывает наличие или отсутствие. Это могут быть либо стандартные значения 1 или 0, или непрерывные значения, записанные на основании некоего порогового значения. Модель использует логистическую регрессию.
  • COUNTdependent_variable дискретна и представляет события, например, число преступлений, заболеваний или дорожных происшествий. Модель использует регрессию Пуассона.
String
output_features

Создаваемый новый класс объектов с оценками зависимых переменных и невязками.

Feature Class
explanatory_variables
[explanatory_variables,...]

Перечень полей, представляющих независимые переменные в вашей регрессионной модели.

Field
distance_features
[distance_features,...]
(Дополнительный)

Автоматически создает независимые переменные путем вычисления расстояния от предоставленных объектов до in_features. Расстояния будут вычислены от каждого из входных distance_features до ближайшего in_features. Если входные distance_features являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов.

Feature Layer
prediction_locations
(Дополнительный)

Класс объектов, представляющий местоположения, для которых вычисляются оценки. Каждый объект в этом наборе данных должен содержать значения для всех указанных независимых переменных. Зависимая переменная для этих объектов будет оценена на основании модели, калиброванной для данных во входном классе объектов.

Feature Layer
explanatory_variables_to_match
[[Field from Prediction Locations, Field from Input Features],...]
(Дополнительный)

Сопоставляет независимые переменные в prediction_locations с соответствующими независимыми переменными во in_features, – например, [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]]

Value Table
explanatory_distance_matching
[[Prediction Distance Features, Input Explanatory Distance Features],...]
(Дополнительный)

Сопоставляет объекты расстояния, указанные в features_to_predict слева с соответствующими объектами расстояния для in_features справа, например, [["stores2010", "stores2000"], ["freeways2010", "freeways2000"]].

Value Table
output_predicted_features
(Дополнительный)

Выходной класс объектов с оценками зависимых переменных для каждого prediction_location.

Выходной класс объектов с оценками зависимых переменных для каждого Прогнозируемого местоположения.

Feature Class

Пример кода

GeneralizedLinearRegression, пример 1 (окно Python)

В следующем скрипте окна Python показано, как используется инструмент GeneralizedLinearRegression.

import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("landslides", "occurred",
                                 "BINARY", "out_features", 
                                 "eastness;northness;elevation;slope", 
                                 "rivers")
GeneralizedLinearRegression, пример 2 (автономный скрипт)

Следующий автономный скрипт Python демонстрирует, как использовать инструмент GeneralizedLinearRegression.

# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, average household income and the
# distance to the central business district (CBD)
import arcpy
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("crime_counts", 
     "total_crimes", "COUNT", "out_features", "YRBLT;TOTPOP;AVGHINC", 
     "CBD", "prediction_locations", "YRBLT YRBLT;TOTPOP TOTPOP;AVGHINC AVGHINC", 
     "CBD CBD", "predicted_features")

Параметры среды

Особые случаи

Информация о лицензиях

  • Basic: Ограниченные
  • Standard: Ограниченные
  • Advanced: Да

Связанные разделы