Подпись | Описание | Тип данных |
Тип прогнозирования | Задает используемый режим выполнения инструмента. Инструмент может быть запущен для обучения модели только для оценки производительности, прогнозирования объектов или создания поверхности ,
| String |
Входные обучающие объекты | Класс объектов, содержащий параметр Переменная для прогнозирования и, дополнительно, независимые переменные обучения из полей. | Feature Layer |
Переменная для прогнозирования (Дополнительный) | Переменная из параметра Входные обучающие объекты, содержащая значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях. | Field |
Рассматривать переменную как Категориальную (Дополнительный) | Указывает, будет ли Переменная для прогнозирования категориальной переменной.
| Boolean |
Независимые переменные обучения (Дополнительный) | Список полей, представляющих независимые переменные, которые помогут прогнозировать значения или категории Переменных для прогнозирования. Включите опцию Категориальная для любых переменных, которые представляют классы или категории (например, почвенно-растительный покров – его наличие или отсутствие). | Value Table |
Независимые объекты расстояния обучения (Дополнительный) | Слой объектов, содержащий независимые объекты расстояния обучения. Независимые переменные будут созданы автоматически, путем вычисления расстояния от предоставленных объектов до Входных обучающих объектов. Расстояния будут вычислены от каждого объекта Входных обучающих объектов до ближайших Независимых объектов расстояния обучения. Если входные Независимые объекты расстояния обучения являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. | Feature Layer |
Независимые обучающие растры (Дополнительный) | Независимые переменные обучения, извлеченные из растров. Независимые переменные обучения будут автоматически созданы путем извлечения значений ячеек растра. Для каждого из Входных обучающих объектов значение ячейки растра извлекается в именно в этом местоположении. Билинейный пересчет растра используется, если значение растра извлекается из непрерывных растров. Метод ближайшего соседа используется, если значение растра извлекается из категориальных растров. Включите опцию Категориальная для любых переменных, которые представляют классы или категории например, почвенно-растительный покров – его наличие или отсутствие. | Value Table |
Входные объекты прогнозирования (Дополнительный) | Класс объектов, представляющих местоположения, где будет выполняться прогнозирование. Этот векторный слой также должен содержать любые независимые переменные, представленные в виде полей, которые соответствуют используемым в обучающих данных. | Feature Layer |
Выходные объекты прогнозирования (Дополнительный) | Выходной класс объектов, содержащий результаты прогнозирования. | Feature Class |
Выходная поверхность прогноза (Дополнительный) | Выходной растр, содержащий результаты прогнозирования. Размером ячейки по умолчанию будет максимальный размер ячеек входных растров. Чтобы задать другой размер ячейки, используйте параметр среды – Размер ячейки. | Raster Dataset |
Сопоставление независимых переменных (Дополнительный) | Список Независимых переменных, заданных во Входных обучающих объектах, справа и соответствующие поля из Входных объектов прогнозирования слева. | Value Table |
Сопоставление объектов расстояния (Дополнительный) | Список Независимых объектов расстояния, заданных во Входных обучающих объектах, справа и соответствующие поля из Входных объектов прогнозирования слева. Можно предоставить значения Независимых объектов расстояния, которые больше подходят для Входных объектов прогнозирования, если те, что используются для обучения, находятся в другой изучаемой области или периоде времени. | Value Table |
Сопоставление независимых растров (Дополнительный) | Список Независимых растров, заданных во Входных обучающих объектах, справа и соответствующие растры из параметра Входных объектов прогнозирования или параметра Поверхности прогнозирования, слева. Можно предоставить Независимые растры, наиболее подходящие для Входных объектов прогнозирования, если те, что используются для обучения, находятся в другой изучаемой области или периоде времени. | Value Table |
Выходные обученные объекты (Дополнительный) | Независимые переменные, использованные для обучения (включая значения растров выборки и вычисления расстояния), а также наблюдаемые поля Переменная для прогнозирования и сопутствующие прогнозы, которые могут быть использованы для дальнейшей оценки эффективности обученной модели. | Feature Class |
Выходная таблица значимости переменных (Дополнительный) | Таблица, которая будет содержать информацию, описывающую значимость каждой независимой переменной, используемой в модели. Независимые переменные включают поля, объекты расстояний и растры, используемые для создания модели. Если значением параметра Тип модели является Градиентный бустинг, значимость измеряется по приросту, весу и покрытию, и таблица будет включать эти поля. Выходные данные будут включать линейчатую диаграмму значимости независимых переменных, если значение параметра Число запусков для проверки равно единице, и ящичковую диаграмму, если значение больше единицы. | Table |
Конвертировать полигоны в разрешение растра для обучения (Дополнительный) | Определяет то, как полигоны будут рассматриваться при обучении модели, если Входные обучающие объекты являются полигонами с категориальной Переменной для прогнозирования, и заданы только Независимые обучающие растры.
| Boolean |
Число деревьев (Дополнительный) | Число деревьев, которые будут созданы в моделях на основе леса и с градиентным бустингом. По умолчанию используется 100. Если значением параметра Тип модели является На основе леса, большее число деревьев обычно приводит к более точным прогнозам модели; однако расчет модели займет больше времени. Если значением параметра Тип модели является Градиентый бустинг, большее количество деревьев может привести к более точным прогнозам модели; однако это также может привести к переобучению обучающих данных. Чтобы избежать переобучения данных, укажите значения для параметров Максимальная глубина дерева, Упорядочивание L2 (Lambda), Минимальное сокращение потерь для разбиений (Gamma) и Скорость обучения (Eta). | Long |
Минимальный размер листа (Дополнительный) | Минимальное число наблюдений, необходимых для сохранения листа (т.е. конечного объекта на дереве, без дальнейшего разбиения). Минимум по умолчанию для регрессии составляет 5, а для классификации – 1. Для очень больших данных увеличение этого числа увеличит время работы инструмента. | Long |
Максимальная глубина дерева (Дополнительный) | Максимальное число разбиений, которые будут сделаны вниз по дереву . При большей максимальной глубине будет создано больше разбиений, что может увеличить вероятность чрезмерной подгонки модели. Если значением параметра Тип модели является На основе леса, значение по умолчанию определяется данными и зависит от количества созданных деревьев и количества включенных переменных. Если значением параметра Тип модели является Градиентный бустинг, значением по умолчанию будет 6. | Long |
Данные, доступные для одного дерева (%) (Дополнительный) | Процент Входных обучающих объектов, используемых для каждого дерева решений. По умолчанию это 100 процентов от данных. Выборка для каждого дерева берется произвольно из двух третей указанных данных. Каждое дерево решений в лесу создается с с использованием случайной выборки или поднабора (примерно две трети) доступных обучающих данных. Использование меньшего процента входных данных для каждого дерева решений сокращает время работы инструмента для очень больших наборов данных. | Long |
Число произвольно выбранных переменных (Дополнительный) | Число независимых переменных, используемых для создания каждого дерева решений. Каждое дерево решений в моделях на основе леса и моделях с градиентным бустингом создается с использованием случайного поднабора заданных независимых переменных. Увеличение числа переменных, используемых для создания каждого дерева решений, увеличит вероятность чрезмерной подгонки модели, особенно, если имеется одна или больше доминирующая переменная. По умолчанию используется квадратный корень от общего количества независимых переменных (полей, расстояний и растров), если значение Переменная для прогнозирования является категориальным, или деление общего количества объясняющих переменных (полей, расстояний и растров) на 3, если значение Переменной для прогнозирования является числовым. | Long |
Обучающие данные, исключенные из проверки (%) (Дополнительный) | Процент (от 10 до 50) от Входных обучающих объектов, чтобы сохранить их как тестовый набор данных для проверки. Обучение модели будет происходить без этого произвольного поднабора данных, а прогнозируемые значения модели для этих объектов будут сравниваться с наблюдаемыми значениями. Значение по умолчанию – 10 процентов. | Double |
Выходная таблица эффективности классификации (Матрица несоответствий) (Дополнительный) | Матрица несоответствий, в которой суммируется производительность модели на основе данных проверки. Матрица сравнивает спрогнозированные моделью категории для данных проверки с фактическими категориями. Эту таблицу можно использовать для вычисления дополнительных диагностик, не включенных в выходные сообщения. Этот параметр доступен, если значение Переменной для прогнозирования является категориальным и отмечен параметр Рассматривать как Категориальную. | Table |
Выходная таблица проверок (Дополнительный) | Таблица, которая содержит R2 для каждой модели, если значение Переменной для прогнозирования не является категориальным, или точность каждой модели, если значение является категориальным. Эта таблица включает линейчатую диаграмму распределения точности или значений R2. Это распределение можно использовать для оценки стабильности модели. Этот параметр доступен, если значение Число запусков для проверки больше 2. | Table |
Компенсировать разреженные категории (Дополнительный) | Определяет, будет ли каждая категория в обучающем наборе данных, независимо от последовательности, представлена в каждом дереве. Этот параметр доступен только в том случае, если значением параметра Тип модели является На основе леса.
| Boolean |
Число запусков для проверки (Дополнительный) | Число итераций инструмента Распределение значений R-квадрат (непрерывное) или точности (категориальное) всех моделей можно отобразить с использованием параметра Выходная таблица проверок. Если значением параметра Тип прогнозирования является Прогнозировать в растр или Прогнозировать в объекты, то для прогнозирования будет использоваться модель, которая выдала медианное значение R-квадрат или точности. Использование медианного значения помогает обеспечить стабильность прогнозов. | Long |
Вычислить неопределенность (Дополнительный) | Определяет, вычислять ли неопределенность прогнозирования при обучении, прогнозировании в объекты или прогнозировании в растр. Этот параметр доступен только в том случае, если значением параметра Тип модели является На основе леса.
| Boolean |
Выходной файл обученной модели. (Дополнительный) | Файл выходной модели, в котором будет сохранена обученная модель, которую позже можно будет использовать для прогнозирования. | File |
Тип модели (Дополнительный) | Определяет метод, который будет использоваться для создания модели.
| String |
Упорядочивание L2 (Lambda) (Дополнительный) | Слагаемое регуляризации, которое снижает чувствительность модели для отдельных объектов. Увеличение этого значения сделает модель более консервативной и предотвратит переобучение данных обучения. Если значение равно 0, модель становится традиционной моделью с градиентным бустингом. Значение по умолчанию равно 1. Этот параметр доступен только в том случае, если значением параметра Тип модели является Градиентный бустинг. | Double |
Минимальное сокращение потерь для разбиений (Gamma) (Дополнительный) | Порог минимального снижения потерь, необходимого для разбиения деревьев. Потенциальные разбиения оцениваются на предмет уменьшения потерь. Если кандидат на разбиение имеет более высокое снижение потерь, чем это пороговое значение, произойдет разбиение. Более высокие пороговые значения позволяют избежать переобучения и приводят к созданию более консервативных моделей с меньшим количеством разделов. По умолчанию - 0. Этот параметр доступен только в том случае, если значением параметра Тип модели является Градиентный бустинг. | Double |
Скорость обучения (Eta) (Дополнительный) | Значение, которое уменьшает вклад каждого дерева в окончательный прогноз. Значение должно быть больше 0 и меньше или равно 1. Более низкая скорость обучения предотвращает переобучение модели; но может потребовать более длительного времени для вычисления. По умолчанию 0,3. Этот параметр доступен только в том случае, если значением параметра Тип модели является Градиентный бустинг. | Double |
Максимальное количество бинов для разбиений поиска (Дополнительный) | Количество бинов, на которые будут разбиты обучающие данные для поиска лучшей точки разбиения. Значение не может быть 1. Значение по умолчанию равно 0, что соответствует использованию поглощающего алгоритма. Поглощающий алгоритм создаст разделение кандидатов в каждой точке данных. Не рекомендуется предоставлять слишком мало ячеек для поиска, поскольку это приведет к ухудшению производительности прогнозирования модели. Этот параметр доступен только в том случае, если значением параметра Тип модели является Градиентный бустинг. | Long |
Оптимизация параметров (Дополнительный) | Указывает, будет ли использоваться метод оптимизации для поиска набора гиперпараметров, обеспечивающих оптимальную производительность модели.
| Boolean |
Метод оптимизации (Дополнительный) | Указывает метод оптимизации, который будет использоваться для выбора и проверки точек поиска для нахождения оптимального набора гиперпараметров. Точки поиска — это комбинации гиперпараметров в пространстве поиска, заданные параметром Настройка параметров модели. Эта опция доступна, если отмечен параметр Параметры оптимизации.
| String |
Оптимизировать целевые данные (Цель) (Дополнительный) | Указывает целевую объект или значение, которое будет минимизировано или максимизировано для поиска оптимального набора гиперпараметров.
| String |
Число запусков для набора параметров (Дополнительный) | Число точек поиска в пространстве поиска, заданном параметром Настройка параметров модели, которое будет проверено. Этот параметр доступен, если для параметра Метод оптимизации установлено значение Случайный поиск (Быстрый) или Случайный поиск (Надежный). | Long |
Настройка параметров модели (Дополнительный) | Список гиперпараметров и пространств их поиска. Настройте пространство поиска каждого гиперпараметра, указав нижнюю границу, верхнюю границу и интервал. Нижняя и верхняя границы определяют диапазон возможных значений гиперпараметра. Ниже приведен диапазон допустимых значений для каждого гиперпараметра:
| Value Table |
Выходная таблица настройки параметров (Дополнительный) | Таблица, содержащая настройки параметров и целевые значения для каждого пути оптимизации. Выходные данные включают диаграмму всех проходов и их целевых значений. Эта опция доступна, если отмечено Оптимизировать параметры. | Table |
Включать все вероятности прогнозирования (Дополнительный) | Для прогнозируемых категориальных переменных указывает, будет ли прогнозироваться вероятность каждой категории категориальной переменной или только вероятность категории записи. Например, если категориальная переменная имеет категории A, B и C, а первая запись имеет категорию B, используйте этот параметр, чтобы указать, будет ли предсказана вероятность для категорий A, B и C или для записи будет предсказана только вероятность категории B.
| Boolean |
Производные выходные данные
Подпись | Описание | Тип данных |
Выходные растровые слои неопределенности | Если отмечен параметр Вычислить неопределенность инструмент вычислит 90% интервал прогнозирования вокруг каждого прогнозируемого значения Переменной для прогнозирования. | Raster Layer |