Обучение с использованием AutoML (GeoAI)—ArcGIS Pro

Краткая информация

Тренирует модель глубокого обучения путем создания конвейеров обучения и автоматизации большей части процесса обучения. Это включает в себя исследовательский анализ данных, выбор объектов, разработку обработку объектов, выбор модели, настройку гиперпараметров и обучение модели. Его выходные данные включают показатели производительности лучшей модели на обучающих данных, а также обученный пакет модели глубокого обучения .dlpk, которую можно использовать в качестве входной в инструменте Прогнозирование с помощью AutoML для прогнозирования нового набора данных.

Подробнее о том, как работает AutoML

Использование

Вы должны установить соответствующую среду глубокого обучения для Python в ArcGIS Pro.
Узнайте, как установить среду глубокого обучения для ArcGIS
Время, необходимое инструменту для создания обученной модели, зависит от следующих факторов:
- Объем данных, предоставленных при обучении.
- Значение параметра Режим AutoML.
По умолчанию таймер для всех режимов установлен на 240 минут. Независимо от того, какой объем данных используется в обучении, опция Базовый параметра Режим AutoML для поиска оптимальной модели не займет более 60 минут. Процесс подгонки будет выполнен, как только появится оптимальная модель. Для работы опции Расширенный может потребоваться больше времени, поскольку в нее входят дополнительные задачи по обработке объектов, выборке данных и настройке гиперпараметров. Помимо новых объектов, полученных путем объединения нескольких входных объектов, инструмент также создает новые пространственные объекты с именами от zone3_id до zone7_id. Эти новые объекты будут извлечены из информации о местоположении входных данных, и будут использоваться для обучения лучших моделей. Подробнее о новых пространственных объектах см. статью Как работает AutoML. Если объем обучаемых данных велик, все комбинации моделей могут не успеть оцениться в течение 240 минут. В таких случаях оптимальной моделью будет считаться наиболее эффективная модель, определенная в течение 240 минут. Затем вы можете либо использовать эту модель, либо повторно запустить инструмент с более высоким значением параметра Общий лимит времени (минуты) parameter value.
Для использования растров в качестве независимых переменных необходима лицензия Дополнительный модуль ArcGIS Spatial Analyst.
Значение параметра Выходной отчет представляет собой файл в формате HTML, который позволяет просматривать информацию в рабочем каталоге.
Первая страница выходного отчета содержит ссылки на каждую из оцененных моделей и показывает их производительность в наборе данных проверки, а также время, затраченное на их обучение. На основе метрики оценки в отчете показана наиболее эффективная выбранная модель.
RMSE — это метрика оценки по умолчанию для задач регрессии, а Logloss — метрика по умолчанию для задач классификации. В выходном отчете доступны следующие метрики:
- Классификация —AUC, Logloss, F1, Точность, Средняя точность
- Регрессия—MSE, RMSE, MAE, R2, MAPE, коэффициент Спирмена, коэффициент Пирсона
Когда вы щелкаете комбинацию моделей, то отображаются сведения об обучении для этой комбинации моделей, включая кривые обучения, кривые важности переменных, используемые гиперпараметры и т. д.
Примеры использования этого инструмента включают обучение модели ежегодного производства солнечной энергии на основе погодных факторов, обучение модели прогнозирования урожая с использованием связанных переменных и обучение модели прогнозирования стоимости дома.
Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.
Чтобы использовать параметр Добавить вложения изображений, подготовьте значение параметра Входные обучающие объекты для вложений изображений, выполнив следующее:
- Убедитесь, что векторный слой включает поле с путями к файлам изображений для каждой записи.
- Включите вложения для векторного слоя с помощью инструмента Включить вложения.
- Используйте инструмент Добавить вложение, чтобы задать поле пути к изображению и добавить его как вложение изображения в векторный слой.
Отметьте параметр Использовать вставки местоположений, чтобы улучшить производительность модели при решении пространственно-зависимых задач прогнозирования, особенно при работе с ограниченными наборами объектов, путем включения плотных векторных представлений, которые отражают сложные географические и отношения окружающей среды.

Параметры

Подпись	Описание	Тип данных
Входные обучающие объекты	Входной класс объектов, который будет использоваться для обучения модели.	Feature Layer; Table View
Выходная модель	Выходная обученная модель, которая будет сохранена как пакет глубокого обучения (файл .dlpk).	File
Переменная для прогнозирования	Поле из значения параметра Входные обучающие объекты, которое содержит значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях.	Field
Рассматривать переменную как Категориальную (Дополнительный)	Определяет, будет ли значение параметра Переменная для прогнозирования интерпретироваться как категорийная переменная. Отмечено – значение параметра Переменная для прогнозирования интерпретируется как категориальная переменная, и будет выполняться классификация. Не отмечено – значение параметра Переменная для прогнозирования интерпретируется как непрерывное, и будет выполняться регрессия. Это значение по умолчанию	Boolean
Независимые переменные обучения (Дополнительный)	Список полей, представляющих независимые переменные, которые помогут прогнозировать значения или категории для параметра Переменная для прогнозирования. Установите флажки для любых переменных, которые представляют классы или категории (такие как земной покров, наличие или отсутствие).	Value Table
Независимые объекты расстояния обучения (Дополнительный)	Объекты, расстояние до которых от входных обучающих объектов будет оценено автоматически и добавлено как дополнительные независимые переменные. Расстояния будут вычислены от каждого из входных Независимых объектов расстояния обучения до ближайшего Входного обучающего объекта. Поддерживаются точечные и полигональные объекты, а также если входные независимые объекты расстояния обучения являются полигонами или линиями, то атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов.	Feature Layer
Независимые обучающие растры (Дополнительный)	Растры, значения которых будут исключены из растра и станут использоваться как независимые переменные в модели. Каждый слой формирует одну независимую переменную. Для каждого из входных обучающих объектов значение ячейки растра извлекается в именно в этом местоположении. Билинейный пересчет растра используется, если значение растра извлекается из непрерывных растров. Метод ближайшего соседа используется, если значение растра извлекается из категориальных растров. Если значение параметра Входные обучающие объекты содержит полигоны, и вы ввели значение для этого параметра, в модели будет использоваться одно значение растра для каждого полигона. Каждому полигону назначается среднее значение для непрерывных растров и значение большинства для категориальных растров. Убедитесь, что опция Категориальная включена для любых растров, представляющих классы или категории, например, почвенно-растительный покров, растительность или тип почв.	Value Table
Общий лимит времени (минуты) (Дополнительный)	Общий лимит времени в минутах, который нужен для обучения модели AutoML. По умолчанию - 240 (4 часа)	Double
Режим AutoML (Дополнительный)	Определяет цель AutoML и то, насколько интенсивно будет выполняться поиск AutoML. Базовый—Базовый режим используется для объяснения значимости различных переменных и данных. Обработка объектов, выборка объектов и настройка гиперпараметров не выполняются. В отчеты будут включены полные описания и пояснения для кривых обучения модели, графики важности признаков, созданные для древовидных моделей, и графики SHAP для всех остальных моделей. Этот режим затрачивает меньше времени. Это значение по умолчанию Промежуточный—Промежуточный режим используется для обучения модели, которая будет использоваться в реальных примерах. Этот режим использует 5-кратную перекрестную проверку (CV) и выводит кривые обучения и графики важности в отчетах, но графики SHAP недоступны. Расширенный—Расширенный режим используется для сложного машинного обучения (при максимальной производительности). Этот режим использует 10-кратную перекрестную проверку (CV) и выполняет обработку объектов, выбор объектов и настройку гиперпараметров. Входные обучающие объекты назначаются нескольким пространственным сеткам разного размера в зависимости от их местоположения, а соответствующие идентификаторы сетки передаются в модель как дополнительные категорийные независимые переменные. Этот отчет включает только кривые обучения, объяснения модели недоступны.	String
Алгоритмы (Дополнительный)	Определяет алгоритмы, которые будут использоваться в ходе обучения. По умолчанию будут использоваться все алгоритмы. Линейный—Для обучения модели машинного обучения будет использоваться супервизионный алгоритм Линейная регрессия. Если это только одна указанная опция, убедитесь, что общее количество записей меньше 10000, а количество столбцов меньше 1000. Другие модели могут обрабатывать большие наборы данных, поэтому рекомендуется использовать эту опцию вместе с другими алгоритмами, а не как отдельный алгоритм. Классификатор произвольного дерева—Будет использоваться алгоритм контролируемого машинного обучения на основе дерева решений Произвольные деревья. Его можно использовать и для классификации, и для регрессии. XGBoost—Будет использоваться супервизионный алгоритм машинного обучения XGBoost (экстремальное градиентное превышение). Его можно использовать и для классификации, и для регрессии. Light GBM—Будет использоваться алгоритм градиентной бустинговой сборки Light GBM, который основан на деревьях решений. Его можно использовать и для классификации, и для регрессии. LightGBM оптимизирован для высокой производительности в распределенных системах. Дерево решений—Будет использован супервизионный алгоритм машинного обучения Дерево решений, который выполняет классификацию или регрессию данных, используя ответы "правда" или "ложь" на определенные вопросы. Деревья решений легки для понимания и интерпретации. Дополнительное дерево—Будет использоваться супервизионный алгоритм сборки машинного обучения Дополнительные деревья (экстремально случайные деревья), который использует деревья решений. Этот алгоритм похож на Произвольные деревья, но может быть быстрее. CatBoost—Будет использован алгоритм CatBoost. Он применяет деревья решений для классификации и регрессии. Этот вариант может использовать комбинацию категориальных и некатегориальных независимых переменных без предварительной обработки.	String
Процент проверки (Дополнительный)	Процент входных данных, который будет использован для проверки. Значением по умолчанию является 10.	Long
Выходной отчет (Дополнительный)	Выходной отчет будет создан как файл .html. Если указанный путь не пуст, отчет будет создан в новой папке по указанному пути. Отчет будет содержать подробную информацию о различных моделях, а также сведения о гиперпараметрах, которые использовались во время оценки и производительности каждой модели. Гиперпараметры представляют собой параметры, которые управляют процессом обучения. Они не обновляются в ходе обучения и включают архитектуру модели, скорость обучения, число эпох и др.	File
Выходная таблица значимости (Дополнительный)	Выходная таблица, содержащая информацию о важности каждой независимой переменной (полей, пространственных объектов и растров), используемых в модели.	Table
Выходной класс объектов (Дополнительный)	Векторный слой, содержащий прогнозируемые значения самой эффективной модели в векторном слое обучения. Его можно использовать для проверки производительности модели путем визуального сравнения прогнозируемых значений с реальными данными.	Feature Class
Добавить вложения изображений (Дополнительный)	Указывает, будут ли изображения использоваться как независимые переменные из значения параметра Входные обучающие объекты для обучения мультимодальной или смешанной модели данных. Обучение мультимодальной или смешанной табличной модели данных предполагает использование основ машинного и глубокого обучения в AutoML для обучения на основе нескольких типов форматов данных с помощью одной модели. Входные данные могут представлять собой комбинацию независимых переменных из различных источников данных, таких как текстовые описания, соответствующие изображения и любые дополнительные категориальные и непрерывные переменные. Отмечено - Будут загружены вложения изображений, которые будут рассматриваться как независимые переменные, и проведено мультимодальное обучение данных. Не отмечено - Вложения изображений не будут использоваться во время обучения. Это значение по умолчанию	Boolean
Чувствительные атрибуты пространственных объектов (Дополнительный)	Оценивает и улучшает правильность обученных моделей для табличных данных для классификационных и регрессионных моделей. Установите следующие два компонента для этого параметра: Чувствительные объекты - Атрибут, такой как раса, пол, социально-экономический статус или возраст, который может вносить необъективность в модели машинного обучения или глубокого обучения. При выборе таких чувствительных признаков, как раса, пол, социально-экономический статус или возраст, смещения, связанные с конкретными чувствительными признаками, нивелируются для получения несмещенной модели. Неблагополучные группы - Дискриминируемые группы из значения Чувствительные объекты.	Value Table
Метрика справедливости (Дополнительный)	Задает метрику справедливости, которая будет использоваться для измерения справедливости для задач классификации и регрессии, которые применяются при поиске по сетке для выбора наилучшей справедливой модели. Коэффициент демографического паритета—Эта метрика используется в моделях классификации Будет измерено соотношение коэффициентов выборки между различными группами. Коэффициент выборки - это доля людей, которые классифицируются моделью как положительные. Идеальное значение этой метрики равно 1, что свидетельствует о равенстве коэффициентов отбора для различных групп. Справедливое значение этой метрики находится в диапазоне от 0,8 до 1, что означает, что соотношение коэффициентов отбора между группами должно составлять не более 20%. Разница в демографическом паритете—Эта метрика используется в моделях классификации Это похоже на метрику коэффициента демографического паритета, но измеряться будет не коэффициент, а разница в коэффициентах отбора между различными группами населения. Коэффициент выборки - это доля людей, которые классифицируются моделью как положительные. Идеальным значением для этой метрики является 0, что свидетельствует об отсутствии различий в показателях отбора между группами. Справедливое значение для этой метрики находится в диапазоне от 0 до 0,25, что означает, что различия в показателях отбора между группами должны составлять не более 25%. Выровненное отношение шансов—Эта метрика используется в моделях классификации Будет измерено соотношение коэффициентов ошибок между группами людей, например, различными расовыми и гендерными группами. Идеальное значение этой метрики равно 1, что свидетельствует о равенстве коэффициентов ошибок для разных групп. Справедливое значение для этой метрики находится в диапазоне от 0,8 до 1, что означает, что отношение ошибок между группами должно составлять не более 20%. Выровненная разница шансов—Эта метрика используется в моделях классификации Это похоже на метрику выровненного отношения шансов, но измеряться будет не отношение, а разница в ошибках между различными группами населения. Идеальное значение этой метрики равно 0, что свидетельствует об отсутствии разницы в ошибках между группами. Справедливое значение для этой метрики находится в диапазоне от 0 до 0,25, что означает, что разница в ошибках между группами должна составлять не более 25%. Коэффициент убыточности группы—Эта метрика используется в регрессионных моделях. Будет измеряться соотношение средних потерь или ошибок для одной подгруппы по сравнению с другой подгруппой. Это дает относительную оценку неравенства потерь между группами. Значение 1 указывает на отсутствие разницы в потерях между группами, а значения больше или меньше 1 - на относительное неравенство.	String
Использовать вставки местоположений (Дополнительный)	Указывает, будут ли использоваться вставки местоположения в качестве дополнительных объясняющих переменных во время обучения для повышения предсказательной силы модели, основанной на местоположении. Использование вставок местоположений приведет к созданию обобщенных географических вставок из спутниковых снимков и географических координат из значения параметра Входные обучающие объекты. Это обеспечит пространственный контекст, который улучшит эффективность модели при прогнозировании, зависящем от местоположения, например, при прогнозировании цен на жилье, моделировании окружающей среды или демографической оценке. Отмечено — вставки местоположений будут вычислены и включены в качестве объектов, что позволит интегрировать мультимодальные геопространственные данные и улучшить пространственное представление во время обучения модели. Не отмечено — Вставки местоположений не будут использоваться, и модель будет полагаться исключительно на существующие табличные переменные без встраивания пространственной информации, полученной со спутника. Это значение по умолчанию	Boolean

arcpy.geoai.TrainUsingAutoML(in_features, out_model, variable_predict, {treat_variable_as_categorical}, {explanatory_variables}, {distance_features}, {explanatory_rasters}, {total_time_limit}, {autoML_mode}, {algorithms}, {validation_percent}, {out_report}, {out_importance}, {out_features}, {add_image_attachments}, {sensitive_feature}, {fairness_metric}, {process_geometry})

Имя	Описание	Тип данных
in_features	Входной класс объектов, который будет использоваться для обучения модели.	Feature Layer; Table View
out_model	Выходная обученная модель, которая будет сохранена как пакет глубокого обучения (файл .dlpk).	File
variable_predict	Поле из значения параметра in_features, которое содержит значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях.	Field
treat_variable_as_categorical (Дополнительный)	Определяет, будет ли значение параметра variable_predict интерпретироваться как категорийная переменная. CATEGORICAL—Значение параметра variable_predict интерпретируется как категориальная переменная, и будет выполняться классификация. CONTINUOUS—Значение параметра variable_predict интерпретируется как непрерывное, и будет выполняться регрессия. Это значение по умолчанию	Boolean
explanatory_variables [explanatory_variables,...] (Дополнительный)	Список полей, представляющих независимые переменные, которые помогут прогнозировать значения или категории параметра variable_predict. Укажите значение Истина ("<name_of_variable> true") для любых переменных, которые представляют классы или категории (например, почвенно-растительный покров – его наличие или отсутствие).	Value Table
distance_features [distance_features,...] (Дополнительный)	Объекты, расстояние до которых от входных обучающих объектов будет оценено автоматически и добавлено как дополнительные независимые переменные. Расстояния будут вычислены от каждого из входных Независимых объектов расстояния обучения до ближайшего Входного обучающего объекта. Поддерживаются точечные и полигональные объекты, а также если входные независимые объекты расстояния обучения являются полигонами или линиями, то атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов.	Feature Layer
explanatory_rasters [explanatory_rasters,...] (Дополнительный)	Растры, значения которых будут исключены из растра и станут использоваться как независимые переменные в модели. Каждый слой формирует одну независимую переменную. Для каждого из входных обучающих объектов значение ячейки растра извлекается в именно в этом местоположении. Билинейный пересчет растра используется, если значение растра извлекается из непрерывных растров. Метод ближайшего соседа используется, если значение растра извлекается из категориальных растров. Если значение параметра in_features содержит полигоны, и вы ввели значение для этого параметра, в модели будет использоваться одно значение растра для каждого полигона. Каждому полигону назначается среднее значение для непрерывных растров и значение большинства для категориальных растров. Укажите значение Истина, используя "<name_of_raster> true" для любых растров, представляющих классы или категории, например, почвенно-растительный покров, растительность, тип почв.	Value Table
total_time_limit (Дополнительный)	Общий лимит времени в минутах, который нужен для обучения модели AutoML. По умолчанию - 240 (4 часа)	Double
autoML_mode (Дополнительный)	Определяет цель AutoML и то, насколько интенсивно будет выполняться поиск AutoML. BASIC—Базовый режим используется для объяснения значимости различных переменных и данных. Обработка объектов, выборка объектов и настройка гиперпараметров не выполняются. В отчеты будут включены полные описания и пояснения для кривых обучения модели, графики важности признаков, созданные для древовидных моделей, и графики SHAP для всех остальных моделей. Этот режим затрачивает меньше времени. Это значение по умолчанию INTERMEDIATE—Промежуточный режим используется для обучения модели, которая будет использоваться в реальных примерах. Этот режим использует 5-кратную перекрестную проверку (CV) и выводит кривые обучения и графики важности в отчетах, но графики SHAP недоступны. ADVANCED—Расширенный режим используется для сложного машинного обучения (при максимальной производительности). Этот режим использует 10-кратную перекрестную проверку (CV) и выполняет обработку объектов, выбор объектов и настройку гиперпараметров. Входные обучающие объекты назначаются нескольким пространственным сеткам разного размера в зависимости от их местоположения, а соответствующие идентификаторы сетки передаются в модель как дополнительные категорийные независимые переменные. Этот отчет включает только кривые обучения, объяснения модели недоступны.	String
algorithms [algorithms,...] (Дополнительный)	Определяет алгоритмы, которые будут использоваться в ходе обучения. LINEAR—Для обучения модели машинного обучения будет использоваться супервизионный алгоритм Линейная регрессия. Если это только одна указанная опция, убедитесь, что общее количество записей меньше 10000, а количество столбцов меньше 1000. Другие модели могут обрабатывать большие наборы данных, поэтому рекомендуется использовать эту опцию вместе с другими алгоритмами, а не как отдельный алгоритм. RANDOM TREES—Будет использоваться алгоритм контролируемого машинного обучения на основе дерева решений Произвольные деревья. Его можно использовать и для классификации, и для регрессии. XGBOOST—Будет использоваться супервизионный алгоритм машинного обучения XGBoost (экстремальное градиентное превышение). Его можно использовать и для классификации, и для регрессии. LIGHT GBM—Будет использоваться алгоритм градиентной бустинговой сборки Light GBM, который основан на деревьях решений. Его можно использовать и для классификации, и для регрессии. LightGBM оптимизирован для высокой производительности в распределенных системах. DECISION TREE—Будет использован супервизионный алгоритм машинного обучения Дерево решений, который выполняет классификацию или регрессию данных, используя ответы "правда" или "ложь" на определенные вопросы. Деревья решений легки для понимания и интерпретации. EXTRA TREE—Будет использоваться супервизионный алгоритм сборки машинного обучения Дополнительные деревья (экстремально случайные деревья), который использует деревья решений. Этот алгоритм похож на Произвольные деревья, но может быть быстрее. CATBOOST—Будет использован алгоритм CatBoost. Он применяет деревья решений для классификации и регрессии. Этот вариант может использовать комбинацию категориальных и некатегориальных независимых переменных без предварительной обработки. По умолчанию будут использоваться все алгоритмы.	String
validation_percent (Дополнительный)	Процент входных данных, который будет использован для проверки. Значением по умолчанию является 10.	Long
out_report (Дополнительный)	Выходной отчет будет создан как файл .html. Если указанный путь не пуст, отчет будет создан в новой папке по указанному пути. Отчет будет содержать подробную информацию о различных моделях, а также сведения о гиперпараметрах, которые использовались во время оценки и производительности каждой модели. Гиперпараметры представляют собой параметры, которые управляют процессом обучения. Они не обновляются в ходе обучения и включают архитектуру модели, скорость обучения, число эпох и др.	File
out_importance (Дополнительный)	Выходная таблица, содержащая информацию о важности каждой независимой переменной (полей, пространственных объектов и растров), используемых в модели.	Table
out_features (Дополнительный)	Векторный слой, содержащий прогнозируемые значения самой эффективной модели в векторном слое обучения. Его можно использовать для проверки производительности модели путем визуального сравнения прогнозируемых значений с реальными данными.	Feature Class
add_image_attachments (Дополнительный)	Указывает, будут ли изображения использоваться как независимые переменные из значения параметра in_features для обучения мультимодальной или смешанной модели данных. Обучение мультимодальной или смешанной табличной модели данных предполагает использование основ машинного и глубокого обучения в AutoML для обучения на основе нескольких типов форматов данных с помощью одной модели. Входные данные могут представлять собой комбинацию независимых переменных из различных источников данных, таких как текстовые описания, соответствующие изображения и любые дополнительные категориальные и непрерывные переменные. TRUE—Будут загружены вложения изображений, которые будут рассматриваться как независимые переменные, и проведено мультимодальное обучение данных. FALSE—Вложения изображений не будут использоваться во время обучения. Это значение по умолчанию	Boolean
sensitive_feature [sensitive_feature,...] (Дополнительный)	Оценивает и улучшает правильность обученных моделей для табличных данных для классификационных и регрессионных моделей. Установите следующие два компонента для этого параметра: Чувствительные объекты - Атрибут, такой как раса, пол, социально-экономический статус или возраст, который может вносить необъективность в модели машинного обучения или глубокого обучения. При выборе таких чувствительных признаков, как раса, пол, социально-экономический статус или возраст, смещения, связанные с конкретными чувствительными признаками, нивелируются для получения несмещенной модели. Неблагополучные группы - Дискриминируемые группы из значения Чувствительные объекты.	Value Table
fairness_metric (Дополнительный)	Задает метрику справедливости, которая будет использоваться для измерения справедливости для задач классификации и регрессии, которые применяются при поиске по сетке для выбора наилучшей справедливой модели. DEMOGRAPHIC_PARITY_RATIO—Эта метрика используется в моделях классификации Будет измерено соотношение коэффициентов выборки между различными группами. Коэффициент выборки - это доля людей, которые классифицируются моделью как положительные. Идеальное значение этой метрики равно 1, что свидетельствует о равенстве коэффициентов отбора для различных групп. Справедливое значение этой метрики находится в диапазоне от 0,8 до 1, что означает, что соотношение коэффициентов отбора между группами должно составлять не более 20%. DEMOGRAPHIC_PARITY_DIFFERENCE—Эта метрика используется в моделях классификации Это похоже на метрику коэффициента демографического паритета, но измеряться будет не коэффициент, а разница в коэффициентах отбора между различными группами населения. Коэффициент выборки - это доля людей, которые классифицируются моделью как положительные. Идеальным значением для этой метрики является 0, что свидетельствует об отсутствии различий в показателях отбора между группами. Справедливое значение для этой метрики находится в диапазоне от 0 до 0,25, что означает, что различия в показателях отбора между группами должны составлять не более 25%. EQUALISED_ODDS_RATIO—Эта метрика используется в моделях классификации Будет измерено соотношение коэффициентов ошибок между группами людей, например, различными расовыми и гендерными группами. Идеальное значение этой метрики равно 1, что свидетельствует о равенстве коэффициентов ошибок для разных групп. Справедливое значение для этой метрики находится в диапазоне от 0,8 до 1, что означает, что отношение ошибок между группами должно составлять не более 20%. EQUALISED_ODDS_DIFFERENCE—Эта метрика используется в моделях классификации Это похоже на метрику выровненного отношения шансов, но измеряться будет не отношение, а разница в ошибках между различными группами населения. Идеальное значение этой метрики равно 0, что свидетельствует об отсутствии разницы в ошибках между группами. Справедливое значение для этой метрики находится в диапазоне от 0 до 0,25, что означает, что разница в ошибках между группами должна составлять не более 25%. GROUP_LOSS_RATIO—Эта метрика используется в регрессионных моделях. Будет измеряться соотношение средних потерь или ошибок для одной подгруппы по сравнению с другой подгруппой. Это дает относительную оценку неравенства потерь между группами. Значение 1 указывает на отсутствие разницы в потерях между группами, а значения больше или меньше 1 - на относительное неравенство.	String
process_geometry (Дополнительный)	Указывает, будут ли использоваться вставки местоположения в качестве дополнительных объясняющих переменных во время обучения для повышения предсказательной силы модели, основанной на местоположении. Использование вставок местоположений приведет к созданию обобщенных географических вставок из спутниковых снимков и географических координат из значения параметра in_features. Это обеспечит пространственный контекст, который улучшит эффективность модели при прогнозировании, зависящем от местоположения, например, при прогнозировании цен на жилье, моделировании окружающей среды или демографической оценке. ENABLE_GEOMETRY—Вставки местоположений будут вычислены и включены в качестве объектов, что позволит интегрировать мультимодальные геопространственные данные и улучшить пространственное представление во время обучения модели. DISABLE_GEOMETRY—Вставки местоположений не будут использоваться, и модель будет полагаться исключительно на существующие табличные переменные без встраивания пространственной информации, полученной со спутника. Это значение по умолчанию	Boolean

Пример кода

TrainUsingAutoML, пример (окно Python)

Это пример использования функции TrainUsingAutoML.

# Name: TrainUsingAutoML.py
# Description: Train a machine learning model on feature or tabular data with
# automatic hyperparameter selection.
  
# Import system modules
import arcpy
import os

# Set local variables

datapath  = "path_to_data" 
out_path = "path_to_trained_model"

in_feature = os.path.join(datapath, "train_data.gdb", "name_of_data")
out_model = os.path.join(out_path, "model.dlpk")

# Run Train Using AutoML Model
arcpy.geoai.TrainUsingAutoML(in_feature, out_model, "price", None, 
                             "bathrooms #;bedrooms #;square_feet #", None, None, 
                             240, "BASIC")

Параметры среды

Выходная система координат, Географические преобразования

Информация о лицензиях

Basic: Нет
Standard: Нет
Advanced: Да

Связанные разделы

Отзыв по этому разделу?