| Подпись | Описание | Тип данных |
Входные объекты | Объекты, к которым будет применено разбиение, извлечение или балансировка. | Feature Class |
Выходные объекты | Выходные объекты которые будут использоваться как обучающие объекты в инструменте модели. | Feature Class |
Тип разбиения (Дополнительный) | Определяет метод, который будет использоваться для разделения входных объектов на обучающие и тестовые поднаборы.
| String |
Выходной тестовый поднабор объектов (Дополнительный) | Поднабор параметра Входные объекты будет использован в качестве тестовых объектов. Этот параметр доступен, если Тип разбиения установлен на Произвольное разбиение или Пространственное разбиение. | Feature Class |
Переменная для прогнозирования (Дополнительный) | Переменная из параметра Входные объекты, содержащая значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях. | Field |
Рассматривать переменную как Категориальную (Дополнительный) | Определяет, будет ли значение параметра Переменная для прогнозирования интерпретироваться как категорийная переменная.
| Boolean |
Независимые переменные (Дополнительный) | Список полей, представляющих независимые переменные, которые помогут прогнозировать значения или категории для параметра Переменная для прогнозирования. Включите опцию Категориальная для любых переменных, которые представляют классы или категории (например, почвенно-растительный покров – его наличие или отсутствие). | Value Table |
Независимые объекты расстояния (Дополнительный) | Независимые объекты расстояния обучения. Независимые переменные будут созданы автоматически, путем вычисления расстояния от предоставленных объектов до Входных объектов. Расстояния будут вычислены от каждого из объектов набора, указанного в параметре Входные объекты до ближайшего объекта из этого набора. Если входные объекты являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. | Feature Layer |
Независимые растры (Дополнительный) | Независимые переменные обучения, извлеченные из растров. Независимые переменные обучения будут автоматически созданы путем извлечения значений ячеек растра. Для каждого из Входных объектов значение ячейки растра извлекается в именно в этом местоположении. Билинейный пересчет растра используется, если значение растра извлекается из непрерывных растров. Метод ближайшего соседа используется, если значение растра извлекается из категориальных растров. Включите опцию Категориальная для любых переменных, которые представляют классы или категории например, почвенно-растительный покров – его наличие или отсутствие. | Value Table |
Конвертировать полигоны в разрешение растра для обучения (Дополнительный) | Определяет то, как полигоны будут рассматриваться, если Входные объекты являются полигонами с категориальной Переменной для прогнозирования, и заданы только Независимые растры.
| Boolean |
Процент данных как тестовый поднабор (Дополнительный) | Процент входных объектов, которые будут сохранены как тестовый или проверочный набор данных. Значение по умолчанию равно 10. | Double |
Тип балансировки (Дополнительный) | Определяет метод, который будет использоваться для балансировки несбалансированного значения параметра Переменная для прогнозирования или для пространственного смещения входных данных. Метод балансировки применим только к параметру Выходные объекты.
| String |
Минимальное расстояние ближайшего соседства (Дополнительный) | Минимальное расстояние между двумя любыми точками присутствия или двумя любыми точками в одной и той же категории параметра Переменной для прогнозирования, если применено пространственное прореживание. | Linear Unit |
Число итераций прореживания (Дополнительный) | Число итераций, которое будет использовано для поиска оптимального решения пространственного прореживания, с поддержанием минимального возможного числа объектов, с тем, чтобы не было двух объектов в пределах Минимального расстояния ближайшей окрестности. Минимальное число итераций - 1, а максимальное - 50. Значение по умолчанию равно 10. | Long |
Кодировать категориальную независимую переменную (Дополнительный) | Определяет, будет ли кодирована категориальная независимая переменная.
| Boolean |
Присоединить все поля из входных объектов (Дополнительный) | Указывает, будут ли все поля скопированы из входных пространственных объектов в выходные объекты.
| Boolean |
Краткая информация
Улучшает данные для рабочих процессов прогнозирования в инструментах Классификация на основе леса, Классификация с бустингом и регрессия, Обобщенная линейная регрессия, Прогнозирование только присутствия, а так же для других моделей. Это включает в себя разделение объектов на обучающие и тестовые наборы, извлечение переменных из растров и объектов расстояния, балансировку данных для повышения точности классификации и выполнение пространственного прореживания для пространственных данных со смещением.
Более подробно о том, как работает Подготовка данных для прогноза
Иллюстрация

Использование
Обучающие данные, к которым применялась балансировка, должны использоваться только для обучения моделей прогнозирования. Модели не должны проверяться на сбалансированных данных, чтобы избежать ошибок в точности и утечки данных.
Для использования растров в качестве независимых переменных необходима лицензия Дополнительный модуль ArcGIS Spatial Analyst.
Если вы используете классификацию для прогнозирования редких событий или несбалансированных категорий, используйте параметр Тип балансировки, чтобы сбалансировать число выборок в пределах каждого категориального уровня. Методы избыточной выборки увеличат общее число объектов, а методы недостаточной выборки понизят число объектов.
Если параметр Тип разбиения установлен на Произвольное разбиение или Пространственное разбиение, выходные тестовые объекты можно использовать для оценки точности модели с помощью инструмента Прогнозировать, используя файл модели пространственной статистики. Убедитесь, что в качестве выходных данных указан файл модели пространственной статистики, перед тем как запускать выбранный инструмент анализа.
Если параметр Тип разбиения установлен на Произвольное разбиение или Пространственное разбиение, инструмент проверит, что все категориальные уровни как в переменной для прогнозирования, так и в независимых переменных будут представлены в выходных обучающих объектах. В тестовых наборах данных не обязательно должны присутствовать все категориальные уровни.
Параметры
arcpy.stats.PrepareData(in_features, out_features, {splitting_type}, {out_test_features}, {variable_predict}, {treat_variable_as_categorical}, {explanatory_variables}, {distance_features}, {explanatory_rasters}, {use_raster_values}, {percent}, {balancing_type}, {thinning_distance_band}, {number_of_iterations}, {encode_variables}, {append_all_fields})| Имя | Описание | Тип данных |
in_features | Объекты, к которым будет применено разбиение, извлечение или балансировка. | Feature Class |
out_features | Выходные объекты которые будут использоваться как обучающие объекты в инструменте модели. | Feature Class |
splitting_type (Дополнительный) | Определяет метод, который будет использоваться для разделения входных объектов на обучающие и тестовые поднаборы.
| String |
out_test_features (Дополнительный) | Поднабор параметра in_features будет использован в качестве тестовых объектов. Этот параметр доступен, если параметр splitting_type установлен на RANDOM_SPLIT или SPATIAL_SPLIT. | Feature Class |
variable_predict (Дополнительный) | Переменная из значения параметра in_features, содержащая значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях. | Field |
treat_variable_as_categorical (Дополнительный) | Определяет, будет ли значение параметра variable_predict интерпретироваться как категорийная переменная.
| Boolean |
explanatory_variables [explanatory_variables,...] (Дополнительный) | Список полей, представляющих независимые переменные, которые помогут прогнозировать значения или категории variable_predict. Используйте параметр CATEGORICAL для переменных, которые представляют классы или категории (например, почвенно-растительный покров – его наличие или отсутствие). | Value Table |
distance_features [distance_features,...] (Дополнительный) | Независимые объекты расстояния обучения. Независимые переменные будут созданы автоматически, путем вычисления расстояния от предоставленных объектов до параметра in_features. Расстояния будут вычислены от каждого из объектов набора, указанного в параметре in_features до ближайшего объекта из этого набора. Если входные объекты являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. | Feature Layer |
explanatory_rasters [explanatory_rasters,...] (Дополнительный) | Независимые переменные обучения, извлеченные из растров. Независимые переменные обучения будут автоматически созданы путем извлечения значений ячеек растра. Для каждого объекта в in_features значение ячейки растра извлекается в именно в этом местоположении. Билинейный пересчет растра используется, если значение растра извлекается из непрерывных растров. Метод ближайшего соседа используется, если значение растра извлекается из категориальных растров. Используйте параметр CATEGORICAL для любого растра, который представляют классы или категории например, почвенно-растительный покров – его наличие или отсутствие. | Value Table |
use_raster_values (Дополнительный) | Определяет то, как полигоны будут рассматриваться, если параметр in_features задан полигонами с категориальной variable_predict, и заданы только параметр explanatory_rasters.
| Boolean |
percent (Дополнительный) | Процент входных объектов, которые будут сохранены как тестовый или проверочный набор данных. Значение по умолчанию равно 10. | Double |
balancing_type (Дополнительный) | Определяет метод, который будет использоваться для балансировки несбалансированного значения параметра variable_predict или для пространственного смещения входных данных. Метод балансировки применим только к параметру out_features.
| String |
thinning_distance_band (Дополнительный) | Минимальное расстояние между двумя любыми точками присутствия или двумя любыми точками в одной и той же категории параметра variable_predict, если применено пространственное прореживание. | Linear Unit |
number_of_iterations (Дополнительный) | Число итераций, которое будет использовано для поиска оптимального решения пространственного прореживания, с поддержанием минимального возможного числа объектов, с тем, чтобы не было двух объектов в пределах thinning_distance_band. Минимальное число итераций - 1, а максимальное - 50. Значение по умолчанию равно 10. | Long |
encode_variables (Дополнительный) | Определяет, будет ли кодирована категориальная независимая переменная.
| Boolean |
append_all_fields (Дополнительный) | Указывает, будут ли все поля скопированы из входных пространственных объектов в выходные объекты.
| Boolean |
Пример кода
Скрипт окна Python, демонстрирующий использование функции PrepareData.
# Prepare data for prediction.
import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.PrepareData(
in_features = r"in_feature_class",
out_features = r"out_feature_class",
splitting_type="RANDOM_SPLIT",
variable_predict=None,
treat_variable_as_categorical="NUMERIC"
)В следующем автономном скрипте показано использование функции PrepareData.
# Prepare data for prediction.
import arcpy
# Set the current workspace.
arcpy.env.workspace = r"c:\data\project_data.gdb"
# Run tool
arcpy.stats.PrepareData(
in_features = r"in_feature_class",
out_features = r"out_feature_class",
splitting_type="RANDOM_SPLIT",
variable_predict=None,
treat_variable_as_categorical="NUMERIC"
)Параметры среды
Информация о лицензиях
- Basic: Да
- Standard: Да
- Advanced: Да
Связанные разделы
- Обзор группы инструментов Моделирование пространственных отношений
- Оценка прогнозов Перекрестной проверкой
- Классификация на основе леса и регрессия, регрессия с бустингом
- Обобщенная линейная регрессия
- Прогнозирование только присутствия (MaxEnt)
- Как работает Оценка прогнозов Перекрестной проверкой
- Как работает Подготовка данных для прогноза