Инструмент Подготовка данных для прогноза упрощает разбиение входных объектов для создания моделей прогнозирования. Инструмент извлекает информацию из независимых переменных, объектов расстояния и независимых растров для разбиения данных на обучающие и тестовые. Он также позволяет выполнять пересчет исходных данных для учета дисбаланса в данных. Балансировка данных полезна для повышения эффективности модели при прогнозировании редких событий.
Цель прогнозного моделирования — выявить как можно больше базовых закономерностей, обеспечивая при этом возможность эффективной генерализации моделью новых данных в будущем. Модели прогнозирования используют входные данные для обучения. Эти входные данные называются обучающими данными. При построении модели и ее обучении на входных данных цель состоит в том, чтобы достичь общего соответствия, которое отражает базовые закономерности в обучающих данных, сохраняя при этом высокую эффективность прогнозирования на ранее неизвестных новых данных. Цель не состоит в том, чтобы идеально воспроизвести обучающие данные, так как это приведёт к чрезмерной подгонке. В то же время следует избежать чрезмерной обобщенности, которая может привести к недостаточной подгонке и пропуску ключевых закономерностей в данных.

При разработке модели прогнозирования мы хотим быть уверены в ее хорошей работе на неизвестных данных (данные, которые не использовались для обучения модели). Достижение хорошего соответствия подразумевает оценку модели с использованием зарезервированных данных, где известны истинные значения прогнозируемой переменной, но эти значения не использовались для обучения модели. Это позволяет оценить производительность модели на неизвестных данных с использованием различных метрик. Зарезервированные данные, содержащие эти истинные значения, обычно называются тестовыми данными или проверочными данными. Обычно тестовые данные отделяются от набора обучающих данных и резервируются специально для оценки модели. Инструмент Подготовка данных для прогноза упрощает процесс разбиения входных объектов на обучающие и тестовые наборы для более эффективного обучения модели.

Разбиение данных
Разбиение данных на поднаборы обучающих и тестовых данных рекомендуется при обучении и оценке моделей прогнозирования.
Параметр Тип разбиения имеет две опции для разбиения данных:
- Произвольное разбиение — тестовый поднабор выбирается произвольно и, следовательно, пространственно распределяется по всей изучаемой области.
- Пространственное разбиение — пространственный тестовый поднабор пространственно непрерывен и отделен от обучающего поднабора. Пространственное разбиение создается путем произвольного выбора объекта и определения его K ближайших соседей. Преимущество использования пространственного поднабора тестовых данных заключается в том, что тестовые данные будут имитировать будущий набор данных прогнозирования, который не находится в той же изучаемой области, что и обучающие данные.
Утечка данных
Важно быть внимательным при выборе данных для обучения из-за возможной утечки данных. Утечка данных происходит, когда обучающие данные содержат информацию, к которой модель не будет иметь доступа во время будущих прогнозов. Это может привести к существенной переоценке прогностических возможностей модели. Например, если вы обучаете модель, используя дневные задержки авиарейсов, чтобы предсказать задержки авиарейсов утром того же дня, когда вы хотите предсказать новый день, вам придется подождать до полудня, чтобы сделать прогнозы об утре, но задержки к тому времени уже произошли бы.
Однако утечка данных также может быть более незаметной. Например, соседние переписные районы, вероятно, будут демонстрировать сходство из-за пространственной автокорреляции. Когда модель обучается на одном переписном районе и тестирует ее на соседнем, она, скорее всего, будет работать достаточно хорошо. Однако при прогнозировании по переписным районам в другом штате производительность модели может существенно снизиться. Это связано с тем, что обучающие данные содержат информацию из одной области, но в наборе данных прогнозирования отсутствует аналогичная информация из другого штата. Чтобы уменьшить утечку данных из-за пространственной близости, установите для параметра Тип разбиения значение Пространственное разбиение. Можно создать пространственное разбиение на обучающие и тестовые данные перед обучением с помощью инструмента Подготовка данных для прогноза или оценить различные пространственные разбиения с помощью инструмента Оценка прогнозов перекрестной проверкой.
Работа с несбалансированными данными
Несбалансированные данные относятся к набору данных, распределение которых неравномерно или непропорционально. В контексте задач классификации несбалансированные данные возникают, когда один класс (класс меньшинства) имеет значительно меньше объектов, чем другие классы (классы неменьшинства). Этот дисбаланс может привести к проблемам с эффективным обучением моделей машинного обучения. Например, в задаче бинарной классификации, где мы прогнозируем, произойдет ли лесной пожар, если 99 процентов объектов указывают на отсутствие лесного пожара (класс большинства) и только 1 процент указывает на лесной пожар (класс меньшинства), данные являются несбалансированными. Эта проблема проявляется в результатах модели как низкая чувствительность к этим более редким категориям, что указывает на то, что модель с трудом может правильно идентифицировать многие связанные с ними объекты. Например, если вы прогнозируете, в каких округах будет распространено редкое заболевание, или выявляете лиц, совершающих мошенничество, точное распознавание этих редких категорий становится критически важным, поскольку они часто являются наиболее важными случаями для решения рассматриваемой проблемы. Если модель не может эффективно изучать закономерности во всех классах, это может привести к плохой генерализации новых данных и снижению эффективности модели.
В пространственном контексте несбалансированные данные могут быть результатом смещения выборки. Это может привести к получению обучающих выборок с четкими пространственными кластерами, которые не будут точно представлять всю генеральную совокупность. Например, опросы по сбору данных часто фокусируются на территориях вблизи дорог, троп и других легкодоступных мест, что вносит неточности в модель и потенциально приводит к предвзятым выводам. Этот инструмент предлагает несколько вариантов методов балансировки для повторной выборки данных и предотвращения подобных проблем.
Методы балансировки
Параметр Тип балансировки уравновешивает несбалансированное значение параметра Переменная для прогнозирования или уменьшает пространственное смещение значения параметра Входные данные.
Примечание:
Если параметр Тип разбиения установлен на Произвольное разбиение или Пространственное разбиение, метод балансировки применяется только к выходным объектам в обучающих данных. Такой подход гарантирует, что тестовые объекты останутся в своем первоначальном, неизмененном виде для проверки, помогая предотвратить проблемы утечки данных.
Параметр Тип балансировки поддерживает следующие опции, помогающие подготовить обучающие данные:
- Произвольная недостаточная выборка —произвольная недостаточная выборка - это метод, используемый для балансировки несбалансированных данных путем произвольного удаления объектов из классов, не являющихся меньшинством, до тех пор, пока все классы не будут иметь одинаковое количество объектов.

Объекты, выделенные синим цветом, относятся к классу меньшинства, а объекты, выделенные оранжевым цветом, относятся к классу неменьшинства. Если применить к данным Произвольную недостаточную выборку, инструмент произвольным образом удалит оранжевые объекты, так что количество оранжевых объектов будет соответствовать количеству синих объектов. - Недостаточная выборка Томека - недостаточная выборка Связей Томека является методом, используемым для балансировки несбалансированных данных путем удаления объектов из классов неменьшинства, которые находятся близко к классу меньшинства в пространстве атрибутов. Целью этого варианта является улучшение разделения между классами и установление четкой границы принятия решений для древовидной модели, такой как Классификация на основе леса и классификация с бустингом и регрессия. Этот вариант не гарантирует, что все классы будут иметь одинаковое количество объектов.

Объекты, выделенные синим цветом, относятся к классу меньшинства, а объекты, выделенные оранжевым цветом, относятся к классу неменьшинства. В пространстве переменных любая пара объектов из разных классов, являющихся ближайшими соседями друг друга, называется Связью Томека. Если применить к данным метод недостаточной выборки Томека, инструмент удалит оранжевый объект, если у него есть Связь Томека с синим объектом. - Пространственное прореживание —Пространственное прореживание — это метод уменьшения эффекта смещения выборки в модели путем обеспечения минимального заданного пространственного разделения между объектами.
Если в качестве прогнозируемой переменной выбирается категориальная переменная, пространственное прореживание применяется к каждой группе независимо, чтобы обеспечить сбалансированное представление в каждой категории; в противном случае оно будет реализовано по всему набору обучающих данных независимо от значений атрибутов.

Любые объекты, попадающие в пределы обозначенного буферного расстояния, будут удалены. - Недостаточная выборка K-медоидов - Недостаточная выборка K-медоидов является методом, используемым для балансировки несбалансированных данных путем сохранения только некоторого количества репрезентативных объектов в классе неменьшинства, чтобы все классы имели одинаковое количество объектов. Если применить к данным метод Недостаточной выборки K-медоидов, инструмент сохранит только те K объекты, которые являются медоидами в пространстве переменных из класса неменьшинства. Используйте K-медоиды вместо другого алгоритма кластеризации, чтобы гарантировать наличие центрального репрезентативного ранее существовавшего объекта в каждом кластере.

Число K равно числу объектов в классе меньшинства, которое равно 4. Кластеры создаются внутри каждого класса зависимых переменных и кластеризуются на основе значений независимых переменных. Остальные объекты в классе неменьшинства берутся из медоида каждого кластера. - Произвольная избыточная выборкаПроизвольная избыточная выборка — это метод, используемый для балансировки несбалансированных данных путем дублирования произвольно выбранных объектов в классах меньшинства до тех пор, пока все классы не будут иметь одинаковое количество объектов.

Объекты, выделенные синим цветом, относятся к классу меньшинства, а объекты, выделенные оранжевым цветом, относятся к классу неменьшинства. Если применить к данным Произвольную избыточную выборку, инструмент произвольным образом выберет и продублирует синие объекты, так что количество синих объектов будет соответствовать количеству оранжевых объектов. Переменные и география дублированного объекта такие же, как у исходного объекта. - Избыточная выборка SMOTE — Избыточная выборка SMOTE (метод синтетической избыточной выборки меньшинства) — это метод, используемый для балансировки несбалансированных данных путем генерации синтетических объектов в классе меньшинства до тех пор, пока все классы не будут иметь одинаковое количество объектов. Выбирается объект из класса меньшинства, выбирается близкий объект из того же класса меньшинства в пространстве атрибутов, и новые атрибуты генерируются как интерполяция между этими двумя объектами. Геометрия нового синтетического объекта будет соответствовать геометрии первоначально выбранного объекта.

Объекты, выделенные синим цветом, относятся к классу меньшинства, а объекты, выделенные оранжевым цветом, относятся к классу неменьшинства. Если применить к данным избыточную выборку SMOTE, инструмент сгенерирует синтетические объекты путем интерполяции значений между двумя произвольно выбранными объектами из класса меньшинства в пространстве атрибутов. География синтетического объекта совпадает с географией первоначально выбранного объекта, а переменные интерполируются из выбранного объекта.

Выходные данные
Инструмент создаст сообщения геообработки и два набора выходных данных: выходной класс объектов и, дополнительно, выходной класс тестового поднабора объектов.
Сообщения геообработки
Вы можете получить доступ к сообщению, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку или развернув раздел сообщений на панели Геообработка. Вы также можете получить доступ к сообщениям предыдущего запуска этого инструмента в истории геообработки. Сообщение включает таблицу Диагностика диапазона зависимых переменных и таблицу Диагностика диапазона независимых переменных.
В таблице Диагностика диапазона зависимых переменных перечислены переменные, которые будут предсказаны, в то время как в таблице Диагностика диапазона независимых переменных перечислены все указанные независимые переменные. Если переменная непрерывна, в таблице суммируется минимальное и максимальное значение в поле. Если переменная категориальная, в таблице перечисляются все категории и процент объектов в данной категории. Если для параметра Тип разбиения задано Произвольное разбиение или Пространственное разбиение, в таблицу также будут включены те же диагностические данные для поднабора тестовых объектов.
Дополнительные выходные данные
Этот инструмент также создает выходной класс объектов и дополнительный выходной класс тестового поднабора объектов.
Выходные объекты
Выходные объекты могут использоваться как обучающие в инструментах Классификация на основе леса и классификация с бустингом и регрессия, Обобщенная линейная регрессия и Прогнозирование только присутствия, а так же для других моделей. Поля этого класса объектов включают все независимые переменные, все независимые объекты расстояний и переменную для прогнозирования. Если параметр Присоединить все поля из входных объектов включен, выходные объекты будут содержать все поля из входных объектов. Если параметр Кодировать категориальную независимую переменную включен, для каждой категории из категориальной независимой переменной будет создано поле. Каждый объект будет иметь значение 0 или 1. 1 означает, что объект находится в этой категории, 0 означает, что он находится в другой категории. Если для параметра Тип разбиения задано Нет, выходные объекты будут содержать все входные объекты.
Выходной тестовый поднабор объектов
Выходной тестовый поднабор объектов представляет собой поднабор входных объектов, которые могут использоваться в качестве тестовых. Например, вы можете использовать выходной поднабор тестовых объектов для оценки точности модели с помощью инструмента Прогнозировать, используя файл модели пространственной статистики.
Определенный процент входных объектов зарезервирован для выходного тестового поднабора объектов. Укажите процент в параметре Процент данных в качестве тестового поднабора. Поля этого класса объектов включают все независимые переменные, все независимые объекты расстояний и переменную для прогнозирования. Если параметр Кодировать категориальную независимую переменную включен, для каждой категории будет создано поле. Каждый объект будет иметь значение 0 или 1. 1 означает, что объект находится в этой категории, 0 означает, что он находится в другой категории.
Этот класс объектов создается только в том случае, если для параметра Тип разбиения задано Произвольное разбиение или Пространственное разбиение.
Рекомендации
Ниже приведены рекомендации по использованию этого инструмента:
- Важно убедиться, что при использовании категориальных переменных в качестве значения параметра Переменная для прогнозирования или Независимые переменные каждый уровень категории появляется в обучающих данных. Это важно, поскольку модели должны видеть и учиться на каждой возможной категории, прежде чем делать прогнозы на основе новых данных. Если в независимых переменных в тестовых данных или данных проверки появляется категория, которой не было в обучающих данных, модель не будет работать. Инструмент не будет выполнен, если ему не удастся получить все уровни категорий в наборе обучающих данных после 30 попыток итераций.
- После того, как данные сбалансированы, их не следует использовать в качестве проверочных или тестовых данных, поскольку они больше не отражают распределение данных, которое будет измеряться в реальном мире. Данные с избыточной выборкой никогда не следует использовать для оценки производительности модели в качестве проверочных данных. Использовать данные с недостаточной выборкой можно, однако это не рекомендуется. По этой причине обучающие и тестовые наборы данных разбиваются перед балансировкой, и балансируется только обучающий набор.
- При кодировке категориальных переменных будут созданы двоичные переменные (0 и 1) для каждой категории, которые добавляются в таблицы атрибутов выходных объектов обучения и тестирования. Для каждой категории, 1 означает, что объект находится в этой категории, а 0 - в другой категории. При использовании линейной модели, такой как обобщенная линейная регрессия, необходимо исключить по крайней мере одну из этих бинарных переменных из независимых переменных, чтобы избежать идеальной мультиколлинеарности.
- После выбора окончательной модели (например, окончательного типа модели, выбора параметров и переменных) вам может потребоваться переобучить окончательную модель, используя полный набор данных. Если вы изначально разбили данные на обучающие и тестовые, можно повторно объединить эти наборы данных или снова запустить инструмент Подготовка данных для прогноза, установив параметр Тип разбиения на Без разбиения, а затем запустить окончательную выборку модели. Окончательный файл модели, полученный в результате этих запусков модели или сделанных прогнозов, будет использовать полный экстент доступных данных для обучения. Этот этап анализа не является обязательным, но многие аналитики предпочитают его выполнять.
- При извлечении данных из растров значение, извлеченное в точку, может не точно соответствовать ячейке в нижележащем растре. Это связано с тем, что при извлечении числовых значений из растров в точки применяется билинейная интерполяция.
Список литературы
Для внедрения этого инструмента были использованы следующие ресурсы:
- Chawla, N., K. Bowyer, L. Hall & W.P. Kegelmeyer. 2002. “SMOTE: Synthetic Minority Over-sampling Technique”. Журнал исследований искусственного интеллекта. 16: 321-357. https://doi.org/10.1613/jair.953.
- Tomek, I. 1976. “Two Modifications of CNN”. IEEE Transactions on Systems, Man, and Cybernetics. 11: 769 – 772. https://doi.org/10.1109/TSMC.1976.4309452.
- Wei-Chao L., T. Chih-Fong, H. Ya-Han, and J. Jing-Shang. 2017. “Clustering-based undersampling in class-imbalanced data”. Information Sciences. 409: 17-26. https://doi.org/10.1016/j.ins.2017.05.008.
Связанные разделы
- Обзор группы инструментов Моделирование пространственных отношений
- Подготовка данных для прогноза
- Оценка прогнозов Перекрестной проверкой
- Классификация на основе леса и регрессия, регрессия с бустингом
- Обобщенная линейная регрессия
- Прогнозирование только присутствия (MaxEnt)
- Как работает Оценка прогнозов Перекрестной проверкой