Подпись | Описание | Тип данных |
Входные геостатистические слои | Геостатистические слои, представляющие результаты интерполяции. Каждый слой сравнивается и ранжируется. | Geostatistical Layer |
Выходная таблица перекрестной проверки | Выходная таблица содержит статистику перекрестной проверки и ранги для каждого результата интерполяции. Итоговые ранги результатов интерполяции сохраняются в поле RANK. | Table |
Выходной геостатистический слой с самым высоким рангом (Дополнительный) | Выходной геостатистический слой результата интерполяции с самым высоким рангом. У этого результата интерполяции будет значение 1 в поле RANK выходной таблицы перекрестной проверки. Если для результата интерполяции с наивысшим рангом есть совпадения или все результаты исключены по критериям исключения, слой не будет создан, даже если указано значение . Если это произойдет, инструмент возвратит сообщения с предупреждениями. | Geostatistical Layer |
Метод сравнения (Дополнительный) | Задает метод, используемый для сравнения и ранжирования результатов интерполяции.
| String |
Критерий (Дополнительный) | Задает критерий, используемый для сравнения и ранжирования результатов интерполяции.
| String |
Иерархия критериев (Дополнительный) | Иерархия критериев, которая будет использоваться для иерархической сортировки с допусками. Введите несколько критериев в порядке уменьшения их приоритета. Результаты интерполяции ранжируются по первому критерию, а любые совпадения отменяются вторым. Совпадения во втором критерии отменяются третьим и т.д. Статистика перекрестной проверки является непрерывным значением и, как правило, не имеет точных совпадений, поэтому можно указать допуски для создания совпадений в каждом из критериев. Для каждой строки задайте критерий в первом столбце, тип допуска (в процентах или абсолютный) во втором столбце и значение допуска - в третьем. Если значение допуска не указано, допуск использоваться не будет. Этот вариант подходит для последней строки, чтобы не было совпадений для результата интерполяции с наивысшим рангом. Для каждой строки (уровня иерархии) доступны следующие критерии:
Например, можно задать значение Среднеквадратичной ошибки (точности) с допуском 5 процентов в первой строке и значение Средней ошибки (смещения) без допуска - во второй строке. Такие параметры сначала ранжируют результаты интерполяции по наименьшей среднеквадратичной ошибке (высшей точности прогнозирования), и все результаты интерполяции, значения среднеквадратичной ошибки которых находятся в пределах 5 процентов от наиболее точного результата, будут считаться совпадающими по точности прогнозирования. Среди совпадающих результатов результат со средней ошибкой, ближайшей к нулю (наименьшим смещением), получит наивысший ранг. | Value Table |
Взвешенный критерий (Дополнительный) | Несколько критериев с весами, используемыми для ранжирования результатов интерполяции. Введите критерий и вес для каждой строки. Результаты интерполяции будут ранжированы независимо по каждому из критериев, и для окончательного определения рангов результатов интерполяции будет использоваться средневзвешенное значение рангов.
| Value Table |
Критерий исключения (Дополнительный) | Критерий и связанные значения, которые будут использоваться для исключения результатов интерполяции из сравнения. Исключенные результаты не получат рангов и получат значение No в поле Included выходной таблицы перекрестной проверки.
| Value Table |
Доступно с лицензией Geostatistical Analyst.
Краткая информация
Сравнивает и ранжирует геостатистические слои, используя пользовательские критерии на основании статистики перекрестной проверки.
Результаты интерполяции могут ранжироваться на основе одного критерия (например, максимальной точности прогнозирования или минимального смещения), средневзвешенных рангов нескольких критериев или иерархической сортировки нескольких критериев (при которой совпадения в каждом из критериев нарушаются последующими критериями в иерархии). Критерии исключения также можно использовать для исключения из сравнения результатов интерполяции, которые не соответствуют минимальным стандартам качества. Выходными данными является таблица, суммирующая статистику перекрестной проверки и ранги для каждого результата интерполяции. При желании есть возможность получить выходной геостатистический слой результата интерполяции с наивысшим рангом для его использования в дальнейших рабочих процессах.
Иллюстрация
Использование
Перекрестная проверка – это метод получения результатов интерполяции "убрать одну точку". Этот метод позволяет последовательно удалить каждую точку набора данных и использовать для прогнозирования значения исключенной точки все оставшиеся точки. Затем прогнозирование перекрестной проверки сравнивается с реальным значением убранной точки, и полученная разница считается ошибкой перекрестной проверки (ошибка может быть положительной или отрицательной). Важность использования перекрестной проверки заключается в том, что если результат интерполяции эффективен для прогнозирования значений скрытых точек, он также должен быть эффективен и для прогнозирования неизвестных значений в новых местах, что и является целью интерполяции. Все критерии, используемые этим инструментом, основываются на сводной статистике результатов перекрестной проверки.
Хотя оценка результатов интерполяции с использованием сводной статистики перекрестной проверки является удобным и эффективным способом сравнения нескольких результатов интерполяции, она не заменяет экспертное знание данных и интерактивное исследование результатов. Просмотр диаграмм и отдельных ошибок перекрестной проверки часто выявляет закономерности в результатах, которые не очевидны из сводной статистики. Например, в ошибках перекрестной проверки часто присутствуют пространственные закономерности, когда одни области недооцениваются, а другие переоцениваются. Закономерности, подобные этому, могут быть не описываться сводной статистикой.
Подробнее об использовании перекрестной проверки для оценки результатов интерполяции
У параметра Метод сравнения есть три варианта сравнения статистики перекрестной проверки результатов интерполяции. У каждого варианта есть свои преимущества и недостатки:
- Один критерий - для сравнения и ранжирования результатов применяется один критерий. Вы можете ранжировать результаты по максимальной точности прогнозирования, минимальному смещению, наименьшей ошибке в худшем случае, наибольшей точности стандартной ошибки и наивысшей точности. Критерий задается параметром Критерий.
- Преимущества - этот вариант представляет собой простой и распространенный метод сравнения результатов интерполяции, если известно, что они стабильны и не противоречат друг другу. Он применим также для выбора между очень похожими результатами.
- Недостатки - результаты интерполяции часто оказываются неплохими по одним критериям неудовлетворительными - по другим, что может быть вызвано, например, высокой точностью прогнозирования с одновременным высоким значением смещения. В этом случае при ранжировании по одному критерию будут присваиваться высокие ранги нестабильным или вводящим в заблуждение результатам. При ранжировании по одному критерию рекомендуется использовать различные варианты Критерия исключения, чтобы обеспечить удаление нестабильных или вводящих в заблуждение результатов перед сравнением.
- Иерархическая сортировка с допусками - иерархическая сортировка используется для сравнения и ранжирования результатов. Несколько критериев задаются в порядке приоритета (сначала идет наивысший приоритет) в параметре Иерархия критериев. Результаты интерполяции ранжируются по первому критерию, а любые совпадения отменяются вторым. Совпадения во втором критерии отменяются третьим и т.д. Этот процесс моделируется Пользовательской сортировкой и иерархической сортировкой в программном обеспечении для работы с электронными таблицами (сортировка по A, затем по B, затем по C и т. д.). Однако статистика перекрестной проверки представлена непрерывными значениями и, как правило, не имеет точных совпадений, поэтому можно указать допуски (процентные или абсолютные) для создания связей в каждом из критериев.
- Преимущества — этот вариант использует несколько критериев и учитывает относительные различия статистики перекрестной проверки. Например, если один результат интерполяции оказывается намного лучше остальных по критерию наивысшего приоритета, этот результат получит наивысший ранг независимо от следующих в иерархии критериев.
- Недостатки - эффективность иерархической сортировки зависит от заданных значений допуска. Если допуски слишком малы, некоторые критерии могут оказаться неприменимыми, поскольку нет совпадений, которые можно было бы отменить. Если допуски слишком велики, в рейтингах может быть много совпадающих связей, вызванных тем, что многие результаты находятся в пределах допусков друг друга.
- Средневзвешенный ранг - средневзвешенный ранг нескольких критериев используется для сравнения и ранжирования результатов. Несколько критериев и связанных с ними весов указаны в параметре Взвешенные критерии. Результаты интерполяции ранжируются независимо по каждому из критериев, и для окончательного определения рангов используется средневзвешенное значение рангов. Критерии с высоким весом будут сильнее влиять на итоговые ранги, поэтому их можно использовать для задания предпочтения одних критериев над другими.
- Преимущества — этот вариант использует несколько критериев, позволяя отдать предпочтение одним критериям по сравнению с другими, и всегда применяет все критерии при сравнении.
- Недостатки — игнорируются относительные различия в значениях статистики перекрестной проверки. Например, все среднеквадратичные ошибки могут находиться в пределах очень небольшого допуска (что указывает на то, что все результаты имеют приблизительно одинаковую точность прогнозирования), но они все равно будут ранжированы от 1 до N по точности прогнозирования (для N результатов интерполяции). Однако значения средней ошибки могут сильно различаться в результатах (что указывает на большие различия в смещениях результатов), но они также будут ранжированы от 1 до N по критерию смещения. Взвешенное среднее использует только ранги критериев, и относительные различия в статистике перекрестной проверки в ранжировании игнорируются.
- Один критерий - для сравнения и ранжирования результатов применяется один критерий. Вы можете ранжировать результаты по максимальной точности прогнозирования, минимальному смещению, наименьшей ошибке в худшем случае, наибольшей точности стандартной ошибки и наивысшей точности. Критерий задается параметром Критерий.
Входные геостатистические слои можно создать в Мастере операций геостатистики или с помощью инструментов в группе Интерполяция.
Выходными данными является таблица, суммирующая статистику перекрестной проверки, описание результатов интерполяции и ранжирования, а также может включать презентацию или отчет. Выходными данными является таблица, суммирующая статистику перекрестной проверки, описание результатов интерполяции и ранжирования, а также может включать презентацию или отчет. Например, если использовалась интерполяция по методу взвешенных расстояний и по радиальным базисным функциям, выходная таблица не будет содержать поле значений средней стандартной ошибки, так как в этих методах не вычисляется средняя стандартная ошибка. Если статистика применяется к некоторым результатам интерполяции, но не ко всем, значение будет пустым для результатов, в которых статистика не применялась. Дополнительно, если какой-либо из входных геостатистических слоев был создан с использованием инструментов Эмпирический байесовский кригинг, Прогнозирование регрессии ЭБК или Эмпирический байесовский кригинг 3D, несколько результатов статистики перекрестной проверки будут включены в таблицу, которая не используется критериями этого инструмента; они добавлены с информационными целями, и будут содержать пустые значения для других методов интерполяции. Если используется усредненный ранг, в таблицу включаются ранги для всех указанных критериев и их взвешенное среднее.
Дополнительно вы можете использовать Выходной геостатистический слой с самым высоким рангом для создания копии входного геостатистического слоя с самым высоким рангом. Это полезно в ModelBuilder скриптах Python для автоматического предоставления лучшего результата интерполяции в последующие инструменты.
Во время работы инструмента сообщения геообработки и сообщения индикатора выполнения отображают вычисляемый в настоящий момент результат интерполяции. После вычисления и сравнения всех результатов, ранги выводятся в виде сообщений геообработки. Ранги также можно найти в выходной таблице перекрестной проверки.
Инструмент Исследовательская интерполяция выполняет такое же сравнение перекрестных проверок, но создает различные результаты интерполяции автоматически на основе входных точек и значений поля, перед сравнением и ранжированием.
В следующей таблице перечислены доступные критерии, статистика перекрестной проверки, которая их измеряет, и формулы, используемые для присвоения оценки каждому результату интерполяции (чем меньше оценка - тем лучше). Ранги для критериев определяются путем сортировки оценок каждого результата интерполяции.
Примечание:
По трем критериям оценка равна статистике перекрестной проверки.
Критерий Статистика перекрестной проверки Формула оценки Высшая точность прогнозирования
Среднеквадратичная ошибка
Результаты ранжируются по возрастанию среднеквадратичной ошибки.
Score = RootMeanSquareError
Наименьшее смещение
Средняя ошибка
Результаты ранжируются, начиная от ближайшей к нулю средней ошибки.
Score = AbsoluteValue( MeanError )
Наименьшая худшая ошибка
Максимальная абсолютная ошибка
Результаты ранжируются по минимальной максимальной абсолютной ошибке.
Score = MaximumAbsoluteError
Наивысшая точность стандартных ошибок
Среднеквадратичная нормированная ошибка
Результаты ранжируются по ближайшей к единице среднеквадратичной нормрованной ошибке.
Score = AbsoluteValue( RMSStdError - 1 )
Наивысшая точность
Средняя стандартная ошибка
Результаты ранжируются по минимальной средней стандартной ошибке.
Score = AverageStandardError
Если есть совпадения по какому-либо критерию, все связанные результаты получают одинаковый ранг, равный самому высокому общему рангу (где более высокий ранг соответствует меньшему номеру ранга). Например, упорядоченные от лучшего к худшему значения среднеквадратичной ошибки (12, 14, 14, 15, 16, 16, 18) получат ранги (1, 2, 2, 4, 5, 5, 7) в соответствии с критерием точности прогнозирования. Ранги 3 и 6 пропускаются из-за совпадающих значений.
Совпадения могут иметь место на разных стадиях сравнения. Совпадения чаще всего встречаются при использовании иерархической сортировки, поскольку все результаты, попадающие в пределы допуска, считаются совпадающими, и все результаты, находящиеся за пределами допуска, также считаются совпадающими. Совпадения также встречаются в средневзвешенном ранжировании, когда результаты интерполяции имеют разные ранги по разным критериям, что может привести к одинаковым средневзвешенным значениям рангов. Хотя и нечасто, совпадения могут также возникать при сравнении отдельных критериев (например, если у всех точки будет одинаковое значение). Совпадения по одному критерию также повлияют на средневзвешенный ранг, если в средневзвешенном ранжировании используются критерии.
Для иерархической сортировки задайте допуски относительно оценки критерия, а не статистики перекрестной проверки. Для критериев, в которых оценка равна значению статистики (высшая точность прогнозирования, наименьшая худшая ошибка и наибольшая точность), соответствующие значения допуска обычно очевидны. Например, если наименьшее значение среднеквадратичной ошибки результатов интерполяции равно 200, то 10-процентный допуск позволит включать все результаты со значениями среднеквадратичной ошибки, меньшими или равными 220: 200 + (10/100) x 200 = 220. И аналогично, 15-процентный абсолютный допуск позволит включать все результаты со значениями среднеквадратичной ошибки, меньшими или равными 215: 200 + 15 = 215.
Однако для критериев, в которых оценка не равна значению статистики (наименьшее смещение и наивысшая точность стандартных ошибок), соответствующие значения допуска менее ясны. Для статистики средней ошибки систематическая ошибка оценивается по абсолютному значению средней ошибки. Это означает, например, что средние значения ошибок -4 и 6 имеют относительную разницу в 50 процентов, потому что они на 50 процентов отличаются по абсолютной величине: ABS(-4) + (50/100) x ABS(-4) = ABS(6). Однако их абсолютная разница равна 2: ABS(-4) + 2 = ABS(6).
Для статистики среднеквадратичной нормированной ошибки точность стандартной ошибки оценивается по абсолютной разнице между значением среднеквадратичной нормированной ошибки и идеальным значением, равным 1. Это означает, например, что у значений среднеквадратичной нормированной ошибки 0,2 и 2,4 относительная разница равна 75 процентам. Это происходит потому, что сравнив значения 0,2 и 2,4 с идеальным значением, равным 1, мы получаем разницу в 1,75 раза (то есть увеличение на 75 процентов) - поскольку абсолютные разницы равны, соответственно, 0,8 и 1,4: ABS(0.2 - 1) + (75/100) x ABS(0.2 - 1) = ABS(2.4 - 1). Однако их абсолютная разница равна 0,6: ABS(0.2 - 1) + 0.6 = ABS(2.4 - 1).
Различные критерии требуют наличия всех геостатистических слоев для поддержки типа выходной стандартной ошибки. Если какие-либо геостатистические слои не поддерживают вычисление стандартной ошибки, некоторые опции для определенных параметров будут недоступны. Эти опции относятся к точности стандартных ошибок, точности, среднеквадратичной нормированной ошибке или средней стандартной ошибке. В контекстной вкладке Геостатистического слоя в группе Оформление в меню Тип отображения показаны поддерживаемые выходные типы для геостатистического слоя.
Более подробно о том, какие методы интерполяции вычисляют стандартную ошибку прогнозирования.
Значение Минимальное процентное уменьшение ошибки параметра Критерии исключения особенно полезен, когда неизвестны значения или диапазон интерполируемых точек (например, в автоматизированной среде). Эта опция позволяет исключить результаты интерполяции, которые недостаточно точны по сравнению с базовой непространственной моделью, прогнозирующей глобальное среднее значение во всех точках на карте. Эта относительная точность измеряется путем сравнения значения среднеквадратичной ошибки со среднеквадратическим отклонением значений интерполируемых точек. Среднеквадратичная ошибка должна быть, как минимум, на указанный процент меньше среднеквадратического отклонения, чтобы быть включенной в сравнение. Например, значение 10 означает, что среднеквадратичная ошибка должна быть как минимум на 10 процентов меньше среднеквадратического отклонения, чтобы ее можно было включить в сравнение и ранжирование.
В различных дисциплинах стандарты приемлемого уменьшения ошибок в результатах интерполяции различны. В физических науках при измерениях с высокой плотностью выборок ошибки часто уменьшаются более чем на 90 процентов. Однако в социальных науках уменьшение ошибок даже на 10–20% часто является очень значительным для исследователей.
Чтобы сравнение было корректным и понятным, рекомендуется использовать одни и те же точки и поля при создании каждого геостатистического слоя. Если какой-либо из слоев не использует тот же источнрик данных, вы получите сообщение с предупреждением.
Параметры
arcpy.ga.CompareGeostatisticalLayers(in_geostat_layers, out_cv_table, {out_geostat_layer}, {comparison_method}, {criterion}, {criteria_hierarchy}, {weighted_criteria}, {exclusion_criteria})
Имя | Описание | Тип данных |
in_geostat_layers [in_geostat_layer1,in_geostat_layer2,...] | Геостатистические слои, представляющие результаты интерполяции. Каждый слой сравнивается и ранжируется. | Geostatistical Layer |
out_cv_table | Выходная таблица содержит статистику перекрестной проверки и ранги для каждого результата интерполяции. Итоговые ранги результатов интерполяции сохраняются в поле RANK. | Table |
out_geostat_layer (Дополнительный) | Выходной геостатистический слой результата интерполяции с самым высоким рангом. У этого результата интерполяции будет значение 1 в поле RANK выходной таблицы перекрестной проверки. Если для результата интерполяции с наивысшим рангом есть совпадения или все результаты исключены по критериям исключения, слой не будет создан, даже если указано значение . Если это произойдет, инструмент возвратит сообщения с предупреждениями. | Geostatistical Layer |
comparison_method (Дополнительный) | Задает метод, используемый для сравнения и ранжирования результатов интерполяции.
| String |
criterion (Дополнительный) | Задает критерий, используемый для сравнения и ранжирования результатов интерполяции.
| String |
criteria_hierarchy [[criteria1, tol_type1, tol_val1], [criteria2, tol_type2, tol_val2],...] (Дополнительный) | Иерархия критериев, которая будет использоваться для иерархической сортировки с допусками. Введите несколько критериев в порядке уменьшения их приоритета. Результаты интерполяции ранжируются по первому критерию, а любые совпадения отменяются вторым. Совпадения во втором критерии отменяются третьим и т.д. Статистика перекрестной проверки является непрерывным значением и, как правило, не имеет точных совпадений, поэтому можно указать допуски для создания совпадений в каждом из критериев. Для каждой строки задайте критерий в первом столбце, тип допуска (в процентах или абсолютный) во втором столбце и значение допуска - в третьем. Если значение допуска не указано, допуск использоваться не будет. Этот вариант подходит для последней строки, чтобы не было совпадений для результата интерполяции с наивысшим рангом. Для каждой строки (уровня иерархии) доступны следующие критерии:
Например, можно задать значение ACCURACY с допуском 5 процентов в первой строке и значение BIAS без допуска - во второй строке. Такие параметры сначала ранжируют результаты интерполяции по наименьшей среднеквадратичной ошибке (высшей точности прогнозирования), и все результаты интерполяции, значения среднеквадратичной ошибки которых находятся в пределах 5 процентов от наиболее точного результата, будут считаться совпадающими по точности прогнозирования. Среди совпадающих результатов результат со средней ошибкой, ближайшей к нулю (наименьшим смещением), получит наивысший ранг. | Value Table |
weighted_criteria [[criteria1, weight1], [criteria2, weight2],...] (Дополнительный) | Несколько критериев с весами, используемыми для ранжирования результатов интерполяции. Введите критерий и вес для каждой строки. Результаты интерполяции будут ранжированы независимо по каждому из критериев, и для окончательного определения рангов результатов интерполяции будет использоваться средневзвешенное значение рангов.
| Value Table |
exclusion_criteria [[criteria1, value1], [criteria2, value2],...] (Дополнительный) | Критерий и связанные значения, которые будут использоваться для исключения результатов интерполяции из сравнения. Исключенные результаты не получат рангов и получат значение No в поле Included выходной таблицы перекрестной проверки.
| Value Table |
Пример кода
Скрипт Python, демонстрирующий использование функции CompareGeostatisticalLayers.
# Compare Simple kriging, EBK, and Kernel Interpolation results
# Rank results by highest prediction accuracy
# Exclude results with error reductions under 25%
myGALayers = ["Simple Kriging", "EBK", "Kernel Interpolation"]
outTable = "outCVtable"
outGALayer = "Result With Highest Rank"
compMethod = "SINGLE"
criterion = "ACCURACY"
exclCrit = [["MIN_PERC_ERROR", 25]]
arcpy.ga.CompareGeostatisticalLayers(myGALayers, outTable, outGALayer,
compMethod, criterion, None, None, exclCrit)
Скрипт Python, демонстрирующий использование функции CompareGeostatisticalLayers.
# Compare various interpolation results
# Rank results by highest weighted average rank
# Rank same results by hierarchical sorting
# Import system modules
import arcpy
# Check out the ArcGIS Geostatistical Analyst extension license
arcpy.CheckOutExtension("GeoStats")
# Allow overwriting output
arcpy.env.overwriteOutput = True
### Set shared parameters
# Set input and output locations
directory = "C:/data/"
outgdb = directory + "out.gdb/"
arcpy.env.workspace = directory
# Three interpolation results to compare
myGALayers = ["EBK", "Universal Kriging", "Kernel Interpolation"]
# Exclude results with error reductions under 25%
exclCrit = [["MIN_PERC_ERROR", 25]]
# Output geostatistical layer with highest rank
outGALayer = "Result With Highest Rank"
### Set weighted average rank parameters
# Output table of ranks and cross validation results
outTable = outgdb + "outWeightedAverageTable"
# Use weighted average rank
compMethod = "AVERAGE_RANK"
# Use all criteria with highest weight to prediction accuracy
weightedCrit = [
["ACCURACY", 3],
["BIAS", 1],
["WORST_CASE", 1],
["STANDARD_ERROR", 1],
["PRECISION", 1]
]
# Compare using weighted average rank
arcpy.ga.CompareGeostatisticalLayers(myGALayers, outTable, outGALayer,
compMethod, None, None, weightedCrit, exclCrit)
### Set hierarchical sorting parameters
# Output table of ranks and cross validation results
outTable = outgdb + "outHierSortTable"
# Use hierarchical sorting with tolerances
compMethod = "SORTING"
# Compare using highest prediction accuracy with a 10% tolerance
# Break ties by lowest bias
hierCrit = [
["ACCURACY", "PERCENT", 10],
["BIAS", "PERCENT", None]
]
# Compare using hierarchical sorting with tolerances
arcpy.ga.CompareGeostatisticalLayers(myGALayers, outTable, outGALayer,
compMethod, None, hierCrit, None, exclCrit)
Параметры среды
Информация о лицензиях
- Basic: Обязательно Geostatistical Analyst
- Standard: Обязательно Geostatistical Analyst
- Advanced: Обязательно Geostatistical Analyst