Решение проблем селективной выборки путем декластеризации данных

Доступно с лицензией Geostatistical Analyst.

Часто данные расположены в пространстве и не случайным образом, и не по регулярной сетке. По разным причинам выборка данных может быть селективной, с более высокой плотностью элементов выборки в некоторых местах. Это важно учитывать для надлежащего выполнения преобразования по методу нормальных меток и для того, чтобы гистограмма (а также интегральная функция распределения) выборки правильно отражала гистограмму всей генеральной совокупности. В случае селективной выборки данных при наличии пространственной автокорреляции получившаяся гистограмма выборки может не отражать гистограмму генеральной совокупности.

Примеры декластеризации

В выборке декластеризации на левом верхнем рисунке генеральная совокупность значений в 100 точках вдоль линии представлена в виде закрашенных окружностей. Это результат моделирования из процесса с пространственной автокорреляцией, постоянным средним и устойчивой положительной автокорреляцией. В качестве выборки используется каждая вторая точка, начиная с первой. Точки выборки представлены в виде окружностей. Справа в выборке декластеризации синим цветом показана гистограмма генеральной совокупности и фиолетовым цветом – гистограмма выборки.

Поскольку выборка – это половина генеральной совокупности, можно ожидать, что высота столбцов гистограммы выборки будет примерно вдвое меньше, чем у гистограммы генеральной совокупности, с некоторыми отклонениями. Слева внизу приведена селективная выборка данных: выбрана каждая пятая точка до точки 34, затем каждая точка до точки 70 и снова каждая пятая точка до конца. В результате опять получена выборка, представляющая половину генеральной совокупности. В результате предпочтительной выборки в средней области пространственных местоположений в выборке будет представлен более высокий процент средних значений, поэтому высота столбцов гистограммы выборки будет практически равна высоте столбцов гистограммы генеральной совокупности для значений от -3 до 1. В то же время более низкие и более высокие значения будут недостаточно представлены в гистограмме выборки.

Одно из решений проблем, связанных с селективной выборкой, – использование для данных весовых коэффициентов, когда в областях плотной выборки данным присваиваются меньшие веса (в результате в приведенном выше примере селективной выборки столбцы гистограммы выборки уменьшатся для значений от -3 до 1), а в областях редкой выборки – более высокие веса (в результате столбцы гистограммы выборки станут шире для более высоких и более низких значений). В ArcGIS Geostatistical Analyst Extension допустимы два метода. По умолчанию применяется метод декластеризации ячеек. В этом случае прямоугольные ячейки размещаются поверх местоположений данных в сетке, а весовой коэффициент, присваиваемый каждому местоположению данных, обратно пропорционален количеству точек данных в соответствующей ячейке.

Остается только выбрать размер и ориентацию сетки. В ArcGIS Geostatistical Analyst Extension предусмотрена диаграмма, которая показывает средневзвешенное значение среди всех данных для разных размеров ячеек. Рекомендуется выбирать размер ячейки в соответствии с минимальным средневзвешенным значением в случае селективной выборки данных в областях высоких значений, и наоборот, выбирать размер ячейки в соответствии с максимальным средневзвешенным значением в случае селективной выборки данных в областях низких значений.

В другой схеме используется полигональный метод, определяющий полигон вокруг каждого пространственного местоположения данных таким образом, что все точки внутри этого полигона расположены ближе к местоположению данных, чем любые другие местоположения, как показано на следующем рисунке.

Пример полигональной декластеризации

Местоположения данных показаны маленькими точками, вокруг них нарисованы полигоны с цветной штриховкой, показывающей размер полигонов. Идея заключается в назначении веса каждому местоположению данных пропорционально области, которую оно «представляет». Недостаток этого метода в том, что сложно определить веса около ребра. Реберные точки могут часто получать высокие весовые коэффициенты, если данные не окружены границей. В ArcGIS Geostatistical Analyst Extension граница представляет собой прямоугольник, что часто является причиной слишком высоких весовых коэффициентов в реберных точках.