Как работает инструмент Заполнить пропущенные значения—ArcGIS Pro

Инструмент Заполнить пустые значения замещает пропущенные значения (нули) оценочными значениями для минимизации влияния пустых значений на последующий анализ. Есть множество причин того, почему часть значений пропущены. Например, данные могу быть пропущены из-за временной поломки сенсора, недоступности образцов обучающей выборки или намеренного сокрытия значений данных из-за политики конфиденциальности. Если одно или более значений для объекта пропущено – большинство методов статистики по умолчанию исключают этот объект из анализа. Пропуск объектов, в свою очередь, может привести к ошибочному результату, так как анализ будет выполнен для неполного набора данных. Чтобы не терять важные данные, без которых вы можете получить пробелы в карте или сильно искаженные результаты анализа, воспользуйтесь возможностью заполнить пропущенные значения с помощью других данных в этом наборе данных или из других наборов (например, из набора данных с большей агрегацией). Для пространственных данных вы можете использовать значения ближайших пространственных соседей для вычисления пропущенных значений. В случае пространственно-временных данных вы также можете использовать ближайших временных соседей для вычисления пропущенных значений. Для непространственных данных вы можете использовать глобальную статистику поля, содержащего пропущенные значения, для заполнения пропущенных значений. Функция вычисления и заполнения пропущенных значений сохраняет все существующие значения и замещает пустые на основании выбранного метода. После заполнения пропущенных значений, набор данных можно анализировать как полный.

Например, в наборе данных Соединенных Штатов, в котором каждый из 50 штатов имеет данные за 100 лет об относительном доходе на душу населения, связанном с ним, в Калифорнии отсутствует 1 год данных (нулевое значение). Если вы попробуете построить куб пространство-время, все данные по Калифорнии будут исключены из анализа, по причине единственного пустого значения во всем наборе данных. Данные за остальные 99 лет по Калифорнии не будут анализироваться, так как только завершенный временной ряд может быть включен в анализ. Инструмент Заполнить пропущенные значения поможет вам аппроксимировать соседние значения для заполнения пропущенного и, соответственно, не потерять данные по Калифорнии в анализе.

Интерпретация результатов

В результате выполнения инструмента будет создано новое поле, содержащее как все существующие значения, так вычисленные вместо пропущенных, а также поле, указывающее на то, какие значения были оценочными. В сообщении инструмента также приводится информация о количестве добавленных записей в процентах от общего числа, о распределении данных до и после заполнения пустых значений, а также общее число и процент заполненных значений.

Выбор метода заполнения

Для заполнения пропущенных значений вы должны выбрать метод заполнения, например, среднее, минимум, максимум или медиану значений соседей. Если при заполнении вам хотите приуменьшить значения, используйте минимум, например, если вы вычисляете пропущенные значения в информации о студентах, получающих бесплатные обеды. Схожим образом, используйте максимум, если вы не заинтересованы в приуменьшении значений, например, если вы заполняете пропущенные значения в количестве жителей, получивших высшее образование. Используйте медиану, если предполагаете наличие локальных выбросов высоких или низких значений, например величин стоимости домов. Используйте среднее, если значения не должны отличаться от соседей.

Вы также должны решить, каким образом определяется набор соседей, значения которых будут использоваться для вычисления пропущенных значений. Для определения соседей используются самые разные пространственные взаимоотношения, например, фиксированное число соседей, соседи в пределах фиксированного расстояния или смежные объекты (то есть объекты с общими ребрами или с общими узлами).

Какой метод заполнения использовать, и каким образом определять соседей – напрямую связано с тем, для чего данные предназначены. Например, картографу может понадобиться заполнить полигоны с пустыми значениями для создания карты хорошего качества без пустот. В этом случае эффективным будет вычисление среднего значения с использованием большого числа соседей. Аналитик рынка недвижимости, для заполнения пустых значений в данных с ценами домов, в качестве определения соседей указывает фиксированное расстояние, и для заполнения использует медиану, чтобы избежать влияния выбросов.

При выборе комбинации метода заполнения и определения окрестности, обратите внимание на влияние соседей на объекты с пропущенными значениями и отдавайте преимущество тем методам, которые приведут к меньшим искажениям в результатах анализа. Например, вы – аналитик местного отдела здравоохранения, и к вам поступили данные по детям с отравлениями свинцом (информация по районам переписи), но для части районов данные отсутствуют. Для заполнения пропущенных значений в этом случае стоит использовать соседние полигоны со смежными границами, а в качестве метода заполнения – максимальное значение соседей. Использование смежных районов в этом случае наиболее эффективно, так как дома в соседних районах, скорее всего, приблизительно одного года постройки, а возраст дома – основной фактор риска для этой проблемы. Использование максимального значения в смежных районах для заполнения пропущенного значения, скорее всего, несколько завысит реальное число детей с отравлениями, но, когда речь идет о детском здоровье, лучше преувеличивать, нежели преуменьшать риск.

Дополнительные ресурсы

Страница Spatial Statistics Resources содержит множество ресурсов, помогающих в использовании инструментов пространственной статистики и углубленного анализа пространственно-временных закономерностей, включая следующие:

Практические учебные пособия
Видео и презентации семинаров
Обучение и веб-семинары
Ссылки на книги, статьи и технические документы
Примеры скриптов и разбор конкретных случаев

Отзыв по этому разделу?

Интерпретация результатов

Рекомендации

Выбор метода заполнения

Дополнительные ресурсы

В этом разделе