Инструмент Заполнить пустые значения замещает пропущенные значения (нули) оценочными значениями для минимизации влияния пустых значений на последующий анализ. Есть множество причин того, почему часть значений пропущены. Например, данные могу быть пропущены из-за временной поломки сенсора, недоступности образцов обучающей выборки или намеренного сокрытия значений данных из-за политики конфиденциальности. Если одно или более значений для объекта пропущено – большинство методов статистики по умолчанию исключают этот объект из анализа. Пропуск объектов, в свою очередь, может привести к ошибочному результату, так как анализ будет выполнен для неполного набора данных. Чтобы не терять важные данные, без которых вы можете получить пробелы в карте или сильно искаженные результаты анализа, воспользуйтесь возможностью заполнить пропущенные значения с помощью других данных в этом наборе данных или из других наборов (например, из набора данных с большей агрегацией). Для пространственных данных вы можете использовать значения ближайших пространственных соседей для вычисления пропущенных значений. В случае пространственно-временных данных вы также можете использовать ближайших временных соседей для вычисления пропущенных значений. Для непространственных данных вы можете использовать глобальную статистику поля, содержащего пропущенные значения, для заполнения пропущенных значений. Функция вычисления и заполнения пропущенных значений сохраняет все существующие значения и замещает пустые на основании выбранного метода. После заполнения пропущенных значений, набор данных можно анализировать как полный.
Например, в наборе данных Соединенных Штатов, в котором каждый из 50 штатов имеет данные за 100 лет об относительном доходе на душу населения, связанном с ним, в Калифорнии отсутствует 1 год данных (нулевое значение). Если вы попробуете построить куб пространство-время, все данные по Калифорнии будут исключены из анализа, по причине единственного пустого значения во всем наборе данных. Данные за остальные 99 лет по Калифорнии не будут анализироваться, так как только завершенный временной ряд может быть включен в анализ. Инструмент Заполнить пропущенные значения поможет вам аппроксимировать соседние значения для заполнения пропущенного и, соответственно, не потерять данные по Калифорнии в анализе.
Интерпретация результатов
В результате выполнения инструмента будет создано новое поле, содержащее как все существующие значения, так вычисленные вместо пропущенных, а также поле, указывающее на то, какие значения были оценочными. В сообщении инструмента также приводится информация о количестве добавленных записей в процентах от общего числа, о распределении данных до и после заполнения пустых значений, а также общее число и процент заполненных значений.
Рекомендации
Необходимо учитывать некоторые моменты при принятии решения, насколько данный инструмент подходит для ваших данных, и какие параметры следует выбрать.
- Убедитесь, что вы знаете, какие значения пропущены. Маркер, указывающий на пропущенные значения, может отличаться в разных наборах данных. Для класса объектов базы геоданных пропущенные значения обозначаются как <Null>, и легко узнаваемы. Но формат шейп-файла не допускает хранение пустых (Null) значений. Инструменты или другие процедуры, создающие шейп-файлы, могут интерпретировать пустое значение как ноль. Или, в некоторых случаях, нули в шейп-файлах могут обозначать очень большое или очень маленькое отрицательное число. Для распознавания пропущенных значений можно, например, применить сортировку в поле интереса от большего к меньшему или от меньшего к большему. Пустое значение, значение с большим количеством нулей, очень большое или очень маленькое значение может подсказать, какой именно маркер используется для указания на пропущенное значение. Также информацию о маркере пропущенных значений можно найти в метаданных.
- Выясните, насколько много значений пропущены. Не стоит использовать заполнение для слишком большого числа значений. Хотя нет абсолютного ограничения на число пропущенных значений для заполнения, рекомендуется заполнять не более 5 процентов значений от общего количества в наборе данных.
- Выясните, где располагаются пропущенные значения. Нанесите на карту данные с пропущенными значениями и попробуйте оценить пространственную закономерность. Определите, образуют ли объекты с пропущенными значениями кластеры, располагаются ли они по периферии или в центре области изучения. Также, оцените, присутствуют ли объекты с пропущенными значениями преимущественно в областях высоких или низких значений. Любая из этих ситуаций свидетельствует о том, что присутствует какая-то закономерность в расположении пропущенных значений. То есть пропуски в данных не носят случайный характер. Заполнение пропущенных значений имеет смысл при случайном характере пропусков.
- Проверьте число и процент заполненных значений, чтобы уточнить, остались ли пропуски в данных. В этом случае стоит попробовать изменить метод заполнения значений, например, увеличить число соседей или размер ближайшей окрестности. Убедитесь, что для заполнения пропусков не используются вычисленные оценочные значения. Использование уже один раз вычисленных значений для вычисления других пропущенных значений может привезти к существенному ухудшению качества данных в наборе.
- Сравните распределение данных до и после заполнения пропусков, сравнив описательную статистику, например среднее или среднеквадратичное отклонение и оценив гистограмму для выявления скоса, подъема или сглаживания кривой распределения. Самым лучшим будет получить распределение, схожее по форме.
- Обратите внимание на подходящие локальные или региональные методы, используемые для заполнения значений. Может получиться, что метод, который вы использовали для заполнения значений, работает для одних областей лучше, чем для других. Например, если вы заполнили пропущенные значения с помощью среднего арифметического, и получили при этом достаточно большой разброс среднеквадратичного отклонения, вы можете изменить метод заполнения или поменять тип окрестности. В идеале среднеквадратичное отклонение должно быть одинаково для всех заполненных значений, что указывает схожие отличия от соседей, значения которых были использованы для расчета значений для заполнения.
- Подумайте об использовании данных после выполнения процедуры заполнения пустых значений. Если данные предназначены для картографии, и вы просто хотите получить визуализацию хорошего качества без пустот, небольшие отклонения в заполненных значениях можно замаскировать с помощью какой-либо картографической методики. Например при использовании картограммы к данным применяется типовая классификация на несколько классов, и небольшие изменения внутри класса не оказывают визуальный эффект. Если данные будут использования для расчета статистических показателей, вычисленные значения для заполнения пропусков должны быть тщательно изучены и понятны.
- Расскажите аудиторию, что вы предоставляете данные после заполнения пропусков. В отчете опишите метод, который вы использовали для заполнения пропущенных значений и укажите, чем вы руководствовались при выборе метода (например, важно, чтобы значения не завышались и не занижались). Если вы создаете карту, имеет смысл идентифицировать объекты с заполненными значениями, например, на отдельной карте. Картографы могут также использовать для идентификации полигональных объектов штриховку, пунктир или любой уникальный контур. Применяя эти методы нужно быть осторожным, так как они могут затенять заливку полигона или влиять на восприятие цвета заливки.
- В случае временного тренда для заполнения значений, местоположение с заполняемым пустым значением должно иметь как минимум два периода времени со значениями в начале и как минимум два периода времени со значениями в конце временного ряда, чтобы его можно было заполнить. Однако наличия первых и последних двух значений периода времени не всегда достаточно. У вас может быть большая последовательность пропущенных значений в середине временного ряда, и в этом случае интерполированные значения могут быть ненадежными для дальнейшего анализа, такого как инструменты в наборе инструментов Прогнозирования временных рядов.
Выбор метода заполнения
Для заполнения пропущенных значений вы должны выбрать метод заполнения, например, среднее, минимум, максимум или медиану значений соседей. Если при заполнении вам хотите приуменьшить значения, используйте минимум, например, если вы вычисляете пропущенные значения в информации о студентах, получающих бесплатные обеды. Схожим образом, используйте максимум, если вы не заинтересованы в приуменьшении значений, например, если вы заполняете пропущенные значения в количестве жителей, получивших высшее образование. Используйте медиану, если предполагаете наличие локальных выбросов высоких или низких значений, например величин стоимости домов. Используйте среднее, если значения не должны отличаться от соседей.
Вы также должны решить, каким образом определяется набор соседей, значения которых будут использоваться для вычисления пропущенных значений. Для определения соседей используются самые разные пространственные взаимоотношения, например, фиксированное число соседей, соседи в пределах фиксированного расстояния или смежные объекты (то есть объекты с общими ребрами или с общими узлами).
Какой метод заполнения использовать, и каким образом определять соседей – напрямую связано с тем, для чего данные предназначены. Например, картографу может понадобиться заполнить полигоны с пустыми значениями для создания карты хорошего качества без пустот. В этом случае эффективным будет вычисление среднего значения с использованием большого числа соседей. Аналитик рынка недвижимости, для заполнения пустых значений в данных с ценами домов, в качестве определения соседей указывает фиксированное расстояние, и для заполнения использует медиану, чтобы избежать влияния выбросов.
При выборе комбинации метода заполнения и определения окрестности, обратите внимание на влияние соседей на объекты с пропущенными значениями и отдавайте преимущество тем методам, которые приведут к меньшим искажениям в результатах анализа. Например, вы – аналитик местного отдела здравоохранения, и к вам поступили данные по детям с отравлениями свинцом (информация по районам переписи), но для части районов данные отсутствуют. Для заполнения пропущенных значений в этом случае стоит использовать соседние полигоны со смежными границами, а в качестве метода заполнения – максимальное значение соседей. Использование смежных районов в этом случае наиболее эффективно, так как дома в соседних районах, скорее всего, приблизительно одного года постройки, а возраст дома – основной фактор риска для этой проблемы. Использование максимального значения в смежных районах для заполнения пропущенного значения, скорее всего, несколько завысит реальное число детей с отравлениями, но, когда речь идет о детском здоровье, лучше преувеличивать, нежели преуменьшать риск.
Дополнительные ресурсы
Страница Spatial Statistics Resources содержит множество ресурсов, помогающих в использовании инструментов пространственной статистики и углубленного анализа пространственно-временных закономерностей, включая следующие:
- Практические учебные пособия
- Видео и презентации семинаров
- Обучение и веб-семинары
- Ссылки на книги, статьи и технические документы
- Примеры скриптов и разбор конкретных случаев