Вы можете оценить качетсво и распределение значений в каждом поле в ваших данных с помощью инженерии данных. Например, количество нулевых значений в поле может оказаться полезной метрикой данных при выявлении объектов с отсутствующими данными. Описательная статистика, например, среднее, стандартное отклонение и эксцесс, может помочь в понимании распределения значений в полях, а также оценить то, как их обрабатывать при использовании поля в анализе.
Вид Data Engineering в ArcGIS Pro позволяет показать описательную статистику и метрики для полей интереса ваших данных в табличном формате, где каждое поле представлено как строка, а каждый тип статистики - как столбец. Вы можете использовать эту таблицу для дальнейшего изучения данных и исправления ошибок в них через доступ к настройке символов, созданию графиков и запуску инструментов геообработки, соответствующих каждой метрике и свойству выбранного поля.
Выбор полей и вычисление статистики
Когда вы открываете вид Data Engineering, он содержит две панели: одна показывает поля в данных, а другая - таблицу статистики для полей (когда они были выбраны и вычислены)
Более подробно о виде Data Engineering
Для начала щелкните на поле на панели полей, нажмите Ctrl и щелчок, чтобы выбрать несколько полей по отдельности, либо Shift и щелчок, чтобы выбрать поля подряд. Затем перетащите поля на панели статистики.
Либо вы можете щелкнуть правой кнопкой мыши на выбранных полях и щелкнуть Добавить к статистике или Добавить к статистике и вычислить.
Когда поля будут добавлены, они будут отображены как строки в таблице статистики. Каждая строка содержит имя поля, псевдоним и тип данных выбранных полей. Дополнительно может появиться ряд столбцов со статистикой, которые содержат дополнительную информацию о выбранных полях после выполненных вычислений.
Для заполнения сведений в столбцах статистики для выбранных полей щелкните кнопку Вычислить.
Столбцы статистики будут заполнены сведениями по каждому из полей в данных.
Если у вас есть выбранные записи, то результат будет соответствовать только выбранным записям в данных. Количество выбранных элементов и количество объектов, которые использовались для вычисления статистики, будет показано внизу таблицы.
Если у вас есть ожидающие правки в векторном слое или таблице, то они также используются в этом вычислении.
Типы статистики
В виде Data Engineering вы можете вычислить и показать статистику и метрики качества даных для каждого поля в данных в виде столбцов таблицы. После того, как значения будут вычислены, щелкните правой кнопкой на ячейках статистики для каждого поля, чтобы получить доступ к дополнительной функциональности, связанной с данной статистикой. Некоторые из этих функций используют инструменты геообработки, которые изменяют входные данные Если данные не являются редактируемыми, сделайте редактируемую копию перед тем, как приступите к инженерии данных.
Примечание:
То, как будут округлены результаты в таблице статистики, зависит от величины значения По крайней мере, один десятичный знак отображается для статистики с десятичными знаками, но дополнительные десятичные знаки добавляются только в том случае, если сохраняется ошибка округления менее 1 процента.
Статистика | Описание | Допустимые типы данных | Опции меню |
---|---|---|---|
Количество пустых значений | Количество записей, содержащих пустые значения в поле. Чтобы выбрать записи, которые содержат пустые значения, щелкните правой кнопкой мыши на ячейках в этом столбце. Примечание:Если в символах этого слоя не настроено отображение пустых значений, выборка может не отобразиться на карте. Настройте символы на показ значений за пределами диапазона, чтобы показать объекты с пустыми значениями. | Числовые, текст, даты |
|
Предварительный просмотр диаграммы | Визуальное представление распределения значений в поле. Для числовых полей (short, long, float, double) будут показаны гистограммы, для категорийных полей (текст) будут показаны столбчатые диаграммы, а для полей типа дат - линейчатые диаграммы. Используйте столбец предварительного просмотра диаграммы для первичного изучения. Чтобы создать диаграммы для нужных полей, щелкните правой кнопкой на ячейках в этом столбце. Примечание:Гистограммы и линейные диаграммы по умолчанию отображаются с 20 ячейками. В зависимости от разреженности данных могут быть ячейки, которые не содержат данных, а ячейки с пустыми значениями обрабатываются как нулевые в предварительном просмотре диаграммы. Чтобы изменить уровень детализации, щелкните правой кнопкой мыши на предварительном просмотре диаграммы и создайте ее. | Числовые, текст, даты |
|
Минимум | Наименьшее значение в поле. Чтобы выбрать записи, которые содержат минимальное значение, щелкните правой кнопкой мыши на ячейках в этом столбце. | Числовые, даты |
|
Максимум | Наибольшее значение в поле. Чтобы выбрать записи, которые содержат максимальное значение, щелкните правой кнопкой мыши на ячейках в этом столбце. | Числовые, даты |
|
Среднее | Среднее из всех значений в поле. Среднее - это среднее значение в распределении, рассчитываемое как сумма значений, деленная на общее количество значений в поле. Среднее значение является наиболее распространенной мерой центральной тенденции в распределении. Чтобы вычислить среднюю дату для полей даты, каждая дата преобразуется в число путем вычисления разницы между датой и контрольной датой (например, 1900-01-01), рассчитанной в миллисекундах. Сумма всех значений в миллисекундах, деленная на количество значений даты, дает среднюю дату, которая для отображения округляется до ближайшей секунды. Примечание:Средняя дата может иметь другое временное разрешение (т.е. минуты, секунды, миллисекунды), что и значения в поле. Чтобы выбрать записи, содержащие значения выше и ниже среднего, щелкните правой кнопкой мыши ячейки в этом столбце. | Числовые, даты |
|
Стандартное отклонение | Стандартное отклонение значений в поле. Стандартное отклонение - это измеренеие разброса в распределении. Он рассчитывается как квадратный корень из дисперсии, в которой дисперсия представляет собой среднее значение квадрата разницы каждого значения от среднего значения поля. | Числовое | |
Медиана | Медиана для всех значений в поле. Медиана - это серединное значение в отсортированном списке значений. Если имеется четное количество значений, медиана - это среднее между двумя средними значениями в распределении. Чтобы выбрать записи, содержащие значения выше медианы и значения ниже медианы, щелкните правой кнопкой мыши ячейки в этом столбце. | Числовые, даты |
|
Количество | Количество непустых значений в поле. | Числовые, текст, даты |
|
Количество уникальных значений | Количество уникальных значений в поле. | Числовые, текст, даты | Нет уникальных действий |
Режим | Режим для всех значений в поле. Режим - это наиболее часто встречающееся значение в поле. В случае связей, когда наиболее часто встречающееся значение в поле соответствует нескольким значениям, в ячейке отображается <Несколько значений>. Чтобы выбрать записи, которые содержат режим, щелкните правой кнопкой мыши на ячейках в этом столбце. | Числовые, текст, даты |
|
Наименьшее общее | Наименьшее общее значение в поле. В случае связей, когда наиболее наименьшее общее значение в поле соответствует нескольким значениям, в ячейке отображается <Несколько значений>. Чтобы выбрать записи, которые содержат наименьшее общее, щелкните правой кнопкой мыши на ячейках в этом столбце. | Числовые, текст, даты |
|
Выбросы | Количество записей со значениями выбросов в поле. Выбросы - это значения, которые более чем в 1,5 раза превышают межквартильный диапазон выше третьего квартиля или ниже первого квартиля выбранного поля. Чтобы выбрать записи, которые содержат значения выбросов, щелкните правой кнопкой мыши на ячейках в этом столбце. | Числовое |
|
Сумма | Сумма всех значений в поле. | Числовое | Нет уникальных действий |
Диапазон | Разница между наименьшим и наибольшим значениями в поле. | Числовое | Нет уникальных действий |
Межквартильный диапазон | Диапазон между значениями первого и третьего квартилей в поле. Квартили делят отсортированный список значений на четыре группы, содержащие равное количество значений. Значение первого квартиля - это верхняя граница первой группы в порядке возрастания, а третья квартиль - верхняя граница третьей группы. Чтобы выбрать записи в пределах этого диапазона, щелкните правой кнопкой мыши ячейки в этом столбце. | Числовое |
|
Квартиль 1 | Значение первого квартиля в поле. Квартили делят отсортированный список значений на четыре группы, содержащие равное количество значений. Значение первого квартиля - это верхняя граница первой группы в порядке возрастания. В случае ничьей отображается среднее всех соответствующих значений. Чтобы выбрать записи, содержащие значения выше и ниже первого квартиля, щелкните правой кнопкой мыши ячейки в этом столбце. | Числовые, даты |
|
Квартиль 3 | Значение третьего квартиля в поле. Квартили делят отсортированный список значений на четыре группы, содержащие равное количество значений. Третий квартиль - верхняя граница третьей группы. В случае ничьей отображается среднее всех соответствующих значений. Чтобы выбрать записи, содержащие значения выше и ниже третьего квартиля, щелкните правой кнопкой мыши ячейки в этом столбце. | Числовые, даты |
|
Коэффициент дисперсии | Коэффициент дисперсии для значений в поле. Коэффициент дисперсии - это мера относительного разброса значений. Он рассчитывается как стандартное отклонение, деленное на среднее значение поля. В отличие от стандартного отклонения, которое всегда следует рассматривать в контексте диапазона данных, коэффициент вариации позволяет сравнивать ряды данных с различными диапазонами и средними значениями. | Числовое | |
Скошенность | Скошенность (асимметрия) значений в поле. Скошенность – это показатель симметрии распределения. Асимметрия равна нулю (или близка к нулю), если распределение симметрично с обеих сторон, как видно из нормального распределения. Распределения с более длинными хвостами слева имеют отрицательную асимметрию, а распределения с более длинными хвостами справа имеют положительную асимметрию. Асимметрия рассчитывается как третий момент (среднее значение данных в кубе), деленный на стандартное отклонение в кубе. | Числовое | |
Эксцесс | Эксцесс значений в поле. Эксцесс описывает тяжесть хвостов распределения по сравнению с хвостами нормального распределения, помогая определить частоту экстремальных значений. Распределения с эксцессом меньше трех имеют более легкие хвосты и меньше экстремальных значений, чем нормальное распределение, а распределения с эксцессом больше трех имеют более тяжелые хвосты и более экстремальные значения, чем нормальное распределение. Эксцесс рассчитывается как четвертый момент (ожидаемое значение значений данных, взятых в четвертой степени), деленный на четвертую степень стандартного отклонения. | Числовое |
Интерактивная табличная статистика
Статистическая таблица является интерактивной. Щелкните правой правой кнопкой на ячейках или заголовках, а затем используйте панель инструментов для доступа к различным функциям.
Взаимодействие с полями
Щелкните правой кнопкой мыши на заголовке строки, чтобы перейти к функциональности, которая применима к выбранному полю, например:
- Создать диаграмму - создать диаграммы на основе выбранного поля. Предложенные рекомендации зависят от типа данных.
- Очистка, Построение, Интеграция и Форматирование—доступ к инструментам геообработки для подготовки данных. См. Подготовка данных, чтобы узнать больше об этих опциях.
- Удалить поле - удаляет поле из таблицы статистики.
Примечание:
Большинство операций геообработки, изменяющих входные данные, нельзя отменить.
Отображение определенных типов данных
Панель инструментов таблицы статистики включает опции для определения того, какие поля и столбцы статистики будут отображены на основе типа данных.
Например, вы можете щелкнуть опцию Текст, чтобы удалить поля данных типа текст.
Когда вы удаляете типы данных из таблицы статистики, то столбцы, которые являются уникальными для удаленных типов данных, также удаляются. За счет этого таблицу будет легче просматривать. Например, если вы отображаете только поля типа даты, столбцы, описывающие распределения, такие как асимметрия и эксцесс, убираются, поэтому количество столбцов сокращается до тех, которые представляют интерес.
Сортировка, скрывание, закрепление и изменение порядка столбцов
Опции для заголовков столбцов позволяют сортировать, скрывать и закреплять столбцы в таблице.
Сортировка позволяе вам изменить порядок строк на основе значений в вычисленной статистике. Например, вы можете отсортировать поля по столбцу Number of Null Values, чтобы узнать, в каких полях отсутсвуют данные.
Примечание:
Вы можете выполнить сортировку, только если таблица содержит поля с одним типом данных. Используйте опции отображения на панели инструментов, чтобы отфильтровать по указанному типу данных, а затем отсортировать.
Чтобы скрыть столбцы, щелкните Скрыть столбец. Таким образом вы удалите столбец из вида. Чтобы показать все скрытые столбцы, щелкните Показать все столбцы.
Щелкните Закрепить/Открепить, чтобы переместить столбец в начало таблицы статистики и зафиксировать его на месте, чтобы столбец отображался при прокрутке таблицы по горизонтали.
Чтобы изменить порядок столбцов, щелкните и переместите заголовок столбца в новое место.
Справочная информация
- Sheskin, D.J. (2000). "Handbook of Parametric and Nonparametric Statistical Procedures." Second Edition. Boca Raton, Florida: Chapman & Hall/CRC. ISBN: 978-1-58488-814-7.
- UCLA: Statistical Consulting Group.
"IEEE Standard for Floating-Point Arithmetic." IEEE Std 754-2019 (Revision of IEEE 754-2008), vol., no., pp.1-84, 22 July 2019. https://ieeexplore.ieee.org/document/8766229.