Гистограмма визуально представляет распределение непрерывной числовой переменной, при котором измеряется частота появления в наборе данных сходных значений. По оси х откладываются числовые значения, которые разбиты на диапазоны или интервалы. Для каждого бина (интервала) строится столбец, ширина которого представляет собой величину интервала, а высота столбца - количество точек данных, попадающих в этот диапазон. Понимание распределения данных – это важный момент в процессе их изучения.
Переменная
Для построения гистограммы необходима одна непрерывная Числовая переменная по оси x.
Несколько серий
В следующем видео демонстрируется создание нескольких серий гистограмм с помощью поля Разбить по.
- Продолжительность видео: 0:57
- Это видео было создано с помощью ArcGIS Pro 3.2.
Можно создать несколько серий гистограмм, настроив элемент управления на Разбить по. Если задан элемент управления Разбить по, гистограмма разбивается на несколько серий в зависимости от количества уникальных категорий в поле. Например, при отображении гистограммы для набора данных, связанного с ценами на жилье, для элемента управления Число задано значение SoldPrice, позволяющее увидеть распределение цен на жилье в городе. Если для параметра Разбить по задано значение Neighborhood, гистограмма будет разделена на N серий, где N - количество уникальных значений окрестностей. На нескольких сериях гистограмм отображается N мини-диаграмм — по одной для каждого уникального значения Neighborhood, чтобы можно было сравнить распределение цен на жилье со значениями Разбить по.
Примечание:
Поля категорий с большим количеством уникальных значений не подходят для разбиения поля на несколько серий.
Несколько серий гистограмм могут отображаться только в виде сетки, которую можно настроить на вкладке Серии панели Свойства диаграммы. Вы можете настроить размеры компоновки сетчатой диаграммы, установив значение Мини-диаграмм на строку. Например, если значение Мини-диаграмм на строку задано как 3, то будет отображаться максимум 3 диаграммы в строке — общее количество строк сетки будет определяться количеством серий в диаграмме. Отметив Предварительный просмотр диаграммы, вы сможете в динамике исследовать каждую мини-диаграмму более подробно, выбрав одну из них для просмотра на более крупном виде предварительного просмотра.
Преобразование
Некоторые аналитические методы интерполяции требуют нормального распределения данных. Если данные сдвинуты (распределение несимметрично), то может понадобиться преобразовать данные к нормальному распределению. Гистограммы позволяют оценить эффект логарифмического преобразования и преобразования по методу квадратного корня на распределение данных. Для информации вы можете добавить график нормального распределения поверх вашей гистограммы, отметив Показать нормальное распределение на панели Свойства диаграммы.
Логарифмическое преобразование
Логарифмическое преобразование часто используется, когда данные имеют положительно искаженное распределение и есть несколько больших значений. Если эти большие значения есть в наборе данных, логарифмическое преобразование поможет сделать дисперсию более постоянной и приблизить распределение данных к нормальному.
Например, распределение со смещением в положительную сторону на первой диаграмме ниже трансформировано в нормальное распределение с использованием логарифмического преобразования на второй диаграмме:
Примечание:
Логарифмическое преобразование можно применять только к значениям больше нуля.
Преобразование по методу квадратного корня
Преобразование по методу квадратного корня похоже на логарифмическое тем, что уменьшает правое смещение набора данных. В отличие от логарифмических преобразований, преобразования по методу квадратного корня могут применяться к нулевым значениям.
Примечание:
Преобразование преобразование по методу квадратного корня можно применять только к значениям больше или равно нулю.
Обратное преобразование
Обратное преобразование принимает обратную величину (1 / x) каждого значения (x) в поле.
Примечание:
Обратное преобразование нельзя применить к нулевым значениям. Если в поле есть нулевые значения, они будут оцениваться как значения null:
Преобразование по методу Box-Cox
Преобразование Box-Cox применяет следующую степенную функцию для нормального распределения значений:
где x' — это трансформированное значение, x — исходное значение, λ1 — значение параметра Степень, а λ2 — значение параметра Сдвиг.
Примечание:
Преобразование Box-Cox можно применить только к положительным значениям. Если существуют отрицательные или нулевые значения, воспользуйтесь параметром Сдвиг, чтобы все значения стали положительными.
Количество бинов
Значение количества диапазонов (бинов) по умолчанию соответствует квадратному корню из общего количества записей в наборе данных. Это можно настроить, изменив значение параметра Бины на вкладке Данные панели Свойства диаграммы. Изменение количества бинов позволяют увидеть более или менее детальную структуру данных.
Примечание:
Гистограмма может содержать до 64 бинов. Это ограничение введено из-за того, что использование слишком большого количества бинов часто приводит к получению зашумленной гистограммы, в которой характеристики распределения трудно интерпретировать.
Статистика
Несколько описательных статистических данных вычисляются и отображаются в виде вертикальных линий на гистограммах. Среднее и медиана отображаются каждое одной линией, по одному стандартному отклонению от среднего (выше и ниже) отображается двумя линиями. Вы можете щелкнуть эти элементы в легенде диаграммы для их включения или выключения.
Таблица статистики отображается на вкладке Данные на панели Свойства диаграммы и содержит следующую статистику для выбранных числовых полей:
- Среднее
- Медиана
- Стандартное отклонение
- Количество
- Минимум
- Максимум
- Сумма
- Значения NULL
- Асимметрия
- Эксцесс
Если на слое источнике диаграммы имеется выбранный набор, в таблице статистики будет отображаться один столбец со статистикой по всему набору данных, а другой - только со статистикой выбранного набора.
В таблице статистики также имеются элементы управления для включения и выключения на гистограмме линий среднего, медианы и стандартного отклонения, а также для изменения их цвета.
Чтобы скопировать статистику из панели Свойства диаграммы в другие окна или приложения, щелкните правой кнопкой таблицу статистики и выберите Копировать таблицу, Копировать строку или Копировать значение.
Оси
Несколько опций позволяют настроить оси и связанные настройки.
Границы по осям
Границы по умолчанию для осей устанавливаются на основе диапазона значений данных, представленных на соответствующей оси. Эти значения можно изменить, задав новое значение границы оси. Настройки границ оси задаются для сохранения масштаба согласованности диаграммы для сравнения. Щелкнув кнопку Сброс , вы вернете ось обратно к значению по умолчанию.
Интервалы сетки
Настройте интервалы сетки для оси Y с помощью элемента управления Интервал. Интервал сетки по умолчанию рассчитывается автоматически.
Числовой формат
Вы можете отформатировать способ отображения числовых значений оси, указав категорию форматирования или задав пользовательский формат. Например, $#,### можно использовать как строку пользовательского формата для отображения денежных значений.
Оформление
Заголовки и описание
Названия диаграммы и осей по умолчанию основаны на именах переменных и типах диаграммы. Эти значения можно редактировать на вкладке Общие панели Свойства диаграммы. Можно указать значение для опции Описание, которая представляет собой текстовый блок, отображаемый в нижней части окна диаграммы.
Цвет
Цвет бинов гистограммы можно изменить с помощью палитры цветов в разделе Бины во вкладке Данные панели Свойства диаграммы.
Направляющие
Направляющие линии или диапазоны могут быть добавлены на диаграммы в качестве ориентира или как способ выделить важнейшие значения. Чтобы добавить новые направляющие, на вкладке Направляющие панели Свойства диаграммы и щелкните Добавить направляющую. Чтобы нарисовать линию, укажите значение для Значение там, где вы хотите провести линию. Для создания диапазона введите значение до. Можно добавить к направляющей текст, указав значение Надпись.
Пример
На гистограмме ниже представлено распределение плотности населения по группам переписных кварталов Вашингтона, округ Колумбия, с использованием следующих параметров:
- Число—Population Density