Гистограмма

Гистограмма визуально представляет распределение одной или нескольких непрерывных числовых переменных, при котором измеряется частота появления в наборе данных сходных значений. По оси х откладываются числовые значения, которые разбиты на диапазоны или интервалы. Для каждого бина (интервала) строится столбец, ширина которого представляет собой величину интервала, а высота столбца - количество точек данных, попадающих в этот диапазон. Понимание распределения данных – это важный момент в процессе их изучения.

Переменная

Для построения гистограммы необходима одна или несколько непрерывных Числовых переменных по оси x.

Несколько серий

В следующем видео демонстрируется создание нескольких серий гистограмм с помощью поля Разбить по.

Play Video

  • Продолжительность видео: 0:57
  • Это видео было создано с помощью ArcGIS Pro 3.2.

Можно создать несколько серий гистограмм, одним или двумя способами. Выбор нескольких Числовых переменных позволяет создать новую серию гистограмм для каждого выбранного поля и преобразования. Например, вы можете добавить одну и ту же переменную несколько раз, чтобы сравнить влияние различных преобразований на распределение.

Сравнение различных преобразований на одной переменной

Или если задана одна Числовая переменная, вы можете использовать ниспадающее меню Разделить по для разделения гистограммы на несколько серий на основе количества уникальных категорий в поле. Например, при отображении гистограммы для набора данных, связанного с ценами на жилье, для элемента управления Число задано значение SoldPrice, позволяющее увидеть распределение цен на жилье в городе. Если для параметра Разбить по задано значение Соседство, гистограмма будет разделена на N серий, где N - количество уникальных значений окрестностей. На нескольких сериях гистограмм отображается N мини-диаграмм — по одной для каждого уникального значения Соседство, чтобы можно было сравнить распределение цен на жилье со значениями Разбить по.

Примечание:

Поля категорий с большим количеством уникальных значений не подходят для разбиения поля на несколько серий.

Несколько серий гистограмм могут отображаться только в виде сетки. Статистика, отображающаяся на вкладке Данные на панели Свойства диаграммы, соответствует суммированным значениям для выбранных мини-диаграмм. Можно настроить размеры компоновки сетчатой диаграммы, задав значение Мини-диаграмм на строку на вкладке Серии на панели Свойства диаграммы. Например, если значение Мини-диаграмм на строку задано как 3, то будет отображаться максимум 3 диаграммы в строке — общее количество строк сетки будет определяться количеством серий в диаграмме. Отметив Предварительный просмотр диаграммы, вы сможете в динамике исследовать каждую мини-диаграмму более подробно, выбрав одну из них для просмотра в более крупном виде предварительного просмотра.

Мультисерийные гистограммы

Преобразование

Некоторые аналитические методы интерполяции требуют нормального распределения данных. Если данные сдвинуты (распределение несимметрично), то может понадобиться преобразовать данные к нормальному распределению. Гистограммы позволяют оценить влияние преобразования данных на распределение данных. Для информации вы можете добавить график нормального распределения поверх вашей гистограммы, отметив Показать нормальное распределение на панели Свойства диаграммы.

Логарифмическое преобразование

Логарифмическое преобразование часто используется, когда данные имеют положительно искаженное распределение и есть несколько больших значений. Если эти большие значения есть в наборе данных, логарифмическое преобразование поможет сделать дисперсию более постоянной и приблизить распределение данных к нормальному.

Например, распределение со смещением в положительную сторону на первой диаграмме ниже трансформировано в нормальное распределение с использованием логарифмического преобразования на второй диаграмме:

Две диаграммы численности населения

Примечание:

Логарифмическое преобразование можно применять только к значениям больше нуля.

Преобразование по методу квадратного корня

Преобразование по методу квадратного корня похоже на логарифмическое тем, что уменьшает правое смещение набора данных. В отличие от логарифмических преобразований, преобразования по методу квадратного корня могут применяться к нулевым значениям.

Примечание:

Преобразование преобразование по методу квадратного корня можно применять только к значениям больше или равно нулю.

Обратное преобразование

Обратное преобразование принимает обратную величину (1 / x) каждого значения (x) в поле.

Примечание:

Обратное преобразование нельзя применить к нулевым значениям. Если в поле есть нулевые значения, они будут оцениваться как значения null:

Преобразование по методу Box-Cox

Преобразование Box-Cox применяет следующую степенную функцию для нормального распределения значений:

Преобразование по методу Box-Cox

где x' — это трансформированное значение, x — исходное значение, λ1 — значение параметра Степень, а λ2 — значение параметра Сдвиг.

Примечание:

Преобразование Box-Cox можно применить только к положительным значениям. Если существуют отрицательные или нулевые значения, воспользуйтесь параметром Сдвиг, чтобы все значения стали положительными.

Количество бинов

Значение количества диапазонов (бинов) по умолчанию соответствует квадратному корню из общего количества записей в наборе данных. Это можно настроить, изменив значение параметра Бины на вкладке Данные панели Свойства диаграммы. Изменение количества бинов позволяют увидеть более или менее детальную структуру данных.

Примечание:

Гистограмма может содержать до 64 бинов. Это ограничение введено из-за того, что использование слишком большого количества бинов часто приводит к получению зашумленной гистограммы, в которой характеристики распределения трудно интерпретировать.

Статистика

Несколько описательных статистических данных вычисляются и отображаются в виде вертикальных линий на гистограммах. Среднее и медиана отображаются каждое одной линией, по одному стандартному отклонению от среднего (выше и ниже) отображается двумя линиями. Вы можете щелкнуть эти элементы в легенде диаграммы для их включения или выключения.

Таблица статистики отображается на вкладке Данные на панели Свойства диаграммы и содержит следующую статистику для выбранных числовых полей:

  • Среднее
  • Медиана
  • Стандартное отклонение
  • Количество
  • Минимум
  • Максимум
  • Сумма
  • Значения NULL
  • Асимметрия
  • Эксцесс

Если на слое источнике диаграммы имеется выбранный набор, в таблице статистики будет отображаться один столбец со статистикой по всему набору данных, а другой - только со статистикой выбранного набора.

В таблице статистики также имеются элементы управления для включения и выключения на гистограмме линий среднего, медианы и стандартного отклонения, а также для изменения их цвета.

Чтобы скопировать статистику из панели Свойства диаграммы в другие окна или приложения, щелкните правой кнопкой таблицу статистики и выберите Копировать таблицу, Копировать строку или Копировать значение.

Оси

Опции, описанные ниже, позволяют настроить оси и связанные настройки.

Границы по осям

Границы по умолчанию для осей устанавливаются на основе диапазона значений данных, представленных на соответствующей оси. Эти значения можно изменить, задав новое значение границы оси. Настройки границ оси задаются для сохранения масштаба согласованности диаграммы для сравнения. Щелкнув кнопку Сброс Сбросить, вы вернете ось обратно к значению по умолчанию.

Границы по осям

Границы осей для мультисерийных гистограмм можно настроить с помощью следующих параметров:

  • Фиксированный — Применяет глобальные минимальные и максимальные границы ко всем мини-диаграммам.
  • Адаптивный — Настраивается в соответствии с локальными минимальными и максимальными границами для каждой мини-диаграммы.

Интервалы сетки

Настройте интервалы сетки для оси Y с помощью элемента управления Интервал. Интервал сетки по умолчанию рассчитывается автоматически.

Числовой формат

Вы можете отформатировать способ отображения числовых значений оси, указав категорию форматирования или задав пользовательский формат. Например, $#,### можно использовать как строку пользовательского формата для отображения денежных значений.

Оформление

Опции, описанные ниже, управляют внешним видом диаграммы.

Заголовки и описание

Названия диаграммы и осей по умолчанию основаны на именах переменных и типах диаграммы. Эти значения можно редактировать на вкладке Общие панели Свойства диаграммы. Можно указать значение для опции Описание, которая представляет собой текстовый блок, отображаемый в нижней части окна диаграммы.

Стиль серии

Стиль серии можно изменить на вкладке Серии на панели Свойства диаграммы, щелкнув инструмент выбора цвета Символ в таблице Серии. Используйте всплывающее окно, чтобы настроить цвет и прозрачность для бинов. Чтобы применить общий стиль к нескольким сериям, выберите несколько строк в таблице Серии и щелкните по цветовой гамме Символ для одной из выбранных серий. При желании используйте ниспадающий список Цветовая схема на вкладке Серии, чтобы применить палитру к серии на диаграмме.

Подписи данных

Надписи, показывающие значения каждого бина можно включить с помощью опции Подписать бины во вкладке Данные на панели Свойства диаграммы. Дополнительные опции стиля на уровне серий можно настроить на вкладке Серии, щелкнув текстовую вставку в столбце Подписи данных таблицы Серии.

Направляющие

В диаграмму можно добавить линии направляющих или диапазоны для сравнения или выделения значимых величин. Чтобы добавить новую направляющую, перейдите на вкладку Направляющие на панели Свойства диаграммы и выберите, хотите ли вы нарисовать вертикальную или горизонтальную направляющую. Щелкните стрелку на кнопке Добавить направляющую и выберите одну из следующих опций:

  • Создать направляющую линию фиксированного значения или направляющую диапазона — нарисуйте линию или направляющую диапазона в фиксированном месте. Если выбрана эта опция, укажите значение для Значение там, где хотите провести линию. Для создания диапазона введите значение до.
  • Создать направляющую на основе данных — проведите направляющую, основанную на данных. Если выбрана эта опция, используйте ниспадающий список Значение, чтобы выбрать поле, значения которого будут использоваться для вычисления местоположения направляющей. Выберите опцию агрегирования, чтобы указать способ суммирования этих значений.
  • Создать точечную или полилинейную направляющую — Нарисовать точечную или полилинейную направляющую. Если выбрана эта опция, отредактируйте таблицу данных, чтобы ввести значения x и y, создающие вершины, которые будут определять способ построения направляющей. Введите одну вершину, чтобы создать точечную направляющую. Эта опция доступна только если обе оси являются непрерывными.
Стиль направляющей можно настроить с помощью средства выбора стиля Стиль символа, Стиль линии или Цвет заливки в зависимости от типа направляющей. Или можно добавить текст к направляющей, указав значение Надпись и настроить стиль надписи, щелкнув образец текста рядом с полем ввода, чтобы открыть средство выбора стиля. В направляющих, основанных на данных, всегда отображается значение ориентира (на основе значений полей и агрегирования), и это значение будет добавлено в конце любого текста, указанного для значения Надпись.

Пример

На гистограмме ниже представлено распределение плотности населения по группам переписных кварталов Вашингтона, округ Колумбия, с использованием следующих параметров:

  • ЧислоPopulation Density

Гистограмма плотности населения

Связанные разделы