Ящичковые диаграммы позволяют визуализировать и сравнивать распределение и основную тенденцию числовых значений посредством их квартилей. Квартили – это способ разделения числовых значений на четыре равные группы на основе пяти ключевых значений: минимальное значение, первый квартиль, медиана, третий квартиль и максимальное значение. Ящичковые диаграммы используют расчет процентиля для определения значений квартилей. Например, первый квартиль равен 25-му процентилю.
Ящичковая часть диаграммы ниже показывает средние 50% значений данных, которые также известны, как межквартильный диапазон (IQR). Медиана значений изображается как линия, разделяющая ящичек пополам. IQR (межквартильный диапазон) показывает изменчивость в наборе значений. Большой IQR указывает на большой разброс значений, в то время как меньший IQR указывает на то, что большая часть значений выпадает вблизи центра. Ящичковые диаграммы также показывают минимальные и максимальные значения данных посредством усов, или линий, простирающихся от ящичка, и, дополнительно, посредством выбросов точек, выходящих за пределы усов.
Переменные
Ящичковые диаграммы состоят из оси x и оси y. На оси x присваивается один ящичек для каждой Категории или переменной Числового поля. Ось y используется для измерения в наборе чисел минимального значения, первого квартиля, медианы, третьего квартиля и максимального значения.
Ящичковые диаграммы могут использоваться для отображения одного или нескольких распределений. Для показа одного распределения добавьте одну переменную Числового поля. Это позволит получить диаграмму с одной ящичковой диаграммой, которая отображает распределение выбранного числового атрибута.
Вы можете добавить дополнительные переменные Числового поля для сравнения нескольких распределений из разных атрибутивных полей в таблице. Например, в наборе данных округов Population2010 и Population2015 были добавлены переменные Числового поля. На полученной диаграмме будет две ящичковых диаграммы: одна отобразит распределение значенийPopulation2010, а вторая - значений Population2015 для всех округов набора данных.
Когда добавлена только одна переменная Числового поля, есть возможность добавления переменной Категория для сравнения распределений между категориями. Например, Population2010 задано в качестве переменной Числового поля, а StateName - в качестве переменной Категория для набора данных округов. В итоговой диаграмме получится по ящичку для каждого штата, визуализируя распределение Population2010 для всех округов, принадлежащих к каждому штату.
Несколько серий
Используйте несколько серий ящичковых диаграмм для сравнения распределений различных значений или категорий.
Ящичковые диаграммы с несколькими сериями можно создавать, добавив Числовые поля и задав поле Категории, либо задав поле категории Разбить по.
При использовании переменной Категория с несколькими Числовыми полями, каждое Числовое поле, добавляемое в таблицу серий, создаст новые серии. Например, в наборе данных округа StateName задается как переменная Категории, а Population2010, Population2015 и Population2020 задаются как переменные Числового поля. В полученной диаграмме будут штаты как категории вдоль оси х, с тремя сериями для каждого (Population2010, Population2015 и Population2020).
Либо можно добавить переменную Разбить по для дальнейшего разделения данных и создания нескольких серий. К примеру, Population2010 задано в качестве переменной Числового поля, StateName - в качестве переменной Категории, а ElectionWinner - в качестве поля Разбить по для набора данных округов. В таблице Серии появятся все уникальные значения ElectionWinner (Democrat или Republican). В итоговой диаграмме будет две соседних ящичковых диаграммы для каждого штата (а всего - 100 ящичковых диаграмм): одна отображает распределение значений Population2010 для всех округов каждого штата со значением ElectionWinner, равным Democrat, а другая - для всех округов каждого штата со значением ElectionWinner, равным Republican.
Поля Разбить по также могут использоваться, если есть несколько переменных Числовых полей вместо переменной Категории. К примеру, Population2010, Population2015 и Population2020 заданы в качестве переменных Числового поля, а ElectionWinner - в качестве поля Разбить по для набора данных округов. На полученной диаграммы будут показаны три переменные Числового поля вдоль оси x (Population2010, Population2015 и Population2020), и для каждого будут созданы две соседних ящичковых диаграммы, на одной из которых будет отображено распределение для всех округов со значением ElectionWinner, равным Democrat, а на другой - распределение для всех округов со значением ElectionWinner, равным Republican.
Показать несколько серий
Если поле Разбить по используется для создания нескольких серий, есть два варианта отображения результатов:
- Рядом - создает соседние ящичковые диаграммы - по одной для каждого ряда.
- Отобразить, как средние линии – создает одну ящичковую диаграмму для каждого значения Категории или переменной Числового поля и использует линии для отображения среднего для каждого уникального значения в поле Разбить по.
К примеру, Population2010 задано в качестве переменной Числового поля, StateName - в качестве переменной Категория, а ElectionWinner - в качестве поля Разбить по для набора данных округов. Таблица Серии будет заполнена уникальными значениями ElectionWinner (Democrat и Republican), но вместо разбиения каждого штата на ящичковые диаграммы, для каждого значения ElectionWinner на полученной диаграмме будет одна ящичковая диаграмма для каждого штата, отображающая распределение Population2010 для округов этого штата; средние значения для каждого ряда Разбить по (Democrat и Republican) будут наложены на ящичковые диаграммы, показывающие, где среднее значение каждой серии падает по отношению к общему распределению.
Нормализация
Если ящичковая диаграмма создается из нескольких Числовых полей, стандартизация z-отношения будет применена по умолчанию. Нормализация позволяет сопоставлять числовые значения в разных единицах измерения.
Например, ящичковую диаграмму, сравнивающую распределение доходов (со значениями в десятки тысяч) и уровнем безработицы (значения в диапазоне от 0 до 1,0) было бы трудно читать без нормализации, поскольку значения уровня безработицы намного меньше, чем значения дохода.
Нормализация значений атрибутов включает z-трансформацию, где средняя величина всех значений вычитается из каждого значения и делится на стандартное отклонение, вычисленное для всех значений. Нормализация z-оценки приводит все атрибуты к единой шкале, позволяя визуализировать несколько распределений на одной диаграмме. Если вы хотите визуализировать необработанные значения, просто отключите опцию Стандартизировать значения (z-отношение) на панели Свойства диаграммы.
Оси
Несколько опций позволяют настроить оси и связанные настройки.
Ограничение символов надписи по оси X
Подписи категорий по умолчанию обрезаются до 11 символов. Если подписи обрезаются, полный текст можно увидеть, помещая над ними курсор. Чтобы отобразить полный текст подписи на диаграмме, увеличьте максимальное число символов подписи.
Границы по оси Y
Границы по оси Y устанавливаются в соответствии с диапазоном данных по оси Y. Эти значения можно изменить, задав новое значение границы оси. Настройки границ оси задаются для сохранения масштаба согласованности диаграммы для сравнения. Щелкнув кнопку Сброс , вы вернете ось обратно к значению по умолчанию.
Интервалы сетки
Настройте интервалы сетки для оси Y с помощью элемента управления Интервал. Интервал сетки по умолчанию будет рассчитан автоматически.
Числовой формат
Вы можете отформатировать способ отображения числовых значений оси, указав категорию форматирования или задав пользовательский формат. Например, $#,### можно использовать как строку пользовательского формата для отображения денежных значений.
Оформление
Несколько опций позволяют настроить оформление диаграммы и связанные настройки.
Заголовки и описание
Названия диаграммы и осей по умолчанию основаны на именах переменных и типах диаграммы. Эти значения можно редактировать на вкладке Общие панели Свойства диаграммы. Можно указать значение для опции Описание, которая представляет собой текстовый блок, отображаемый в нижней части окна диаграммы.
Визуальное форматирование
Можно настроить внешний вид диаграммы, отформатировав элементы текста и символов или применив тему диаграммы. Параметры формата можно настроить на вкладке Формат на панели Свойства диаграммы. Тему диаграммы можно выбрать на вкладке Диаграмма. К параметрам форматирования диаграмм относятся следующие:
- Размер, цвет и стиль шрифта, используемого для заголовков осей, надписей осей, текста описания, заголовка легенды, текста легенды и надписей направляющих.
- Цвет, толщина и тип линии для линий сетки и осей
- Цвет фона диаграммы
Цвет
Цвета ящичковых диаграмм по возможности соответствуют цветам контуров и заливки, заданным в символах слоя. Если серии разбиваются таким образом, который не соответствует символам слоя, применяется стандартная цветовая палитра. Цвета серий можно изменить на вкладке Серии на панели Свойства диаграммы, щелкнув инструмент выбора цвета Символ в таблице рядов Серии и выбрав новый цвет.
Сортировка
Ящичковые диаграммы автоматически сортируются в алфавитном порядке по категориям (по оси x по возрастанию). Эту настройку можно изменить с помощью параметров Сортировки на панели Свойства диаграммы. Для ящичковых диаграмм доступны следующие параметры сортировки:
- Ось X по возрастанию – категории упорядочиваются в алфавитном порядке слева направо.
- Ось X по убыванию – категории упорядочиваются в обратном алфавитном порядке.
- Среднее значение по возрастанию— Поля расположены по средней статистике в порядке возрастания.
- Среднее значение по убыванию— Поля расположены по средней статистике в порядке убывания.
- По возрастанию медианы— Поля расположены по статистике медианы в порядке возрастания.
- По убыванию медианы— Поля расположены по статистике медианы в порядке убывания.
- Пользовательская сортировка— категории упорядочиваются вручную в таблице Пользовательская сортировка.
Ориентация
Ящички можно расположить горизонтально; для этого надо щелкнуть кнопку Повернуть диаграмму в окне диаграммы.
Направляющие
Направляющие линии или диапазоны могут быть добавлены на диаграммы в качестве ориентира или как способ выделить важнейшие значения. Чтобы добавить новые направляющие, на вкладке Направляющие панели Свойства диаграммы и щелкните Добавить направляющую. Чтобы нарисовать линию, укажите значение для Значение там, где вы хотите провести линию. Для создания диапазона введите значение до. Можно добавить к направляющей текст, указав значение Надпись.
Пример
Создайте ящичковую диаграмму для сравнения распределения и вариабельности хронических состояний здоровья по штатам.
- Числовые поля — % Diabetes, % Asthma, % Heart Failure
- Категория —State