Ящичковая диаграмма

Ящичковые диаграммы позволяют визуализировать и сравнивать распределение и основную тенденцию числовых значений посредством их квартилей. Квартили – это способ разделения числовых значений на четыре равные группы на основе пяти ключевых значений: минимальное значение, первый квартиль, медиана, третий квартиль и максимальное значение.

Ящичковая часть диаграммы показывает средние 50 процентов значений данных, также известных как межквартильный диапазон, или IQR. Медиана значений изображается как линия, разделяющая ящичек пополам. IQR (межквартильный диапазон) показывает изменчивость в наборе значений. Большой IQR указывает на большой разброс значений, в то время как меньший IQR указывает на то, что большая часть значений выпадает вблизи центра. Ящичковые диаграммы также показывают минимальные и максимальные значения данных посредством усов, простирающихся от ящичка, и, дополнительно, посредством выбросов точек, выходящих за пределы усов.

Ящичковая диаграмма

Переменные

Ящичковые диаграммы состоят из оси x и оси y. На оси x присваивается один ящичек каждой категории или Числовым полем. Ось y используется для измерения в наборе чисел минимального значения, первого квартиля, медианы, третьего квартиля и максимального значения.

Ящичковые диаграммы могут использоваться для отображения одного или нескольких распределений. Для показа одного распределения добавьте одно Числовое поле. Это позволит получить диаграмму с одной ящичковой диаграммой, которая отображает распределение выбранного числового атрибута.

Можно добавить дополнительные Числовые поля для сравнения нескольких распределений для разных полей таблицы. К примеру, в наборе данных округов были добавлены Числовые поля Population2010 и Population2015. На полученной диаграмме будет две ящичковых диаграммы: одна отобразит распределение значений Population2010, а вторая - значений Population2015 для всех округов набора данных.

Если добавлено только одно Числовое поле, есть возможность добавления переменной Категория для сравнения распределений между категориями. К примеру, Population2010 задано в качестве Числового поля, а StateName - в качестве Категории для набора данных округов. В итоговой диаграмме получится по ящичку для каждого штата, визуализируя распределение Population2010 для всех округов, принадлежащих к каждому штату.

Несколько серий

Используйте несколько рядов ящичковых диаграмм для сравнения распределений различных значений или категорий.

Ящичковые диаграммы с несколькими рядами можно создавать, добавив Числовые поля и задав поле Категории, либо задав поле категории Разбить по.

При использовании переменной Категория с несколькими Числовыми полями, каждое Числовое поле, добавляемое в таблицу рядов, создаст новые ряды. Например, в наборе данных округа StateName задается как Категория, а Population2010, Population2015 и Population2020 задаются как Числовые поля. В полученной диаграмме будут штаты как категории вдоль оси х, с тремя сериями для каждого (Population2010, Population2015 и Population2020).

Либо можно добавить переменную Разбить по для дальнейшего разделения данных и создания нескольких рядов. К примеру, Population2010 задано в качестве Числового поля, StateName - в качестве Категории, а ElectionWinner - в качестве поля Разбить по для набора данных округов. В таблице Ряды появятся все уникальные значения ElectionWinner (Democrat или Republican). В итоговой диаграмме будет две соседних ящичковых диаграммы для каждого штата (а всего - 100 ящичковых диаграмм): одна отображает распределение значений Population2010 для всех округов каждого штата со значением ElectionWinner, равным Democrat, а другая - для всех округов каждого штата со значением ElectionWinner, равным Republican.

Поля Разбить по также могут использоваться, если есть несколько Числовых полей вместо переменной Категории. К примеру, Population2010, Population2015 и Population2020 заданы в качестве Числовых полей, а ElectionWinner - в качестве поля Разбить по для набора данных округов. На полученной диаграммы будут показаны три Числовых поля вдоль оси x (Population2010, Population2015 и Population2020), и для каждого будет созданы две соседних ящичковых диаграммы, на одной из которых будет отображено распределение для всех округов со значением ElectionWinner, равным Democrat, а на другой - распределение для всех округов со значением ElectionWinner, равным Republican.

Показать несколько серий

Если поле Разбить по используется для создания нескольких рядов, есть два варианта отображения результатов.

  • Отобразить в виде нескольких ящичковых диаграмм Мультиящичковая диаграмма – создаются соседние ящичковые диаграммы - по одной для каждого ряда.
  • Отобразить, как средние линии Диаграмма средних линий – создает одну ящичковую диаграмму для каждого значения Категории или Числового поля и использует линии для отображения среднего для каждого уникального значения в поле Разбить по.

К примеру, Population2010 задано в качестве Числового поля, StateName - в качестве Категории, а ElectionWinner - в качестве поля Разбить по для набора данных округов. Таблица Ряды будет заполнена уникальными значениями ElectionWinner (Democrat и Republican), но вместо разбиения каждого штата на ящичковые диаграммы, для каждого значения ElectionWinner на полученной диаграмме будет одна ящичковая диаграмма для каждого штата, отображающая распределение Population2010 для округов этого штата; средние значения для каждого ряда Разбить по (Democrat и Republican) будут наложены на коробочные графики, показывающие, где среднее значение каждого ряда падает по отношению к общему распределению.

Стандартизация

Если ящичковая диаграмма создается из нескольких Числовых полей, стандартизация z-отношения будет применена по умолчанию. Стандартизация позволяет сопоставлять числовые значения в разных единицах измерения.

Например, ящичковую диаграмму, сравнивающую распределение доходов (со значениями в десятки тысяч) и уровнем безработицы (значения в диапазоне от 0 до 1,0) было бы трудно читать без стандартизации, поскольку значения уровня безработицы намного меньше, чем значения дохода.

Стандартизация значений атрибутов включает z-трансформацию, где средняя величина всех значений вычитается из каждого значения и делится на стандартное отклонение, вычисленное для всех значений. Стандартизация z-отношения приводит все атрибуты к единому масштабу, позволяя визуализировать несколько распределений на одной диаграмме. Если вы хотите визуализировать необработанные значения, просто отключите опцию Стандартизировать значения (z-отношение) на панели Свойства диаграммы.

Оси

Ограничение символов надписи по оси X

Подписи категорий по умолчанию обрезаются до 11 символов. Если подписи обрезаются, полный текст можно увидеть, поместив над ним курсор. Чтобы отобразить полный текст подписи на диаграмме, увеличьте максимальное число символов подписи.

Границы по оси Y

Границы по оси Y устанавливаются в соответствии с диапазоном данных по оси Y. Эти значения можно настроить, введя нужные граничные значения по оси. Задание границ осей можно использовать как способ сохранения согласованности масштаба диаграммы для сравнения.Щелчок на значке сброса вернет граничные значения оси в установке по умолчанию.

Числовой формат

Вы можете отформатировать способ отображения числовых значений оси, указав категорию форматирования или задав пользовательский формат. Например, $#,### можно использовать как строку пользовательского формата для отображения денежных значений.

Оформление

Заголовки и описание

Диаграммам и осям присваиваются названия по умолчанию на основе имен переменных и типа диаграммы. Эти значения можно редактировать на вкладке Общие панели Свойства диаграммы. Также для диаграммы можно ввести Описание, которое представляет из себя текстовый блок, появляющийся в нижней части окна диаграммы.

Визуальное форматирование

Настройку внешнего вида диаграммы можно выполнить как путем форматирования текста и элементов символов, так и применив тему диаграммы. Параметры формата можно настроить на вкладке Формат на панели Свойства диаграммы или через контекстную ленту Формат диаграммы. К параметрам форматирования диаграмм относятся следующие:

  • Размер, цвет и стиль шрифта, используемого для заголовков осей, надписей осей, текста описания, заголовка легенды, текста легенды и надписей направляющих.
  • Цвет, толщина и тип линии для линий сетки и осей
  • Цвет фона диаграммы

Более подробно об изменении внешнего вида диаграмм

Цвет

Цвета ящичковых диаграмм по возможности соответствуют цветам контуров и заливки, заданным в символах слоя. Если серии разбиваются таким образом, который не соответствует символам слоя, применяется стандартная цветовая палитра. Цвета можно изменить на вкладке Ряды на панели Свойства диаграммы, щелкнув инструмент выбора цвета Символ в таблице Ряды и выбрав новый цвет.

Сортировать

Ящичковые диаграммы автоматически сортируются в алфавитном порядке по категориям (по оси x по возрастанию). Эту настройку можно изменить с помощью параметров Сортировки на панели Свойства диаграммы. Для ящичковых диаграмм доступны следующие параметры сортировки:

  • Ось X по возрастанию – категории упорядочиваются в алфавитном порядке слева направо.
  • Ось X по убыванию – категории упорядочиваются в обратном алфавитном порядке.
  • Пользовательская – категории упорядочиваются вручную в таблице Пользовательская сортировка.

Ориентация

Ящички можно расположить горизонтально; для этого надо щелкнуть кнопку Повернуть диаграмму Повернуть диаграмму в окне диаграммы.

Руководства

Направляющие или диапазоны могут быть добавлены на диаграммы для ориентировки или как способ выделить важнейшие значения. Чтобы добавить новые направляющие, на вкладке Направляющие панели Свойства диаграммы и щелкните Добавить направляющую. Чтобы нарисовать линию, введите Значение, где вы хотите ее отобразить. Для создания диапазона введите значение до. Дополнительно можно добавить текст к направляющей, указав Подпись.

Пример

Создайте ящичковую диаграмму для сравнения распределения и вариабельности хронических состояний здоровья по штатам.

  • Числовые поля - % Diabetes, % Asthma, % Heart Failure
  • Категория - Штат

Ящичковая диаграмма, показывающая сравнение распределения и вариабельности хронических состояний здоровья по штатам