Diagrama de caja

Los diagramas de caja le permiten visualizar y comparar la distribución y la tendencia central de valores numéricos mediante sus cuartiles. Los cuartiles son una forma de dividir valores numéricos en cuatro grupos iguales basados en cinco valores clave: mínimo, primer cuartil, mediana, tercer cuartil y máximo.

La parte de la caja del gráfico ilustra el 50 por ciento medio de los valores de los datos, también conocido como rango intercuartílico o IQR. Le media de los valores se representa como la línea que divide la caja por la mitad. El IQR ilustra la variabilidad en un conjunto de valores. Un IQR grande indica una amplia dispersión de los valores, mientras que un IQR más pequeño indica que la mayoría de los valores quedan hacia el centro. Los diagramas de caja también ilustran los valores mínimos y máximos de los datos mediante bigotes que se extienden desde la caja y, opcionalmente, valores atípicos como puntos que se extienden más allá de los bigotes.

Diagrama de caja

Variables

Los diagramas de caja se componen de un eje x y un eje y. El eje x asigna una caja para cada Categoría o Campo numérico. El eje y se utiliza para medir los valores mínimo, primer cuartil, mediana, tercer cuartil y máximo en un conjunto de números.

Los diagramas de caja se pueden utilizar para visualizar una o muchas distribuciones. Para visualizar una única distribución, agregue un Campo numérico. Así se consigue un gráfico con un diagrama de caja que visualiza la distribución del atributo numérico elegido.

Es posible agregar Campos numéricos adicionales para comparar varias distribuciones de campos de atributos diferentes en una tabla. Por ejemplo, en un dataset de condados, Population2010 y Population2015 se agregan como Campos numéricos. El gráfico resultante mostrará dos diagramas de caja, uno con el que se visualiza la distribución de Population2010 y otro con el que se visualiza la distribución de Population2015 para todos los condados del dataset.

Cuando solo se agrega un Campo numérico, la opción de agregar una variable de Categoría está disponible como forma de comparar distribuciones entre categorías. Por ejemplo, Population2010 está configurado como el Campo numérico y StateName como la Categoría para un dataset de condados. El gráfico resultante mostrará un diagrama de caja para cada estado, con el que se visualizará la distribución de Population2010 para todos los condados que pertenezcan a cada estado.

Varias series

Es posible usar diagramas de caja de varias series para comparar distribuciones de diferentes tipos, o por diferentes categorías.

Los diagramas de caja de varias series se pueden crear especificando un campo de Categoría y varios Campos numéricos o especificando un campo de categoría Dividir por.

Al utilizar una variable de Categoría con varios Campos numéricos, cada Campo numérico agregado a la tabla de series creará una serie. Por ejemplo, en un dataset de condados, StateName está configurado como Categoría y Population2010, Population2015 y Population2020 están configurados como Campos numéricos. El gráfico resultante tendrá estados como categorías a lo largo del eje x, con tres series cada uno (Population2010, Population2015 y Population2020).

También se puede agregar la variable Dividir por para dividir aún más los datos y crear varias series. Por ejemplo, Population2010 está configurado como el Campo numérico, StateName como la Categoría y ElectionWinner como el campo Dividir por para un dataset de condados. La tabla Serie se rellenará con cada valor único de ElectionWinner (Demócrata o Republicano). El gráfico resultante mostrará dos diagramas de caja en paralelo para cada estado (un total de 100 diagramas de caja): uno que muestra la distribución de Population2010 de todos los condados de cada estado con el valor de ElectionWinner como Demócrata, y otro para todos los condados de cada estado con el valor de ElectionWinner como Republicano.

Los campos de Dividir por también se pueden utilizar cuando se utilizan varios Campos numéricos en lugar de una variable de Categoría. Por ejemplo, Population2010,Population2015 y Population2020 están configurados como los Campos numéricos y ElectionWinner como el campo Dividir por para un dataset de condados. El gráfico resultante mostrará los tres Campos numéricos a lo largo del eje x (Population2010, Population2015 y Population2020), cada uno de ellos con dos diagramas de caja en paralelo: uno para visualizar la distribución de todos los condados con el valor de ElectionWinner como Demócrata y otro para todos los condados con el valor de ElectionWinner como Republicano.

Mostrar varias series

Cuando se utiliza un campo de Dividir por para crear varias series, existen dos opciones para visualizar los resultados.

  • Paralelo Gráfico multicaja: crear los diagramas de caja en paralelo, uno para cada serie.
  • Como líneas medias Gráfico de líneas de media: crea un diagrama de caja para cada valor de Categoría o Campo numérico y usa líneas para mostrar la media de cada valor único del campo Dividir por.

Por ejemplo, Population2010 está configurado como el Campo numérico, StateName como la Categoría y ElectionWinner como el campo Dividir por para un dataset de condados. La tabla Serie se rellenará con cada valor único de ElectionWinner (Demócrata y Republicano), pero, en lugar de dividir cada estado en un diagrama de caja para cada valor de ElectionWinner, el gráfico resultante mostrará un diagrama de caja para cada estado visualizando la distribución de Population2010 para los condados de este estado, y el valor medio de cada serie de Dividir por (Demócrata y Republicano) se superpondrá en los diagramas de caja que muestren dónde queda el valor medio de cada serie en relación con la distribución total.

Estandarización

Cuando se crea un diagrama de caja a partir de varios Campos numéricos, se aplica una estandarización de puntuación z de forma predeterminada. La estandarización permite que las variables numéricas de diferentes unidades sean comparables.

Por ejemplo, un diagrama de caja que compara las distribuciones de ingresos (con valores de decenas de miles) y la tasa de desempleo (valores comprendidos entre 0 y 1,0) sería difícil de leer sin estandarización, ya que los valores de tasa de desempleo son mucho más pequeños que los valores de ingresos.

La estandarización de los valores de atributos implica una transformación z en la que el valor medio de todos los valores se resta de cada valor y se divide entre la desviación estándar de todos los valores. La estandarización de puntuación z sitúa todos los atributos en la misma escala, lo cual permite que varias distribuciones se visualicen en el mismo gráfico. Para visualizar los valores sin procesar en su lugar, desactive la casilla de verificación Valores estandarizados (puntuación z) en el panel Propiedades de gráfico.

Ejes

Varias opciones controlan los ejes y la configuración relacionada.

Límite de caracteres de etiqueta del eje X

Las etiquetas de categoría se truncan en 11 caracteres de forma predeterminada. Cuando las etiquetas se truncan, el texto completo está disponible al desplazar el cursor sobre la etiqueta. Para mostrar todo el texto de la etiqueta en el gráfico, aumente el límite de caracteres de la etiqueta.

Límites del eje Y

Los límites predeterminados del eje y se establecen en función del rango de valores de datos representados en el eje y. Estos valores se pueden personalizar escribiendo un nuevo valor de límite de eje. La configuración de límites de eje se puede utilizar como una manera de mantener la coherencia de la escala de su gráfico para la comparación. Al hacer clic en el botón de restablecimiento, el límite de eje volverá al valor predeterminado.

Formato de número

Puede formatear el modo en que un eje mostrará valores numéricos especificando una categoría de formato de número o definiendo una cadena de formato personalizada. Por ejemplo, $#,### se puede utilizar como cadena de formato personalizado para mostrar valores de divisas.

Apariencia

Varias opciones controlan la apariencia del gráfico y la configuración relacionada.

Títulos y descripción

Los gráficos y los ejes usan títulos predeterminados basados en los nombres de las variables y el tipo de gráfico. Estos valores se pueden editar en la pestaña General del panel Propiedades de gráfico. También puede proporcionar una Descripción del gráfico, que es un bloque de texto que aparece en la parte inferior de la ventana del gráfico.

Aplicación de formato visual

Puede configurar la apariencia de su gráfico cambiando el formato de los elementos de texto y símbolo o aplicando un tema de gráfico. Las propiedades de formato se pueden configurar en la pestaña Formato del panel Propiedades de gráfico o en la cinta de contexto Formato de gráfico. Entre las opciones para aplicar formato al gráfico se incluyen las siguientes:

  • El tamaño, el color y el estilo de la fuente utilizados para los títulos de los ejes, las etiquetas de los ejes, el texto de la descripción, el título de la leyenda, el texto de la leyenda y las etiquetas de guía
  • El color, el ancho y el tipo de línea para la cuadrícula y las líneas de los ejes
  • Color de fondo del gráfico

Más información sobre el cambio de apariencia del gráfico

Color

Los diagramas de caja coinciden con los colores del contorno y de relleno definidos en la simbología de la capa siempre que sea posible. Cuando las series se dividen de forma que no se corresponden con la simbología de la capa, se aplica una paleta de color estándar. Los colores de las series se pueden cambiar en la pestaña Serie del panel Propiedades de gráfico haciendo clic en el parche de color Símbolo de la tabla Serie y eligiendo un nuevo color.

Ordenar

De forma automática, los diagramas de caja se ordenan alfabéticamente por sus categorías (eje x ascendente). Puede cambiarlo usando las opciones Ordenar del panel Propiedades de gráfico. Las siguientes opciones de ordenación están disponibles para los diagramas de caja:

  • Eje x ascendente: las categorías se ordenan alfabéticamente de izquierda a derecha.
  • Eje x descendente: las categorías se clasifican en orden alfabético inverso.
  • Personalizado: las categorías se pueden organizar manualmente en la tabla Orden personalizado.

Orientación

Las cajas pueden dibujarse en horizontal haciendo clic en el botón Rotar gráfico Rotar gráfico de la ventana del gráfico.

Guías

Es posible agregar líneas o rangos de guía a los gráficos como referencia o como modo de resaltar valores importantes. Para agregar una nueva guía, en la pestaña Guías del panel Propiedades de gráfico, haga clic en Agregar guía. Para dibujar una línea, introduzca un Valor donde desee que se dibuje la línea. Para crear un rango, introduzca un valor a. También puede agregar texto a su guía especificando una Etiqueta.

Ejemplo

Cree un diagrama de caja para comparar las distribuciones y la variabilidad de problemas de salud crónicos por estado.

  • Campos numéricos: % de diabetes, % de asma, % de paros cardíacos
  • Categoría: Estado

Diagrama de caja donde se comparan las distribuciones y la variabilidad de problemas de salud crónicos por estado

Temas relacionados