Los diagramas de caja le permiten visualizar y comparar la distribución y la tendencia central de valores numéricos mediante sus cuartiles. Los cuartiles representan un método para dividir valores numéricos en cuatro grupos iguales basados en cinco valores clave: mínimo, primer cuartil, mediana, tercer cuartil y máximo.
La parte de la caja del diagrama siguiente ilustra el 50 por ciento medio de los valores de los datos, también conocido como rango intercuartílico o IQR. Le media de los valores se representa como la línea que divide la caja por la mitad. El IQR ilustra la variabilidad en un conjunto de valores. Un IQR grande indica una amplia dispersión de los valores, mientras que un IQR más pequeño indica que la mayoría de los valores quedan hacia el centro. Los diagramas de caja también ilustran los valores mínimos y máximos de los datos mediante bigotes, o líneas, que se extienden desde la caja y, opcionalmente, valores atípicos como puntos que se extienden más allá de los bigotes.
Variables
Los diagramas de caja se componen de un eje x y un eje y. El eje x asigna una caja para cada variable Categoría o Campo numérico. El eje y se utiliza para medir los valores mínimo, primer cuartil, mediana, tercer cuartil y máximo en un conjunto de números.
Puede utilizar diagramas de caja para visualizar una o varias distribuciones. Para visualizar una única distribución, agregue una variable de Campo numérico. Así se consigue un gráfico con un diagrama de caja que visualiza la distribución del atributo numérico elegido.
Puede agregar variables de Campo numérico adicionales para comparar varias distribuciones de campos de atributos diferentes en una tabla. Por ejemplo, en un dataset de condados, Population2010 y Population2015 se agregan como variables de Campo numérico. El gráfico resultante muestra dos diagramas de caja, uno con el que se visualiza la distribución de Population2010 y otro con el que se visualiza la distribución de Population2015 para todos los condados del dataset.
Cuando solo se agrega una única variable de Campo numérico, tiene la opción de agregar una variable de Categoría como método para comparar distribuciones entre categorías. Por ejemplo, Population2010 está configurado como la variable de Campo numérico y StateName como la variable de Categoría para un dataset de condados. El gráfico resultante muestra un diagrama de caja para cada estado, con el que se visualizará la distribución de Population2010 para todos los condados que pertenezcan a cada estado.
Varias series
Puede utilizar diagramas de caja de varias series para comparar distribuciones de distintos tipos o por categorías diferentes.
Los diagramas de caja de varias series se pueden crear especificando un campo de Categoría y varios Campos numéricos o especificando un campo de categoría Dividir por.
Al utilizar una variable de Categoría con varios Campos numéricos, cada Campo numérico agregado a la tabla de series crea una serie. Por ejemplo, en un dataset de condados, StateName está configurado como la variable de Categoría y Population2010, Population2015 y Population2020 están configurados como las variables de Campo numérico. El gráfico resultante tendrá estados como categorías a lo largo del eje x, con tres series cada uno (Population2010, Population2015 y Population2020).
También se puede agregar la variable Dividir por para dividir aún más los datos y crear varias series. Por ejemplo, Population2010 está configurado como la variable de Campo numérico, StateName como la variable de Categoría y ElectionWinner como el campo Dividir por para un dataset de condados. La tabla Serie se rellenará con cada valor único de ElectionWinner (Demócrata o Republicano). El gráfico resultante mostrará dos diagramas de caja en paralelo para cada estado (un total de 100 diagramas de caja): uno que muestra la distribución de Population2010 de todos los condados de cada estado con el valor de ElectionWinner como Demócrata, y otro para todos los condados de cada estado con el valor de ElectionWinner como Republicano.
También puede utilizar campos Dividir por cuando se utilizan varias variables de Campo numérico en lugar de una variable de Categoría. Por ejemplo, Population2010,Population2015 y Population2020 están configurados como las variables de Campo numérico y ElectionWinner está configurado como el campo Dividir por para un dataset de condados. El gráfico resultante mostrará las tres variables de Campo numérico a lo largo del eje x (Population2010, Population2015 y Population2020), cada uno de ellos con dos diagramas de caja en paralelo: uno para visualizar la distribución de todos los condados con el valor de ElectionWinner como Demócrata y otro para todos los condados con el valor de ElectionWinner como Republicano.
Mostrar varias series
Cuando utiliza un campo Dividir por para crear varias series, tiene dos opciones para visualizar los resultados:
- Paralelo : crear los diagramas de caja en paralelo, uno para cada serie.
- Como líneas medias : crea un diagrama de caja para cada valor de Categoría o variable de Campo numérico y usa líneas para mostrar la media de cada valor único del campo Dividir por.
Por ejemplo, Population2010 está configurado como la variable de Campo numérico, StateName está configurado como la variable de Categoría y ElectionWinner está configurado como el campo Dividir por para un dataset de condados. La tabla Serie se rellena con cada valor único de ElectionWinner (Demócrata y Republicano), pero, en lugar de dividir cada estado en un diagrama de caja para cada valor de ElectionWinner, el gráfico resultante muestra un diagrama de caja para cada estado visualizando la distribución de Population2010 para los condados de este estado, y el valor medio de cada serie de Dividir por (Demócrata y Republicano) se superpone en los diagramas de caja que muestren dónde queda el valor medio de cada serie en relación con la distribución total.
Estandarización
Cuando crea un diagrama de caja a partir de varios Campos numéricos, se aplica una estandarización de puntuación z de forma predeterminada. La estandarización permite que las variables numéricas de diferentes unidades sean comparables.
Por ejemplo, un diagrama de caja que compara las distribuciones de ingresos (con valores de decenas de miles) y la tasa de desempleo (valores comprendidos entre 0 y 1,0) sería difícil de leer sin estandarización, ya que los valores de tasa de desempleo son mucho más pequeños que los valores de ingresos.
La estandarización de los valores de atributos implica una transformación z en la que el valor medio de todos los valores se resta de cada valor y se divide entre la desviación estándar de todos los valores. La estandarización de puntuación z sitúa todos los atributos en la misma escala, lo cual permite que varias distribuciones se visualicen en el mismo gráfico. Para visualizar los valores sin procesar en su lugar, desactive la casilla de verificación Valores estandarizados (puntuación z) en el panel Propiedades de gráfico.
Ejes
Varias opciones controlan los ejes y la configuración relacionada.
Límite de caracteres de etiqueta del eje X
Las etiquetas de categoría se truncan en 11 caracteres de forma predeterminada. Cuando las etiquetas se truncan, puede desplazar el puntero por encima de la etiqueta para ver el texto completo. Para mostrar todo el texto de la etiqueta en el gráfico, aumente el límite de caracteres de la etiqueta.
Límites del eje Y
Los límites predeterminados del eje y se establecen en función del rango de valores de datos representados en el eje y. Personalice estos valores escribiendo un nuevo valor de límite de eje. Puede configurar límites de eje para mantener la coherencia de la escala de su gráfico para la comparación. Haga clic en el botón Restablecer para que el límite de eje recupere el valor predeterminado.
Formato de número
Puede formatear el modo en que un eje mostrará valores numéricos especificando una categoría de formato de número o definiendo una cadena de formato personalizada. Por ejemplo, use $#,### como cadena de formato personalizado para mostrar valores de divisas.
Apariencia
Varias opciones controlan la apariencia del gráfico y la configuración relacionada.
Títulos y descripción
Los gráficos y los ejes usan títulos predeterminados basados en los nombres de las variables y el tipo de gráfico. Estos valores se pueden editar en la pestaña General del panel Propiedades de gráfico. También puede proporcionar una Descripción del gráfico, que es un bloque de texto que aparece en la parte inferior de la ventana del gráfico.
Aplicación de formato visual
Puede configurar la apariencia de su gráfico cambiando el formato de los elementos de texto y símbolo o aplicando un tema de gráfico. Las propiedades de formato se pueden configurar en la pestaña Formato del panel Propiedades de gráfico. Puede seleccionar un tema de gráfico en la pestaña Gráfico. Entre las opciones para aplicar formato al gráfico se incluyen las siguientes:
- El tamaño, el color y el estilo de la fuente utilizados para los títulos de los ejes, las etiquetas de los ejes, el texto de la descripción, el título de la leyenda, el texto de la leyenda y las etiquetas de guía
- El color, el ancho y el tipo de línea para la cuadrícula y las líneas de los ejes
- Color de fondo del gráfico
Color
Los diagramas de caja coinciden con los colores del contorno y de relleno definidos en la simbología de la capa siempre que sea posible. Cuando las series se dividen de forma que no se corresponden con la simbología de la capa, se aplica una paleta de color estándar. Puede cambiar los colores de la serie en la pestaña Serie del panel Propiedades de gráfico haciendo clic en el parche de color Símbolo de la tabla Serie y eligiendo un nuevo color.
Ordenar
De forma automática, los diagramas de caja se ordenan alfabéticamente por sus categorías (eje x ascendente). Puede cambiarlo usando las opciones Ordenar del panel Propiedades de gráfico. Las siguientes opciones de ordenación están disponibles para los diagramas de caja:
- Eje x ascendente: las categorías se ordenan alfabéticamente de izquierda a derecha.
- Eje x descendente: las categorías se clasifican en orden alfabético inverso.
- Valor medio ascendente: las cajas se organizan en función de la estadística de valor medio en orden ascendente.
- Valor medio descendente: las cajas se organizan en función de la estadística de valor medio en orden descendente.
- Mediana ascendente: las cajas se organizan en función de la estadística de mediana en orden ascendente.
- Mediana descendente: las cajas se organizan en función de la estadística de mediana en orden descendente.
- Orden personalizado: las categorías se pueden organizar manualmente en la tabla Orden personalizado.
Orientación
Dibuje cajas en horizontal haciendo clic en el botón Rotar gráfico de la ventana del gráfico.
Guías
Es posible agregar líneas o rangos de guía a los gráficos como referencia o como modo de resaltar valores importantes. Para agregar una nueva guía, en la pestaña Guías del panel Propiedades de gráfico, haga clic en Agregar guía. Para dibujar una línea, introduzca un valor donde desee que se dibuje la línea. Para crear un rango, introduzca un valor a. También puede agregar texto a su guía especificando una Etiqueta.
Ejemplo
Cree un diagrama de caja para comparar las distribuciones y la variabilidad de problemas de salud crónicos por estado.
- Variables de Campo numérico: % de diabetes, % de asma, % de paros cardíacos
- Variable de Categoría: estado