Los histogramas resumen visualmente la distribución de una variable numérica continua midiendo la frecuencia con la que determinados valores aparecen en el dataset. En un histograma, el eje x es una línea numérica que se ha dividido en rangos de números o bins. Para cada bin, se dibuja una barra en la que el ancho de la barra representa el rango del bin y la altura de la barra representa el número de puntos de datos incluidos en ese rango. Conocer la distribución de los datos es un paso importante en el proceso de exploración de esos datos.
Variable
Los histogramas requieren una variable Número continua en el eje x.
Transformación
Algunos métodos analíticos requieren que los datos se distribuyan normalmente. Cuando los datos están sesgados (la distribución es asimétrica), es posible que le convenga transformar los datos para que sean normales. Los histogramas le permiten explorar los efectos de las transformaciones logarítmicas y de raíz cuadrada en la distribución de sus datos. Como referencia, puede agregar una superposición de distribución normal a su histograma activando la casilla de verificación Mostrar distribución normal en el panel Propiedades de gráfico.
Transformación logarítmica
La transformación logarítmica se usa normalmente si los datos tienen una distribución sesgada de forma positiva y algunos valores son muy grandes. Si estos valores grandes están en su dataset, la transformación logarítmica le ayudará a que las varianzas sean más constantes y normalizará sus datos.
Por ejemplo, la distribución sesgada de forma positiva del gráfico de la izquierda se transforma en una distribución normal por medio de una transformación logarítmica en el gráfico de la derecha:
Nota:
Las transformaciones logarítmicas solo se pueden aplicar a números mayores que cero.
Transformación de raíz cuadrada
Una transformación de raíz cuadrada es similar a una transformación logarítmica en cuanto a que reduce el sesgo derecho de un dataset. A diferencia de las transformaciones logarítmicas, las transformaciones de raíz cuadrada se pueden aplicar a cero.
Nota:
Las transformaciones de raíz cuadrada solo se pueden aplicar a números mayores o iguales que cero.
Número de bins
El número de bins coincide de manera predeterminada con la raíz cuadrada del número de registros del dataset. Se puede ajustar cambiando el valor de Bins en la pestaña Datos del panel Propiedades de gráfico. Cambiar el número de bins permite ver más o menos detalle en la estructura de los datos.
Estadísticas
En los histogramas se calculan, y se muestran como líneas verticales, varias estadísticas descriptivas. La media y la mediana se muestran cada una con una línea, y también se muestra una desviación estándar por encima y por debajo de la media con dos líneas. Puede hacer clic en estos elementos en la leyenda del gráfico para activarlos o desactivarlos.
Aparece una tabla de Estadísticas en la pestaña Datos del panel Propiedades de gráfico que contiene las siguientes estadísticas para el campo numérico seleccionado:
- Valor medio
- Mediana
- Desviación estándar
- Recuento
- Mín.
- Máx.
- Suma
- Nulos
- Sesgo
- Curtosis
Si la capa de origen del gráfico tiene un conjunto de selección, la tabla de estadísticas tendrá una columna para las estadísticas del dataset completo y una columna para las estadísticas solo del conjunto de selección.
La tabla de estadísticas también cuenta con controles para activar y desactivar las líneas del valor medio, la mediana y la desviación estándar del histograma y cambiar su color.
Puede hacer clic con el botón derecho en la tabla de estadísticas y seleccionar un comando para Copiar tabla, Copiar fila o Copiar valor al Portapapeles. De esta forma, es posible copiar y pegar estadísticas del panel Propiedades de gráfico en otras ventanas o aplicaciones.
Ejes
Límites del eje Y
Los límites predeterminados del eje y se establecen en función del rango de valores de datos representados en el eje y. Estos valores se pueden personalizar escribiendo un nuevo valor deseado de límite de eje. La configuración de límites de eje se puede utilizar como una manera de mantener la coherencia de la escala de su gráfico para la comparación. Al hacer clic en el icono de restablecer, el límite de eje volverá al valor predeterminado.
Formato de número
Puede formatear el modo en que un eje mostrará valores numéricos especificando una categoría de formato de número o definiendo una cadena de formato personalizada. Por ejemplo, $#,### se puede utilizar como cadena de formato personalizado para mostrar valores de divisas.
Apariencia
Títulos y descripción
Los gráficos y los ejes usan títulos predeterminados basados en los nombres de las variables y el tipo de gráfico. Estos valores se pueden editar en la pestaña General del panel Propiedades de gráfico. También puede proporcionar una Descripción del gráfico, que es un bloque de texto que aparece en la parte inferior de la ventana del gráfico.
Color
Puede cambiar el color de los bins de un histograma usando el parche de color junto a Bins en la pestaña Datos del panel Propiedades de gráfico.
Guías
Es posible agregar líneas o rangos de guía a los gráficos como referencia o como modo de resaltar valores importantes. Para agregar una nueva guía, en la pestaña Guías del panel Propiedades de gráfico, haga clic en Agregar guía. Para dibujar una línea, introduzca un Valor donde desee que se dibuje la línea. Para crear un rango, introduzca un valor a. También puede agregar texto a su guía especificando una Etiqueta.
Ejemplo
Cree un histograma para visualizar la distribución de la densidad de población en los grupos de bloques censales de Washington, D.C.
- Número: densidad de población