Gráfico de dispersión

Los gráficos de dispersión visualizan la relación entre dos variables numéricas, de forma que una variable se muestra en el eje x y la otra, en el eje y. Para cada registro, se traza un punto donde las dos variables se intersecan en el gráfico. Cuando los puntos resultantes forman una estructura no aleatoria, existe una relación entre las dos variables.

Variables

Los gráficos de dispersión se componen de dos números, uno para el eje x y otro para el eje y. Además, se puede especificar una tercera variable numérica para ajustar cada punto del gráfico a un tamaño proporcional.

Nota:

Para mejorar el rendimiento, se aplica la agregación visual cuando se crea un gráfico de dispersión con más de 200.000 puntos. En este caso, los puntos del gráfico de dispersión se agregan en una cuadrícula de 250 x 250 y cada celda mostrará como máximo un punto. Cuando se aplica la agregación visual, se deshabilitan los controles Campo de visualización de información sobre herramientas y Proporcional.

Varias series

Los gráficos de dispersión se pueden mostrar con varias series definiendo un campo de categoría Dividir por. Por ejemplo, en un dataset de incidentes delictivos, se puede usar un campo CrimeType para dividir los datos en varias series. La tabla Series se rellenará con cada tipo de delito único (Robo, Vandalismo e Incendio provocado, por ejemplo), y el gráfico resultante mostrará tres series de dispersión.

Mostrar varias series

Para configurar un gráfico de dispersión con varias series, utilice la opción Mostrar varias series como de la pestaña Series del panel Propiedades de gráfico. De forma predeterminada, se muestran varias series con la opción Gráfico único. En esta representación, todas las series se dibujan en la misma área de parcela, pero a cada serie se le asigna un color único para poder comparar los diferentes grupos.

También puede ver un gráfico de dispersión con varias series como un gráfico de cuadrícula (también conocido como múltiplos pequeños) seleccionando la opción Cuadrícula. Esta opción muestra una matriz de gráficos más pequeños, en la que cada minigráfico solo muestra los datos de una serie individual. Los gráficos de cuadrícula son útiles para comparar tendencias y patrones entre distintos subgrupos de datos. Puede personalizar las dimensiones del diseño de un gráfico de cuadrícula definiendo el valor numérico Minigráficos por fila. Por ejemplo, si cambia Minigráficos por fila a 3, se mostrará un máximo de tres gráficos por fila: el número total de filas de la cuadrícula vendrá determinado por el número de series del gráfico. Activar la casilla Mostrar gráfico de vista previa permite explorar de forma dinámica cada minigráfico con mayor detalle seleccionando uno para verlo en el diagrama de vista previa más grande.

Ejemplo de gráfico de cuadrícula

Campo de visualización de información sobre herramientas

El menú desplegable Campo de visualización de información sobre herramientas se puede utilizar para mostrar valores para un campo específico en la información sobre herramientas para cada punto del gráfico de dispersión. Por ejemplo, al trazar housing_cost contra crime_rate, puede resultar útil seleccionar neighborhood para el Campo de visualización de información sobre herramientas para que se muestre el nombre de la vecindad cuando pasa el cursor sobre un punto individual.

Estadísticas

Se calcula una ecuación de regresión, y la línea de tendencia asociada se traza en gráficos de dispersión. La línea de tendencia modela la relación entre las dos variables, con opciones de línea de tendencia tanto lineales (Linear) como no lineales (Exponential, Logarithmic, Power y Polynomial) disponibles. El valor R² cuantifica lo bien que se ajustan los datos al modelo, aunque recomendamos que tenga precaución al utilizar R² para los modelos no lineales, ya que la linealidad es una suposición incorporada al cálculo de R². Para desactivar la línea de tendencia, desactive la casilla de verificación Mostrar tendencia lineal en el panel Propiedades de gráfico o active y desactive la visibilidad haciendo clic en el elemento de la leyenda. Para cambiar el color de la línea de tendencia, haga clic en el selector de color de la línea de tendencia en el panel Propiedades de gráfico y elija un nuevo color.

Más información acerca del análisis de regresión

Nota:

Los gráficos utilizan la siguiente fórmula para calcular R²:

Fórmula R cuadrado

Donde El valor real es el valor real, El valor previsto es el valor previsto y El valor medio de los valores reales es el valor medio de los valores reales.

Correlación

En el caso de las tendencias lineales, cuando los valores x pequeños se corresponden con valores y pequeños, y los valores x grandes se corresponden con valores y grandes (línea en pendiente ascendente), existe una correlación positiva. Cuando los valores x pequeños se corresponden con valores y grandes, y los valores x grandes se corresponden con valores y pequeños (línea en pendiente descendente), existe una correlación negativa.

Nota:

Una correlación entre x e y no implica que x provoque y.

Símbolo

Varias opciones controlan la simbolización del gráfico y la configuración relacionada.

Tamaño

Los puntos del gráfico de dispersión pueden presentar un tamaño uniforme o un tamaño ajustado de forma proporcional en función de un atributo numérico. Ajustar los puntos de un gráfico de dispersión a un tamaño proporcional en función de una tercera variable numérica agrega otra dimensión a la visualización, creando un gráfico de burbujas.

Ejemplo de gráfico de burbujas

Color

Los puntos del gráfico de dispersión se pueden visualizar en un solo color o en los colores especificados en la simbología de la capa. De forma predeterminada, los gráficos de dispersión utilizan colores de la capa y heredan sus colores de relleno y contorno de la simbología de la capa de origen. Al simbolizar una capa con un atributo diferente a las variables del gráfico de dispersión, se puede mostrar una dimensión adicional en la visualización del gráfico de dispersión.

Ejes

Varias opciones controlan los ejes y la configuración relacionada.

Límites de ejes

Los límites mínimo y máximo predeterminados del eje se basan en el rango de valores de los datos representados en el eje. Estos valores pueden personalizarse proporcionando un nuevo valor límite del eje. Al hacer clic en el botón de restablecimiento, el límite de eje vuelve al valor predeterminado.

Eje de registro

De forma predeterminada, los ejes del gráfico de dispersión se muestran en una escala lineal. Uno o ambos ejes se pueden mostrar en una escala logarítmica activando la casilla de verificación Eje de registro en la sección Ejes del panel Propiedades de gráfico.

Las escalas logarítmicas resultan útiles cuando se visualizan datos con un gran sesgo positivo, en el que la mayoría de los puntos de datos tienen un valor pequeño, con unos pocos puntos de datos con valores muy grandes. Cambiar la escala del eje no cambia el valor de los datos, solo la forma en que se muestran.

Las escalas lineales se basan en sumas y las escalas logarítmicas se basan en multiplicaciones.

En una escala lineal, cada incremento en el eje representa la misma distancia en el valor. Por ejemplo, en el diagrama de eje siguiente, cada incremento en el eje aumenta sumando 10.

Eje de escala lineal

En una escala logarítmica, los incrementos aumentan en magnitudes. En el diagrama de eje siguiente, cada incremento en el eje aumenta multiplicando por 10.

Eje de escala logarítmica

Nota:

Las escalas logarítmicas no pueden mostrar valores negativos ni cero. Si registró el eje de una variable con valores negativos o cero, esos valores no aparecerán en el gráfico.

Límites de ejes adaptables

Cuando se muestra un gráfico de dispersión multiserie con la opción Cuadrícula, los límites del eje se pueden configurar con las siguientes opciones:

  • Fijo: aplica los límites máximos y mínimos globales a todos los minigráficos.
  • Adaptable: ajusta a los límites mínimo y máximo locales de cada minigráfico.

Intervalos de cuadrícula

Los intervalos de cuadrícula para los ejes x e y se pueden configurar usando los controles de Intervalo. Los intervalos de cuadrícula predeterminados se calcularán automáticamente.

Invertir eje

Los ejes de un gráfico de dispersión se pueden invertir activando la casilla Invertir eje.

Formato de número

Puede formatear el modo en que un eje mostrará valores numéricos especificando una categoría de formato de número o definiendo una cadena de formato personalizada. Por ejemplo, se puede utilizar $#,### como cadena de formato personalizado para mostrar valores de divisas.

Apariencia

Varias opciones controlan la apariencia del gráfico y la configuración relacionada.

Títulos y descripción

Los títulos predeterminados de los gráficos y ejes se basan en los nombres de las variables y el tipo de gráfico. Estos valores se pueden editar en la pestaña General del panel Propiedades de gráfico. También puede proporcionar un valor para la opción Descripción, que es un bloque de texto que aparece en la parte inferior de la ventana del gráfico.

Guías

Es posible agregar líneas o rangos de guía a los gráficos como referencia o como modo de resaltar valores importantes. Para agregar una nueva guía, vaya a la pestaña Guías del panel Propiedades de gráfico, elija si desea dibujar una guía horizontal o vertical y haga clic en Agregar guía. Para dibujar una línea, introduzca un valor donde desee que se dibuje la línea. Para crear un rango, introduzca un valor a. También puede agregar texto a su guía especificando una Etiqueta.

Ejemplo

En el siguiente gráfico de dispersión se visualiza la relación entre la diabetes y la hipertensión entre los beneficiarios de Medicare. Seleccione entidades en el gráfico para ver su ubicación en el mapa.

  • Eje X: tasa de diabetes
  • Eje Y: tasa de hipertensión

Ejemplo de gráfico de dispersión

Temas relacionados