Puede evaluar la calidad y la distribución de los valores en cada campo de sus datos mediante ingeniería de datos. Por ejemplo, el número de valores nulos en un campo puede ser una métrica de calidad de datos útil a la hora de identificar entidades con datos faltantes. Las estadísticas descriptivas, como la media, la desviación estándar y la curtosis, pueden ayudarle a comprender la distribución de los valores en los campos, así como a evaluar cómo proceder al utilizar un campo en un análisis.
La vista de Ingeniería de datos en ArcGIS Pro le permite mostrar estadísticas descriptivas y métricas para los campos de interés en sus datos en un formato de tabla que muestra cada campo como una fila y cada estadística como una columna. Puede utilizar esta tabla para profundizar en la exploración de los datos y corregir problemas en los mismos mediante el acceso a la configuración de la simbología, la creación de gráficos y la ejecución de herramientas de geoprocesamiento que sean relevantes para cada métrica y propiedad del campo seleccionado.
Seleccionar campos y calcular estadísticas
Cuando se abre la vista de Ingeniería de datos, contiene dos paneles: uno muestra los campos de sus datos, y el otro muestra una tabla de estadísticas para los campos (una vez que han sido seleccionados y calculados).
Más información sobre la vista de Ingeniería de datos
Para empezar, haga clic en un único campo en el panel de campos, pulse Ctrl y haga clic para seleccionar campos individuales e independientes o pulse Mayús y haga clic para seleccionar varios campos. A continuación, arrastre los campos al panel de estadísticas.
Como alternativa, haga clic con el botón derecho en los campos seleccionados y haga clic en Agregar a estadísticas o Agregar a estadísticas y calcular.
Una vez agregados los campos, se muestran como filas en la tabla de estadísticas. Cada fila contiene el nombre del campo, el alias y el tipo de datos de los campos seleccionados. Además, aparecen una serie de columnas estadísticas que contendrán información adicional sobre los campos seleccionados una vez realizados los cálculos.
Para rellenar la información de las columnas de estadísticas de los campos seleccionados, haga clic en el botón Calcular. Mientras se están calculando las estadísticas, el botón Calcular cambia a un botón Cancelar en el que puede hacer clic para cancelar el cálculo.
Las columnas de estadísticas se rellenan con información para cada campo de los datos.
Si ha seleccionado registros, los resultados se corresponden con los registros seleccionados en los datos. El número de entidades seleccionadas y el número de entidades que se utilizaron para calcular las estadísticas se muestran debajo de la tabla de estadísticas.
Si tiene ediciones pendientes en la capa o tabla de entidades, las ediciones pendientes se utilizan en el cálculo.
Tipos de estadísticas
En la vista de Ingeniería de Datos, puede calcular y visualizar métricas estadísticas y de calidad de los datos de cada campo de los datos como columnas en una tabla. Una vez calculados los valores, haga clic con el botón derecho del ratón en las celdas de estadísticas de cada campo para acceder a funcionalidades adicionales relacionadas con las estadísticas. Algunas de estas funcionalidades utilizan herramientas de geoprocesamiento que modifican los datos de entrada. Si los datos no son editables, realice una copia editable de los mismos antes de comenzar la ingeniería de datos.
Nota:
El redondeo de los resultados en la tabla de estadísticas depende de la magnitud del valor. Se muestra al menos una posición decimal para las estadísticas con posiciones decimales, pero solo se agregan posiciones decimales adicionales si mantiene los errores de redondeo por debajo del 1 por ciento.
Nota:
Los cálculos tratan Inf y -Inf como valores nulos. Sin embargo, la opción del menú Seleccionar nulos de la estadística Nulos no tratará estos valores como valores nulos.
Estadística | Descripción | Tipos de datos aplicables | Opciones de menú |
---|---|---|---|
Nulos | Un recuento y porcentaje del número total de registros que contienen valores nulos en el campo. Para seleccionar los registros que contienen valores nulos, haga clic con el botón derecho en las celdas de esta columna. Nota:Si la simbología de la capa no está configurada para visualizar valores nulos, es posible que la selección no aparezca en el mapa. Configurar la simbología para mostrar los valores fuera de rango para visualizar las entidades con valores nulos. | Numérico, Texto, Fecha |
|
Vista previa del gráfico | Una representación visual de la distribución de los valores en el campo. Se visualizan histogramas para los campos numéricos (cortos, largos, flotantes, dobles), gráficos de barras para los campos de categorías (texto) y gráficos de líneas para los campos de tipo fecha. Utilice la columna de vista previa del gráfico para realizar una exploración inicial. Para crear gráficos para los campos de interés, haga clic con el botón derecho en las celdas de esta columna. Nota:De forma predeterminada, los histogramas y los gráficos de líneas se visualizan por defecto con 20 bins. En función de la escasez de datos, puede haber bins que no contengan datos, y los bins con valores vacíos se tratan como cero en la vista previa del gráfico. Para cambiar el nivel de detalle, haga clic con el botón derecho en la vista previa del gráfico y cree un gráfico. | Numérico, Texto, Fecha |
|
Mínimo | El valor más bajo del campo. Para seleccionar los registros que contienen el valor mínimo, haga clic con el botón derecho en las celdas de esta columna. | Numérico, Fecha |
|
Máximo | El valor más alto del campo. Para seleccionar los registros que contienen el valor máximo, haga clic con el botón derecho en las celdas de esta columna. | Numérico, Fecha |
|
Valor medio | El valor medio de todos los valores del campo. El valor medio es el valor promedio de una distribución, calculado como la suma de los valores dividida por el recuento total de valores en el campo. El valor medio es la medida más común de la tendencia central de una distribución. Para calcular la fecha media de los campos de fecha, cada fecha se convierte en un número mediante el cálculo de la diferencia entre la fecha y una fecha de referencia (por ejemplo, 1900-01-01), calculada en milisegundos. La suma de todos los valores en milisegundos dividida por la cantidad de valores de fecha proporciona la fecha media, que se redondea al segundo más cercano para su visualización. Nota:Puede que la fecha media no tenga la misma resolución temporal (es decir, minutos, segundos, milisegundos) que los valores del campo. Para seleccionar los registros que contienen valores por encima y por debajo del valor medio, haga clic con el botón derecho en las celdas de esta columna. | Numérico, Fecha |
|
Desviación estándar | La desviación estándar de los valores en el campo. La desviación estándar es una medida de la propagación de la distribución. Se calcula como la raíz cuadrada de la varianza, en la que la varianza es el promedio de la diferencia al cuadrado de cada valor con respecto al valor medio del campo. | Numérico |
|
Mediana | El valor mediano de todos los valores del campo. El valor mediano es el valor central de la lista ordenada de valores. Si hay un número par de valores, el valor mediano es el valor medio entre los dos valores centrales de la distribución. Para seleccionar los registros que contienen valores por encima del valor mediano y por debajo del valor mediano, haga clic con el botón derecho en las celdas de esta columna. | Numérico, Fecha |
|
Recuento | El recuento y el porcentaje del número total de valores no nulos en el campo. | Numérico, Texto, Fecha |
|
Número de valores únicos | El número de valores únicos del campo. | Numérico, Texto, Fecha | Sin acciones únicas |
Modo | La moda para todos los valores del campo. La moda es el valor más frecuente en el campo. En caso de empate, cuando el valor que ocurre con mayor frecuencia en un campo corresponde a varios valores, la celda muestra [Varios valores]. Para seleccionar los registros que contienen la moda, haga clic con el botón derecho en las celdas de esta columna. | Numérico, Texto, Fecha |
|
Menos común | El valor menos común del campo. En caso de empate, cuando el valor menos común de un campo corresponde a varios valores, la celda muestra [Varios valores]. Para seleccionar los registros que contienen el valor menos común, haga clic con el botón derecho en las celdas de esta columna. | Numérico, Texto, Fecha |
|
Valores atípicos | El número de registros con valores atípicos en el campo. Los valores atípicos son aquellos que superan en más de 1,5 veces el rango intercuartil por encima del tercer cuartil o por debajo del primer cuartil del campo seleccionado. Para seleccionar los registros que contienen los valores atípicos, haga clic con el botón derecho en las celdas de esta columna. | Numérico |
|
Suma | La suma de todos los valores del campo. | Numérico | Sin acciones únicas |
Intervalo | La diferencia entre el valor más pequeño y el más grande del campo. | Numérico | Sin acciones únicas |
Rango intercuartílico | El rango entre los valores del primer cuartil y el tercer cuartil del campo. Los cuartiles dividen la lista ordenada de valores en cuatro grupos que contienen igual número de valores. El valor del primer cuartil es el límite superior del primer grupo en orden ascendente, y el tercer cuartil es el límite superior del tercer grupo. Para seleccionar los registros que contienen valores dentro de este rango, haga clic con el botón derecho en las celdas de esta columna. | Numérico |
|
Primer cuartil | El valor del primer cuartil del campo. Los cuartiles dividen la lista ordenada de valores en cuatro grupos que contienen igual número de valores. El valor del primer cuartil es el límite superior del primer grupo en orden ascendente. En caso de empate, se muestra el valor medio de todos los valores correspondientes. Para seleccionar los registros que contienen valores por encima y por debajo del primer cuartil, haga clic con el botón derecho en las celdas de esta columna. | Numérico, Fecha |
|
Tercer cuartil | El valor del tercer cuartil en el campo. Los cuartiles dividen la lista ordenada de valores en cuatro grupos que contienen igual número de valores. El tercer cuartil es el límite superior del tercer grupo. En caso de empate, se muestra el valor medio de todos los valores correspondientes. Para seleccionar los registros que contienen valores por encima y por debajo del tercer cuartil, haga clic con el botón derecho en las celdas de esta columna. | Numérico, Fecha |
|
Coeficiente de variación | El coeficiente de variación de los valores en el campo. El coeficiente de variación es una medida de la propagación relativa de los valores. Se calcula como la desviación estándar dividida por el valor medio del campo. A diferencia de la desviación estándar, que siempre debe considerarse en el contexto del rango de los datos, el coeficiente de variación proporciona una forma de comparar series de datos con diferentes rangos y valores medios. El coeficiente de variación no se puede calcular si el valor medio es igual a cero. Si el valor medio es cercano a cero y hay valores positivos y negativos en el dataset, el coeficiente de variación podría carecer de interpretación significativa. | Numérico | |
Sesgo | El sesgo de los valores del campo. El sesgo mide la simetría de la distribución. El sesgo es cero (o próximo a cero) si la distribución es simétrica en ambos lados, como se observa en una distribución normal. Las distribuciones con colas más largas a la izquierda tienen asimetría negativa, y las distribuciones con colas más largas a la derecha tienen asimetría positiva. El sesgo se calcula como el tercer momento (la media de los valores de los datos al cubo) dividido por la desviación estándar al cubo. | Numérico | |
Curtosis | La curtosis de los valores en el campo. La curtosis describe el peso de las colas de una distribución en comparación con las colas de una distribución normal, lo que ayuda a identificar la frecuencia de los valores extremos. Las distribuciones con curtosis inferior a tres tienen colas más ligeras y menos valores extremos que la distribución normal, y las distribuciones con curtosis superior a tres tienen colas más pesadas y más valores extremos que la distribución normal. La curtosis se calcula como el cuarto momento (el valor esperado de los valores de los datos llevados a la cuarta potencia) dividido por la cuarta potencia de la desviación estándar. | Numérico |
Tabla de estadísticas interactiva
La tabla de estadísticas es interactiva. Haga clic con el botón derecho del ratón en las celdas y los encabezados y utilice la barra de herramientas para acceder a la funcionalidad.
Interactuar con los campos
Haga clic con el botón derecho del ratón en el encabezado de una fila para acceder a la funcionalidad aplicable al campo seleccionado, como la siguiente:
- Crear gráfico: crear gráficos con el campo seleccionado. Se ofrecen recomendaciones en función del tipo de datos.
- Campos: se abre la vista de campos y se establece el campo actual como campo activo en la vista.
- Tabla de atributos: se abre la tabla de atributos y se establece el campo actual como campo activo en la tabla de atributos.
- Limpiar, Construir, Integrar y Formatear: acceda a las herramientas de geoprocesamiento para preparar los datos. Consulte Preparar datos para obtener más información sobre estas opciones.
- Eliminar campo: se elimina el campo y se borran sus estadísticas de la tabla de estadísticas.
Nota:
La mayoría de las operaciones de geoprocesamiento que modifican los datos de entrada no se pueden deshacer.
Visualizar tipos de datos específicos
La barra de herramientas de la tabla de estadísticas incluye opciones para designar qué campos y columnas de estadísticas se muestran en función del tipo de datos.
Por ejemplo, puede hacer clic en la opción Texto para eliminar los campos de datos de tipo texto.
Cuando se eliminan tipos de datos de la tabla de estadísticas, también se eliminan las columnas que son exclusivas del tipo de datos eliminado. Esto puede facilitar la revisión de la tabla en busca de elementos de interés. Por ejemplo, si se muestran solo los campos de tipo fecha, se omiten las columnas que describen las distribuciones, como sesgo y curtosis, por lo que el número de columnas se reduce a aquellas de interés únicamente.
Ordenar, ocultar, inmovilizar y reordenar columnas
De forma predeterminada, los campos se muestran en el mismo orden en que aparecen en la tabla de atributos. Las opciones de los encabezados de columna permiten ordenar, ocultar e inmovilizar las columnas de la tabla.
La ordenación permite reordenar las filas por el valor de la estadística calculada. Por ejemplo, puede ordenar los campos por la columna Valores nulos para conocer qué campos pueden tener datos no disponibles.
Nota:
Solo se puede ordenar si la tabla contiene campos con un tipo de datos único. Utilice las opciones de visualización de la barra de herramientas para filtrar a un tipo de datos específico; a continuación, ordene. El orden de clasificación se restablece al valor predeterminado cada vez que se agrega un nuevo campo a la tabla de estadísticas.
Haga clic en Inmovilizar/movilizar para mover la columna al principio de la tabla de estadísticas y bloquearla en su lugar para que la columna se muestre cuando se desplace la tabla horizontalmente. Para reordenar las columnas, arrastre el encabezado de una columna a la nueva ubicación.
Para ocultar columnas, haga clic en Ocultar columna. Esto elimina la columna de la vista. Para mostrar todas las columnas ocultas, haga clic en Mostrar todas las columnas.
Para quitar todos los campos y sus estadísticas de la tabla de estadísticas, haga clic en Quitar todos los campos. Si se vuelve a agregar un campo eliminado a la tabla de estadísticas, tendrá que volver a hacer clic en el botón Calcular para ver sus estadísticas.
Exportar estadísticas
Para utilizar las estadísticas en otras partes de ArcGIS Pro, conserve las estadísticas como una tabla independiente. Haga clic en Exportar estadísticas como tabla para abrir la herramienta Estadísticas de campo a tabla. Esta opción permite exportar las estadísticas como una única tabla o como tablas independientes para cada tipo de datos.
Referencias
- Sheskin, D.J. (2000). "Handbook of Parametric and Nonparametric Statistical Procedures". Segunda edición. Boca Raton, Florida: Chapman & Hall/CRC. ISBN: 978-1-58488-814-7.
- UCLA: Statistical Consulting Group.
"IEEE Standard for Floating-Point Arithmetic." IEEE Std 754-2019 (revisión de IEEE 754-2008), vol., no., pp.1-84, 22 de julio de 2019. https://ieeexplore.ieee.org/document/8766229.