Cómo funciona Llenar valores que faltan

La herramienta Llenar valores que faltan sustituirá los valores que falten (nulos) por valores estimados a fin de minimizar el efecto de estos valores nulos en el análisis subsiguiente. Existen muchos motivos por los cuales pueden faltar datos. Por ejemplo, pueden faltar datos porque hay un sensor roto temporalmente, un lugar de muestreo es inaccesible o los valores de los datos se han suprimido intencionadamente para proteger la confidencialidad. Cuando faltan uno o más valores de una entidad, la mayoría de métodos estadísticos actúan de forma predeterminada eliminando esa entidad del análisis. Eliminar entidades de este modo puede introducir sesgos o afectar a la idoneidad de los resultados, ya que el análisis se realiza en un dataset incompleto. En lugar de eliminar datos valiosos que pueden afectar a sus análisis o dar lugar a lagunas en un mapa, es posible rellenar los valores de datos que faltan utilizando otra información del dataset o de otros datasets (por ejemplo, un dataset o unidades agregadas mayores). Para los datos espaciales, puede utilizar valores de las entidades vecinas en el espacio para realizar una estimación de los valores que faltan. Para datos espacio-temporales, también se pueden utilizar los vecinos en el tiempo para rellenar los valores que faltan. Para los datos no espaciales, puede usar estadísticas globales del campo que contienen los valores que faltan para rellenar los valores que faltan. Realizar la estimación de los valores que faltan y rellenarlos preserva los valores existentes y sustituye los nulos en función del método seleccionado. Después de rellenar los valores que faltan, el dataset se puede analizar como un dataset completo.

Por ejemplo, en un dataset de Estados Unidos en el que cada uno de los 50 estados tiene datos de 100 años sobre ingresos relativos per cápita asociados, California no tiene datos de 1 año (un valor nulo). Si intenta crear un cubo de espacio-tiempo, todos los datos de California se eliminarían del análisis a causa de ese único valor nulo en el dataset. Todos los demás 99 valores correspondientes a California quedan fuera del análisis porque la serie temporal debe estar completa para poder incluirla. La herramienta Rellenar valores que faltan ayuda a asegurarse de que se rellenan los valores nulos con una aproximación buena del valor que falta y garantiza que California se incluya en los análisis subsiguientes.

Interpretar los resultados

La herramienta dará como resultado un campo nuevo que contiene el conjunto completo de valores existentes e introducidos, así como un campo que indica qué valores son estimados. La herramienta también da como resultado mensajes que proporcionan información sobre el porcentaje del total de registros a los cuales se han introducido valores, la distribución de los datos antes y después de rellenar los valores que faltan y el número total y el porcentaje de valores rellenados.

Mejores prácticas

Al decidir si esta herramienta resulta apropiada para sus datos y los parámetros que debe elegir, deben tenerse en cuenta varias cosas.

  • Asegúrese de saber qué valores faltan. El marcador de posición que indica un valor que falta puede variar de un dataset a otro. En una clase de entidad de geodatabase, los valores que faltan se almacenan como <Null> y, por consiguiente, se reconocen fácilmente. Sin embargo, los shapefiles no pueden almacenar valores nulos. Las herramientas u otros procedimientos que crean shapefiles pueden almacenar o interpretar valores nulos como cero. O bien, en algunos casos, los valores nulos de los shapefiles se indican con un número positivo o negativo muy grande. Un truco sencillo para saber cuáles son los valores de datos que faltan es ordenar el campo de interés de los valores más grandes a los más pequeños y, después, de los valores más pequeños a los más grandes. Ver valores nulos, muchos valores igual a cero o valores muy grandes o muy pequeños puede proporcionar indicios de qué marcador de posición indica un valor que falta. A veces, los metadatos indican el marcador de posición de los datos que faltan.
  • Determine cuántos valores faltan. No quiere rellenar demasiados valores. Si bien no hay un valor límite absoluto del número de valores de datos que faltan que debería tratar de rellenar, una pauta habitual es no rellenar más del 5 por ciento de los valores del dataset.
  • Determine dónde se encuentran los valores que faltan. Represente el atributo con datos que faltan y examine los patrones espaciales. Determine si los datos que faltan están agrupados en clúster, ubicados en la periferia o en el centro de su área de estudio. Además, observe si los valores que faltan aparecen en zonas con valores principalmente elevados o bajos. Cualquiera de estos casos sugiere que existe un patrón de ubicación de valores donde faltan datos; esto es un indicador de que los datos no faltan de forma aleatoria. Rellenar los valores que faltan funciona del mejor modo posible cuando faltan de forma aleatoria.
  • Compruebe el número y el porcentaje de valores rellenados para determinar si todavía falta algún valor. Si los hay, intente cambiar el método utilizado para rellenar los valores. Por ejemplo, aumente el número de vecinos o el tamaño de la vecindad. Asegúrese de no rellenar valores que falten con valores ya existentes. Esta es una mala práctica, ya que, esencialmente, esto supone estimar valores a partir de valores estimados.
  • Examine la distribución de los datos antes y después de rellenar los valores que faltan comparando las estadísticas descriptivas, como el valor medio y la desviación estándar, y examinando el histograma para comprobar si hay sesgo, elevación o aplanado de la curva. La mejor solución aprovechará distribuciones con formas parecidas.
  • Busque si es posible aplicar el método utilizado para rellenar los valores de forma local o regional. Es posible que encuentre que el método utilizado para rellenar los valores funciona mejor en unas zonas que en otras. Por ejemplo, si va a rellenar utilizando el valor medio de los valores vecinos y el alcance de las desviaciones estándar conocidas es amplio, puede tratar de modificar el método utilizado, por ejemplo, considerando un vecindario de otro tipo o un método de rellenado distinto. Idealmente, la desviación estándar debería ser aproximadamente la misma para todos los valores rellenados, lo cual indicaría que todos varían de forma parecida respecto a los vecinos que se utilizan para rellenar los valores.
  • Piense en cómo se van a utilizar los datos después de rellenar el valor. Si los datos solo se van a representar cartográficamente para crear una visualización estéticamente agradable sin agujeros, las variaciones pequeñas de los valores rellenados quedarán enmascaradas por el método de representación. Por ejemplo, la representación cartográfica de coropletas suele clasificar los datos en distintas clases, de modo que las variaciones dentro de las clases no serán visibles aparentemente. Si los datos se van a utilizar para generar estadísticas oficiales, el efecto de los valores que faltan, es necesario examinar cuidadosamente y comprender con claridad los valores que faltan.
  • Comunique a su público que ha rellenado los valores que faltan. Si va a redactar un informe, describa el método que ha utilizado para rellenar los valores que faltan y explique las suposiciones que haya hecho al elegir el método para rellenarlos (por ejemplo, asegurándose de que no se hayan estimado los valores rellenados por exceso o por defecto). Si va a preparar un mapa, piense en identificar las entidades para las cuales se han rellenado los valores, por ejemplo, en un mapa aparte. Los cartógrafos también han identificado entidades poligonales utilizando un patrón punteado o sombreado o un borde especial para las entidades. Tenga cuidado al utilizar estos métodos, ya que pueden oscurecer el relleno de un polígono o cambiar el aspecto del color del relleno.
  • Cuando utilice un método de relleno de tendencia temporal, la ubicación con valores nulos que se rellena debe tener como mínimo dos periodos de tiempo con valores al inicio y al menos dos periodos de tiempo con valores al final de la serie temporal para rellenarse. Sin embargo, tener los dos valores del primer y último periodo de tiempo no siempre es suficiente. Puede que tenga una secuencia grande de valores ausentes en el centro de la serie temporal y, en ese caso, es posible que los valores interpolados no sean fiables para análisis posteriores como las herramientas del conjunto de herramientas Predicción de serie temporal.

Elegir un método de relleno

Al rellenar los valores que faltan, es necesario decidir un método de rellenado, como utilizar el valor promedio, mínimo, máximo o mediano de los valores vecinos. Si desea infravalorar los valores rellenados, utilice el mínimo, por ejemplo, si va a rellenar el número de estudiantes que disponen de becas de comedor. De forma parecida, utilice el máximo si no desea infravalorar los valores estimados para los valores que faltan, por ejemplo, para rellenar el número de personas que disponen de estudios superiores. Utilice la mediana si sospecha que hay valores atípicos altos o bajos localmente, como en valores sobre viviendas. Utilice el valor medio si los valores tienden a ser parecidos a sus vecinos.

También es necesario decidir cómo se debe definir el conjunto de vecinos que se van a utilizar para calcular los valores que faltan. Los vecinos se pueden definir sobre la base de distintas relaciones espaciales, como un número fijo de vecinos, todos los vecinos dentro de una distancia determinada, o vecinos contiguos (es decir, los que comparten una arista o cuyas esquinas se tocan).

El método de rellenado y los vecinos que se deben utilizar dependen de cómo se vayan a utilizar los datos rellenados. Por ejemplo, un cartógrafo puede desear rellenar los polígonos donde falten datos para crear un mapa visualmente más estético, sin agujeros. En este caso, calcular el valor medio de muchos vecinos espaciales. sería una opción eficaz. Un analista inmobiliario que desee rellenar los datos que faltan respecto al valor de una casa utilizará los vecinos dentro de una distancia determinada y calculará su valor mediano para evitar la influencia de los valores atípicos.

Al elegir la combinación de tipo de vecindario y método de relleno, considere qué entidades circundantes pueden influir de forma legítima en las entidades donde faltan valores y qué método de relleno es menos probable que genere un sesgo en los resultados del análisis. Por ejemplo, pensemos en un analista de salud pública que dispone de datos de envenenamiento por plomo en la infancia en el nivel de grupo de bloques de censo, pero faltan datos en algunos grupos de bloques. El analista puede pensar en utilizar los grupos de bloques vecinos que comparten un borde con el grupo de bloques donde faltan datos y utilizar el valor máximo de los valores a su alrededor para rellenar el dato que falta. Utilizar grupos de bloques contiguos puede estar justificado porque es probable que contengan viviendas de una edad parecida, y se sabe que la edad de las viviendas es un factor en la exposición al plomo. Al utilizar el valor máximo de los grupos de bloques de alrededor para rellenar los valores que faltan se puede sobrevalorar el nivel verdadero de envenenamiento por plomo. No obstante, en este ejemplo, que afecta a la salud de niños, es mejor sobrevalorar el riesgo que infravalorarlo.

Recursos adicionales

La página Recursos de estadística espacial en https://www.esriurl.com/spatialstats contiene una variedad de recursos para ayudarle a utilizar las herramientas de Estadística espacial y Minería de patrones en espacio-tiempo, incluidas las siguientes:

  • Tutoriales prácticos y lecciones de Learn
  • Vídeos y presentaciones de talleres
  • Formación y seminarios web
  • Vínculos a libros, artículos y documentos técnicos
  • Secuencias de comandos de muestra y estudios de caso