La herramienta Llenar valores que faltan sustituirá los valores que falten (nulos) por valores estimados a fin de minimizar el efecto de estos valores nulos en el análisis subsiguiente. Existen varios motivos por los cuales pueden faltar datos. Por ejemplo, pueden faltar datos porque hay un sensor roto temporalmente, un lugar de muestreo es inaccesible o los valores de los datos se han suprimido intencionadamente para proteger la confidencialidad. Cuando faltan uno o más valores de una entidad, la mayoría de métodos estadísticos actúan de forma predeterminada eliminando esa entidad del análisis. Eliminar entidades de este modo puede introducir sesgos o afectar a la idoneidad de los resultados, ya que el análisis se realiza en un dataset incompleto. En lugar de eliminar datos valiosos que pueden afectar a sus análisis o dar lugar a "agujeros" en un mapa, es posible "rellenar" los huecos utilizando otra información del dataset o de otros datasets (por ejemplo, un dataset o una unidad agregada mayor). En el caso de datos espaciales, se pueden utilizar valores de las entidades vecinas para realizar una estimación de los valores que faltan. Para datos espacio-temporales, también se pueden utilizar los vecinos en el tiempo para rellenar los valores que faltan. Realizar la estimación de los valores que faltan y rellenarlos preserva todos los valores existentes y sustituye los nulos en función del método seleccionado. Después de rellenar los valores que faltan, el dataset se puede analizar como un dataset completo.
Por ejemplo, pensemos en un dataset de Estados Unidos, donde cada uno de los 50 estados está asociado a 100 años de datos sobre ingresos relativos per cápita. Imaginemos que faltan datos de 1 año para California (hay un valor nulo). Si tratase de crear un cubo de espacio-tiempo, todos los datos de California se eliminarían del análisis a causa de ese único valor nulo en el dataset. Todos los demás 99 valores correspondientes a California quedarían fuera del análisis porque la serie temporal debe estar completa para poder incluirla. La herramienta Rellenar valores que faltan ayuda a asegurarse de que se rellenan los valores nulos con una aproximación buena del valor que falta y garantiza que California se incluya en los análisis subsiguientes.
Interpretar los resultados
La herramienta dará como resultado un campo nuevo que contiene el conjunto completo de valores existentes e imputados, así como un campo que indica qué valores son estimados. La herramienta también da como resultado mensajes que proporcionan información sobre el porcentaje del total de registros a los cuales se han imputado valores, la distribución de los datos antes y después de rellenar los valores que faltan y el número total y el porcentaje de valores rellenados.
Prácticas recomendadas
- Asegúrese de saber qué valores faltan. El marcador de posición que indica un valor que falta puede variar de un dataset a otro. En una clase de entidad de geodatabase, los valores que faltan se almacenan como <Null> y, por consiguiente, se reconocen fácilmente. Sin embargo, los shapefiles no pueden almacenar valores nulos. Las herramientas u otros procedimientos que crean shapefiles pueden almacenar o interpretar valores nulos como cero. O bien, en algunos casos, los valores nulos de los shapefiles se indican con un número positivo o negativo muy grande. Un truco sencillo para aprender sobre los valores de los datos que faltan es ordenar el campo de interés de menor a mayor y, después, de menor a mayor. Ver valores nulos, muchos valores igual a cero o valores muy grandes o muy pequeños puede proporcionar indicios de qué marcador de posición indica un valor que falta. A veces, los metadatos indican el marcador de posición de los datos que faltan.
- Determine cuántos valores faltan. No quiere rellenar demasiados valores. Si bien no hay un valor umbral absoluto del número de valores que faltan que debería tratar de rellenar, una regla orientativa habitual es no rellenar más del 5 por ciento de los valores del dataset.
- DEtermine dónde se encuentran los valores que faltan. Represente el atributo con datos que faltan y examine los patrones espaciales. Determine si los datos que faltan están agregados en la periferia o en el centro del área de estudio. Además, observe si los valores que faltan aparecen en zonas con valores principalmente elevados o bajos. Cualquiera de estos casos sugiere que existe un patrón de ubicación de valores donde faltan datos; esto es un indicador de que los datos no faltan de forma aleatoria. Rellenar los valores que faltan funciona del mejor modo posible cuando faltan de forma aleatoria.
- Compruebe el número y el porcentaje de valores rellenados para determinar si todavía falta algún valor. Si los hay, intente cambiar el método utilizado para rellenar los valores. Por ejemplo, aumente el número de vecinos o el tamaño del vecindario. Asegúrese de no rellenar valores que falten con valores ya existentes. Esta es una mala práctica, ya que, esencialmente, esto supone estimar valores a partir de valores estimados.
- Examine la distribución de los datos antes y después de rellenar los valores que faltan comparando las estadísticas descriptivas, como el valor medio y la desviación estándar, y examinando el histograma para comprobar si hay sesgo, elevación o aplanado de la curva. La solución ideal sería aprovechar distribuciones con formas parecidas.
- Busque si es posible aplicar el método utilizado para rellenar los valores de forma local o regional. Es posible que encuentre que el método utilizado para rellenar los valores funciona mejor en unas zonas que en otras. Por ejemplo, si va a rellenar utilizando el valor medio de los valores vecinos y el alcance de las desviaciones estándar conocidas es amplio, puede tratar de modificar el método utilizado, por ejemplo, considerando un vecindario de otro tipo o un método de rellenado distinto. Idealmente, la desviación estándar debería ser aproximadamente la misma para todos los valores rellenados, lo cual indicaría que todos varían de forma parecida a los vecinos que se utilizan para rellenar los valores.
- Piense en cómo se van a utilizar los datos después de rellenar el valor. Si los datos solo se van a representar cartográficamente para crear una visualización estéticamente agradable sin agujeros, las variaciones pequeñas de los valores rellenados quedarán enmascaradas por el método de representación. Por ejemplo, la representación cartográfica de coropletas suele clasificar los datos en distintas clases, de modo que las variaciones dentro de las clases no serán visibles aparentemente. Si los datos se van a utilizar para generar estadísticas oficiales, el efecto de los valores que faltan, es necesario examinar cuidadosamente y comprender con claridad los valores que faltan.
- Finalmente, comunique a su audiencia que ha rellenado los valores que faltan. Si va a redactar un informe, describa el método que ha utilizado para rellenar los valores que faltan y explique las asunciones que haya hecho al elegir el método para rellenar los valores (por ejemplo, asegurándose de que no se hayan estimado los valores por exceso o por defecto). Si va a preparar un mapa, piense en identificar las entidades para las cuales se han rellenado los valores, por ejemplo, en un mapa aparte. Los cartógrafos también han identificado entidades poligonales utilizando un patrón punteado o sombreado o un borde especial para las entidades. Tenga cuidado al utilizar estos métodos, ya que pueden oscurecer el relleno de un polígono o cambiar el aspecto del color del relleno.
Seleccionar cómo rellenar los valores que faltan
Al rellenar los valores que faltan, es necesario decidir un método de rellenado, como utilizar el valor promedio, mínimo, máximo o mediano de los valores vecinos. Si desea infravalorar los valores rellenados, utilice el mínimo, por ejemplo, si va a rellenar el número de estudiantes que disponen de becas de comedor. De forma parecida, utilice el máximo si no desea infravalorar los valores estimados para los valores que faltan, por ejemplo, para rellenar el número de personas que disponen de estudios superiores. Utilice la mediana si sospecha que hay valores atípicos altos o bajos localmente, como en valores sobre viviendas. Utilice el valor medio si los valores tienden a ser parecidos a sus vecinos.
También es necesario decidir cómo se debe definir el conjunto de vecinos que se van a utilizar para calcular los valores que faltan. Los vecinos se pueden definir sobre la base de distintas relaciones espaciales, como un número fijo de vecinos, todos los vecinos dentro de una distancia determinada, o vecinos contiguos (es decir, los que comparten una arista o cuyas esquinas se tocan).
El método de rellenado y los vecinos que se deben utilizar dependen de cómo se vayan a utilizar los datos rellenados. Por ejemplo, un cartógrafo puede desear rellenar los polígonos donde falten datos para crear un mapa visualmente más estético, sin agujeros. En este caso, calcular el valor medio de muchos vecinos espaciales. sería una opción eficaz. Un analista inmobiliario que desee rellenar los datos que faltan respecto al valor de una casa utilizará los vecinos dentro de una distancia determinada y calculará su valor mediano para evitar la influencia de los valores atípicos.
Al elegir la combinación de tipo de vecindario y método de rellenado, piense detenidamente qué entidades de alrededor pueden influir de forma legítima en las entidades donde faltan valores y qué método de rellenado es menos probable que genere un sesgo en los resultados del análisis. Por ejemplo, pensemos en un analista de salud pública que dispone de datos de envenenamiento por plomo en la infancia en el nivel de grupo de bloques de censo, pero faltan datos en algunos grupos de bloques. El analista puede pensar en utilizar los grupos de bloques vecinos que comparten un borde con el grupo de bloques donde faltan datos y utilizar el valor máximo de los valores a su alrededor para rellenar el dato que falta. Utilizar grupos de bloques contiguos puede estar justificado porque es probable que contengan viviendas de una edad parecida, y se sabe que la edad de las viviendas es un factor en la exposición al plomo. Al utilizar el valor máximo de los grupos de bloques de alrededor para rellenar los valores que faltan se puede sobrevalorar el nivel verdadero de envenenamiento por plomo. No obstante, en este ejemplo, que afecta a la salud de niños, es mejor sobrevalorar el riesgo que infravalorarlo.
Recursos adicionales
https://www.esriurl.com/spatialstats contiene una lista actualizada de todos los recursos disponibles para utilizar las herramientas Minería de patrones de espacio-tiempo y Estadísticas espaciales, incluidos los siguientes:
- Tutoriales
- Vídeos
- Seminarios web gratuitos
- Libros, artículos y notas del producto
- Secuencias de comandos de muestra y estudios de caso