Cómo funciona Preparar datos para predicción—ArcGIS Pro

La herramienta Preparar datos para predicción facilita la división de las entidades de entrada para crear modelos predictivos. La herramienta extrae información de variables explicativas, entidades de distancia y rásteres explicativos para realizar la división entre entrenamiento y prueba. También permite volver a muestrear los datos originales para tener en cuenta los desequilibrios en los datos. Equilibrar los datos es útil para mejorar el rendimiento del modelo al predecir eventos poco frecuentes.

El objetivo del modelado predictivo es capturar tantos patrones subyacentes como sea posible, al tiempo que se garantiza que el modelo pueda generalizarse de manera eficaz a nuevos datos en el futuro. Los modelos predictivos se basan en datos de entrada para el aprendizaje. Estos datos de entrada se denominan datos de entrenamiento. Al crear un modelo y entrenarlo con los datos de entrada, el objetivo es lograr un ajuste general que capture los patrones subyacentes en los datos de entrenamiento, al tiempo que se mantiene un gran rendimiento de predicción en datos nuevos y desconocidos. El objetivo no es replicar los datos de entrenamiento a la perfección, lo que daría lugar a un sobreajuste. Al mismo tiempo, evite ser excesivamente generales, lo que puede dar lugar a un ajuste insuficiente y a la pérdida de patrones clave en los datos.

Gráficos que muestran datos con ajuste insuficiente, sobreajuste y buen ajuste

Al desarrollar un modelo predictivo, queremos asegurarnos de que funcione bien con datos desconocidos (datos que no se utilizaron para entrenar el modelo). Para lograr un buen ajuste, es necesario evaluar el modelo con datos reservados en los que se conocen los valores reales de la variable predicha, pero que no se han utilizado para entrenar el modelo. Esto nos permite evaluar el rendimiento del modelo con datos desconocidos utilizando diversas métricas. Los datos reservados que contienen estos valores reales se denominan comúnmente datos de prueba o datos de validación. Por lo general, los datos de prueba se separan del dataset de entrenamiento y se reservan específicamente para la evaluación del modelo. La herramienta Preparar datos para predicción facilita el proceso de dividir las entidades de entrada en conjuntos de entrenamiento y prueba para mejorar el entrenamiento del modelo.

Representación de una división de prueba-entrenamiento

División de los datos

Se recomienda dividir los datos en subconjuntos de datos de entrenamiento y prueba al entrenar y evaluar modelos predictivos.

El parámetro Tipo de división tiene dos opciones para dividir los datos:

División aleatoria: se selecciona un subconjunto de prueba de forma aleatoria y, por lo tanto, se dispersa espacialmente por toda el área de estudio.
División espacial: un subconjunto de prueba espacial es contiguo espacialmente y está separado del subconjunto de entrenamiento. La división espacial se genera seleccionando aleatoriamente una entidad e identificando sus K vecinos más cercanos. La ventaja de utilizar un subconjunto de prueba espacial es que los datos de prueba emularán un dataset de predicción futura que no se encuentra en la misma área de estudio que los datos de entrenamiento.

Fuga de datos

Es importante ser prudente al seleccionar los datos de entrenamiento debido a la posible fuga de datos. La fuga de datos se produce cuando los datos de entrenamiento contienen información a la que el modelo no tendrá acceso durante las predicciones futuras. Esto puede llevar a una sobreestimación significativa de las capacidades predictivas del modelo. Por ejemplo, si entrena un modelo utilizando los retrasos de las aerolíneas por la tarde para predecir los retrasos de las aerolíneas por la mañana del mismo día, cuando desee hacer una predicción para un nuevo día, tendría que esperar hasta la tarde para hacer predicciones sobre la mañana, pero para entonces los retrasos ya se habrían producido.

Sin embargo, la fuga de datos también puede ser más sutil. Por ejemplo, es probable que los distritos censales vecinos presenten similitudes debido a la autocorrelación espacial. Cuando un modelo aprende de un distrito censal y se prueba en su vecino, es probable que funcione razonablemente bien. Sin embargo, al realizar predicciones para distritos censales de otro estado, el rendimiento del modelo puede disminuir significativamente. Esto se debe a que los datos de entrenamiento contienen información de una zona, pero el dataset de predicción carece de información similar del otro estado. Para mitigar la fuga de datos debido a la proximidad espacial, establezca el parámetro Tipo de división en División espacial. Puede crear una división espacial de entrenamiento-prueba antes del entrenamiento utilizando la herramienta Preparar datos para predicción o evaluar varias divisiones espaciales con la herramienta Evaluar predicciones con validación cruzada.

Trabajar con datos desequilibrados

Los datos desequilibrados se refieren a un dataset cuya distribución está sesgada o es desproporcionada. En el contexto de las tareas de clasificación, los datos desequilibrados se producen cuando una clase (la clase minoritaria) tiene significativamente menos entidades que otras clases (las clases no minoritarias). Este desequilibrio puede implicar dificultades a la hora de entrenar modelos de aprendizaje automático de forma eficaz. Por ejemplo, en un problema de clasificación binaria en el que se predice si se producirá un incendio forestal, si el 99 % de las entidades indican que no se producirá ningún incendio (clase mayoritaria) y solo el 1 % indica que se producirá un incendio (clase minoritaria), los datos están desequilibrados. Este reto se manifiesta en los resultados del modelo como una baja sensibilidad para esas categorías más raras, lo que indica que el modelo tiene dificultades para identificar correctamente muchas entidades asociadas a ellas. Por ejemplo, si se está prediciendo en qué condados habrá una enfermedad rara o se está identificando a personas que cometen fraude, es fundamental reconocer con precisión esas categorías poco frecuentes, ya que suelen ser los casos más importantes para abordar el problema en cuestión. Si el modelo no puede aprender los patrones de todas las clases de manera eficaz, podría dar lugar a una mala generalización a los nuevos datos y a un modelo menos eficaz.

En un contexto espacial, los datos desequilibrados pueden ser el resultado del sesgo de muestreo. Esto puede dar lugar a muestras de entrenamiento que tienen claros grupos espaciales que no representan con precisión a toda la población. Por ejemplo, las encuestas de recopilación de datos suelen centrarse en áreas cercanas a carreteras, caminos y otros lugares de fácil acceso, lo que introduce inexactitudes en el modelo y conclusiones potencialmente sesgadas. Esta herramienta ofrece varias opciones de métodos de equilibrio para volver a muestrear los datos y evitar estos problemas.

Métodos de equilibrio

El parámetro Tipo de equilibrio equilibra el valor del parámetro Variable para predecir desequilibrada o reduce el sesgo espacial del valor del parámetro Entidades de entrada.

Nota:

Si el parámetro Tipo de división se establece en División aleatoria o División espacial, el método de equilibrio se aplica solo a las entidades de salida de los datos de entrenamiento. Este enfoque garantiza que las entidades de prueba permanezcan en su forma original, sin alteraciones, para su validación, lo que ayuda a evitar problemas de fuga de datos.

El parámetro Tipo de equilibrio admite las siguientes opciones para ayudarle a preparar los datos de entrenamiento:

Submuestreo aleatorio: el submuestreo aleatorio es una técnica que se utiliza para equilibrar datos desequilibrados eliminando aleatoriamente entidades de las clases no minoritarias hasta que todas las clases tengan el mismo número de entidades.
Las entidades en azul pertenecen a la clase minoritaria y las entidades en naranja pertenecen a la clase no minoritaria. Si aplicamos el submuestreo aleatorio a los datos, la herramienta eliminará aleatoriamente las entidades naranjas para que el número de entidades naranjas coincida con el número de entidades azules.
Submuestreo de Tomek: el submuestreo de Tomek es una técnica utilizada para equilibrar datos desequilibrados eliminando entidades de las clases no minoritarias que están cerca de la clase minoritaria en el espacio de atributos. El objetivo de esta opción es mejorar la separación entre clases y establecer un límite de decisión claro para un modelo basado en árboles, como Clasificación y regresión basadas en bosques y aumentadas. Esta opción no garantiza que todas las clases tengan el mismo número de entidades.
Las entidades en azul pertenecen a la clase minoritaria, y las entidades en naranja pertenecen a la clase no minoritaria. En el espacio variable, cualquier par de entidades de clases diferentes que sean vecinas más cercanas entre sí se denomina enlace de Tomek. Si aplicamos el submuestreo de Tomek a los datos, la herramienta eliminará la entidad naranja si tiene un enlace de Tomek con una entidad azul.
Simplificación espacial: la simplificación espacial es una técnica para reducir el efecto del sesgo de muestreo en el modelo mediante la aplicación de una separación espacial mínima especificada entre las entidades.
Cuando se selecciona una variable de categorías como variable a predecir, la simplificación espacial se aplica a cada grupo de forma independiente para garantizar una representación equilibrada dentro de cada categoría; de lo contrario, se implementará en todo el dataset de entrenamiento, independientemente de los valores de los atributos.
Se eliminarán todas las entidades que se encuentren dentro de una distancia de zona de influencia designada.
Submuestreo de K medoides: el submuestreo K medoides es una técnica que se utiliza para equilibrar datos desequilibrados conservando solo una serie de entidades representativas en la clase no minoritaria, de modo que todas las clases tengan el mismo número de entidades. Si aplicamos el submuestreo de K medoides a los datos, la herramienta solo conservará entidades K que sean medoides en el espacio variable de la clase no minoritaria. Utilice K medoides en lugar de otro algoritmo de clustering para garantizar que haya una entidad central representativa preexistente de cada clustering.
Obtener más información sobre K medoides
El número de K es igual al número de entidades de la clase minoritaria, que es 4. Los clústeres se crean dentro de cada una de las clases de variables dependientes y se agrupan en función de los valores de las variables explicativas. Las entidades restantes de la clase no minoritaria provienen del medoide de cada clúster.
Sobremuestreo aleatorio: el sobremuestreo aleatorio es una técnica que se utiliza para equilibrar datos desequilibrados duplicando entidades seleccionadas aleatoriamente en las clases minoritarias hasta que todas las clases tengan el mismo número de entidades.
Las entidades en azul pertenecen a la clase minoritaria y las entidades en naranja pertenecen a la clase no minoritaria. Si aplicamos el sobremuestreo aleatorio a los datos, la herramienta seleccionará y duplicará aleatoriamente las entidades azules para que el número de entidades azules coincida con el número de entidades naranjas. Las variables y la geografía de una entidad duplicada son las mismas que las de la entidad original.
Sobremuestreo SMOTE: el sobremuestreo SMOTE (técnica de sobremuestreo sintético de minorías) es una técnica que se utiliza para equilibrar datos desequilibrados mediante la generación de entidades sintéticas en la clase minoritaria hasta que todas las clases tengan el mismo número de entidades. Se elige una entidad de una clase minoritaria, se selecciona una entidad cercana de la misma clase minoritaria en el espacio de atributos y se generan nuevos atributos como una interpolación entre esas dos entidades. La geometría de la nueva entidad sintética será la de la entidad seleccionada originalmente.
Las entidades en azul pertenecen a la clase minoritaria y las entidades en naranja pertenecen a la clase no minoritaria. Si aplicamos el sobremuestreo SMOTE a los datos, la herramienta generará las entidades sintéticas interpolando los valores entre dos entidades seleccionadas aleatoriamente de la clase minoritaria en el espacio de atributos. La geografía de una entidad sintética es la misma que la de la entidad seleccionada originalmente, mientras que las variables se interpolan a partir de la entidad seleccionada.

Un mapa y un gráfico que muestran cómo el sobremuestreo afecta a la distribución de las clases

Se muestra un ejemplo de sobremuestreo. Un mapa y un gráfico de la distribución de las categorías en el dataset de entrenamiento muestran la situación antes del sobremuestreo (arriba) y después del sobremuestreo (abajo).

Salidas

La herramienta generará mensajes de geoprocesamiento y dos resultados: una clase de entidad de salida y, opcionalmente, una clase de entidad de subconjunto de prueba de salida.

Mensajes de geoprocesamiento

Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o expandiendo la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una herramienta ejecutada anteriormente a través del historial de geoprocesamiento. Los mensajes incluyen una tabla de Diagnóstico de rango de variables dependientes y una tabla de Diagnóstico de rango de variables explicativas.

La tabla Diagnóstico de rango de variables dependientes enumera las variables que se predecirán, mientras que la tabla Diagnóstico de rango de variables explicativas enumera todas las variables explicativas especificadas. Si una variable es continua, la tabla resume el valor mínimo y máximo en el campo. Si una variable es categórica, la tabla muestra cada categoría y el porcentaje de entidades con esa categoría. Si el parámetro Tipo de división se establece en División aleatoria o División espacial, la tabla también incluirá los mismos diagnósticos para las entidades del subconjunto de prueba.

Salidas adicionales

Esta herramienta también genera una clase de entidad de salida y una clase de entidad de subconjunto de prueba de salida opcional.

Entidades de salida

Las entidades de salida se pueden utilizar como entidades de entrenamiento en las herramientas de Clasificación y regresión basadas en bosques y aumentadas, Regresión lineal generalizada y Predicción de presencia única, así como en otros modelos. Los campos de esta clase de entidad incluyen todas las variables explicativas, todas las entidades de distancia explicativas y la variable que se va a predecir. Si se marca el parámetro Incorporar todos los campos de las entidades de entrada, las entidades de salida incluirán todos los campos de las entidades de entrada. Si se marca el parámetro Codificar variables explicativas categóricas, se creará un campo para cada categoría de la variable explicativa categórica. Cada entidad tendrá un valor de 0 o 1. El 1 indica que la entidad se encuentra en esa categoría, mientras que el 0 indica que se encuentra en una categoría diferente. Si el parámetro Tipo de división se establece en Ninguno, las entidades de salida incluirán todas las entidades de las entidades de entrada.

Entidades del subconjunto de prueba de salida

Las entidades del subconjunto de prueba de salida son un subconjunto de las entidades de entrada que se pueden utilizar como entidades de prueba. Por ejemplo, puede utilizar las entidades del subconjunto de prueba de salida para evaluar la precisión del modelo en la herramienta Predecir utilizando el archivo de modelo de estadísticas espaciales.

Un porcentaje de las entidades de entrada se reserva para las entidades del subconjunto de prueba de salida. Especifique el porcentaje con el parámetro Porcentaje de datos como subconjunto de prueba. Los campos de esta clase de entidad incluyen todas las variables explicativas, todas las entidades de distancia explicativas y la variable que se va a predecir. Si se marca el parámetro Codificar variables explicativas categóricas, se creará un campo para cada categoría. Cada entidad tendrá un valor de 0 o 1. El 1 indica que la entidad se encuentra en esa categoría, mientras que el 0 indica que se encuentra en una categoría diferente.

Esta clase de entidad solo se crea si el parámetro Tipo de división se establece en División aleatoria o División espacial.

Mejores prácticas

A continuación, se mencionan las prácticas recomendadas al utilizar esta herramienta:

Es importante asegurarse de que, al utilizar variables de categorías como Variable para predecir o como valor del parámetro Variables explicativas, todos los niveles de categorías aparezcan en los datos de entrenamiento. Esto es importante, ya que los modelos necesitan ver y aprender de todas las categorías posibles antes de realizar predicciones con nuevos datos. El modelo fallará si aparece una categoría en las variables explicativas de los datos de prueba o validación que no estaba en los datos de entrenamiento. La herramienta fallará si no puede obtener todos los niveles de categorías del dataset de entrenamiento después de intentar 30 iteraciones.
Una vez que los datos están equilibrados, no deben utilizarse como datos de validación o datos de prueba, ya que ya no representan la distribución de los datos que se medirán en el mundo real. Los datos sobremuestreados nunca deben utilizarse para evaluar el rendimiento del modelo como datos de validación. Pueden utilizarse los datos submuestreados, pero no es recomendable. Por este motivo, los datasets de entrenamiento y prueba se dividen antes del equilibrio, y solo se equilibra el conjunto de entrenamiento.
Al codificar variables categóricas, se crearán variables binarias (0 y 1) para cada categoría y se agregarán a las tablas de atributos de las entidades de salida de entrenamiento y prueba. Para cada categoría, 1 indica que la entidad se encuentra en esa categoría y 0 indica que se encuentra en una categoría diferente. Cuando se utiliza un modelo lineal, como la regresión lineal generalizada, se debe omitir al menos una de estas variables binarias de las variables explicativas para evitar la multicolinealidad perfecta.
Una vez seleccionado el modelo final (por ejemplo, tipo de modelo finalizado, parámetro seleccionado, variables seleccionadas), es posible que desee volver a entrenar un modelo final utilizando el dataset completo. Si originalmente dividió sus datos en entrenamiento y prueba, puede recombinar estos datasets o ejecutar de nuevo la herramienta Preparar datos para predicción con el parámetro Tipo de división establecido en Sin división y, a continuación, ejecutar la selección del modelo final. El archivo del modelo final de estas ejecuciones del modelo, o las predicciones realizadas, utilizarían toda la extensión de los datos disponibles para el entrenamiento. Este paso del análisis no es obligatorio, pero muchos analistas optan por hacerlo.
Al extraer datos de rásteres, es posible que el valor extraído a un punto no coincida exactamente con la celda del ráster subyacente. Esto se debe a que aplicamos una interpolación bilineal al extraer valores numéricos de rásteres a puntos.

Referencias

Para implementar la herramienta, se utilizaron los siguientes recursos:

Chawla, N., K. Bowyer, L. Hall y W.P. Kegelmeyer. 2002. “SMOTE: Synthetic Minority Over-sampling Technique” (SMOTE: técnica de sobremuestreo sintético de minorías). Journal of Artificial Intelligence Research. 16: 321-357. https://doi.org/10.1613/jair.953.
Tomek, I. 1976. “Two Modifications of CNN” (Dos modificaciones de CNN). IEEE Transactions on Systems, Man, and Cybernetics. 11: 769 – 772. https://doi.org/10.1109/TSMC.1976.4309452.
Wei-Chao L., T. Chih-Fong, H. Ya-Han y J. Jing-Shang. 2017. “Clustering-based undersampling in class-imbalanced data” (Submuestreo basado en agrupamientos en datos con desequilibrio de clases). Information Sciences. 409: 17-26. https://doi.org/10.1016/j.ins.2017.05.008.

Temas relacionados

¿Algún comentario sobre este tema?