Cómo funciona el algoritmo de regresión y la clasificación de Árbol de decisión

Árboles de decisión es un tipo de algoritmo de aprendizaje automático supervisado utilizado por la herramienta Entrenar con AutoML y clasifica o lleva a cabo la regresión de los datos utilizando respuestas verdaderas o falsas a determinadas preguntas. La estructura resultante, cuando se visualiza, tiene la forma de un árbol con distintos tipos de nodos: de hoja, raíz e interno. El nodo raíz es el punto de partida del árbol de decisión, que, a continuación, se bifurca en nodos internos y nodos de hoja. Los nodos de hoja son las categorías o valores reales finales de clasificación. Los árboles de decisión son fáciles de comprender y se pueden explicar.

Para crear un árbol de decisión, comience por especificar una entidad que se convertirá en el nodo raíz. Normalmente, ninguna entidad única puede predecir a la perfección las clases finales; a esto se le denomina impureza. Métodos como Gini, entropía y ganancia de información se utilizan para medir esta impureza y para identificar el grado en que una entidad clasifica los datos proporcionados. Se selecciona la entidad con la menor impureza como el nodo a cualquier nivel. Para calcular la impureza de Gini para una entidad con valores numéricos, primero ordene los datos en orden ascendente y calcule los promedios de los valores adyacentes. A continuación, calcule la impureza de Gini en cada valor medio seleccionado al organizar los puntos de datos basándose en si los valores de entidad son menores o mayores que el valor seleccionado y en si esa selección clasifica correctamente los datos. A continuación, se calcula la impureza de Gini utilizando la ecuación siguiente, donde K es el número de categorías de clasificación y p es la proporción de instancias de esas categorías.

Ecuación de impureza de Gini

Se calcula el promedio ponderado de las impurezas de Gini para las hojas en cada valor. Se selecciona el valor con la menor impureza para esa entidad. El proceso se repite para que distintas entidades seleccionen la entidad y el valor que se convertirán en el nodo. Este proceso se itera en cada nodo en cada nivel de profundidad hasta que se clasifican todos los datos. Una vez creado el árbol, para hacer una predicción de un punto de datos, avance por el árbol utilizando las condiciones de cada nodo para llegar a la clasificación o valor final. Cuando se utilizan árboles de decisión para la regresión, se utiliza la suma de varianza o residuales cuadrados para medir la impureza, en lugar de Gini. El resto del método sigue pasos similares.

En el siguiente ejemplo, se muestra un árbol de decisión que clasifica flores en función del ancho y la altura de los pétalos y los sépalos:

Ejemplo de árbol de decisión que clasifica flores

Recursos adicionales

Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

Classification And Regression Trees for Machine Learning

Temas relacionados


En este tema
  1. Recursos adicionales