¿Cómo sabe un árbol de decisiones cuál es la próxima mejor pregunta a hacer basado en los datos?

¿Cómo decide un árbol de decisiones cuál es la próxima mejor pregunta basándose en los datos?

Construye tu propio clasificador de árboles de decisión (desde cero en Python) y entiende cómo utiliza la entropía para dividir un nodo

Foto de Daniele Levis Pelusi en Unsplash

Introducción

Los árboles de decisión son algoritmos de aprendizaje automático versátiles que pueden realizar problemas de clasificación y regresión. Toman decisiones haciendo preguntas sobre los datos basadas en sus características, utilizando una estructura SI-NO para seguir un camino que finalmente lleva a la predicción final. El desafío es descubrir qué pregunta hacer en cada paso del proceso de toma de decisiones, lo que también equivale a preguntar cómo determinar la mejor división en cada nodo de decisión.

En este artículo, intentaremos construir un árbol de decisión para una tarea simple de clasificación binaria. El objetivo de este artículo es comprender cómo se utiliza una medida de impureza (por ejemplo, entropía) en cada nodo para determinar la mejor división, construyendo finalmente una estructura similar a un árbol que utiliza un enfoque basado en reglas para llegar a la predicción final.

Para obtener una intuición sobre la entropía y la impureza de Gini (otra métrica utilizada para medir la aleatoriedad y determinar la calidad de la división en los árboles de decisión), echa un vistazo rápido a este artículo.

Definición del problema y datos

Problema: Dada la longitud y el peso de un pez, predecir si es atún o salmón.
De Álgebra Lineal a Aprendizaje Profundo en 7 Libros (Actualización Invierno 2023)
Google Maps se ha mejorado con funciones de IA
Training de IA en IA GatorTronGPT a la Vanguardia de las Innovaciones de IA Médica de la Universidad de Florida

El desafío es predecir el tipo (variable objetivo) de pez dadas su peso y longitud. Esto es un ejemplo de una tarea de clasificación binaria ya que hay dos valores posibles de nuestra variable objetivo, es decir, atún y salmón.

Puedes descargar el conjunto de datos desde aquí.

Es muy recomendable que sigas el código mientras lees este artículo para obtener la máxima comprensión 🙂

Prerrequisitos para el código

Asegurémonos de que tienes todo lo necesario para empezar (apuesto a que ya lo tienes, pero por si acaso).

Python
Cualquier editor de código que te permita trabajar con cuadernos de Python (.ipynb), Visual Studio Code, Jupyter Notebook, y Google Colab por nombrar algunos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

¿Cómo sabe un árbol de decisiones cuál es la próxima mejor pregunta a hacer basado en los datos?

Construye tu propio clasificador de árboles de decisión (desde cero en Python) y entiende cómo utiliza la entropía para dividir un nodo

Introducción

Definición del problema y datos

Prerrequisitos para el código

Was this article helpful?

De Álgebra Lineal a Aprendizaje Profundo en 7 Libros (Actualización Invierno 2023)

Manejando el procesamiento de datos por lotes con Versatile Data Kit (VDK)

Inteligencia Artificial

Descifrando la regulación génica con Deep Learning Un nuevo enfoque de IA para entender el empalme alternativo

Implemente un punto final de inferencia de ML sin servidor para modelos de lenguaje grandes utilizando FastAPI, AWS Lambda y AWS CDK.

¿Qué es la generación aumentada por recuperación?

¿Deberían las escuelas depender del gobierno para la protección cibernética?

Conoce a LP-MusicCaps un enfoque de generación de subtítulos seudoposicionales con grandes modelos de lenguaje para abordar el problema de escasez de datos en la subtitulación automática de música.

Células complejas del pulpo son clave para su alta inteligencia