¿Cómo sabe un árbol de decisiones cuál es la próxima mejor pregunta a hacer basado en los datos?
¿Cómo decide un árbol de decisiones cuál es la próxima mejor pregunta basándose en los datos?
Construye tu propio clasificador de árboles de decisión (desde cero en Python) y entiende cómo utiliza la entropía para dividir un nodo
Introducción
Los árboles de decisión son algoritmos de aprendizaje automático versátiles que pueden realizar problemas de clasificación y regresión. Toman decisiones haciendo preguntas sobre los datos basadas en sus características, utilizando una estructura SI-NO para seguir un camino que finalmente lleva a la predicción final. El desafío es descubrir qué pregunta hacer en cada paso del proceso de toma de decisiones, lo que también equivale a preguntar cómo determinar la mejor división en cada nodo de decisión.
En este artículo, intentaremos construir un árbol de decisión para una tarea simple de clasificación binaria. El objetivo de este artículo es comprender cómo se utiliza una medida de impureza (por ejemplo, entropía) en cada nodo para determinar la mejor división, construyendo finalmente una estructura similar a un árbol que utiliza un enfoque basado en reglas para llegar a la predicción final.
Para obtener una intuición sobre la entropía y la impureza de Gini (otra métrica utilizada para medir la aleatoriedad y determinar la calidad de la división en los árboles de decisión), echa un vistazo rápido a este artículo.
Definición del problema y datos
Problema: Dada la longitud y el peso de un pez, predecir si es atún o salmón.
El desafío es predecir el tipo (variable objetivo) de pez dadas su peso y longitud. Esto es un ejemplo de una tarea de clasificación binaria ya que hay dos valores posibles de nuestra variable objetivo, es decir, atún y salmón.
Puedes descargar el conjunto de datos desde aquí.
Es muy recomendable que sigas el código mientras lees este artículo para obtener la máxima comprensión 🙂
Prerrequisitos para el código
Asegurémonos de que tienes todo lo necesario para empezar (apuesto a que ya lo tienes, pero por si acaso).
- Python
- Cualquier editor de código que te permita trabajar con cuadernos de Python (.ipynb), Visual Studio Code, Jupyter Notebook, y Google Colab por nombrar algunos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Esta investigación sobre IA de China presenta 4K4D una representación en la nube de puntos 4D que admite rasterización de hardware y permite una velocidad de renderizado sin precedentes.
- Este artículo de inteligencia artificial del MIT explora la escala de los modelos de aprendizaje profundo para la investigación química.
- Maestría en Ciencia de Datos con el 3er Mejor Programa en línea
- Philips acelera el desarrollo de soluciones de atención médica habilitadas para IA con una plataforma de MLOps construida en Amazon SageMaker
- En el Omniverso Mejoras de OpenUSD para Autodesk Maya hacen que los flujos de trabajo 3D sean un cuento de hadas
- Tres formas en que la IA generativa puede reforzar la ciberseguridad
- Creando empatía artificial