Comprendiendo el Aprendizaje Supervisado Teoría y Visión General

Aprendizaje Supervisado Teoría y Visión General

 

Supervisado es una subcategoría de aprendizaje automático en la que la computadora aprende del conjunto de datos etiquetados que contiene tanto la entrada como la salida correcta. Intenta encontrar la función de asignación que relaciona la entrada (x) con la salida (y). Puedes pensar en ello como enseñarle a tu hermano o hermana menor cómo reconocer diferentes animales. Les mostrarás algunas imágenes (x) y les dirás cómo se llama cada animal (y). Después de cierto tiempo, aprenderán las diferencias y podrán reconocer correctamente las nuevas imágenes. Esta es la intuición básica detrás del aprendizaje supervisado. Antes de seguir adelante, echemos un vistazo más profundo a su funcionamiento.

¿Cómo funciona el aprendizaje supervisado?

   

Supongamos que quieres construir un modelo que pueda diferenciar entre manzanas y naranjas basándose en algunas características. Podemos descomponer el proceso en las siguientes tareas:

  • Recopilación de datos:  Recopilar un conjunto de datos con imágenes de manzanas y naranjas, y cada imagen está etiquetada como “manzana” o “naranja”.
  • Selección del modelo: Aquí tenemos que elegir el clasificador adecuado, a menudo conocido como el algoritmo de aprendizaje automático supervisado correcto para tu tarea. Es como elegir las gafas adecuadas que te ayudarán a ver mejor.
  • Entrenamiento del modelo: Ahora, alimentas el algoritmo con las imágenes etiquetadas de manzanas y naranjas. El algoritmo examina estas imágenes y aprende a reconocer las diferencias, como el color, la forma y el tamaño de las manzanas y naranjas.
  • Evaluación y prueba: Para comprobar si tu modelo funciona correctamente, le daremos algunas imágenes no vistas y compararemos las predicciones con las reales.

 

Tipos de aprendizaje supervisado

 

El aprendizaje supervisado se puede dividir en dos tipos principales:

 

Clasificación

 

En tareas de clasificación, el objetivo principal es asignar puntos de datos a categorías específicas de un conjunto de clases discretas. Cuando solo hay dos resultados posibles, como “sí” o “no”, “spam” o “no spam”, “aceptado” o “rechazado”, se denomina clasificación binaria. Sin embargo, cuando hay más de dos categorías o clases involucradas, como calificar a los estudiantes según sus notas (por ejemplo, A, B, C, D, F), se convierte en un ejemplo de un problema de clasificación múltiple.

 

Regresión

 

En problemas de regresión, estás tratando de predecir un valor numérico continuo. Por ejemplo, es posible que estés interesado en predecir tus calificaciones finales de exámenes en función de tu rendimiento pasado en la clase. Las calificaciones predichas pueden abarcar cualquier valor dentro de un rango específico, normalmente de 0 a 100 en nuestro caso.

 

Descripción general de los algoritmos populares de aprendizaje supervisado

 

Ahora, tenemos una comprensión básica del proceso general. Exploraremos los algoritmos populares de aprendizaje automático supervisado, su uso y cómo funcionan:

 

1. Regresión lineal

 

Como su nombre sugiere, se utiliza para tareas de regresión como predecir precios de acciones, pronosticar la temperatura, estimar la probabilidad de progresión de una enfermedad, etc. Intentamos predecir el objetivo (variable dependiente) utilizando el conjunto de etiquetas (variables independientes). Supone que tenemos una relación lineal entre nuestras características de entrada y la etiqueta. La idea central gira en torno a predecir la línea de mejor ajuste para nuestros puntos de datos minimizando el error entre nuestros valores reales y predichos. Esta línea se representa mediante la ecuación:

Donde,

  • Y   Salida predicha.
  • X =  Característica de entrada o matriz de características en regresión lineal múltiple
  • b0 = Intercepción (donde la línea cruza el eje Y).
  • b1 =  Pendiente o coeficiente que determina la inclinación de la línea.

Estima la pendiente de la línea (peso) y su intersección (sesgo). Esta línea se puede usar posteriormente para hacer predicciones. Aunque es el modelo más simple y útil para desarrollar las líneas de base, es altamente sensible a los valores atípicos que pueden influir en la posición de la línea.

2. Regresión Logística

Aunque tiene “regresión” en su nombre, se usa fundamentalmente para problemas de clasificación binaria. Predice la probabilidad de un resultado positivo (variable dependiente) que se encuentra en el rango de 0 a 1. Al establecer un umbral (generalmente 0.5), clasificamos los puntos de datos: aquellos con una probabilidad mayor que el umbral pertenecen a la clase positiva, y viceversa. La regresión logística calcula esta probabilidad utilizando la función sigmoide aplicada a la combinación lineal de las características de entrada, que se especifica como:

Donde,

  • P(Y=1) = Probabilidad de que el punto de datos pertenezca a la clase positiva
  • X1 ,… ,Xn = Características de entrada
  • b0,.…,bn = Pesos de entrada que el algoritmo aprende durante el entrenamiento

Esta función sigmoide tiene la forma de una curva en forma de S que transforma cualquier punto de datos en una puntuación de probabilidad dentro del rango de 0-1. Puedes ver el siguiente gráfico para entenderlo mejor.

Un valor más cercano a 1 indica una mayor confianza en el modelo en su predicción. Al igual que la regresión lineal, se conoce por su simplicidad, pero no podemos realizar la clasificación de múltiples clases sin modificaciones en el algoritmo original.

3. Árboles de Decisión

A diferencia de los dos algoritmos anteriores, los árboles de decisión se pueden utilizar tanto para tareas de clasificación como para tareas de regresión. Tiene una estructura jerárquica similar a los diagramas de flujo. En cada nodo, se toma una decisión sobre el camino a seguir basándose en algunos valores de características. El proceso continúa hasta que llegamos al último nodo que representa la decisión final. Aquí tienes algunos términos básicos que debes conocer:

  • Nodo Raíz: El nodo superior que contiene todo el conjunto de datos se llama nodo raíz. Luego seleccionamos la mejor característica utilizando algún algoritmo para dividir el conjunto de datos en 2 o más subárboles.
  • Nodos Internos: Cada nodo interno representa una característica específica y una regla de decisión para decidir la dirección posible siguiente para un punto de datos.
  • Nodos Hoja: Los nodos finales que representan una etiqueta de clase se denominan nodos hoja.

Predice los valores numéricos continuos para las tareas de regresión. A medida que el tamaño del conjunto de datos crece, captura el ruido, lo que lleva al sobreajuste. Esto se puede manejar podando el árbol de decisiones. Eliminamos las ramas que no mejoran significativamente la precisión de nuestras decisiones. Esto ayuda a mantener nuestro árbol enfocado en los factores más importantes y evita que se pierda en los detalles.

4. Bosques Aleatorios

Los bosques aleatorios también se pueden utilizar tanto para la clasificación como para las tareas de regresión. Es un grupo de árboles de decisión que trabajan juntos para hacer la predicción final. Puedes pensar en ellos como el comité de expertos que toman una decisión colectiva. Así es como funciona:

  • Muestreo de Datos: En lugar de tomar todo el conjunto de datos de una vez, toma muestras aleatorias mediante un proceso llamado bootstrap o bagging.
  • Selección de Características: Para cada árbol de decisión en un bosque aleatorio, solo se considera el subconjunto aleatorio de características para la toma de decisiones en lugar del conjunto completo de características.
  • Votación: Para la clasificación, cada árbol de decisión en el bosque aleatorio emite su voto y se selecciona la clase con más votos. Para la regresión, promediamos los valores obtenidos de todos los árboles.

Aunque reduce el efecto del sobreajuste causado por los árboles de decisión individuales, pero es computacionalmente costoso. Una palabra que leerá con frecuencia en la literatura es que el bosque aleatorio es un método de aprendizaje conjunto, lo que significa que combina múltiples modelos para mejorar el rendimiento general.

 

5. Máquinas de Vectores de Soporte (SVM)

 

Se utiliza principalmente para problemas de clasificación, pero también puede manejar tareas de regresión. Intenta encontrar el hiperplano óptimo que separa las clases distintas utilizando el enfoque estadístico, a diferencia del enfoque probabilístico de la regresión logística. Podemos usar SVM lineal para los datos linealmente separables. Sin embargo, la mayoría de los datos del mundo real son no lineales y utilizamos trucos de kernel para separar las clases. Profundicemos en cómo funciona:

  • Selección del Hiperplano: En la clasificación binaria, SVM encuentra el mejor hiperplano (línea 2-D) para separar las clases maximizando el margen. El margen es la distancia entre el hiperplano y los puntos de datos más cercanos al hiperplano. 
  • Truco de Kernel: Para datos linealmente inseparables, utilizamos un truco de kernel que mapea el espacio de datos original en un espacio de alta dimensión donde se pueden separar linealmente. Los kernels comunes incluyen lineal, polinomial, función de base radial (RBF) y sigmoidal.
  • Maximización del Margen: SVM también intenta mejorar la generalización del modelo aumentando la maximización del margen.
  • Clasificación: Una vez que el modelo está entrenado, se pueden hacer predicciones basadas en su posición relativa al hiperplano.

SVM también tiene un parámetro llamado C que controla el equilibrio entre maximizar el margen y mantener el error de clasificación al mínimo. Aunque pueden manejar bien datos de alta dimensión y no lineales, elegir el kernel y los hiperparámetros adecuados no es tan fácil como parece. 

  Imagen en Javatpoint

 

6. k-Vecinos más Cercanos (k-NN)

 

K-NN es el algoritmo de aprendizaje supervisado más simple utilizado principalmente para tareas de clasificación. No hace ninguna suposición sobre los datos y asigna al nuevo punto de datos una categoría basada en su similitud con los existentes. Durante la fase de entrenamiento, mantiene todo el conjunto de datos como punto de referencia. Luego calcula la distancia entre el nuevo punto de datos y todos los puntos existentes utilizando una métrica de distancia (por ejemplo, distancia Euclidiana). Con base en estas distancias, identifica los k vecinos más cercanos a estos puntos de datos. Luego contamos la aparición de cada clase en los k vecinos más cercanos y asignamos la clase que aparece con más frecuencia como la predicción final.

  Imagen en GeeksforGeeks

Elegir el valor correcto de K requiere experimentación. Aunque es robusto frente a datos ruidosos, no es adecuado para conjuntos de datos de alta dimensionalidad y tiene un alto costo asociado debido al cálculo de la distancia desde todos los puntos de datos.

 

Conclusión

 

A medida que concluyo este artículo, animaría a los lectores a explorar más algoritmos e intentar implementarlos desde cero. Esto fortalecerá su comprensión de cómo funcionan las cosas bajo el capó. Aquí hay algunos recursos adicionales para ayudarlo a comenzar:

  • Mastering Machine Learning Algorithms – Segunda Edición
  • Curso de Aprendizaje Automático – Javatpoint
  • Especialización en Aprendizaje Automático – Coursera

    Kanwal Mehreen es una desarrolladora de software aspirante con un gran interés en la ciencia de datos y las aplicaciones de la inteligencia artificial en medicina. Kanwal fue seleccionada como la Google Generation Scholar 2022 para la región de APAC. A Kanwal le encanta compartir conocimientos técnicos escribiendo artículos sobre temas de tendencia y está apasionada por mejorar la representación de las mujeres en la industria tecnológica.  

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de CMU proponen GILL un método de IA para fusionar LLMs con modelos de codificador y decodificador de imágenes

Con el lanzamiento del nuevo GPT 4 de OpenAI, se ha introducido la multimodalidad en los Modelos de Lenguaje Grandes....

Inteligencia Artificial

Innovaciones autónomas en un mundo incierto

Jonathan How y su equipo en el Laboratorio de Controles Aeroespaciales desarrollan algoritmos de planificación que pe...

Noticias de Inteligencia Artificial

Acelere el ciclo de vida del desarrollo del chatbot de Amazon Lex con Test Workbench.

Amazon Lex se complace en anunciar Test Workbench, una nueva solución de prueba de bots que proporciona herramientas ...

Inteligencia Artificial

Optical Vectors Beam Multi-Bits' 'Optical Vectors Beam Multi-Bits' (Rayos Ópticos Multibits)

La técnica funciona modulando el factor de calidad de vector, en lugar de la amplitud de un láser.

Inteligencia Artificial

¿Qué es la innatismo y importa para la inteligencia artificial? (Parte 2)

La cuestión de la innatitud, tanto en biología como en inteligencia artificial, es crucial para el futuro de la IA si...

Inteligencia Artificial

Generación mejorada por recuperación (RAG) De la teoría a la implementación de LangChain

Ejemplo de implementación de Generación con Recuperación Aumentada (RAG) en Python con LangChain, OpenAI y Weaviate