Una forma más efectiva de entrenar máquinas para situaciones inciertas del mundo real.

A more effective way to train machines for uncertain real-world situations.

Los investigadores desarrollaron un algoritmo que decide cuándo una máquina estudiante debe seguir a su profesor y cuándo debe aprender por sí misma.

A collage shows, on left, a row of chalk boards with complex math on them. The scene is cut diagonally, and on right is a silhouette of a head looking away from the boards, and a lightbulb is inside the head. The head is connected to the green balls of a neural network.

Alguien que está aprendiendo a jugar tenis puede contratar a un profesor para ayudarles a aprender más rápido. Debido a que este profesor es (con suerte) un gran jugador de tenis, hay momentos en los que tratar de imitar exactamente al profesor no ayudará al estudiante a aprender. Quizás el profesor salta alto en el aire para devolver hábilmente una volea. El estudiante, incapaz de copiar eso, podría intentar algunos otros movimientos por su cuenta hasta que haya dominado las habilidades que necesita para devolver voleas.

Los científicos de la computación también pueden utilizar sistemas “docentes” para entrenar a otra máquina para que complete una tarea. Pero al igual que con el aprendizaje humano, la máquina estudiante enfrenta el dilema de saber cuándo seguir al profesor y cuándo explorar por su cuenta. Con este fin, investigadores del MIT y Technion, el Instituto de Tecnología de Israel, han desarrollado un algoritmo que determina automáticamente e independientemente cuándo el estudiante debe imitar al profesor (conocido como aprendizaje por imitación) y cuándo debe aprender a través de ensayo y error (conocido como aprendizaje por refuerzo).

Su enfoque dinámico permite al estudiante divergir de copiar al profesor cuando el profesor es demasiado bueno o no lo suficientemente bueno, pero luego volver a seguir al profesor en un punto posterior del proceso de entrenamiento si hacerlo lograría mejores resultados y un aprendizaje más rápido.

Cuando los investigadores probaron este enfoque en simulaciones, descubrieron que su combinación de aprendizaje por ensayo y error y aprendizaje por imitación permitió a los estudiantes aprender tareas de manera más efectiva que los métodos que solo usaban un tipo de aprendizaje.

Este método podría ayudar a los investigadores a mejorar el proceso de entrenamiento para máquinas que se desplegarán en situaciones del mundo real inciertas, como un robot que se entrena para navegar dentro de un edificio que nunca ha visto antes.

“Esta combinación de aprendizaje por ensayo y error y seguir a un profesor es muy poderosa. Le da a nuestro algoritmo la capacidad de resolver tareas muy difíciles que no se pueden resolver utilizando cada técnica individualmente”, dice Idan Shenfeld, un estudiante graduado de ingeniería eléctrica e informática (EECS) y autor principal de un artículo sobre esta técnica.

Shenfeld escribió el artículo con los coautores Zhang-Wei Hong, un estudiante graduado de EECS; Aviv Tamar, profesor asistente de ingeniería eléctrica e informática en Technion; y el autor principal Pulkit Agrawal, director del Laboratorio de IA Improbable y profesor asistente en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.

Encontrar un equilibrio

Muchos de los métodos existentes que buscan encontrar un equilibrio entre el aprendizaje por imitación y el aprendizaje por refuerzo lo hacen a través del ensayo y error a la fuerza bruta. Los investigadores eligen una combinación ponderada de los dos métodos de aprendizaje, ejecutan todo el procedimiento de entrenamiento y luego repiten el proceso hasta que encuentran el equilibrio óptimo. Esto es ineficiente y a menudo tan caro computacionalmente que ni siquiera es factible.

“Queremos algoritmos que sean principistas, que involucren la ajuste de la menor cantidad de perillas posible y que logren un alto rendimiento, estos principios han impulsado nuestra investigación”, dice Agrawal.

Para lograr esto, el equipo abordó el problema de manera diferente al trabajo previo. Su solución implica entrenar a dos estudiantes: uno con una combinación ponderada de aprendizaje por refuerzo y aprendizaje por imitación, y un segundo que solo puede usar aprendizaje por refuerzo para aprender la misma tarea.

La idea principal es ajustar automáticamente y dinámicamente el peso de los objetivos de aprendizaje por refuerzo y aprendizaje por imitación del primer estudiante. Aquí es donde entra en juego el segundo estudiante. El algoritmo de los investigadores compara continuamente a los dos estudiantes. Si el que usa al profesor lo está haciendo mejor, el algoritmo pone más peso en el aprendizaje por imitación para entrenar al estudiante, pero si el que solo usa el ensayo y error comienza a obtener mejores resultados, se centrará más en el aprendizaje por refuerzo.

Al determinar dinámicamente qué método logra mejores resultados, el algoritmo es adaptable y puede elegir la mejor técnica durante todo el proceso de entrenamiento. Gracias a esta innovación, es capaz de enseñar de manera más efectiva a los estudiantes que otros métodos que no son adaptables, dice Shenfeld.

“Uno de los principales desafíos en el desarrollo de este algoritmo fue que nos llevó algún tiempo darnos cuenta de que no debíamos entrenar a los dos estudiantes de manera independiente. Quedó claro que necesitábamos conectar los agentes para que compartieran información y luego encontrar la manera correcta de fundamentar técnicamente esta intuición”, dice Shenfeld.

Resolviendo problemas difíciles

Para probar su enfoque, los investigadores establecieron muchos experimentos de entrenamiento profesor-estudiante simulados, como navegar a través de un laberinto de lava para llegar a la otra esquina de una cuadrícula. En este caso, el profesor tiene un mapa de toda la cuadrícula mientras que el estudiante solo puede ver un parche delante de él. Su algoritmo logró una tasa de éxito casi perfecta en todos los entornos de prueba y fue mucho más rápido que otros métodos.

Para darle a su algoritmo una prueba aún más difícil, configuraron una simulación que involucraba una mano robótica con sensores táctiles pero sin visión, que debía reorientar una pluma a la posición correcta. El profesor tenía acceso a la orientación real de la pluma, mientras que el estudiante solo podía usar sensores táctiles para determinar la orientación de la pluma.

Su método superó a otros que solo usaban aprendizaje por imitación o solo aprendizaje por refuerzo.

Reorientar objetos es una de las muchas tareas de manipulación que un futuro robot doméstico tendría que realizar, una visión hacia la cual el laboratorio de IA Improbable está trabajando, agrega Agrawal.

El aprendizaje de maestro-estudiante se ha aplicado con éxito para entrenar robots para realizar manipulación de objetos complejos y locomoción en simulación y luego transferir las habilidades aprendidas al mundo real. En estos métodos, el maestro tiene información privilegiada accesible desde la simulación que el estudiante no tendrá cuando se despliegue en el mundo real. Por ejemplo, el maestro conocerá el mapa detallado de un edificio al que se está entrenando al robot estudiante para navegar usando solo imágenes capturadas por su cámara.

“Los métodos actuales para el aprendizaje de maestro-estudiante en robótica no tienen en cuenta la incapacidad del estudiante para imitar al maestro y, por lo tanto, tienen limitaciones de rendimiento. El nuevo método allana el camino para construir robots superiores”, dice Agrawal.

Además de mejores robots, los investigadores creen que su algoritmo tiene el potencial de mejorar el rendimiento en diversas aplicaciones donde se utiliza el aprendizaje por imitación o refuerzo. Por ejemplo, los grandes modelos de lenguaje como GPT-4 son muy buenos para realizar una amplia variedad de tareas, por lo que quizás se podría usar el gran modelo como maestro para entrenar a un modelo más pequeño de estudiante para que sea aún “mejor” en una tarea en particular. Otra dirección emocionante es investigar las similitudes y diferencias entre las máquinas y los seres humanos que aprenden de sus respectivos maestros. Tal análisis podría ayudar a mejorar la experiencia de aprendizaje, dicen los investigadores.

“Lo interesante de este enfoque en comparación con los métodos relacionados es lo robusto que parece ser a varias opciones de parámetros y la variedad de dominios en los que muestra resultados prometedores”, dice Abhishek Gupta, profesor asistente en la Universidad de Washington, quien no estuvo involucrado en este trabajo. “Si bien el conjunto actual de resultados se encuentra en gran parte en simulación, estoy muy emocionado por las posibilidades futuras de aplicar este trabajo a problemas que involucren la memoria y el razonamiento con diferentes modalidades, como la percepción táctil”.

“Este trabajo presenta un enfoque interesante para reutilizar el trabajo computacional previo en el aprendizaje por refuerzo. En particular, su método propuesto puede aprovechar políticas de maestros subóptimas como guía evitando horarios de hiperparámetros cuidadosos requeridos por métodos anteriores para equilibrar los objetivos de imitar al maestro frente a optimizar la recompensa de la tarea”, agrega Rishabh Agarwal, científico de investigación senior en Google Brain, quien tampoco estuvo involucrado en esta investigación. “Con suerte, este trabajo haría que la reencarnación del aprendizaje por refuerzo con políticas aprendidas sea menos engorrosa”.

Esta investigación fue apoyada, en parte, por el Laboratorio de IA MIT-IBM Watson, Hyundai Motor Company, el Programa de Sentido Común de la Máquina de DARPA y la Oficina de Investigación Naval.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Cómo el Aprendizaje Automático se convertirá en un cambio de juego para la industria de datos de ubicación

La industria de los datos de ubicación está en rápido crecimiento pero aún en su infancia técnica. La mayoría de los ...

Inteligencia Artificial

Todas tus publicaciones en línea ahora pertenecen a la IA, afirma Google

En una actualización reciente de su política de privacidad, Google, reconocida a menudo por sus robustas herramientas...

Inteligencia Artificial

OpenAI revela ChatGPT Enterprise con el poder de GPT-4

OpenAI, la organización pionera en investigación de IA, acaba de presentar un nuevo capítulo emocionante en el mundo ...

Inteligencia Artificial

Utilice un modelo de base de IA generativa para la síntesis y respuesta a preguntas utilizando sus propios datos

Los modelos de lenguaje grandes (LLMs) se pueden utilizar para analizar documentos complejos y proporcionar resúmenes...