La evolución automatizada aborda tareas difíciles

Automated evolution tackles difficult tasks

La intersección de la computación natural y evolutiva en el contexto del aprendizaje automático y la computación natural. ¶ Crédito: Aprendizaje automático evolutivo: una encuesta, AKBAR TELIKANI et al, https://doi.org/10.1145/3467477

Las redes neuronales profundas (DNN) que utilizan el aprendizaje por refuerzo (RL, que explora un espacio de decisiones aleatorias para combinaciones ganadoras) pueden crear algoritmos que compiten con los producidos por los humanos en juegos, procesamiento de lenguaje natural (PLN), visión por computadora (CV), educación, transporte, finanzas, atención médica y robótica, según el artículo seminal Introducción al aprendizaje profundo por refuerzo (DRL).

Desafortunadamente, los éxitos de las DNN se están volviendo cada vez más difíciles de lograr, debido a la sensibilidad de los hiperparámetros iniciales elegidos (como el ancho y la profundidad de las DNN, así como otras condiciones iniciales específicas de la aplicación). Sin embargo, estas limitaciones se han superado recientemente mediante la combinación de RL con la computación evolutiva (EC), que mantiene una población de agentes de aprendizaje, cada uno con condiciones iniciales únicas, que juntos “evolucionan” una solución óptima, según Ran Cheng y sus colegas de la Universidad del Sur de Ciencia y Tecnología de China, en cooperación con la Universidad de Bielefeld en Alemania y la Universidad de Surrey en el Reino Unido.

Al elegir entre muchos agentes de aprendizaje en evolución (cada uno con diferentes condiciones iniciales), el Aprendizaje Evolutivo por Reforzamiento (EvoRL) está extendiendo la inteligencia de DRL a tareas humanas interdisciplinarias difíciles de resolver, como los autos y robots autónomos, según Jurgen Branke, profesor de Investigación Operativa y Sistemas en la Universidad de Warwick en el Reino Unido, y editor en jefe de la nueva revista de ACM Transactions on Evolutionary Learning and Optimization.

Dijo Branke: “La naturaleza utiliza dos formas de adaptación: la evolución y el aprendizaje. Por lo tanto, no parece sorprendente que la combinación de estos dos paradigmas también tenga éxito ‘in-silico’ [es decir, ‘evolución’ algorítmica similar a la evolución biológica ‘in-vivo’]”.

Aprendizaje por Reforzamiento

El aprendizaje por refuerzo es el más nuevo de los tres algoritmos de aprendizaje principales para redes neuronales profundas (DNN difieren del perceptrón de tres capas seminal al agregar muchas capas internas, cuya función no es completamente comprendida por sus programadores, a lo que se conoce como una caja negra). Los dos primeros métodos de aprendizaje principales anteriores de DNN fueron supervisados, es decir, aprendiendo a partir de datos etiquetados por humanos (como fotografías de aves, autos y flores, cada una etiquetada como tal) para aprender a reconocer y etiquetar automáticamente nuevas fotografías. El método de aprendizaje más popular fue el no supervisado, que agrupa datos no etiquetados en gustos y disgustos, basándose en las similitudes encontradas por la caja negra de DNN.

Por otro lado, el aprendizaje por refuerzo agrupa datos no etiquetados en conjuntos de gustos, pero con el objetivo de maximizar las recompensas acumulativas que recibe de una función de evaluación realizada por un humano. El resultado es una DNN que utiliza RL para superar a otros métodos de aprendizaje, aunque aún utiliza capas internas que no se ajustan a un modelo matemático conocible. Por ejemplo, en la teoría de juegos, las recompensas acumulativas serían ganar juegos. ‘Optimización’ se utiliza a menudo para describir la metodología obtenida mediante el aprendizaje por refuerzo, según Marco Wiering de la Universidad de Groningen (Países Bajos) y Martijn Otterlo de la Universidad de Radboud (Nimega, Países Bajos) en su artículo de 2012 Aprendizaje por refuerzo, aunque no hay forma de demostrar que el comportamiento “óptimo” encontrado con RL sea la solución “más” óptima.

Con este fin, RL explora los rincones desconocidos de un espacio de soluciones para ver si obtiene recompensas más óptimas, así como para persuadir a la DNN a encontrar soluciones más óptimas a partir de su conocimiento acumulado que ha demostrado resultar en más recompensas. El aprendizaje por refuerzo logra recompensas acumulativas cada vez mayores a medida que avanza hacia la optimización, según Richard Sutton, profesor de Ciencias Informáticas en Aprendizaje por Refuerzo e Inteligencia Artificial en la Universidad de Alberta en Canadá y Científico de Investigación Distinguido en DeepMind, trabajando con Andrew Bartow, profesor emérito de ciencias de la computación en la Universidad de Massachusetts (Amherst), en su artículo de 2012 Aprendizaje por refuerzo: una introducción.

El aprendizaje reforzado evolutivo (EvoRL) emplea seis metodologías principales, la primera de las cuales es la optimización de hiperparámetros, un algoritmo universal también utilizado en las otras cinco metodologías, ya que realiza simultáneamente el aprendizaje de extremo a extremo mientras mejora el rendimiento. La búsqueda de políticas busca identificar una política que maximice la recompensa acumulativa para una tarea dada. La exploración anima a los agentes a explorar más estados y acciones y entrena agentes robustos para responder mejor a los cambios dinámicos en los entornos. La configuración de recompensas tiene como objetivo mejorar la recompensa original con recompensas adicionales de configuración para tareas con recompensas dispersas. Meta-RL busca desarrollar un algoritmo de aprendizaje de propósito general que pueda adaptarse a diferentes tareas. RL multiobjetivo tiene como objetivo obtener agentes de compensación en tareas con varios objetivos conflictivos. Crédito: Aprendizaje reforzado evolutivo: Un estudio.

Computación Evolutiva

Por otro lado, la computación evolutiva crea una población aleatoria de agentes resolutores de problemas, luego los “evoluciona” sometiéndolos a una selección “natural”, es decir, descartando los peores, mutando al resto y repitiendo el proceso. Cada agente se evalúa según una función de aptitud, como en la “supervivencia del más apto”. El proceso se repite tantas veces como sea necesario hasta obtener una solución óptima, aunque no se garantiza que sea perfectamente óptima.

Cuando la computación evolutiva se combina con el aprendizaje reforzado (EvoRL), la metodología combinada evoluciona una población de agentes, cada uno con diferentes condiciones iniciales específicas de la aplicación, lo que obsoleta la necesidad de reiniciar manualmente un DRL que no converge en un óptimo adecuado.

“EvoRL proporciona un marco poderoso para abordar problemas complejos aprovechando las fortalezas tanto del RL como de los métodos evolutivos. Permite a los agentes explorar una amplia gama de políticas, lo que lleva al descubrimiento de estrategias novedosas y contribuye al desarrollo de sistemas autónomos”, dijo Giuseppe Paolo, un científico investigador senior en Noah’s Ark Lab de Huawei (París) y editor invitado de un número especial que próximamente se publicará en la nueva revista de ACM Transactions on Evolutionary Learning and Optimization sobre Aprendizaje Reforzado Evolutivo.

Un editor invitado adicional, Adam Gaier, un científico investigador principal en el Laboratorio de IA de Autodesk (Alemania), agrega: “Queríamos llamar la atención de los investigadores y profesionales de ambos campos sobre este campo combinado como una forma de fomentar una mayor exploración. En el número especial, presentamos una revisión exhaustiva del campo, nueva investigación original y una aplicación de EvoRL a un problema del mundo real. Como tal, EvoRL es un campo cada vez más activo que combina el poder del Aprendizaje Reforzado (RL) y la Computación Evolutiva para abordar los principales obstáculos del RL. Mientras que el RL destaca en tareas complejas, tiene dificultades con la sensibilidad a los valores de configuración iniciales, determinando las acciones que conducen a recompensas retardadas y navegando entre objetivos conflictivos. Los Algoritmos Evolutivos (EAs), por otro lado, manejan estos problemas, pero fallan al tratar con la escasez de datos y problemas complejos de alta dimensionalidad. EvoRL combina de manera elegante la optimización del RL y los métodos basados en poblaciones de los EAs, mejorando la diversidad de exploración y superando las limitaciones de los EAs mientras amplifica las fortalezas del RL”.

Mientras que el aprendizaje reforzado por sí solo generalmente sigue el gradiente proporcionado por la función de evaluación para mejorar eficazmente las soluciones potenciales, la computación evolutiva comienza primero con una población de soluciones candidatas cuyas condiciones iniciales son elegidas al azar. La población se evalúa mediante la función de aptitud proporcionada por el ser humano. Aquellas con la aptitud más baja se descartan, mientras que el resto se mutan mediante la computación evolutiva y el proceso se repite hasta alcanzar el punto de rendimientos decrecientes en la optimización. Esto permite que el proceso evolutivo esté menos sujeto a quedarse atrapado en óptimos locales (un obstáculo para los enfoques basados en gradientes) y proporciona “creatividad”, según Antoine Cully, profesor titular en Robótica e Inteligencia Artificial y director del Laboratorio de Robótica Adaptativa e Inteligente en el Departamento de Computación del Imperial College de Londres, Reino Unido.

Dijo Cully, también editor invitado para el número especial, “El ámbito del Aprendizaje Reforzado Evolutivo es un área de investigación muy emocionante, ya que combina la creatividad y las capacidades de exploración de los algoritmos evolutivos, con la efectividad del descenso del gradiente del Aprendizaje Reforzado Profundo, lo cual permite optimizar políticas de redes neuronales complejas. Apenas estamos comenzando a explorar las sinergias entre estas dos áreas de investigación, pero ya ha demostrado ser fructífera”.

Según Cheng et al, hay seis variaciones principales de EvoRL en uso hoy en día (como se indica en la leyenda del gráfico de arriba). La eficiencia es una dirección futura importante para el perfeccionamiento, ya que los seis algoritmos principales de EvoRL son intensivos en cómputo. Se necesitan mejoras en las codificaciones, los métodos de muestreo, los operadores de búsqueda, los marcos algorítmicos y las metodologías de evaluación/fitness. También se necesitan puntos de referencia, pero puede ser difícil establecerlos, según Cheng et al, ya que los seis enfoques básicos utilizan hiperparámetros y algoritmos específicos de aplicación diferentes. También se necesitan plataformas escalables que se están desarrollando, pero nuevamente están principalmente limitadas a uno o dos de los seis enfoques principales.

R. Colin Johnson es un becario del Premio Kyoto que ha trabajado como periodista de tecnología durante dos décadas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Microsoft Research y Georgia Tech revelan los límites estadísticos de las alucinaciones en los modelos de lenguaje

Un problema clave que ha surgido recientemente en los Modelos de Lenguaje es la alta tasa a la que proporcionan infor...

Inteligencia Artificial

Riesgos de la IA y la Extinción El Futuro Precario de la Humanidad en Medio de una Revolución de la IA

Explora los alarmantes riesgos de AI que plantea la revolución de AI en curso. Los expertos advierten del peligro inm...

Inteligencia Artificial

Descubriendo el impacto de la IA generativa en la narración de datos y el análisis

Introducción En el amplio campo de la analítica de datos, uno de los desarrollos más profundos que cambia el juego es...

Inteligencia Artificial

Geoffrey Hinton sobre la Promesa y los Riesgos de la IA Avanzada

El científico informático del Reino Unido y ganador del Premio Turing ACM A.M. 2019, Geoffrey Hinton, dijo que la int...

Inteligencia Artificial

La IA generativa imagina nuevas estructuras de proteínas

Investigadores del MIT desarrollan FrameDiff, una herramienta computacional que utiliza inteligencia artificial gener...

Inteligencia Artificial

Llama-2, GPT-4 o Claude-2; ¿Cuál es el mejor modelo de lenguaje de inteligencia artificial?

Los Modelos de Lenguaje Grandes (LLMs) han recibido mucha apreciación a nivel mundial y han ganado inmensa popularida...