Investigadores de Stanford y Microsoft presentan Inteligencia Artificial de Auto-Mejora Aprovechando GPT-4 para elevar el rendimiento del programa de andamiaje.

Investigadores de Stanford y Microsoft develan IA de Auto-Mejora con GPT-4 para potenciar el rendimiento del programa de andamiaje.

Casi todos los objetivos descritos en lenguaje natural pueden optimizarse mediante la consulta a un modelo de lenguaje. Sin embargo, un programa puede proporcionar frecuentemente resultados con valores objetivos mayores realizando varias llamadas organizadas a un modelo de lenguaje. A estos programas se les llama “programas de andamiaje” y a menudo se crean (por personas) utilizando un lenguaje de programación como Python. Su principal hallazgo es que el diseño de un programa de andamiaje es un problema de optimización para cualquier distribución de problemas de optimización y cualquier modelo de lenguaje dado. En este artículo, investigadores de Microsoft Research y la Universidad de Stanford describen el Optimizador Autodidacta (STOP), una técnica en la que la aplicación recursiva de código que utiliza un modelo de lenguaje para mejorar una solución dada conduce a la mejora autónoma.

Su método comienza con un programa de andamiaje inicial “mejorador” que utiliza el modelo de lenguaje para mejorar una respuesta a un desafío posterior. El modelo mejora este programa mejorador a medida que el sistema itera. Para medir la efectividad de su arquitectura de autooptimización, aplican una selección limitada de tareas algorítmicas posteriores. Sus hallazgos demuestran que el modelo mejora a medida que se ejecuta a través de más iteraciones utilizando sus propias técnicas de mejora. STOP demuestra cómo los modelos de lenguaje pueden funcionar como sus meta-optimizadores de esta manera. Además, analizan el tipo de tácticas de mejora propia que el modelo sugiere, qué tan bien se traducen las estrategias recomendadas a tareas posteriores y si el modelo es vulnerable a técnicas de mejora propia riesgosas.

Figura 1: Aquí se muestran ejemplos de técnicas de mejora propia sugeridas y utilizadas por GPT-4. El código arbitrario, incluido el código de andamiaje en sí, se revisa utilizando cada técnica como andamiaje.

Dado que el modelo de lenguaje subyacente no se altera, este problema se conoce como generación de código de mejora propia recursiva, que se inspira pero no es totalmente un sistema de Mejora Propia Recursiva (RSI, por sus siglas en inglés). Han pasado al menos 50 años desde que los investigadores formalizaron el concepto de RSI. Sin embargo, ese esfuerzo se centró en la creación de sistemas que fueran más competentes en general y se asumió que el modelo podía mejorar cada parte de su código. Su investigación es un paso modesto en esa dirección porque solo considera la capacidad del modelo para mejorar el andamiaje que lo invoca de manera iterativa. El problema de generación de código RSI está formulado matemáticamente de manera precisa en este estudio.

Luego, crean y evalúan STOP para ilustrar el posible uso de generación de código RSI. Se han demostrado mejoras en diferentes tareas secundarias. Cuando se utiliza una versión del modelo de lenguaje GPT-4 entrenado con datos hasta 2021, mucho antes del debut de la mayoría de los sistemas de andamiaje, la Figura 1 muestra algunos de los andamiajes interesantes y útiles que STOP ofrece. Pruebas adicionales hacen un seguimiento de la frecuencia con la que el modelo intenta desactivar una bandera de área protegida. Finalmente, abordan problemas relacionados con el desarrollo ético de esta tecnología.

Las principales contribuciones de este trabajo son:

  1. Formular una estrategia de meta-optimización donde un sistema de andamiaje mejora recursivamente a sí mismo.
  2. Demostrar que este sistema puede mejorar recursivamente a sí mismo utilizando un modelo de lenguaje moderno (especialmente GPT-4).
  3. Examinar las técnicas de mejora propia propuestas e implementadas por el modelo, incluyendo cómo el modelo evita precauciones de seguridad como un área protegida.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Robot Blando Camina al Inflarse Repetidamente

Investigadores de la Universidad de Cornell y del Instituto Tecnológico de Israel, Technion, han diseñado un robot cu...

Inteligencia Artificial

Investigadores de CMU proponen TIDEE Un agente incorporado que puede ordenar habitaciones nunca antes vistas sin ninguna instrucción explícita

La operación efectiva de un robot requiere más que simplemente obedecer ciegamente comandos predefinidos. Los robots ...

Inteligencia Artificial

Inteligencia Artificial y Cambio Climático

Muchas veces, vemos, escuchamos y leemos episodios climáticos en revistas y noticias que automáticamente se vinculan ...

Inteligencia Artificial

Los mejores mejoradores de audio de IA (2023)

Los profesionales y audiófilos pueden beneficiarse de la mejor calidad de sonido posible gracias al software de mejor...

Inteligencia Artificial

Cómo las naciones están perdiendo una carrera global para abordar los daños de la inteligencia artificial.

Alarmado por el poder de la inteligencia artificial, Europa, Estados Unidos y otros están tratando de responder, pero...