Esta investigación de IA de Microsoft y la Universidad de Tsinghua presenta EvoPrompt un nuevo marco de IA para la optimización automática de indicaciones discretas que conecta LLMs y algoritmos evolutivos

Investigación de IA de Microsoft y Universidad de Tsinghua EvoPrompt, nuevo marco de IA para optimización automática de indicaciones discretas que conecta LLMs y algoritmos evolutivos.

Los modelos de lenguaje grandes (LLMs) están destacando en prácticamente todas las tareas de procesamiento del lenguaje natural. Sin embargo, los métodos tradicionales de ajuste fino son costosos para los LLMs, lo que ha llevado al desarrollo de técnicas de ajuste de instrucciones continuas que utilizan incrustaciones de instrucciones entrenables sin modificar los parámetros de los LLMs. Sin embargo, estos métodos aún requieren acceso a los parámetros de los LLMs y no son adecuados para los LLMs a los que se accede a través de APIs de caja negra como GPT-3 y GPT-4.

Este artículo presenta las siguientes contribuciones:

  1. Introducción de EVOPROMPT: Los autores presentan un nuevo marco de trabajo, EVOPROMPT, para automatizar la optimización de instrucciones discretas. Este marco conecta los Modelos de Lenguaje Grandes (LLMs) con Algoritmos Evolutivos (EAs) y ofrece varias ventajas:
  • No requiere acceso a los parámetros o gradientes de los LLMs.
  • Equilibra de manera efectiva la exploración y la explotación, lo que conduce a mejores resultados.
  • Genera instrucciones que son fácilmente comprensibles por los humanos.
  1. Evidencia Empírica: A través de experimentos realizados en nueve conjuntos de datos diferentes, el artículo proporciona evidencia empírica que muestra la efectividad de EVOPROMPT en comparación con los métodos existentes. Demuestra mejoras en el rendimiento de hasta un 14% en diversas tareas, como clasificación de sentimientos, clasificación de temas, clasificación de subjetividad, simplificación y resumen.
  1. Publicación de Instrucciones Óptimas: Los autores realizan una valiosa contribución al publicar las instrucciones óptimas obtenidas a través de EVOPROMPT para tareas comunes. Estas instrucciones pueden ser utilizadas por la comunidad de investigación y por profesionales en tareas relacionadas con el análisis de sentimientos, la clasificación de temas, la clasificación de subjetividad, la simplificación y el resumen.
  1. Uso Innovador de los LLMs: Este artículo pionero en el concepto de utilizar los LLMs para implementar algoritmos evolutivos cuando se les proporcionan instrucciones adecuadas. Este enfoque novedoso amplía las aplicaciones potenciales de combinar los LLMs con algoritmos tradicionales.

Para poner EVOPROMPT en uso práctico, es esencial combinarlo con un Algoritmo Evolutivo (EA) específico. Hay varios tipos de EAs disponibles, y este artículo se centra en dos algoritmos ampliamente reconocidos: Algoritmo Genético (GA) y Diferencial Evolutivo (DE).

La imagen anterior muestra el proceso de GA implementado por los LLMs para la optimización de instrucciones discretas. Los investigadores creen que los LLMs ofrecen una interfaz efectiva e interpretable para implementar algoritmos tradicionales, asegurando una buena alineación con la comprensión y comunicación humanas. Los hallazgos corroboran una tendencia reciente en la que los LLMs realizan “Descenso del Gradiente” en el espacio discreto al recolectar muestras incorrectamente predichas.

Existen oportunidades de investigación adicionales para investigar el alcance completo de las capacidades de los Modelos de Lenguaje Grandes (LLMs) en la ejecución de una amplia variedad de algoritmos a través de interacciones con humanos utilizando instrucciones en lenguaje natural. Algunas ideas exploratorias potenciales incluyen si los LLMs pueden generar soluciones potenciales en algoritmos sin derivadas, como el Recocido Simulado.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce FLM-101B Un decodificador de solo lectura de LLM de código abierto con 101 mil millones de parámetros

Últimamente, los modelos de lenguaje grandes (LLMs) están destacando en tareas de NLP y multimodalidad, pero se enfre...

Inteligencia Artificial

Mejor que GPT-4 para consultas SQL NSQL (Totalmente OpenSource)

Levanta la mano si has intentado usar ChatGPT o cualquiera de los otros LLM para generar consultas SQL. ¡Yo lo he hec...

Ciencias de la Computación

Robots de entrega de comida de Uber Eats listos para ser utilizados en múltiples ciudades de EE. UU.

La compañía de robots de servicio Serve Robotics informó que Uber Eats desplegará hasta 2,000 de sus robots de entreg...

Inteligencia Artificial

RELU vs. Softmax en Vision Transformers ¿Importa la longitud de la secuencia? Ideas de un artículo de investigación de Google DeepMind

Hoy en día, una arquitectura común de aprendizaje automático es la arquitectura de transformer. Una de las partes pri...

Inteligencia Artificial

El Ejército de los Estados Unidos pone a prueba la Inteligencia Artificial Generativa

El Departamento de Defensa de los Estados Unidos está probando cinco modelos de lenguaje grandes como parte de un esf...

Inteligencia Artificial

Rastreador web de OpenAI y errores de la FTC

OpenAI lanza un rastreador predeterminado de opt-in para raspar Internet, mientras que la FTC lleva a cabo una invest...