Investigadores de Stanford presentan Parsel un marco de inteligencia artificial (IA) que permite la implementación y validación automática de algoritmos complejos con modelos de lenguaje de código grande (LLMs).

Investigadores de Stanford presentan Parsel, un marco de IA que automatiza la implementación y validación de algoritmos complejos con LLMs.

Aunque se han realizado avances recientes en el razonamiento de modelos de lenguaje de gran tamaño (LLM), los LLM todavía tienen dificultades con tareas de razonamiento jerárquico de múltiples pasos, como desarrollar programas sofisticados. Los programadores humanos, a diferencia de otros generadores de tokens, han aprendido (por lo general) a descomponer tareas difíciles en componentes manejables que funcionan de forma independiente (modulares) y funcionan en conjunto (compositivos). Además, si los tokens generados por humanos causan problemas con una función, debería ser posible reescribir esa parte del software sin afectar el resto de la aplicación. En contraste, se espera ingenuamente que los LLM de código produzcan secuencias de tokens libres de errores.

Esto llevó a un estudio reciente de la Universidad de Stanford a investigar el uso de LLM en la descomposición de problemas y la construcción de soluciones compositivas. Proponen Parsel, un compilador que acepta una especificación que incluye descripciones de funciones escritas en lenguaje natural y restricciones que definen el comportamiento deseado de las funciones implementadas. Al utilizar Parsel, los programadores pueden escribir programas en lenguaje sencillo que pueden abordar problemas de programación a nivel de competencia, superando el estado del arte anterior en más del 75%.

Un LLM de código recibe la descripción de una función y las firmas de las funciones de las que depende, y se le pide que genere implementaciones de la función. Cuando se agrega una restricción, el compilador buscará entre las posibles combinaciones de implementación hasta encontrar una que funcione.

Estudios anteriores han demostrado que, a diferencia de los humanos, los modelos de lenguaje de código no pueden desarrollar programas que realicen secuencialmente numerosas tareas pequeñas. Parsel elimina el problema mediante la partición de los procesos de descomposición e implementación. Aunque su intención era permitir la codificación en lenguaje natural, descubrieron que los LLM también se destacan en la codificación de Parsel.

La descomposición de un plan abstracto hasta que pueda resolverse automáticamente es un patrón común en el razonamiento humano que se refleja en la generación e implementación de Parsel; esta estructura compositiva también es útil para los modelos de lenguaje. En este estudio, el equipo demuestra que los LLM pueden crear Parsel a partir de un pequeño número de instancias y que sus soluciones superan a los métodos de última generación en problemas de nivel de competencia del conjunto de datos APPS. Los planes escritos por los LLM utilizando Parsel para producir planes robóticos paso a paso a partir de trabajos de alto nivel son, emocionantemente, más precisos que un planificador de cero disparos en más de dos tercios.

Para evaluar la eficacia de Parsel, Gabriel Poesia, un experimentado programador de competencias, lo utilizó para resolver una serie de desafíos de APPS que se suelen ver en competiciones de programación. En 6 horas, encontró soluciones a 5 de 10 problemas, incluyendo 3 en los que GPT-3 había fallado anteriormente.

Los investigadores demuestran que Parsel se puede utilizar para demostración de teoremas y otras actividades que requieren razonamiento algorítmico formulándolo como un marco de propósito general.

Planean implementar la generación automática de pruebas unitarias autónomas en un futuro próximo. Mencionan que un enfoque sería buscar situaciones especiales y ver si el grupo de funciones que están de acuerdo en todas las pruebas existentes también están de acuerdo en cualquier prueba nueva. Se evita el crecimiento exponencial en las combinaciones de implementación, lo que podría hacer posible la descomposición automática. También tienen como objetivo ajustar el “umbral de confianza” del modelo de lenguaje, ya que es necesario mantener las descripciones claras y concisas para programas más importantes o secciones de programas, es necesario asegurarse de que las descripciones sean claras y concisas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelStaffStanford UniversityTech NewsTechnologyUncategorizedUniversity Research

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Stanford presentan Parsel un marco de inteligencia artificial (IA) que permite la implementación y validación automática de algoritmos complejos con modelos de lenguaje de código grande (LLMs).

Was this article helpful?

Un nuevo enfoque de investigación de Inteligencia Artificial (IA) presenta el Aprendizaje Basado en Instrucciones en Contexto como un problema de aprendizaje de algoritmos desde una perspectiva estadística.

¿Qué son los Modelos de Lenguaje Grandes (LLMs)? Aplicaciones y Tipos de LLMs

Investigación

Clasificación de texto simple utilizando Fasttext

¿Qué hace exactamente un Científico de Datos?

Una nueva investigación de aprendizaje profundo identifica un medicamento antipalúdico como posible tratamiento para la osteoporosis

Conciliando la Paradoja de la IA Generativa Caminos Divergentes de la Inteligencia Humana y Máquina en la Generación y Comprensión

Reconocimiento de Imágenes vs. Visión por Computadora ¿Cuáles son las diferencias?

Este artículo de IA presenta MVControl una arquitectura de red neuronal que revoluciona la generación de imágenes en múltiples vistas controlables y la creación de contenido en 3D.