Sabemos que las LLM pueden utilizar herramientas, ¿pero sabías que también pueden crear nuevas herramientas? Conoce a las LLM como fabricantes de herramientas (LATM) un sistema de bucle cerrado que permite a las LLM crear sus propias herramientas reutilizables.

Las LLM pueden crear nuevas herramientas, no solo utilizarlas. Son conocidas como LATM, un sistema que les permite fabricar sus propias herramientas reutilizables.

Los modelos de lenguaje grandes (LLMs) han destacado en una amplia gama de tareas de procesamiento del lenguaje natural (NLP) y han mostrado evidencia alentadora de lograr algunas características de la inteligencia artificial general. Investigaciones recientes también han revelado la posibilidad de complementar los LLMs con herramientas externas, aumentando considerablemente sus capacidades de resolución de problemas y eficiencia, de manera similar a cómo ha evolucionado la inteligencia humana. Sin embargo, la disponibilidad de herramientas adecuadas es un determinante importante de cuán aplicables son estos procedimientos de uso de herramientas. Según las lecciones extraídas de estos hitos, la capacidad de las personas para crear sus propias herramientas para resolver nuevos problemas fue un punto de inflexión significativo en el desarrollo humano.

En este estudio, investigadores de Google Deepmind, la Universidad de Princeton y la Universidad de Stanford aplican esta noción evolutiva al campo de los LLMs, que está motivado por la importancia de la creación de herramientas para los seres humanos. El sistema que proponen, denominado LLMs como Generadores de Herramientas (LATM), permite a los LLMs crear sus propias herramientas reutilizables para asumir nuevas responsabilidades. Su estrategia consta de dos fases cruciales: 1) creación de herramientas: un LLM, a menudo llamado constructor de herramientas, crea herramientas (implementadas como funciones de Python), especialmente para un trabajo específico. 2) aplicación de herramientas: un segundo LLM, conocido como usuario de herramientas, que puede ser la misma persona que creó la herramienta, aplica las herramientas para tratar solicitudes nuevas. Debido al diseño de dos etapas, LATM puede asignar el trabajo al LLM más calificado en cada paso.

En particular, un modelo potente pero intensivo en recursos (como GPT-4) puede modelar el proceso competente de creación de herramientas. Por otro lado, un modelo liviano y económico (como GPT-3.5 Turbo) puede atribuirse al procedimiento de uso de herramientas, que es significativamente más fácil. Este método reduce en gran medida el costo promedio de cálculo para manejar varios trabajos mientras mejora las habilidades de resolución de problemas de los LLMs. Para una capacidad específica, el procedimiento de creación de herramientas solo debe llevarse a cabo una vez. Por lo tanto, las herramientas producidas pueden aplicarse a varias instancias de tareas.

Este método proporciona una alternativa escalable y económica para enfrentar problemas desafiantes. Piense en un escenario en el que un usuario le pide al LLM que organice una reunión que funcione para todos (por ejemplo, a través de intercambios de correos electrónicos). Los problemas complejos de razonamiento aritmético suelen ser difíciles de completar para máquinas livianas como GPT-3.5 Turbo. Sin embargo, modelos más fuertes, como GPT-4, aún pueden obtener las respuestas correctas a pesar de tener costos de inferencia significativamente más altos. Al utilizar un modelo potente pero costoso como generador de herramientas y entregarlo a un modelo rentable como usuario de herramientas, LATM supera estos obstáculos. Después de que la herramienta ha sido forjada, el usuario puede utilizarla para realizar el trabajo de manera rápida y efectiva.

Este paradigma también se puede utilizar para abordar juegos conocidos como el Sudoku de 24 números y trabajos repetitivos en otros procesos como el análisis y el análisis de artículos en línea en ciertos formatos de datos o la creación de planes de enrutamiento que cumplen con diversos requisitos especializados. También agregan el despachador, otro LLM liviano, que decide si un problema entrante se puede resolver con herramientas ya existentes o si es necesario desarrollar una nueva herramienta. Esto le da a su arquitectura un grado adicional de dinamismo y permite la creación y el uso de herramientas en tiempo real. Sus pruebas demuestran la eficacia de esta estrategia en una variedad de problemas difíciles de Big-Bench y tareas de pensamiento complicadas en general.

Los resultados demuestran que LATM puede funcionar tan bien como modelos más intensivos en recursos y a un precio más razonable. Este enfoque único para los LLMs, que imita el salto evolutivo de los seres humanos en la generación y utilización de herramientas, abre emocionantes posibilidades para una sociedad en desarrollo que utiliza herramientas generadas por LLMs.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Sabemos que las LLM pueden utilizar herramientas, ¿pero sabías que también pueden crear nuevas herramientas? Conoce a las LLM como fabricantes de herramientas (LATM) un sistema de bucle cerrado que permite a las LLM crear sus propias herramientas reutilizables.

Was this article helpful?

Este artículo de IA propone Retentive Networks (RetNet) como una arquitectura base para modelos de lenguaje grandes logrando paralelismo de entrenamiento, inferencia de bajo costo y buen rendimiento

Los 7 mejores libros de Procesamiento del Lenguaje Natural que todo científico de datos debe leer

Inteligencia Artificial

Herramientas de IA Médica pueden cometer errores peligrosos. ¿Puede el Gobierno ayudar a prevenirlos?

15+ Herramientas de IA para Desarrolladores (Diciembre 2023)

Rastreador web de OpenAI y errores de la FTC

GPT vs BERT ¿Cuál es mejor?

De Sonido a Vista Conoce AudioToken para la Síntesis de Audio a Imagen.

Deja de usar PowerPoint para tus presentaciones de ML y prueba esto en su lugar