¿SE HA VUELTO LA IA DEMASIADO HUMANA? Investigadores de Google AI descubren que los LLM ahora pueden utilizar modelos de ML y APIs solo con la documentación de la herramienta.

Investigadores de Google AI descubren que los LLM pueden usar modelos de ML y APIs solo con la documentación.

En esta era en la que cada día la IA parece estar conquistando el planeta, los Modelos de Lenguaje Grande se están acercando más que nunca al cerebro humano. Los investigadores de Google han demostrado que los grandes modelos de lenguaje pueden utilizar herramientas no descubiertas de manera “zero-shot” sin entrenamiento previo simplemente presentando a un LLM la documentación de cada herramienta.

Podemos pensar en toda esta solución como enseñarle a Audrey, una niña de cuatro años, a andar en bicicleta. Inicialmente, le mostramos cómo andar en bicicleta y la ayudamos a aprender (demonstramos). Le mostramos cómo subirse y andar con ruedas de entrenamiento y luego sin ellas. Es decir, le mostramos todos los escenarios diferentes. Esta solución finalmente trata sobre cómo ella leyó acerca de andar en bicicleta en un libro (documentación), aprendió sobre las diversas funcionalidades de la bicicleta y puede andar en ella sin nuestra ayuda, y lo hace de manera bastante impresionante. Puede derrapar, puede andar con y sin ruedas de entrenamiento. Parece que nuestra Audrey aquí ha crecido, ¿verdad?

Las demostraciones (demos) enseñan a los LLM a utilizar herramientas a través de ejemplos de pocos disparos. Es posible que necesitemos toneladas de ejemplos para cubrir todos los planes de herramientas que existen. En cambio, la documentación (docs) enseña a los LLM a utilizar herramientas describiendo las funcionalidades de las herramientas.

Se realizaron combinaciones de incluir/excluir documentación y demostraciones en las indicaciones, así como variar el número de demostraciones, para analizar los resultados y el rendimiento del modelo. Se realizaron experimentos en seis tareas en múltiples modalidades con varios conjuntos de herramientas. El planificador LLM utilizado es ChatGPT (gpt-3.5-turbo) y las seis tareas fueron las siguientes: pregunta y respuesta multimodal en ScienceQA, razonamiento matemático tabular en TabMWTabMWP, un conjunto de datos de razonamiento matemático, razonamiento multimodal en NLVRv2, uso de API no visto en un conjunto de datos recopilado recientemente, edición de imágenes con lenguaje natural y seguimiento de video.

Evaluaron el rendimiento del modelo, con y sin documentación de herramientas, en función de un número variable de demostraciones en cada conjunto de datos. Los hallazgos muestran que la documentación de herramientas reduce la necesidad de demostraciones. Con la documentación de herramientas, el modelo parecía mantener un rendimiento estable incluso cuando se eliminaban las demostraciones. Pero sin la documentación de herramientas, el rendimiento del modelo mostró ser extremadamente sensible al número de demostraciones utilizadas.

A través de comparaciones cualitativas, encontraron que confiar en la documentación en lugar de las demostraciones proporciona una solución más escalable para equipar a los grandes modelos de lenguaje con un gran número de herramientas disponibles. Además, con la documentación de herramientas sola, los LLM son capaces de comprender y utilizar los modelos de visión más recientes para lograr resultados impresionantes en tareas de edición de imágenes y seguimiento de video utilizando únicamente la documentación de herramientas sin nuevas demostraciones. Los investigadores han encontrado que aunque los resultados son extremadamente impresionantes y sugieren otro avance, hay una degradación en el rendimiento después de que la longitud del documento supere las 600 palabras.

A su vez, este documento aborda no solo cómo los LLM pueden aprender herramientas a través de la documentación, sino que también ha logrado replicar los resultados de proyectos populares como ‘Grounded SAM’ y ‘Track Anything’ sin demostraciones adicionales, lo que sugiere un potencial para el descubrimiento automático de conocimiento a través de la documentación de herramientas. Esto ofrece una nueva dirección en la perspectiva del uso de herramientas con LLMs en su totalidad y se esfuerza por arrojar luz sobre las capacidades de razonamiento del modelo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

Conoce Paella Un Nuevo Modelo de IA Similar a Difusión que Puede Generar Imágenes de Alta Calidad Mucho Más Rápido que Usando Difusión Estable.

Durante los últimos 2-3 años, ha habido un aumento fenomenal en la calidad y cantidad de investigación realizada en l...

Aprendizaje Automático

MosaicML acaba de lanzar su MPT-30B bajo la licencia Apache 2.0.

Después del gran éxito de MosaicML-7B, MosaicML ha vuelto a superar el referente que ellos mismos habían establecido ...

Inteligencia Artificial

Llama 2 de Meta Revolucionando los modelos de lenguaje de código abierto para uso comercial

Meta ha vuelto a empujar los límites de la IA con el lanzamiento de Llama 2, el esperado sucesor de su revolucionario...

Inteligencia Artificial

¿Cómo funciona realmente la Difusión Estable? Una explicación intuitiva

Este breve artículo explica cómo funciona la Difusión Estable de manera intuitiva para principiantes. Es un vistazo b...

Inteligencia Artificial

Escala el entrenamiento y la inferencia de miles de modelos de aprendizaje automático con Amazon SageMaker

Entrenar y servir miles de modelos requiere una infraestructura robusta y escalable, y ahí es donde Amazon SageMaker ...

Inteligencia Artificial

Gran noticia Google retrasa el lanzamiento del modelo de IA Gemini

En un desarrollo inesperado, Google ha decidido posponer el tan esperado lanzamiento de su avanzado modelo de intelig...