¿SE HA VUELTO LA IA DEMASIADO HUMANA? Investigadores de Google AI descubren que los LLM ahora pueden utilizar modelos de ML y APIs solo con la documentación de la herramienta.
Investigadores de Google AI descubren que los LLM pueden usar modelos de ML y APIs solo con la documentación.
En esta era en la que cada día la IA parece estar conquistando el planeta, los Modelos de Lenguaje Grande se están acercando más que nunca al cerebro humano. Los investigadores de Google han demostrado que los grandes modelos de lenguaje pueden utilizar herramientas no descubiertas de manera “zero-shot” sin entrenamiento previo simplemente presentando a un LLM la documentación de cada herramienta.
Podemos pensar en toda esta solución como enseñarle a Audrey, una niña de cuatro años, a andar en bicicleta. Inicialmente, le mostramos cómo andar en bicicleta y la ayudamos a aprender (demonstramos). Le mostramos cómo subirse y andar con ruedas de entrenamiento y luego sin ellas. Es decir, le mostramos todos los escenarios diferentes. Esta solución finalmente trata sobre cómo ella leyó acerca de andar en bicicleta en un libro (documentación), aprendió sobre las diversas funcionalidades de la bicicleta y puede andar en ella sin nuestra ayuda, y lo hace de manera bastante impresionante. Puede derrapar, puede andar con y sin ruedas de entrenamiento. Parece que nuestra Audrey aquí ha crecido, ¿verdad?
Las demostraciones (demos) enseñan a los LLM a utilizar herramientas a través de ejemplos de pocos disparos. Es posible que necesitemos toneladas de ejemplos para cubrir todos los planes de herramientas que existen. En cambio, la documentación (docs) enseña a los LLM a utilizar herramientas describiendo las funcionalidades de las herramientas.
- Investigadores de UCLA presentan GedankenNet un modelo de IA auto-supervisado que aprende a partir de leyes de la física y experimentos mentales, avanzando en la imagen computacional.
- Desplegando modelos de Hugging Face con BentoML DeepFloyd IF en acción
- Aumente el rendimiento de latencia y rendimiento de Llama 2 hasta 4 veces
Se realizaron combinaciones de incluir/excluir documentación y demostraciones en las indicaciones, así como variar el número de demostraciones, para analizar los resultados y el rendimiento del modelo. Se realizaron experimentos en seis tareas en múltiples modalidades con varios conjuntos de herramientas. El planificador LLM utilizado es ChatGPT (gpt-3.5-turbo) y las seis tareas fueron las siguientes: pregunta y respuesta multimodal en ScienceQA, razonamiento matemático tabular en TabMWTabMWP, un conjunto de datos de razonamiento matemático, razonamiento multimodal en NLVRv2, uso de API no visto en un conjunto de datos recopilado recientemente, edición de imágenes con lenguaje natural y seguimiento de video.
Evaluaron el rendimiento del modelo, con y sin documentación de herramientas, en función de un número variable de demostraciones en cada conjunto de datos. Los hallazgos muestran que la documentación de herramientas reduce la necesidad de demostraciones. Con la documentación de herramientas, el modelo parecía mantener un rendimiento estable incluso cuando se eliminaban las demostraciones. Pero sin la documentación de herramientas, el rendimiento del modelo mostró ser extremadamente sensible al número de demostraciones utilizadas.
A través de comparaciones cualitativas, encontraron que confiar en la documentación en lugar de las demostraciones proporciona una solución más escalable para equipar a los grandes modelos de lenguaje con un gran número de herramientas disponibles. Además, con la documentación de herramientas sola, los LLM son capaces de comprender y utilizar los modelos de visión más recientes para lograr resultados impresionantes en tareas de edición de imágenes y seguimiento de video utilizando únicamente la documentación de herramientas sin nuevas demostraciones. Los investigadores han encontrado que aunque los resultados son extremadamente impresionantes y sugieren otro avance, hay una degradación en el rendimiento después de que la longitud del documento supere las 600 palabras.
A su vez, este documento aborda no solo cómo los LLM pueden aprender herramientas a través de la documentación, sino que también ha logrado replicar los resultados de proyectos populares como ‘Grounded SAM’ y ‘Track Anything’ sin demostraciones adicionales, lo que sugiere un potencial para el descubrimiento automático de conocimiento a través de la documentación de herramientas. Esto ofrece una nueva dirección en la perspectiva del uso de herramientas con LLMs en su totalidad y se esfuerza por arrojar luz sobre las capacidades de razonamiento del modelo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Ingenieros de Aprendizaje Automático ¿Qué hacen en realidad?
- Conoce AnyLoc El último método universal para el reconocimiento visual de lugares (VPR)
- Capa de métricas una única fuente de verdad para todas las definiciones de KPI
- Una opinión sobre la Inteligencia Artificial inspirada en el cerebro. ¿Hacia dónde vamos desde aquí?
- Potenciando los tubos RAG en Haystack Presentando DiversityRanker y LostInTheMiddleRanker
- Despliega miles de conjuntos de modelos con puntos finales multinivel de Amazon SageMaker en GPU para minimizar tus costos de alojamiento
- Decodificando la Sinfonía del Sonido Procesamiento de Señales de Audio para la Ingeniería Musical