Descifrando oportunidades y desafíos para los agentes LLM en la IA generativa
Agentes LLM en la IA generativa oportunidades y desafíos
Estamos presenciando una progresión de aplicaciones de IA generativa impulsadas por grandes modelos de lenguaje (LLM) desde indicaciones hasta generación mejorada mediante recuperación (RAG) hasta agentes. Los agentes se están hablando mucho en los círculos de la industria e investigación, principalmente por el poder que esta tecnología brinda para transformar las aplicaciones empresariales y brindar experiencias superiores al cliente. Hay patrones comunes para construir agentes que permiten los primeros pasos hacia la inteligencia artificial general (AGI).
En mi artículo anterior, vimos una escalera de inteligencia de patrones para construir aplicaciones impulsadas por LLM. Comenzando con indicaciones que capturan el dominio del problema y utilizan la memoria interna del LLM para generar resultados. Con RAG, aumentamos la indicación con conocimientos externos buscados en una base de datos vectorial para controlar los resultados. Luego, mediante la encadenación de llamadas LLM, podemos construir flujos de trabajo para realizar aplicaciones complejas. Los agentes llevan esto a un nivel superior al determinar automáticamente cómo se deben formar estas cadenas LLM. Veamos en detalle.
Agentes: bajo el capó
Un patrón clave con los agentes es que utilizan el poder de comprensión del lenguaje del LLM para planificar cómo resolver un problema dado. El LLM comprende el problema y nos brinda una secuencia de pasos para resolverlo. Sin embargo, no se detiene ahí. Los agentes no son un sistema de apoyo puro que le proporcionará recomendaciones sobre cómo resolver el problema y luego le pasará el testigo para que tome los pasos recomendados. Los agentes tienen herramientas para seguir adelante y tomar acción. ¡Da miedo, ¿verdad?!
- Anunciando el Programa Preliminar de ODSC West 2023
- Tailor presenta el complemento ChatGPT que permite una interfaz conversacional para las operaciones de ERP
- Un Viaje a Través de la IA Generativa
Si le hacemos una pregunta básica a un agente como esta:
Humano: ¿En qué empresa comenzó el inventor del teléfono?
A continuación, se muestra una muestra de los pasos de pensamiento que puede seguir un agente.
Agente (PENSANDO):
- Pensamiento: Necesito buscar al inventor del teléfono.
- Acción: Buscar [inventor del teléfono]
- Observación: Alexander Graham Bell
- Pensamiento: Necesito buscar una empresa que fue fundada por Alexander Graham Bell
- Acción: Buscar [empresa fundada por Alexander Graham Bell]
- Observación: Alexander Graham Bell cofundó la American Telephone and Telegraph Company (AT&T) en 1885
- Pensamiento: He encontrado la respuesta. Volveré.
Agente (RESPUESTA): Alexander Graham Bell cofundó AT&T en 1885
Puede ver que el agente sigue un método sistemático para descomponer el problema en subproblemas que pueden resolverse tomando acciones específicas. Las acciones aquí son recomendadas por el LLM y podemos asignarlas a herramientas específicas para implementar estas acciones. Podríamos habilitar una herramienta de búsqueda para el agente de manera que, cuando se dé cuenta de que el LLM ha proporcionado la búsqueda como una acción, llamará a esta herramienta con los parámetros proporcionados por el LLM. La búsqueda aquí se realiza en internet, pero también se puede redirigir para buscar en una base de conocimientos interna como una base de datos vectorial. El sistema ahora se vuelve autosuficiente y puede descubrir cómo resolver problemas complejos siguiendo una serie de pasos. Marcos como LangChain y LLaMAIndex te brindan una forma sencilla de construir estos agentes y conectarte a herramientas y API. Amazon lanzó recientemente su marco de agentes Bedrock que proporciona una interfaz visual para diseñar agentes.
Bajo el capó, los agentes siguen un estilo especial de enviar indicaciones al LLM que los hace generar un plan de acción. El patrón de Pensamiento-Acción-Observación mencionado anteriormente es popular en un tipo de agente llamado ReAct (Razonamiento y Acción). Otros tipos de agentes incluyen MRKL y Plan y Ejecutar, que difieren principalmente en su estilo de indicación.
Para agentes más complejos, las acciones pueden estar vinculadas a herramientas que causan cambios en los sistemas fuente. Por ejemplo, podríamos conectar el agente a una herramienta que verifique el saldo de vacaciones y solicite permiso en un sistema ERP para un empleado. Ahora podríamos construir un chatbot agradable que interactúe con los usuarios y mediante un comando de chat solicite permiso en el sistema. No más pantallas complejas para solicitar permisos, una interfaz de chat unificada y sencilla. ¿Suena emocionante?
Precauciones y necesidad de una IA responsable
Ahora, ¿qué sucede si tenemos una herramienta que invoca transacciones en operaciones de compraventa de acciones utilizando una API preautorizada? Construye una aplicación donde el agente estudia los cambios en las acciones (usando herramientas) y toma decisiones de compra y venta de acciones por ti. ¿Y si el agente vende la acción equivocada porque alucinó y tomó una decisión incorrecta? Dado que los LLM son modelos enormes, es difícil determinar por qué toman algunas decisiones, por lo tanto, las alucinaciones son comunes en ausencia de salvaguardias adecuadas.
Aunque los agentes son fascinantes, probablemente habrías adivinado lo peligrosos que pueden ser. Si alucinan y toman una acción equivocada, esto podría causar grandes pérdidas financieras o problemas graves en los sistemas empresariales. Por lo tanto, la Inteligencia Artificial Responsable se está volviendo de suma importancia en la era de las aplicaciones impulsadas por LLM. Los principios de la Inteligencia Artificial Responsable, como la reproducibilidad, la transparencia y la responsabilidad, intentan poner límites a las decisiones tomadas por los agentes y sugieren un análisis de riesgo para decidir qué acciones necesitan la intervención humana. A medida que se diseñan agentes más complejos, necesitan una mayor escrutinio, transparencia y responsabilidad para asegurarnos de saber lo que están haciendo.
Conclusiones
La capacidad de los agentes para generar una secuencia de pasos lógicos con acciones los acerca mucho al razonamiento humano. Capacitarlos con herramientas más poderosas puede darles superpoderes. Patrones como ReAct intentan emular cómo los humanos resuelven el problema y veremos mejores patrones de agentes que serán relevantes para contextos y dominios específicos (banca, seguros, atención médica, industrial, etc.). El futuro está aquí y la tecnología detrás de los agentes está lista para que la utilicemos. Al mismo tiempo, debemos prestar atención a las barreras de seguridad de la Inteligencia Artificial Responsable para asegurarnos de que no estamos construyendo Skynet.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Interacciones naturales en IoT combinando MQTT y ChatGPT
- Principales 10 vulnerabilidades LLM
- Anthropic presenta una suscripción de pago para su plataforma de chatbot de IA Claude
- Quantización GPTQ en un modelo Llama 2 7B Fine-Tuned con HuggingFace
- Atención, por favor Focus Entertainment trae títulos de Game Pass a GeForce NOW.
- Conoce LLaSM Un modelo de habla y lenguaje multimodal grande y entrenado de principio a fin con habilidades conversacionales cruzadas capaz de seguir instrucciones de habla y lenguaje.
- Google Research explora ¿Puede la retroalimentación de IA reemplazar la entrada humana para un aprendizaje por refuerzo efectivo en modelos de lenguaje grandes?