Tendencias en evolución en la ingeniería de indicaciones para modelos de lenguaje grandes (LLMs) con prácticas de IA responsable incorporadas
Evolutionary trends in indications engineering for large language models (LLMs) with embedded responsible AI practices
Nota del editor: Jayachandran Ramachandran y Rohit Sroch son ponentes de ODSC APAC este 22-23 de agosto. ¡Asegúrese de ver su charla, “Tendencias evolutivas en la ingeniería de indicaciones para modelos de lenguaje grandes (LLMs) con prácticas integradas de IA responsable”, allí!
El advenimiento de la Arquitectura Transformer ha revolucionado sin duda el campo del Procesamiento del Lenguaje Natural (PLN) al introducir un diseño que aprovecha eficientemente tanto los datos como el poder de cómputo. Además, el preentrenamiento auto-supervisado de los modelos Transformer en corpus extensos ha demostrado capacidades notables para abordar una amplia gama de tareas de PLN. A medida que los investigadores profundizaban en el impacto del escalado del modelo en la mejora de la capacidad, exploraron la posibilidad de aumentar el tamaño de los parámetros aún más. Curiosamente, al superar un cierto umbral en la escala de los parámetros, estos modelos de lenguaje ampliados no solo logran mejoras significativas en el rendimiento, sino que también muestran habilidades de razonamiento mejoradas. Esto dio lugar a la era del aprendizaje en contexto (ICL), que permite a los Modelos de Lenguaje Grandes (LLMs) mostrar capacidad fundamental. En lugar de depender únicamente de la sintonización fina específica de la tarea, estos modelos ahora pueden ejecutar tareas específicas con indicaciones cuidadosamente diseñadas.
La aparición de Modelos de Lenguaje Grandes (LLMs) ha inaugurado una nueva era en el campo de la inteligencia artificial, remodelando las posibilidades para las organizaciones en diversos sectores. LLMs como GPT-4, PaLM-2, Llama-2 y otros están impulsando la ola de IA generativa, dando lugar a nuevas aplicaciones que están remodelando tanto el panorama tecnológico como el empresarial. Desde mejorar las búsquedas empresariales hasta impulsar bots conversacionales y generación de contenido, los LLMs están habilitando capacidades únicas que antes se consideraban lejanas. Sin embargo, este cambio transformador también presenta desafíos.
- De los Cristales de Tiempo a los Agujeros de Gusano ¿Cuándo es una Simulación Cuántica Real?
- Herramientas de codificación de IA han llegado cómo los equipos de Ingeniería de Productos las utilizarán
- Si los ingenieros comienzan a utilizar herramientas de codificación de IA, ¿qué sucede con nuestros equipos de producto?
En esta publicación de blog, nuestro objetivo es iluminar la investigación en constante evolución en el espacio de los LLMs, al tiempo que abordamos consideraciones éticas clave y tratamos de proporcionar orientación práctica a los profesionales y clientes de IA con ejemplos de nuestros casos de uso internos, facilitando el desarrollo responsable de aplicaciones de LLMs. En esencia, exploramos el potencial transformador y el panorama en evolución adentrándonos en las siguientes cuatro dimensiones críticas:
Fig1: Ilustración de la pila tecnológica para las cuatro dimensiones críticas para adoptar LLMs en diversos casos de uso empresarial
1. Ingeniería de Indicaciones: El objetivo es guiar a los LLMs a través de indicaciones refinadas para una comprensión y ejecución de instrucciones efectivas. En el núcleo de la utilización eficiente de los LLMs se encuentra el arte de la ingeniería de indicaciones, que implica crear indicaciones que guíen a los LLMs de manera efectiva, allanando el camino para respuestas confiables. Se utilizan diversas técnicas de indicación, como Zero/Few Shot, Chain-of-Thought (CoT)/Self-Consistency, ReAct, etc. para dirigir la salida de los LLMs.
2. Evaluación de Completitud de Indicaciones: El objetivo es establecer criterios de evaluación efectivos para medir el rendimiento de los LLMs en tareas y dominios. Medir el rendimiento de los LLMs presenta un desafío complejo que exige criterios de evaluación exhaustivos para medir la eficacia de los LLMs. Mostramos los siguientes criterios de evaluación y mecanismo de retroalimentación para guiar a los LLMs hacia un rendimiento óptimo y mejoras continuas.
- Auto Eval
- Evaluación con Métricas Comunes
- Evaluación Humana
- Evaluación de Modelo Personalizado
3. Optimización y Despliegue de LLMs: El objetivo es mejorar la accesibilidad de los LLMs, emplear métodos PEFT para una sintonización fina y despliegue eficientes y rentables. Los métodos de Sintonización Fina Eficiente de Parámetros (PEFT) junto con la cuantificación basada en QLoRA hacen que los LLMs sean aún más accesibles y factibles para la adaptación específica de tareas. Estos métodos aseguran que los LLMs no solo se sintonicen finamente de manera efectiva, sino que también se desplieguen con necesidades de cómputo y costos mínimos, alineándose así con las restricciones de recursos de las aplicaciones del mundo real.
4. IA Responsable: El objetivo es enfatizar y abordar consideraciones éticas en los LLMs, alentando la confianza entre los usuarios de aplicaciones de IA. A medida que los LLMs se vuelven integrales para las aplicaciones de IA, las consideraciones éticas toman un papel central. Mostramos los siguientes principios indispensables de IA Responsable que protegen la información sensible, mejoran la confianza y detectan sesgos para fomentar la confianza del consumidor y garantizar que los resultados impulsados por IA estén alineados con los valores sociales.
- Equidad/Sesgo
- Explicabilidad
- Privacidad
- Seguridad
En Course5 AI Labs, estamos impulsando avances en el campo de la Inteligencia Artificial (IA) a través de investigación aplicada de vanguardia, innovación y experimentación rápida. Una de nuestras soluciones de Analítica Aumentada impulsada por IA es Course5 Discovery, que permite a los usuarios empresariales hacer consultas naturales y consumir información descriptiva, predictiva y prescriptiva. Aquí hay un flujo de proceso de cómo aplicamos las cuatro dimensiones anteriores a Course5 Discovery, que se puede generalizar para aplicaciones de Texto a SQL.
Fig 2: Una ilustración de la aplicación de cuatro dimensiones a nuestra Discovery del Curso5 para aplicaciones de Texto a SQL
Para aplicaciones de IA basadas en LLMs, se recomienda utilizar inicialmente un modelo personalizado que ofrezca metadatos como guía para los LLMs. Este modelo personalizado entrenable puede mejorarse progresivamente a través de un bucle de retroalimentación como se muestra arriba.
Aprenda más en nuestra próxima charla en ODSC APAC 2023:
La llegada de los Modelos de Lenguaje Grande (LLMs) como GPT, Llama, PaLM ha revolucionado el espacio de la IA y ha permitido a las organizaciones reinventar la tecnología y el ecosistema empresarial. Estos modelos están ayudando a crear capacidades únicas, ya sea búsqueda empresarial, identificación de temas, resúmenes, bots conversacionales, generación de contenido y muchos más. Las organizaciones están aprovechando los LLMs a través de diversos medios como aplicaciones listas para usar, ingeniería de sugerencias y ajuste fino del modelo. Aunque estamos viendo éxito temprano, existen desafíos y la adopción de LLMs para diversos casos de uso empresarial sigue siendo un espacio en evolución. En esta charla profundizamos en los aspectos de vanguardia de los LLMs, centrándonos en cuatro dimensiones críticas: Ingeniería de Sugerencias, Evaluación, Optimización y Despliegue del Modelo y IA Responsable.
Acerca de los autores:
Rohit Sroch es un científico de IA senior en Artificial Intelligence Labs en Course5 Intelligence, con más de 5 años de experiencia en los dominios de Procesamiento de Lenguaje Natural y Habla. Juega un papel fundamental en la conceptualización y desarrollo de sistemas de IA para la división de Productos de Course5. Al mismo tiempo, mantiene una participación activa en sus esfuerzos de investigación, lo que ha llevado a la publicación de varios artículos de investigación en los últimos años. Además, su ferviente interés en el panorama en constante evolución de la IA lo impulsa a participar en investigación continua y mantenerse al tanto de las últimas tecnologías.
Jayachandran Ramachandran es el Vicepresidente Senior y Jefe de Artificial Intelligence Labs en Course5 Intelligence. Es responsable de la investigación de IA aplicada, la innovación y el desarrollo de propiedad intelectual. Es un líder de pensamiento en Analítica e Inteligencia Artificial (IA), diseñador de pensamiento e inventor con una amplia experiencia en una amplia variedad de sectores industriales como Retail, CPG, Tecnología, Telecomunicaciones, Servicios Financieros, Farmacéutica, Manufactura, Energía, Servicios Públicos, etc.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Revisión de Gizzmo AI ¿La mejor herramienta de IA para contenido de afiliados de Amazon?
- Comienza el trabajo en el proyecto para construir la ‘Vía más Sofisticada del Mundo
- Construye una solución centralizada de monitoreo e informes para Amazon SageMaker utilizando Amazon CloudWatch
- Plataforma de Hugging Face en el AWS Marketplace Paga con tu cuenta de AWS
- Empresa derivada de la Universidad de Glasgow recauda $43 millones para ‘Digitalizar la Química
- El diagnóstico y tratamiento del cáncer podrían recibir un impulso de la IA
- 10 habilidades imprescindibles que debe tener un ingeniero de aprendizaje automático en 2023