Tendencias en evolución en la ingeniería de indicaciones para modelos de lenguaje grandes (LLMs) con prácticas de IA responsable incorporadas

Evolutionary trends in indications engineering for large language models (LLMs) with embedded responsible AI practices

Nota del editor: Jayachandran Ramachandran y Rohit Sroch son ponentes de ODSC APAC este 22-23 de agosto. ¡Asegúrese de ver su charla, “Tendencias evolutivas en la ingeniería de indicaciones para modelos de lenguaje grandes (LLMs) con prácticas integradas de IA responsable”, allí!

El advenimiento de la Arquitectura Transformer ha revolucionado sin duda el campo del Procesamiento del Lenguaje Natural (PLN) al introducir un diseño que aprovecha eficientemente tanto los datos como el poder de cómputo. Además, el preentrenamiento auto-supervisado de los modelos Transformer en corpus extensos ha demostrado capacidades notables para abordar una amplia gama de tareas de PLN. A medida que los investigadores profundizaban en el impacto del escalado del modelo en la mejora de la capacidad, exploraron la posibilidad de aumentar el tamaño de los parámetros aún más. Curiosamente, al superar un cierto umbral en la escala de los parámetros, estos modelos de lenguaje ampliados no solo logran mejoras significativas en el rendimiento, sino que también muestran habilidades de razonamiento mejoradas. Esto dio lugar a la era del aprendizaje en contexto (ICL), que permite a los Modelos de Lenguaje Grandes (LLMs) mostrar capacidad fundamental. En lugar de depender únicamente de la sintonización fina específica de la tarea, estos modelos ahora pueden ejecutar tareas específicas con indicaciones cuidadosamente diseñadas.

La aparición de Modelos de Lenguaje Grandes (LLMs) ha inaugurado una nueva era en el campo de la inteligencia artificial, remodelando las posibilidades para las organizaciones en diversos sectores. LLMs como GPT-4, PaLM-2, Llama-2 y otros están impulsando la ola de IA generativa, dando lugar a nuevas aplicaciones que están remodelando tanto el panorama tecnológico como el empresarial. Desde mejorar las búsquedas empresariales hasta impulsar bots conversacionales y generación de contenido, los LLMs están habilitando capacidades únicas que antes se consideraban lejanas. Sin embargo, este cambio transformador también presenta desafíos.

En esta publicación de blog, nuestro objetivo es iluminar la investigación en constante evolución en el espacio de los LLMs, al tiempo que abordamos consideraciones éticas clave y tratamos de proporcionar orientación práctica a los profesionales y clientes de IA con ejemplos de nuestros casos de uso internos, facilitando el desarrollo responsable de aplicaciones de LLMs. En esencia, exploramos el potencial transformador y el panorama en evolución adentrándonos en las siguientes cuatro dimensiones críticas:

Fig1: Ilustración de la pila tecnológica para las cuatro dimensiones críticas para adoptar LLMs en diversos casos de uso empresarial

1. Ingeniería de Indicaciones: El objetivo es guiar a los LLMs a través de indicaciones refinadas para una comprensión y ejecución de instrucciones efectivas. En el núcleo de la utilización eficiente de los LLMs se encuentra el arte de la ingeniería de indicaciones, que implica crear indicaciones que guíen a los LLMs de manera efectiva, allanando el camino para respuestas confiables. Se utilizan diversas técnicas de indicación, como Zero/Few Shot, Chain-of-Thought (CoT)/Self-Consistency, ReAct, etc. para dirigir la salida de los LLMs.

2. Evaluación de Completitud de Indicaciones: El objetivo es establecer criterios de evaluación efectivos para medir el rendimiento de los LLMs en tareas y dominios. Medir el rendimiento de los LLMs presenta un desafío complejo que exige criterios de evaluación exhaustivos para medir la eficacia de los LLMs. Mostramos los siguientes criterios de evaluación y mecanismo de retroalimentación para guiar a los LLMs hacia un rendimiento óptimo y mejoras continuas.

  1. Auto Eval
  2. Evaluación con Métricas Comunes
  3. Evaluación Humana
  4. Evaluación de Modelo Personalizado

3. Optimización y Despliegue de LLMs: El objetivo es mejorar la accesibilidad de los LLMs, emplear métodos PEFT para una sintonización fina y despliegue eficientes y rentables. Los métodos de Sintonización Fina Eficiente de Parámetros (PEFT) junto con la cuantificación basada en QLoRA hacen que los LLMs sean aún más accesibles y factibles para la adaptación específica de tareas. Estos métodos aseguran que los LLMs no solo se sintonicen finamente de manera efectiva, sino que también se desplieguen con necesidades de cómputo y costos mínimos, alineándose así con las restricciones de recursos de las aplicaciones del mundo real.

4. IA Responsable: El objetivo es enfatizar y abordar consideraciones éticas en los LLMs, alentando la confianza entre los usuarios de aplicaciones de IA. A medida que los LLMs se vuelven integrales para las aplicaciones de IA, las consideraciones éticas toman un papel central. Mostramos los siguientes principios indispensables de IA Responsable que protegen la información sensible, mejoran la confianza y detectan sesgos para fomentar la confianza del consumidor y garantizar que los resultados impulsados por IA estén alineados con los valores sociales.

  1. Equidad/Sesgo
  2. Explicabilidad
  3. Privacidad
  4. Seguridad

En Course5 AI Labs, estamos impulsando avances en el campo de la Inteligencia Artificial (IA) a través de investigación aplicada de vanguardia, innovación y experimentación rápida. Una de nuestras soluciones de Analítica Aumentada impulsada por IA es Course5 Discovery, que permite a los usuarios empresariales hacer consultas naturales y consumir información descriptiva, predictiva y prescriptiva. Aquí hay un flujo de proceso de cómo aplicamos las cuatro dimensiones anteriores a Course5 Discovery, que se puede generalizar para aplicaciones de Texto a SQL.

Fig 2: Una ilustración de la aplicación de cuatro dimensiones a nuestra Discovery del Curso5 para aplicaciones de Texto a SQL

Para aplicaciones de IA basadas en LLMs, se recomienda utilizar inicialmente un modelo personalizado que ofrezca metadatos como guía para los LLMs. Este modelo personalizado entrenable puede mejorarse progresivamente a través de un bucle de retroalimentación como se muestra arriba.

Aprenda más en nuestra próxima charla en ODSC APAC 2023:

La llegada de los Modelos de Lenguaje Grande (LLMs) como GPT, Llama, PaLM ha revolucionado el espacio de la IA y ha permitido a las organizaciones reinventar la tecnología y el ecosistema empresarial. Estos modelos están ayudando a crear capacidades únicas, ya sea búsqueda empresarial, identificación de temas, resúmenes, bots conversacionales, generación de contenido y muchos más. Las organizaciones están aprovechando los LLMs a través de diversos medios como aplicaciones listas para usar, ingeniería de sugerencias y ajuste fino del modelo. Aunque estamos viendo éxito temprano, existen desafíos y la adopción de LLMs para diversos casos de uso empresarial sigue siendo un espacio en evolución. En esta charla profundizamos en los aspectos de vanguardia de los LLMs, centrándonos en cuatro dimensiones críticas: Ingeniería de Sugerencias, Evaluación, Optimización y Despliegue del Modelo y IA Responsable.

Acerca de los autores:

Rohit Sroch es un científico de IA senior en Artificial Intelligence Labs en Course5 Intelligence, con más de 5 años de experiencia en los dominios de Procesamiento de Lenguaje Natural y Habla. Juega un papel fundamental en la conceptualización y desarrollo de sistemas de IA para la división de Productos de Course5. Al mismo tiempo, mantiene una participación activa en sus esfuerzos de investigación, lo que ha llevado a la publicación de varios artículos de investigación en los últimos años. Además, su ferviente interés en el panorama en constante evolución de la IA lo impulsa a participar en investigación continua y mantenerse al tanto de las últimas tecnologías.

 

Jayachandran Ramachandran es el Vicepresidente Senior y Jefe de Artificial Intelligence Labs en Course5 Intelligence. Es responsable de la investigación de IA aplicada, la innovación y el desarrollo de propiedad intelectual. Es un líder de pensamiento en Analítica e Inteligencia Artificial (IA), diseñador de pensamiento e inventor con una amplia experiencia en una amplia variedad de sectores industriales como Retail, CPG, Tecnología, Telecomunicaciones, Servicios Financieros, Farmacéutica, Manufactura, Energía, Servicios Públicos, etc.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Honda comenzará un servicio de taxis sin conductor en Tokio, según el CEO

La alianza con GM, Cruise tiene como objetivo eventual contar con 500 robotaxis.

Inteligencia Artificial

Web LLM Trae los Chatbots de LLM al Navegador.

¿No sería genial si pudieras ejecutar LLMs y chatbots de LLM de forma nativa en tu navegador? Aprendamos más sobre el...

Inteligencia Artificial

Revolucionando la segmentación panóptica con FC-CLIP un marco unificado de IA (Inteligencia Artificial) en una sola etapa

La segmentación de imágenes es una tarea fundamental en la visión por computadora, donde una imagen se divide en part...

Ciencias de la Computación

Wimbledon utilizará inteligencia artificial para comentarios en video de aspectos destacados.

El anuncio es parte de una tendencia más amplia en el tenis, a medida que el deporte adopta la tecnología.

Inteligencia Artificial

Bloqueo de Apple de Beeper Mini en iMessage solo es parte de la gran saga de la burbuja azul/verde

Apple toma medidas preventivas para proteger a sus clientes. Beeper afirma que el último movimiento de Apple hace exa...