Salesforce presenta XGen-7B Un nuevo 7B LLM entrenado en secuencias de hasta 8K de longitud para 1.5T Tokens.

Salesforce introduces XGen-7B, a new 7B LLM trained on sequences up to 8K in length for 1.5T Tokens.

Con los recientes avances tecnológicos en inteligencia artificial, los Modelos de Lenguaje Grande, o LLMs en resumen, se han vuelto cada vez más prevalentes. En los últimos años, los investigadores han logrado avances rápidos en la resolución de varias tareas complejas relacionadas con el lenguaje, entrenando estos modelos con grandes cantidades de datos para comprender patrones de lenguaje complejos, generar respuestas coherentes, etc. Una área de investigación que ha despertado particular interés de los investigadores y desarrolladores es la aplicación de LLMs cuando se trata de manejar contenido de formato largo para incluir contextos más amplios. Algunos ejemplos de estas tareas van desde tareas relativamente simples como resumen de texto y generación de código, hasta declaraciones de problemas más complejos como predicción de estructura de proteínas y recuperación de información. Las secuencias textuales largas consisten en información en formas diversas, como párrafos, tablas, imágenes, etc.; por lo tanto, los LLMs deben entrenarse para procesar y comprender tales elementos. Además, al considerar eficazmente dependencias estructurales a larga distancia, los LLMs pueden identificar las conexiones entre diferentes partes del texto y extraer la información más relevante. Así, la exposición a un rango más amplio de conocimientos permite que los LLMs brinden respuestas más precisas y contextualmente relevantes a las consultas del usuario.

A pesar de los numerosos casos de uso potenciales, la mayoría de los LLMs de código abierto disponibles, desde LLaMA de Meta hasta los modelos LLM de MosaicML, se han entrenado en secuencias con un máximo de 2K tokens. Esta limitación presenta un desafío significativo cuando se trata de modelar secuencias más largas. Además, investigaciones anteriores sobre la escala del modelo han demostrado que los modelos más pequeños entrenados con un mayor número de tokens superan a los modelos más grandes cuando se les asigna un presupuesto computacional fijo. Así, inspirado por el problema en cuestión y los avances actuales, Salesforce Research logró avances innovadores al presentar XGen-7B, una serie de LLMs de 7B entrenados en una longitud de secuencia de 8K para 1.5 billones de tokens. La serie de modelos incluye XGen-7B-4K-Base (con soporte para longitud de secuencia de 4K), XGen-7B-8K-Base (con soporte para longitud de secuencia de 8K) y XGen-7B-8k-Inst, que se ha ajustado en datos de dominio público para fines de investigación únicamente. La característica sorprendente de estos LLMs es que en las pruebas de referencia de procesamiento del lenguaje natural estándar, XGen logra resultados comparables o mejores en comparación con otros LLMs de última generación de tamaño similar como MPT, Falcon, LLaMA, etc.

Los modelos XGen-7b utilizados en este estudio se entrenaron utilizando la biblioteca propietaria de Salesforce, JaxFormer, que permite un entrenamiento eficiente de LLMs utilizando paralelismo de datos y modelo específicamente optimizado para hardware TPU-v4. El proceso de entrenamiento siguió las pautas de LLaMA, con dos investigaciones adicionales. La primera exploración se centró en comprender los “picos de pérdida”, donde la pérdida aumenta repentina y temporalmente durante el entrenamiento sin una causa subyacente clara. Aunque la causa raíz de estos picos sigue siendo desconocida, los investigadores identificaron factores como “circuitos secuenciales sobre circuitos paralelos”, “swish-GLU en lugar de GeLU” y “RMS-Norm en lugar de Layer-norm” como posibles contribuyentes a la inestabilidad del entrenamiento. El segundo aspecto abordado fue la longitud de la secuencia. Dado que el entrenamiento con secuencias más largas incurre en costos computacionales significativamente más altos debido a la complejidad cuadrática de la auto-atención, se adoptó un enfoque de entrenamiento por etapas. El entrenamiento inicialmente abarcó 800B tokens con una longitud de secuencia de 2k tokens, seguido de 400B tokens con longitud de 4k, y finalmente, 300B tokens con longitud de 8k.

Para evaluar las capacidades del modelo XGen-7b 8k en comprender contextos más largos, los investigadores realizaron evaluaciones utilizando tres tareas principales: generación de diálogos de formato largo, resumen de texto y pregunta-respuesta. Los investigadores utilizaron el modelo ajustado a instrucciones para sus evaluaciones relacionadas con la dificultad de las tareas en cuestión. En cuanto a la generación de diálogos de formato largo, los investigadores utilizaron tres tareas para la evaluación: resumen de reuniones AMI, ForeverDreaming y resumen de guiones de TVMegaSite. En todas las métricas, el modelo XGen-7B-inst obtuvo las puntuaciones más altas en comparación con varios otros modelos ajustados a instrucciones, demostrando su rendimiento superior.

Para la pregunta-respuesta de formato largo, los investigadores generaron preguntas utilizando ChatGPT basado en documentos de Wikipedia que cubrían temas diversos como Física, Ingeniería, Historia y Entretenimiento, junto con sus resúmenes correspondientes. Las respuestas generadas por el LLM, que tenían una longitud de 256 tokens, se evaluaron utilizando GPT-4 en función de su estructura, organización y relevancia para la pregunta y el documento fuente. En este escenario, el modelo XGen-7B-8k-Inst superó a los modelos de referencia, que están limitados a 2k tokens, mostrando su rendimiento superior. En cuanto a la resumen de texto, los investigadores utilizaron dos conjuntos de datos de diferentes dominios, específicamente conversaciones de reuniones e informes gubernamentales, para evaluar el modelo XGen-7b. Los resultados revelaron que el modelo XGen-7b superó significativamente a otros modelos de referencia en estas tareas, lo que indica su rendimiento superior también en la resumen de texto.

Las evaluaciones demostraron que el modelo XGen-7b sobresalió en la comprensión de contextos más largos en diversas tareas, incluyendo la generación de diálogos de larga extensión, preguntas y respuestas, y resumen de texto. Su rendimiento superó al de otros modelos ajustados a instrucciones y modelos de referencia, demostrando su efectividad en la comprensión y generación de respuestas coherentes en contextos extensos de texto. Sin embargo, a pesar de su eficacia, los investigadores reconocen una limitación del modelo XGen, ya que no está exento de sesgos y tiene el potencial de generar respuestas tóxicas, una característica que comparte con muchos otros modelos de IA. Salesforce Research también ha compartido su código de forma abierta para permitir a la comunidad explorar su trabajo.

Visita el Blog de SF y el Enlace de Github. No olvides unirte a nuestro SubReddit de ML de más de 25k seguidores, nuestro Canal de Discord, y nuestro Boletín de noticias por correo electrónico, donde compartimos las últimas noticias de investigación en IA, proyectos interesantes de IA y más. Si tienes alguna pregunta sobre el artículo anterior o si nos hemos dejado algo, no dudes en enviarnos un correo electrónico a [email protected]

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El próximo guardia de seguridad de tu escuela podría ser un robot

Varias compañías tecnológicas han comenzado a ofrecer robots de seguridad a las escuelas de Estados Unidos.

Inteligencia Artificial

Optimiza el costo de implementación de los modelos base de Amazon SageMaker JumpStart con los puntos finales asincrónicos de Amazon SageMaker

En esta publicación, nos enfocamos en estas situaciones y resolvemos el problema de arriesgar altos costos al impleme...

Inteligencia Artificial

Explorando Google Cloud Platform Una Visión General Completa de Servicios y Capacidades

En este artículo, profundizaremos en los diversos servicios ofrecidos por GCP y destacaremos su importancia en el pan...

Inteligencia Artificial

40+ Herramientas de IA Geniales que Deberías Comprobar (noviembre de 2023)

DeepSwap DeepSwap es una herramienta basada en inteligencia artificial para cualquiera que quiera crear videos e imág...

Inteligencia Artificial

De la plataforma de datos a la plataforma de aprendizaje automático

Data/ML ha sido el tema más popular en nuestro panorama tecnológico. Quiero compartir mi comprensión de la plataforma...