Salesforce presenta XGen-7B Un nuevo 7B LLM entrenado en secuencias de hasta 8K de longitud para 1.5T Tokens.
Salesforce introduces XGen-7B, a new 7B LLM trained on sequences up to 8K in length for 1.5T Tokens.
Con los recientes avances tecnológicos en inteligencia artificial, los Modelos de Lenguaje Grande, o LLMs en resumen, se han vuelto cada vez más prevalentes. En los últimos años, los investigadores han logrado avances rápidos en la resolución de varias tareas complejas relacionadas con el lenguaje, entrenando estos modelos con grandes cantidades de datos para comprender patrones de lenguaje complejos, generar respuestas coherentes, etc. Una área de investigación que ha despertado particular interés de los investigadores y desarrolladores es la aplicación de LLMs cuando se trata de manejar contenido de formato largo para incluir contextos más amplios. Algunos ejemplos de estas tareas van desde tareas relativamente simples como resumen de texto y generación de código, hasta declaraciones de problemas más complejos como predicción de estructura de proteínas y recuperación de información. Las secuencias textuales largas consisten en información en formas diversas, como párrafos, tablas, imágenes, etc.; por lo tanto, los LLMs deben entrenarse para procesar y comprender tales elementos. Además, al considerar eficazmente dependencias estructurales a larga distancia, los LLMs pueden identificar las conexiones entre diferentes partes del texto y extraer la información más relevante. Así, la exposición a un rango más amplio de conocimientos permite que los LLMs brinden respuestas más precisas y contextualmente relevantes a las consultas del usuario.
A pesar de los numerosos casos de uso potenciales, la mayoría de los LLMs de código abierto disponibles, desde LLaMA de Meta hasta los modelos LLM de MosaicML, se han entrenado en secuencias con un máximo de 2K tokens. Esta limitación presenta un desafío significativo cuando se trata de modelar secuencias más largas. Además, investigaciones anteriores sobre la escala del modelo han demostrado que los modelos más pequeños entrenados con un mayor número de tokens superan a los modelos más grandes cuando se les asigna un presupuesto computacional fijo. Así, inspirado por el problema en cuestión y los avances actuales, Salesforce Research logró avances innovadores al presentar XGen-7B, una serie de LLMs de 7B entrenados en una longitud de secuencia de 8K para 1.5 billones de tokens. La serie de modelos incluye XGen-7B-4K-Base (con soporte para longitud de secuencia de 4K), XGen-7B-8K-Base (con soporte para longitud de secuencia de 8K) y XGen-7B-8k-Inst, que se ha ajustado en datos de dominio público para fines de investigación únicamente. La característica sorprendente de estos LLMs es que en las pruebas de referencia de procesamiento del lenguaje natural estándar, XGen logra resultados comparables o mejores en comparación con otros LLMs de última generación de tamaño similar como MPT, Falcon, LLaMA, etc.
Los modelos XGen-7b utilizados en este estudio se entrenaron utilizando la biblioteca propietaria de Salesforce, JaxFormer, que permite un entrenamiento eficiente de LLMs utilizando paralelismo de datos y modelo específicamente optimizado para hardware TPU-v4. El proceso de entrenamiento siguió las pautas de LLaMA, con dos investigaciones adicionales. La primera exploración se centró en comprender los “picos de pérdida”, donde la pérdida aumenta repentina y temporalmente durante el entrenamiento sin una causa subyacente clara. Aunque la causa raíz de estos picos sigue siendo desconocida, los investigadores identificaron factores como “circuitos secuenciales sobre circuitos paralelos”, “swish-GLU en lugar de GeLU” y “RMS-Norm en lugar de Layer-norm” como posibles contribuyentes a la inestabilidad del entrenamiento. El segundo aspecto abordado fue la longitud de la secuencia. Dado que el entrenamiento con secuencias más largas incurre en costos computacionales significativamente más altos debido a la complejidad cuadrática de la auto-atención, se adoptó un enfoque de entrenamiento por etapas. El entrenamiento inicialmente abarcó 800B tokens con una longitud de secuencia de 2k tokens, seguido de 400B tokens con longitud de 4k, y finalmente, 300B tokens con longitud de 8k.
- ¿Pueden los LLMs generar pruebas matemáticas que puedan ser rigurosamente verificadas? Conoce LeanDojo un espacio de juego de inteligencia artificial de código abierto con herramientas, puntos de referencia y modelos para que los modelos de lenguaje grandes demuestren teoremas formales en el asistente de pruebas Lean.
- Contextual AI presenta LENS un marco de inteligencia artificial para modelos de lenguaje con visión aumentada que supera a Flamingo en un 9% (56->65%) en VQAv2.
- Unity anuncia el lanzamiento de Muse una plataforma de juegos de texto a video que te permite crear texturas, sprites y animaciones con lenguaje natural.
Para evaluar las capacidades del modelo XGen-7b 8k en comprender contextos más largos, los investigadores realizaron evaluaciones utilizando tres tareas principales: generación de diálogos de formato largo, resumen de texto y pregunta-respuesta. Los investigadores utilizaron el modelo ajustado a instrucciones para sus evaluaciones relacionadas con la dificultad de las tareas en cuestión. En cuanto a la generación de diálogos de formato largo, los investigadores utilizaron tres tareas para la evaluación: resumen de reuniones AMI, ForeverDreaming y resumen de guiones de TVMegaSite. En todas las métricas, el modelo XGen-7B-inst obtuvo las puntuaciones más altas en comparación con varios otros modelos ajustados a instrucciones, demostrando su rendimiento superior.
Para la pregunta-respuesta de formato largo, los investigadores generaron preguntas utilizando ChatGPT basado en documentos de Wikipedia que cubrían temas diversos como Física, Ingeniería, Historia y Entretenimiento, junto con sus resúmenes correspondientes. Las respuestas generadas por el LLM, que tenían una longitud de 256 tokens, se evaluaron utilizando GPT-4 en función de su estructura, organización y relevancia para la pregunta y el documento fuente. En este escenario, el modelo XGen-7B-8k-Inst superó a los modelos de referencia, que están limitados a 2k tokens, mostrando su rendimiento superior. En cuanto a la resumen de texto, los investigadores utilizaron dos conjuntos de datos de diferentes dominios, específicamente conversaciones de reuniones e informes gubernamentales, para evaluar el modelo XGen-7b. Los resultados revelaron que el modelo XGen-7b superó significativamente a otros modelos de referencia en estas tareas, lo que indica su rendimiento superior también en la resumen de texto.
Las evaluaciones demostraron que el modelo XGen-7b sobresalió en la comprensión de contextos más largos en diversas tareas, incluyendo la generación de diálogos de larga extensión, preguntas y respuestas, y resumen de texto. Su rendimiento superó al de otros modelos ajustados a instrucciones y modelos de referencia, demostrando su efectividad en la comprensión y generación de respuestas coherentes en contextos extensos de texto. Sin embargo, a pesar de su eficacia, los investigadores reconocen una limitación del modelo XGen, ya que no está exento de sesgos y tiene el potencial de generar respuestas tóxicas, una característica que comparte con muchos otros modelos de IA. Salesforce Research también ha compartido su código de forma abierta para permitir a la comunidad explorar su trabajo.
Visita el Blog de SF y el Enlace de Github. No olvides unirte a nuestro SubReddit de ML de más de 25k seguidores, nuestro Canal de Discord, y nuestro Boletín de noticias por correo electrónico, donde compartimos las últimas noticias de investigación en IA, proyectos interesantes de IA y más. Si tienes alguna pregunta sobre el artículo anterior o si nos hemos dejado algo, no dudes en enviarnos un correo electrónico a [email protected]
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Conoce a FastSAM La solución revolucionaria en tiempo real que logra una segmentación de alto rendimiento con una carga computacional mínima.
- Si la comunicación oral y escrita hizo que los seres humanos desarrollaran inteligencia… ¿Qué hay de los modelos de lenguaje?
- Conoce a DORSal Un modelo de difusión estructurada en 3D para la generación y edición a nivel de objeto de escenas en 3D.
- Enchufes de difusión en el dispositivo para la generación condicionada de texto a imagen
- Google DeepMind está trabajando en un algoritmo para superar a ChatGPT.
- Ajusta de forma interactiva Falcon-40B y otros LLMs en los cuadernos de Amazon SageMaker Studio utilizando QLoRA.
- Difusión estable Intuición básica detrás de la IA generativa