Abacus AI presenta un nuevo modelo de lenguaje grande de contexto largo y abierto (LLM) Conoce a Giraffe

Abacus AI presenta el nuevo modelo de lenguaje largo y abierto (LLM) llamado Giraffe

Los modelos de lenguaje recientes pueden tomar contextos largos como entrada; se necesita más información sobre cómo utilizan estos modelos los contextos más largos. ¿Se pueden extender los LLM a contextos más largos? Esta es una pregunta sin respuesta. Los investigadores de Abacus AI realizaron múltiples experimentos con diferentes métodos para desarrollar la capacidad de longitud de contexto de Llama, que está pre-entrenada con una longitud de contexto de 2048. Escalaron linealmente estos modelos con IFT en escalas de 4 y 16. Escalar el modelo a una escala de 16 puede realizar tareas en contextos de hasta 16k de longitud, e incluso hasta 20-24k de longitud de contexto.

Diferentes métodos de extensión de la longitud del contexto son la escala lineal, la escala de la base de Fourier del posicionamiento rotatorio incrustado (RoPE) por una potencia, la truncación de la base de Fourier y la aleatorización del vector de posición. Los investigadores de Abacus AI ajustaron finamente el conjunto de datos RedPajama combinado con el conjunto de datos Vicuna mediante la implementación de los métodos mencionados anteriormente. Encontraron que la escala lineal era robusta pero aumentaba la longitud del contexto del modelo. La truncación y la aleatorización tenían puntajes de perplejidad excelentes pero obtuvieron un rendimiento inferior en la tarea de recuperación.

Para evaluar estos modelos, los investigadores utilizaron conjuntos de datos de LMSys, conjuntos de datos de preguntas y respuestas de libros abiertos y WikiQA. Los conjuntos de datos de LMSys se utilizaron para localizar una subcadena en el contexto. La tarea de WikiQA consiste en responder una pregunta en base a la información proporcionada en un documento de Wikipedia.

El equipo construyó una tarea de preguntas y respuestas basada en el formato de respuesta corta en Google Natural Questions. Se aseguraron de que la salida fuera simplemente una copia y pegado de una respuesta corta del documento original. Esto permite señalar exactamente dónde se supone que debe buscar el LLM y evaluar de manera efectiva cada parte de la longitud del contexto expandido colocando la respuesta en diferentes ubicaciones. También crearon múltiples versiones del mismo documento de Wikipedia con tamaños variables, lo que les permitió obtener una evaluación justa en diferentes tamaños de modelos.

El problema con el conjunto de datos basado en Wikipedia es que el modelo respondía en base a sus textos pre-entrenados en lugar de hacerlo en base al contexto. Los investigadores resolvieron esto creando un conjunto de datos alterado que consistía en preguntas con respuestas numéricas únicamente. Alteraron las respuestas y cada aparición de la respuesta en el documento a un número diferente. Esto hará que el modelo responda incorrectamente si recuerda de sus textos pre-entrenados. Llamaron a la tarea de preguntas y respuestas original “Free Form QA (FFQA)” y la tarea alterada “Altered Numerical QA (AltQA)”.

Los investigadores de AbacusAI evaluaron la Precisión de Presencia en cada ejemplo en ambas versiones de las tareas de preguntas y respuestas. La Precisión de Presencia se mide si la respuesta está presente como una subcadena en la solución generada por el modelo. Observaron que un aumento en la precisión por IFT no confiere ninguna extensión a la gama de longitudes de contexto que el modelo puede lograr.

Los investigadores muestran que IFT con contexto escalado conduce a un salto significativo en el rendimiento. Observaron una mejora de 2x en FFQA y una mejora de 2.5x en AltQA en todas las posiciones interpoladas por el factor de escala de contexto. Finalmente, su trabajo de investigación sugiere un modelo de lenguaje de contexto más amplio, que mejora la perplejidad porque captura mejor y más fácilmente el tema de un documento.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Una guía para principiantes sobre LLMOps para ingeniería de aprendizaje automático

Introducción El lanzamiento de ChatGPT de OpenAI ha generado mucho interés en los grandes modelos de lenguaje (LLMs, ...

Noticias de Inteligencia Artificial

Fármaco diseñado por inteligencia artificial listo para ensayos en humanos.

Una empresa biotecnológica, Insilico Medicine, respaldada por el conglomerado chino Fosun Group y el gigante de capit...

Inteligencia Artificial

Conoce GPT Crawler una herramienta de IA que puede rastrear un sitio para generar archivos de conocimiento y crear un GPT personalizado a partir de una o varias URL.

Qué maravilloso sería construir modelos únicos de GPT extrayendo conocimiento de páginas web. Conoce GPT Crawler: una...

Investigación

Usando reflexiones para ver el mundo desde nuevos puntos de vista.

Un nuevo sistema de visión por computadora convierte cualquier objeto brillante en una especie de cámara, lo que perm...

Inteligencia Artificial

Cómo las industrias están cumpliendo las expectativas de los consumidores con la IA de voz

Gracias a los rápidos avances tecnológicos, los consumidores se han acostumbrado a un nivel sin precedentes de comodi...