Abacus AI presenta un nuevo modelo de lenguaje grande de contexto largo y abierto (LLM) Conoce a Giraffe
Abacus AI presenta el nuevo modelo de lenguaje largo y abierto (LLM) llamado Giraffe
Los modelos de lenguaje recientes pueden tomar contextos largos como entrada; se necesita más información sobre cómo utilizan estos modelos los contextos más largos. ¿Se pueden extender los LLM a contextos más largos? Esta es una pregunta sin respuesta. Los investigadores de Abacus AI realizaron múltiples experimentos con diferentes métodos para desarrollar la capacidad de longitud de contexto de Llama, que está pre-entrenada con una longitud de contexto de 2048. Escalaron linealmente estos modelos con IFT en escalas de 4 y 16. Escalar el modelo a una escala de 16 puede realizar tareas en contextos de hasta 16k de longitud, e incluso hasta 20-24k de longitud de contexto.
Diferentes métodos de extensión de la longitud del contexto son la escala lineal, la escala de la base de Fourier del posicionamiento rotatorio incrustado (RoPE) por una potencia, la truncación de la base de Fourier y la aleatorización del vector de posición. Los investigadores de Abacus AI ajustaron finamente el conjunto de datos RedPajama combinado con el conjunto de datos Vicuna mediante la implementación de los métodos mencionados anteriormente. Encontraron que la escala lineal era robusta pero aumentaba la longitud del contexto del modelo. La truncación y la aleatorización tenían puntajes de perplejidad excelentes pero obtuvieron un rendimiento inferior en la tarea de recuperación.
Para evaluar estos modelos, los investigadores utilizaron conjuntos de datos de LMSys, conjuntos de datos de preguntas y respuestas de libros abiertos y WikiQA. Los conjuntos de datos de LMSys se utilizaron para localizar una subcadena en el contexto. La tarea de WikiQA consiste en responder una pregunta en base a la información proporcionada en un documento de Wikipedia.
- Ejemplos de Aplicaciones de K-Vecinos Más Cercanos
- ¿Puede (Muy) Simple Matemáticas Informar RLHF Para Modelos de Lenguaje Grandes LLMs? ¡Este artículo de IA dice que sí!
- El Problema de Enrutamiento de Vehículos Soluciones Exactas y Heurísticas
El equipo construyó una tarea de preguntas y respuestas basada en el formato de respuesta corta en Google Natural Questions. Se aseguraron de que la salida fuera simplemente una copia y pegado de una respuesta corta del documento original. Esto permite señalar exactamente dónde se supone que debe buscar el LLM y evaluar de manera efectiva cada parte de la longitud del contexto expandido colocando la respuesta en diferentes ubicaciones. También crearon múltiples versiones del mismo documento de Wikipedia con tamaños variables, lo que les permitió obtener una evaluación justa en diferentes tamaños de modelos.
El problema con el conjunto de datos basado en Wikipedia es que el modelo respondía en base a sus textos pre-entrenados en lugar de hacerlo en base al contexto. Los investigadores resolvieron esto creando un conjunto de datos alterado que consistía en preguntas con respuestas numéricas únicamente. Alteraron las respuestas y cada aparición de la respuesta en el documento a un número diferente. Esto hará que el modelo responda incorrectamente si recuerda de sus textos pre-entrenados. Llamaron a la tarea de preguntas y respuestas original “Free Form QA (FFQA)” y la tarea alterada “Altered Numerical QA (AltQA)”.
Los investigadores de AbacusAI evaluaron la Precisión de Presencia en cada ejemplo en ambas versiones de las tareas de preguntas y respuestas. La Precisión de Presencia se mide si la respuesta está presente como una subcadena en la solución generada por el modelo. Observaron que un aumento en la precisión por IFT no confiere ninguna extensión a la gama de longitudes de contexto que el modelo puede lograr.
Los investigadores muestran que IFT con contexto escalado conduce a un salto significativo en el rendimiento. Observaron una mejora de 2x en FFQA y una mejora de 2.5x en AltQA en todas las posiciones interpoladas por el factor de escala de contexto. Finalmente, su trabajo de investigación sugiere un modelo de lenguaje de contexto más amplio, que mejora la perplejidad porque captura mejor y más fácilmente el tema de un documento.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¿Qué es la Inteligencia de Negocios?
- Por qué deberías preocuparte por la Ley de IA de la UE hoy
- Generative AI para Audio y Música de AudioCraft Meta
- Una nueva investigación de IA de CMU propone un método de ataque simple y efectivo que hace que los modelos de lenguaje alineados generen comportamientos objetables.
- Mejorando el procesamiento inteligente de documentos de AWS con IA generativa
- Hoja de ruta de Aprendizaje Automático Recomendaciones de la Comunidad 2023
- En busca de un método generalizable para la adaptación de dominio sin fuente