Upstage presenta Solar-10.7B modelos de lenguaje grandes pioneros con escalado en profundidad y precisión ajustada para conversaciones de un solo turno

Upstage presenta Solar-10.7B los nuevos modelos de lenguaje revolucionarios con escala y precisión ajustadas para conversaciones fluidas

Los investigadores de Upstage (una empresa de IA de Corea del Sur) han abordado el desafío de maximizar el rendimiento de los modelos de lenguaje al tiempo que minimizan sus parámetros. En los modelos de lenguaje grandes (LLMs), donde el tamaño del modelo a menudo se correlaciona con el rendimiento, Upstage introduce Solar-10.7B, un modelo innovador con 10.700 millones de parámetros. Esta innovación aborda el equilibrio inherente entre el tamaño del modelo y el rendimiento observado en modelos que superan los 30.000 millones de parámetros.

A diferencia de las herramientas existentes, Solar-10.7B de Upstage adopta la arquitectura Llama 2 y utiliza una técnica novedosa conocida como Upstage Depth Up-Scaling. Inspirado en Mistral 7B, este método implica la integración de los pesos de Mistral 7B en capas ampliadas, seguido de un completo preentrenamiento. El diseño compacto y el rendimiento excepcional de Solar-10.7B superan incluso a modelos más grandes como Mixtral 8X7B. Es ideal para ajustes finos y muestra adaptabilidad y robustez en diversas tareas de lenguaje.

Además, Upstage ofrece la versión ajustada finamente, SOLAR-10.7B-Instruct-v1.0, diseñada específicamente para conversaciones de una sola vuelta. Aprovechando métodos de ajuste fino de instrucción de vanguardia, como el ajuste fino supervisado (SFT) y la optimización directa de preferencias (DPO), los investigadores utilizaron un conjunto diverso de datos de entrenamiento. Este modelo ajustado finamente logra una notable puntuación de Modelo H6 de 74,20, lo que demuestra su eficacia en escenarios de diálogo de una sola vuelta.

El rendimiento de Solar-10.7B se basa en su sofisticada arquitectura y estrategia de entrenamiento. La técnica de Up-Scaling de Profundidad, basada en la arquitectura Llama 2, permite que el modelo supere a aquellos con hasta 30.000 millones de parámetros. La integración de los pesos de Mistral 7B en las capas ampliadas contribuye a su notable rendimiento, superando incluso al modelo Mixtral 8X7B. Los resultados de evaluación muestran la destreza de Solar-10.7B, con una puntuación de Modelo H6 de 74,20, demostrando su superioridad incluso en comparación con modelos más grandes como Meta Llama 2.

El modelo ajustado finamente SOLAR-10.7B-Instruct-v1.0 destaca en escenarios de conversación de una sola vuelta, superando a otros modelos con su impresionante puntuación de Modelo H6 de 74,20. Este enfoque de ajuste fino, aprovechando conjuntos de datos cuidadosamente seleccionados para el entrenamiento basado en instrucciones, subraya aún más su adaptabilidad y ganancias de rendimiento.

En conclusión, Solar-10.7B y su versión ajustada finamente representan avances significativos en el ámbito de los grandes modelos de lenguaje. Abordando el desafío de equilibrar el tamaño del modelo y el rendimiento, los investigadores de Upstage han diseñado y ajustado estratégicamente estos modelos para ofrecer resultados de vanguardia. La innovadora técnica de Up-Scaling de Profundidad y la integración de Mistral 7B subrayan su adaptabilidad y eficiencia. A medida que los investigadores continúan empujando los límites del desarrollo de modelos de lenguaje, Solar-10.7B y su versión ajustada finamente son un testimonio de la búsqueda continua de optimizar el rendimiento en el procesamiento del lenguaje natural.

La publicación Upstage Unveils Solar-10.7B: Pioneering Large Language Models with Depth Up-Scaling and Fine-Tuned Precision for Single-Turn Conversations apareció primero en MarkTechPost.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

En el Festival de Wagner, la nueva tecnología revela una brecha de liderazgo

El uso de la realidad aumentada en una producción de la ópera Parsifal que inaugura el Festival de Bayreuth de Aleman...

Inteligencia Artificial

Conoce LoftQ LoRA-Fine-Tuning-Aware Quantization para grandes modelos de lenguaje.

La introducción de los Modelos de Lenguaje Pre-entrenados (PLMs) ha significado un cambio transformador en el campo d...

Inteligencia Artificial

Los fabricantes de chips apilan 'chiplets' como bloques de Lego para impulsar la IA

Los fabricantes de chips están apilando chips preexistentes para acelerar el desarrollo de chips más potentes.

Inteligencia Artificial

Investigadores de Salesforce presentan XGen-Image-1 un modelo de difusión latente de texto a imagen entrenado para reutilizar varios componentes preentrenados.

La generación de imágenes ha surgido como un campo pionero dentro de la Inteligencia Artificial (IA), ofreciendo opor...