Upstage presenta Solar-10.7B modelos de lenguaje grandes pioneros con escalado en profundidad y precisión ajustada para conversaciones de un solo turno
Upstage presenta Solar-10.7B los nuevos modelos de lenguaje revolucionarios con escala y precisión ajustadas para conversaciones fluidas
Los investigadores de Upstage (una empresa de IA de Corea del Sur) han abordado el desafío de maximizar el rendimiento de los modelos de lenguaje al tiempo que minimizan sus parámetros. En los modelos de lenguaje grandes (LLMs), donde el tamaño del modelo a menudo se correlaciona con el rendimiento, Upstage introduce Solar-10.7B, un modelo innovador con 10.700 millones de parámetros. Esta innovación aborda el equilibrio inherente entre el tamaño del modelo y el rendimiento observado en modelos que superan los 30.000 millones de parámetros.
A diferencia de las herramientas existentes, Solar-10.7B de Upstage adopta la arquitectura Llama 2 y utiliza una técnica novedosa conocida como Upstage Depth Up-Scaling. Inspirado en Mistral 7B, este método implica la integración de los pesos de Mistral 7B en capas ampliadas, seguido de un completo preentrenamiento. El diseño compacto y el rendimiento excepcional de Solar-10.7B superan incluso a modelos más grandes como Mixtral 8X7B. Es ideal para ajustes finos y muestra adaptabilidad y robustez en diversas tareas de lenguaje.
Además, Upstage ofrece la versión ajustada finamente, SOLAR-10.7B-Instruct-v1.0, diseñada específicamente para conversaciones de una sola vuelta. Aprovechando métodos de ajuste fino de instrucción de vanguardia, como el ajuste fino supervisado (SFT) y la optimización directa de preferencias (DPO), los investigadores utilizaron un conjunto diverso de datos de entrenamiento. Este modelo ajustado finamente logra una notable puntuación de Modelo H6 de 74,20, lo que demuestra su eficacia en escenarios de diálogo de una sola vuelta.
- Kinara presenta el procesador Ara-2 revolucionando el procesamiento de IA en dispositivos para un rendimiento mejorado
- ¡Vamos a explorar el aprendizaje por transferencia…
- Este artículo de IA explora el plan del cerebro a través del aprendizaje profundo Avanzando las redes neuronales con los conocimientos de la neurociencia y los tutoriales de la biblioteca Python snnTorch.
El rendimiento de Solar-10.7B se basa en su sofisticada arquitectura y estrategia de entrenamiento. La técnica de Up-Scaling de Profundidad, basada en la arquitectura Llama 2, permite que el modelo supere a aquellos con hasta 30.000 millones de parámetros. La integración de los pesos de Mistral 7B en las capas ampliadas contribuye a su notable rendimiento, superando incluso al modelo Mixtral 8X7B. Los resultados de evaluación muestran la destreza de Solar-10.7B, con una puntuación de Modelo H6 de 74,20, demostrando su superioridad incluso en comparación con modelos más grandes como Meta Llama 2.
El modelo ajustado finamente SOLAR-10.7B-Instruct-v1.0 destaca en escenarios de conversación de una sola vuelta, superando a otros modelos con su impresionante puntuación de Modelo H6 de 74,20. Este enfoque de ajuste fino, aprovechando conjuntos de datos cuidadosamente seleccionados para el entrenamiento basado en instrucciones, subraya aún más su adaptabilidad y ganancias de rendimiento.
En conclusión, Solar-10.7B y su versión ajustada finamente representan avances significativos en el ámbito de los grandes modelos de lenguaje. Abordando el desafío de equilibrar el tamaño del modelo y el rendimiento, los investigadores de Upstage han diseñado y ajustado estratégicamente estos modelos para ofrecer resultados de vanguardia. La innovadora técnica de Up-Scaling de Profundidad y la integración de Mistral 7B subrayan su adaptabilidad y eficiencia. A medida que los investigadores continúan empujando los límites del desarrollo de modelos de lenguaje, Solar-10.7B y su versión ajustada finamente son un testimonio de la búsqueda continua de optimizar el rendimiento en el procesamiento del lenguaje natural.
La publicación Upstage Unveils Solar-10.7B: Pioneering Large Language Models with Depth Up-Scaling and Fine-Tuned Precision for Single-Turn Conversations apareció primero en MarkTechPost.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Procesamiento del Lenguaje Natural Desbloqueando el Poder de la Comunicación Humana a través de la IA
- Google AI presenta MedLM una familia de modelos base afinados para casos de uso en la industria de la salud
- Estrategia de co-optimización SW/HW para Modelos de Lenguaje Grandes (LLMs)
- Guía para Transformar de Manera Segura las Interacciones con los Complementos de ChatGPT
- Cómo usar Langchain? Guía paso a paso
- Liberando el poder de la IA en la gestión de API de Fintech Una guía completa para los gerentes de producto
- Investigadores de Stanford presentan PLATO Un nuevo enfoque de IA para abordar el ajuste excesivo en el aprendizaje automático de alta dimensión y baja muestra con regularización mejorada mediante gráficos de conocimiento.