Alibaba AI libera en código abierto la serie Qwen que incluye Qwen-1.8B, Qwen-7B, Qwen-14B y Qwen-72B junto con la serie Qwen-Chat.

Alibaba AI libera en código abierto la serie Qwen que incluye Qwen-1.8B, Qwen-7B, Qwen-14B y Qwen-72B, junto con la serie Qwen-Chat.

Con los modelos más recientes de su serie Qwen de modelos de inteligencia artificial de código abierto, Alibaba Cloud está llevando aún más lejos los límites de la tecnología de inteligencia artificial. Alibaba ha ampliado sus soluciones de inteligencia artificial con el lanzamiento de Qwen-1.8B y Qwen-72B, así como modelos de chat y audio especializados. La dedicación de Alibaba al desarrollo de capacidades de IA se demuestra con estos modelos, que ofrecen un rendimiento y una versatilidad mejorados en el procesamiento de lenguaje y audio.

Con el lanzamiento del Qwen-1.8B y su equivalente más grande, el Qwen-72B, la serie Qwen, que ya comprende el Qwen-7B y el Qwen-14B, ha sido significativamente mejorada. Preentrenado en un corpus masivo de más de 2,2 billones de tokens, el Qwen-1.8B es un modelo basado en transformadores con 1,8 mil millones de parámetros. Este modelo supera a muchos modelos de tamaño similar e incluso más grandes en varias tareas de lenguaje tanto en chino como en inglés. También admite un contexto largo con 8192 tokens.

Es importante destacar que el Qwen-1.8B, con sus variantes cuantizadas int4 e int8, proporciona una solución de implementación asequible. Estas características lo convierten en una opción sensata para diversas aplicaciones al reducir drásticamente las necesidades de memoria. Su amplio vocabulario de más de 150.000 tokens mejora aún más su capacidad lingüística.

El modelo más grande, el Qwen-72B, ha sido entrenado con 3 billones de tokens. Este modelo supera al GPT-3.5 en la mayoría de las tareas y supera al LLaMA2-70B en todas las tareas probadas. Alibaba ha diseñado los modelos para permitir una implementación de bajo costo a pesar de sus grandes parámetros; las versiones cuantizadas permiten un uso mínimo de memoria de alrededor de 3 GB. Este avance reduce significativamente los obstáculos para trabajar con modelos masivos que solían costar millones de dólares en computación en la nube.

Alibaba presentó Qwen-Chat, versiones optimizadas diseñadas para soporte de IA y capacidades de conversación, además de los modelos base de Qwen. Además de generar material y facilitar conversaciones naturales, Qwen-Chat puede ejecutar interpretación de código y tareas de resumen.

Con su capacidad para manejar diversas entradas de audio además del texto para generar salidas de texto, Qwen-Audio de Alibaba representa un avance notable en la IA multimodal. Sorprendentemente, Qwen-Audio logra un rendimiento de vanguardia en el reconocimiento de voz y una variedad de estándares de comprensión de audio sin necesidad de ajuste fino.

En el ámbito del audio, Qwen-Audio establece un nuevo referente como modelo de audio y lenguaje fundamental. Utiliza un marco de aprendizaje multi-tarea para manejar varios formatos de audio. Logra resultados impresionantes en múltiples puntos de referencia, incluidas puntuaciones de vanguardia en tareas como AISHELL-1 y VocalSound.

La adaptabilidad de Qwen-Audio incluye operar varias sesiones de chat a partir de entradas de texto y audio, con funciones que van desde herramientas de edición de voz hasta apreciación musical e interpretación de sonido.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Shortsartificial intelligenceEditors PickLanguage ModelLarge Language ModelStaff

Was this article helpful?

93 out of 132 found this helpful

Alibaba AI libera en código abierto la serie Qwen que incluye Qwen-1.8B, Qwen-7B, Qwen-14B y Qwen-72B junto con la serie Qwen-Chat.

Was this article helpful?

Descubriendo a fondo GPT-4 y XGBoost 2.0 Las nuevas fronteras de la inteligencia artificial

Preocupaciones sobre la privacidad en torno a los LLM como ChatGPT este artículo de IA revela posibles riesgos y medidas de protección

Inteligencia Artificial

La Inteligencia Artificial está controlando la lucha contra el robo de paquetes de UPS

La GPU NVIDIA H100 Tensor Core utilizada en la nueva serie de máquinas virtuales de Microsoft Azure ya está disponible de forma general

Este documento de IA propone COLT5 un nuevo modelo para entradas de largo alcance que emplea la computación condicional para una mayor calidad y velocidad más rápida.

Keshav Pingali reconocido con el Premio ACM-IEEE CS Ken Kennedy

El catálogo de modelos de inteligencia artificial de Azure de Microsoft se expande con modelos innovadores de inteligencia artificial

Revelando los secretos de las neuronas multimodales Un viaje desde Molyneux hasta los Transformadores