Conoce a Baichuan-13B el modelo de lenguaje de código abierto de China para competir con OpenAI

Baichuan-13B es el modelo de lenguaje de código abierto de China para competir con OpenAI.

Wang Xiaochuan, el fundador del motor de búsqueda chino Sogou, ha lanzado un nuevo modelo de lenguaje enorme llamado Baichuan-13B a través de su empresa, Baichuan Intelligence. Actualmente, su uso comercial está restringido a programadores e investigadores. El fundador de Sogou, Wang Xiaochuan, publicó recientemente en Weibo que “China necesita su propio OpenAI”. El empresario chino está un paso más cerca de hacer realidad su visión después de que su incipiente empresa, Baichuan Intelligence, lanzara Baichuan-13B, su modelo de lenguaje grande de próxima generación. Baichuan se lanzó hace tres meses y rápidamente atrajo a un grupo de inversores dispuestos a aportar $50 millones. Como resultado de las habilidades excepcionales del fundador en ciencias de la computación, su organización es ahora considerada uno de los creadores más prometedores de modelos de lenguaje enormes de China.

Baichuan-13B sigue el mismo diseño Transformer que GPT y la mayoría de las variantes chinas autóctonas. Además de entrenarse con datos en chino e inglés, sus 13 mil millones de parámetros (variables utilizadas en la producción y análisis de texto) son bilingües. El modelo es de código abierto y puede utilizarse con fines de lucro, y se construyó utilizando datos de GitHub.

Después del éxito de Baichuan-7B, Baichuan Intelligent Technology creó Baichuan-13B, un modelo de lenguaje de gran escala de código abierto y disponible comercialmente con 13 mil millones de parámetros. En comparación con otros modelos de tamaño similar, supera las normas chinas y en inglés. Esta versión incluye tanto la versión base (Baichuan-13B-Base) como la versión de diálogo (Baichuan-13B-Chat).

Características

Baichuan-13B se basa en Baichuan-7B aumentando el número de parámetros a 13 mil millones, y se han entrenado 1.4 billones de tokens en corpora de alta calidad, lo cual es un 40% más que LLaMA-13B. Actualmente, en el tamaño de 13B de código abierto, es el modelo con más datos de entrenamiento. Utiliza codificación posicional ALiBi y una ventana de contexto de 4096 bytes, y funciona en chino e inglés.
El modelo de pre-entrenamiento sirve como una “base” para los desarrolladores, mientras que el modelo alineado con características de diálogo es más demandado entre los usuarios regulares. Por lo tanto, esta versión de código abierto incluye el modelo alineado (Baichuan-13B-Chat), que cuenta con potentes características de diálogo, está listo para usar y solo requiere unas pocas líneas de código para implementarlo.
También se están poniendo a disposición de los investigadores versiones cuantizadas int8 e int4, que son aún más eficientes para la inferencia, para fomentar su uso generalizado por los usuarios. Pueden implementarse en tarjetas gráficas de consumo como Nvidia 3090, pero la versión no cuantizada requiere hardware significativamente más potente.
Gratis para uso público sin restricciones de reventa o modificación: si un desarrollador solicita una licencia comercial oficial por correo electrónico, puede utilizar Baichuan-13B con fines comerciales sin costo alguno.

Se están utilizando aproximadamente 1.4 mil millones de tokens para entrenar a Baichuan-13. Según OpenAI, ChatGPT-3 supuestamente se entrenó con 300 mil millones de tokens. El equipo de Baichuan duplicó su tamaño en tres meses, llegando a cincuenta miembros, y demostró públicamente su modelo, Baichuan-7B, que tiene siete mil millones de parámetros, el mes pasado. La versión Baichuan-13B, lanzada hace dos días, es la versión básica. Ahora se ofrece de forma gratuita a investigadores y programadores que han obtenido autorización legal para utilizarlo con fines comerciales. El futuro del lanzamiento oficial del modelo para uso generalizado aún está por descubrirse.

El modelo básico Baichuan-13B ahora está disponible de forma gratuita para investigadores y programadores que han obtenido las autorizaciones legales necesarias para utilizarlo con fines comerciales. Dado las recientes restricciones de Estados Unidos contra los fabricantes chinos de chips de inteligencia artificial (IA), es especialmente notable que las variantes de este modelo puedan ejecutarse en hardware de consumo como las tarjetas gráficas Nvidia 3090.

Los investigadores de Baichuan Intelligent Technology confirman que su grupo aún no ha creado aplicaciones basadas en Baichuan-13B para ninguna plataforma, incluyendo iOS, Android, la web u otras. Se insta a los usuarios a no utilizar el modelo Baichuan-13B para fines ilegales o perjudiciales, como comprometer la seguridad nacional o social. También se anima a los usuarios a abstenerse de utilizar el modelo Baichuan-13B para servicios de Internet sin las auditorías de seguridad y los registros necesarios. Cuentan con que todos sigan esta regla para mantener el progreso tecnológico dentro de los límites de la ley.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Salesforce AI ha desarrollado un nuevo algoritmo de edición llamado EDICT que realiza la generación de difusión de texto a imagen con un proceso invertible dado cualquier modelo de difusión existente.

Conoce a Baichuan-13B el modelo de lenguaje de código abierto de China para competir con OpenAI

Was this article helpful?

Herramientas de Inteligencia Artificial de Conversión de Voz a Texto principales (2023)

Salesforce AI ha desarrollado un nuevo algoritmo de edición llamado EDICT que realiza la generación de difusión de texto a imagen con un proceso invertible dado cualquier modelo de difusión existente.

Inteligencia Artificial

Chipotle presenta Autocado, un robot de preparación de guacamole

Una nueva investigación de IA introduce MONAI Generative Models una plataforma de código abierto que permite a investigadores y desarrolladores entrenar, evaluar e implementar fácilmente modelos generativos.

Crea una tubería de inferencia de IA para imágenes médicas con MONAI Deploy en AWS

Arquitecturas de Transformadores y el Surgimiento de BERT, GPT y T5 Una Guía para Principiantes

Esta investigación de IA introduce Flash-Decoding un nuevo enfoque de inteligencia artificial basado en FlashAttention para hacer que la inferencia de LLM de largo contexto sea hasta 8 veces más rápida.

Investigadores de ETH Zurich presentan UltraFastBERT una variante de BERT que utiliza el 0,3% de sus neuronas durante la inferencia y ofrece un rendimiento similar a otros modelos de BERT similares.